至繁归于至简的科研哲学

在做单目转头短视频的静态头部重建时，我们很容易陷入一种“头痛医头，脚痛医脚”的焦躁中：跑完模型发现效果烂，就盲目去改代码、调参数。

但模糊的感知永远无法指导精确的优化。

为了真正掌握这个项目的核心框架，我决定按下暂停键。在着手修复五官或头发之前，我必须先回答三个问题：已有方案的边界在哪？我这次要聚焦什么？第一步究竟该踩在哪里？

答案是：疯狂地做对照实验，然后冷静地进行病理分析。

只有通过严谨的实验摸清了失败的“系统性规律”，辨别出哪些是随机事件，哪些是稳定触发的 Bug，我才能决定接下来的战略动作——是补采数据、重做预处理，还是去开刀改动核心模块。为了让课题理解从“感性模糊”走向“理性清晰”，我要求自己在这个阶段必须产出以下四份核心交付物。

重建效果差是一个笼统的概念，必须将其颗粒化。我将目前的失败情况细分为以下几类：

看到现象只是第一步，更重要的是归因溯源：是几何问题、纹理问题还是预处理问题？我需要为上述每一类失败，匹配出可能的触发器：

为了直观对比，拒绝用脑子记，必须建立标准的视觉对照组。

全局视角： 正脸 / 左 30° / 左 60° / 右 30° / 右 60°
局部特写： 发际线 / 耳侧 / 下巴轮廓
观察标准： 每组均严格排列 GT (真值) / Input (输入) / Render (渲染图) / Error Map (误差可视化)，用数据和色差来说话。

人的精力有限，必须学会砍需求。将所有排查出的问题分为三档：

在明确了分析框架后，近期的核心动作将紧紧围绕数据纯净度与相机位姿展开：

提升数据与预处理标准的“洁癖”： 引入目前最严谨的人像/头部抠图算法（Matting），必须彻底剔除所有背景。因为 COLMAP 这类依赖特征匹配的算法极易受动态背景干扰，一旦相机 Pose 提取不准，后续所有的三维重建都是建立在沙滩上的危楼。
相机轨迹的深度体检： 打开 COLMAP 的 GUI，不仅要看点云，更要可视化观察单目估计出来的相机运动轨迹（Trajectory）。轨迹是否平滑？有没有跳帧或异常的抖动？这是查错的第一道防线。

好事多磨，事缓则圆