【跨域姿态估计】Cross-Domain Animal Pose Estimation With Skeleton Anomaly-Aware Learning
论文信息论文题目Cross-Domain Animal Pose Estimation With Skeleton Anomaly-Aware Learning作者均来自浙江大学计算机科学与技术学院论文链接https://doi.org/10.1109/TCSVT.2025.3557844Github链接https://github.com/LeHan-ZJU/UDARP-9.4K动物姿态估计Animal Pose Estimation, APE近年来在神经科学、脑机接口、动物行为分析等场景中越来越重要但和人体姿态估计相比这一方向长期受到两个现实问题制约一是标注数据稀缺二是不同动物种类、不同采集场景之间存在显著域偏移。尤其当目标体型较小、背景复杂时模型往往很难直接迁移。论文作者正是围绕这个问题提出了一种新的跨域动物姿态估计框架 SA2Net试图从“骨架异常学习”的角度重新定义伪标签筛选问题。此外论文还提出了一个全新的大鼠姿态估计数据集UDARP-9.4K共包含 9399 张标注图像覆盖 5 个实验场景并带有关键点与检测框标注。一、论文主要思想这篇论文的出发点非常明确现有无监督域适应方法大多依赖伪标签而伪标签的质量决定了后续迁移训练的上限。已有方法通常通过“位置一致性”来判断目标域预测是否可靠即把一张图像及其增强版本分别送入模型如果两次预测的关键点位置足够一致就把它看成正确预测并作为伪标签。但作者指出这个准则有一个根本漏洞如果两次预测犯了同样的错误它们依然可能表现出高度一致从而被错误地当成高质量伪标签。这会造成大量 false positive严重污染后续训练。因此论文没有继续在“位置是否一致”上打补丁而是把问题提升为我们能不能直接判断一个预测得到的骨架是否“异常”作者认为姿态本质上不是一堆彼此独立的点而是一个有连接关系的骨架图。既然骨架天然是图结构那么相比欧式空间中的坐标比较在图空间中建模骨架异常更有希望识别那些“看起来一致、实际上错了”的预测。基于这个想法作者提出了 Skeleton Anomaly-aware LearningSAL机制让模型学会区分正常骨架和异常骨架再把这种“异常感知能力”反馈到跨域训练中用于更精准地生成伪标签并约束没有伪标签的目标域样本。换句话说这篇论文最核心的思想是**跨域动物姿态估计的关键不只是做域对齐而是先学会判断目标域预测出来的骨架到底靠不靠谱。**作者将“伪标签筛选”从简单的位置一致性问题转化为了“骨架异常识别”问题这也是整篇工作的理论支点。二、核心创新点1. 首次从骨架异常学习角度重构伪标签生成论文提出的 SAL 机制不再仅凭增强前后关键点坐标是否接近来选择伪标签而是将两组关键点构造成骨架图并在图空间中学习“正常/异常”分布。这样做的意义在于模型不仅看点的位置还看点与点之间形成的结构关系从而更容易识别那些整体结构不合理的预测结果。2. 将骨架异常知识反馈到域适应全过程作者没有把 SAL 当成一个独立的后处理模块而是设计了 Skeleton Anomaly-feedback based Domain AdaptationSADA框架把骨架异常知识反馈到目标域训练中。一方面它帮助从目标域中挑出更准确的伪标签另一方面对那些没有通过伪标签筛选的样本也通过图约束进行自监督学习尽量减少数据浪费。3. 提出面向小目标、多场景的大鼠姿态数据集 UDARP-9.4K论文同时构建了一个新的大鼠姿态估计数据集 UDARP-9.4K共 9399 张图像覆盖五个实验场景并带有关键点与检测框标注。作者特别强调这个数据集填补了“小尺寸动物、多实验场景”姿态数据的空白适合用于跨场景迁移和动物行为分析研究。4. 兼顾结构建模与对象特异特征对齐除了骨架异常学习外论文还设计了 OSFAObject-Specific Feature Align模块在跨域训练中隐式对齐对象特异特征。作者认为对姿态估计这种细粒度任务来说简单做整图级域对齐是不够的真正重要的是和动物身体结构相关的局部特征。OSFA 通过 cross-attention 强化这种跨域特征交互。三、方法介绍1. 整体框架SAL SADA 双阶段协同整篇方法可以概括为两个核心组件。第一部分是 SAL用源域标注数据构造骨架图样本对学习“异常骨架”的判别知识第二部分是 SADA把这种知识用于目标域伪标签生成、无伪标签样本约束以及跨域联合训练。2. 骨架图如何表示作者把姿态骨架建模成图其中每个关键点是一个节点。与仅使用坐标不同论文为每个节点设计了“坐标 局部夹角”的特征表示。其定义为Mei[j,k]yi,0j≤2 M_e^i[j,k] y_i,\quad 0j\le 2Mei[j,k]yi,0j≤2Mei[j,k]Ai[j−2],2j≤2C(ne,2) M_e^i[j,k] A_i[j-2],\quad 2j\le 2C(n_e,2)Mei[j,k]Ai[j−2],2j≤2C(ne,2)这里前两维表示关键点坐标后面几维表示与该关键点相连边之间形成的角度。作者强调角度特征相比距离特征更不受尺度变化影响因此对小尺寸动物更友好。从图神经网络角度看作者还给出了异常信息传播的分析。对于异常节点vvv其在第l1l1l1层的表示为hv(l1)fgl(fagg(G(l),v))fgl(σ(∑u∈N(v)hu(l)hv(l))) h_v^{(l1)} f_g^l \big(f_{agg}(G^{(l)},v)\big) f_g^l\left(\sigma\left(\sum_{u\in N(v)} h_u^{(l)} h_v^{(l)}\right)\right)hv(l1)fgl(fagg(G(l),v))fglσu∈N(v)∑hu(l)hv(l)这说明异常节点的信息会在消息传递过程中逐步汇入全局图特征因此 GNN 对骨架结构异常比单纯欧式空间比较更敏感。3. SAL 如何学习“正常/异常骨架”为了训练 SAL作者并不需要额外人工标注“异常骨架”而是从源域真实标注出发通过噪声模拟来构造正负样本对。具体来说先对源域关键点做几何变换再向两组关键点加入不同强度、不同模式的噪声。正样本加入小范围随机噪声负样本则加入更大范围噪声甚至加入“同步错误”来模拟增强前后犯同样错误的情况。这样构造出来的样本对就能逼近真实伪标签筛选时可能遇到的困难案例。这个设计非常巧妙。因为论文真正想解决的恰恰不是“两个预测不一致”的普通错误而是“两个预测一致但同时错了”的伪一致现象。SAL 通过专门构造这类困难负样本让模型在训练时就学会识别这种伪一致。4. 目标域伪标签生成在目标域中对于样本xtx_txt及其增强版本Ma(xt)M_a(x_t)Ma(xt)先用预训练姿态模型得到两组预测关键点再交给 SAL 计算骨架相似性分数。论文用如下条件区分有无伪标签的样本xt∈Dtp,fSAL(P(xt),P(Ma(xt)))T x_t \in D_t^p,\quad f_{SAL}(P(x_t),P(M_a(x_t))) Txt∈Dtp,fSAL(P(xt),P(Ma(xt)))Txt∈Dtu,fSAL(P(xt),P(Ma(xt)))≤T x_t \in D_t^u,\quad f_{SAL}(P(x_t),P(M_a(x_t))) \le Txt∈Dtu,fSAL(P(xt),P(Ma(xt)))≤T其中阈值T0.5T0.5T0.5。通过这种方式目标域样本被分成“可作为伪标签监督的样本”和“暂时不能直接信任的样本”两类。相比传统位置一致性策略这种基于结构异常的判断更可靠。5. 没有伪标签的样本怎么用很多伪标签方法会丢弃低置信样本但作者认为这部分数据里仍然包含有价值的对象信息因此提出图约束项 Graph Constraint TermGCT进行自监督学习。首先用 soft-argmax 从热力图中获得可微分的关键点坐标例如横坐标定义为xi∑lw∑rheβhi[l,r]∑mw∑kheβhi[m,k] l x_i \sum_l^w \sum_r^h \frac{e^{\beta h_i[l,r]}}{\sum_m^w \sum_k^h e^{\beta h_i[m,k]}}\, lxil∑wr∑h∑mw∑kheβhi[m,k]eβhi[l,r]l然后通过 SAL 计算增强前后预测骨架的相似性并定义图约束损失LGCTe−fSAL(y^i,y^i′)⋅[h^−Ma(−a,h^′)]2 L_{GCT} e^{-f_{SAL}(\hat y_i,\hat y_i)} \cdot [\hat h - M_a(-a,\hat h)]^2LGCTe−fSAL(y^i,y^i′)⋅[h^−Ma(−a,h^′)]2这个损失把“热图的一致性”与“骨架结构的一致性”结合起来若 SAL 判断两次预测在结构上更可信则一致性约束更有意义反之则降低其影响。这个设计避免了把明显错误的结构强行拉近。6. OSFA做更适合姿态估计的跨域对齐SADA 中还包含一个 OSFA 模块它采用双流输入和 cross-attention 机制隐式对齐对象特异特征。其核心表达式之一为fspc1softmax(Q1K1Tdk)V1⊕softmax(Q1K2Tdk)V2 f_{spc}^1 \text{softmax}\left(\frac{Q_1K_1^T}{\sqrt{d_k}}\right)V_1 \oplus \text{softmax}\left(\frac{Q_1K_2^T}{\sqrt{d_k}}\right)V_2fspc1softmax(dkQ1K1T)V1⊕softmax(dkQ1K2T)V2这里一部分是域内自注意力提炼另一部分是跨域交互对齐最后在通道维拼接。作者的目的不是做粗粒度域混合而是强化对“动物自身相关区域”的感知。7. 实验结果说明了什么论文在 UDARP-9.4K、TigDog 和 AP-10K 三个数据集上进行了验证覆盖跨场景和跨物种两类任务。结果表明SA2Net 在多个设定下优于 DANN、DRDA、CC-SSL、MDAMT、ScarceNet 和 CapeFormer 等对比方法在伪标签质量评估中SAL 生成的伪标签精度也显著高于传统的 Position Consistency 策略。作者还通过特征聚类展示在欧式空间中正负样本容易混淆在 SAL 学到的图特征空间中正负样本分布更可分。这说明作者的核心判断是成立的对于跨域姿态估计真正关键的不是单纯比较关键点位置而是学习骨架结构本身的合理性。四、总结与展望总体来看这篇论文的价值不只在于提出了一个性能更好的模型更在于它提供了一种新的问题拆解方式。传统跨域姿态估计往往围绕“如何对齐源域和目标域”展开而这篇论文把关注点前移到了“如何判断目标域预测结果是否可信”上。作者用骨架图建模、异常学习、图约束自监督以及对象特异特征对齐构建出一条比较完整的技术链条也使得 SA2Net 在小目标、复杂背景和跨场景设定下表现出较强优势。我认为这篇工作的最大启发在于**对结构化预测任务而言伪标签质量控制不应只依赖输出层面的数值一致性而应借助任务本身的结构先验。**在动物姿态估计中这个结构先验是骨架在其他任务中也许可以是时序关系、拓扑关系或语义依赖。论文的思路具有一定可迁移性。当然作者也坦率指出了方法的局限当跨域双方在形态上差异极大时例如直立行走动物与四足动物之间已学习到的骨架知识会变得不够适用。这意味着该方法更适合“存在一定结构共性”的跨域迁移而对极端异构形态的开放域适应仍然不足。未来如果能结合更强的通用视觉先验或许能进一步提升方法的适用范围。从未来研究角度看这项工作至少还有三个值得延伸的方向。第一进一步处理跨物种极端形态差异引入更抽象的解剖学或语义先验第二把静态骨架异常推广到视频级时序异常感知在行为分析中会更有价值第三将这种“结构可靠性评估”思想迁移到其他关键点任务例如手势、医学骨架、机器人关节估计等。就这一点而言这篇论文不仅是一篇动物姿态估计论文也是一篇关于“如何更聪明地使用伪标签”的论文。