Smart Computational Imaging (SCI) Lab
智能计算成像实验室

文章简介

APP | 南京理工大学智能计算成像实验室:融合物理先验的深度学习多模态自适应时域相位展开方法

37
发表时间:2025-05-07 20:48
图片


光学相位测量技术,如干涉测量、数字全息、电子散斑干涉、条纹投影轮廓术等,因非接触、高分辨、高速和全场自动化等优点,被广泛应用于工业检测、机器视觉、生物医学、纳米结构表征等科学研究和工程实践领域[1-5]。该技术通过相干光干涉叠加或者非相干投影的方式在物体表面生成周期性的结构条纹,从而使得待测物体的相关物理量(如面形、位移、应变、粗糙度、缺陷尺寸等)直接或间接地反映在采集条纹图案的相位之中,因此,相位测量的精度直接决定了最终三维重建的精度[6-8]。在这些方法中,反正切函数通常用于从条纹图像中计算物体的相位信息。但由于反正切函数具有周期性,所得包裹相位存在 2π 的跳变,因此,相位展开技术作为消除相位模糊、获得无歧义相位分布的关键步骤,在光学相位测量中具有重要意义。


近年来,以深度学习为代表的人工智能技术已在机器视觉、语音识别、自动驾驶、医疗诊断等众多领域带来巨大的变革。在结构光三维成像领域,深度学习技术已被广泛用于条纹分析、相位恢复、相位展开、三维重建等方面,并展现出了强大的应用潜力[9-12]。然而,不同于传统基于物理模型方法,现有的基于深度学习的方法常常会遇到泛化性的问题,因为它们通常假设训练和测试数据共享相同的分布。对于相位展开任务而言,通常假设在训练和测试过程中保持条纹的空间频率恒定。而当测试条纹图案变得更稀疏或更密集时,训练光栅和测试光栅的同分布假设条件被打破,相位展开精度会急剧下降,这极大限制了深度学习方法的应用潜力。此外,传统基于数据驱动的深度学习相位展开方法多以单一模态进行相位展开,这意味着一旦训练完成,网络就只能执行特定的相位展开算法。如果需要表征其他方法,则必须重新训练网络,费时耗力。


针对现有深度学习相位展开方法在面对未知域包裹相位存在的泛化能力差、工作模式单一等问题,研究团队提出了一种融合物理先验的多模态自适应时间相位展开方法(MA-TPU)(如图1所示),研究成果以“Multimodal adaptive temporal phase unwrapping using deep learning and physical priors”为题发表于APL Photonics。该方法以轻量级BiSeNet[13]网络为基础结构,结合时域相位展开数学模型中计算得到的初始条纹级次信息引导神经网络实现准确可靠地解包裹预测(如图2所示)。受益于其轻量化架构设计,MA-TPU在网络参数数量相当的条件下,预测速度是UNet的3倍以上,显著提升了推理效率。MA-TPU以高频包裹相位、低频辅助相位以及由传统物理模型计算得到的初始条纹级数作为输入,最终输出高精度条纹级数作为预测结果。训练完成后,MA-TPU 能够同时实现多频法、多波长法和数论法三种相位展开模态,在无需重新训练的前提下,可直接对不同频率和不同成像系统中采集的未知条纹图像进行相位展开。


图片


图1:基于多模态自适应时间相位展开的条纹投影轮廓术原理图


MA-TPU网络采用了U型结构(如图2所示),可分为编码器与译码器两部分。网络使用三种不同的时域相位展开算法所对应的高低频包裹相位与初始条纹级数作为输入,在前向传播时,输入信息首先经过一个多路径模块(MultiRes block)提取多尺度信息,为了缓解下采样中空间信息的丢失与感受野的收缩的问题,网络采用上下文路径(Context path)对图像下采样以提取不同尺度下的信息,并使用了空间路径(spatial path)将丰富的图像细节保留。在译码器部分引入全局上下文信息来增强相位展开效果,其使用特征融合模块(Feature Fusion Module,FFM)取代上采样,注意力细化模块(Attention Refinement Module,AFR)取代跳跃连接将编码器中的特征融合至译码器中以得到更好的预测效果。最后在译码器部分将图像上采样恢复原始尺寸,得到最终的高质量条纹级数。


图片


图2:MA-TPU网络结构图


为了验证该方法的有效性,研究团队首先测试了该技术在见过系统下三种模态的表现(如图3所示)。同时,研究团队训练了一个未引入物理先验信息的UNet网络进行对比。根据实验结果,UNet方法在1σ噪声条件下的表现比传统基于物理模型的方法略好,错误率相对较低。但在更高噪声和高光栅频率条件下(如2σ和fh=48),错误率呈现小幅上升,但它的表现依然好于传统方法。通过比较可发现,本文提出的MA-TPU在这些条件下表现最为出色,始终保持最低的相位展开错误率。即便在高光栅频率和高噪声的条件下,MA-TPU在这三种相位展开方法下的稳定性和鲁棒性也都优于其他方法。


图片


图3: 3D重建结果矩阵,比较了在采用已知光栅频率的条件下,不同噪声水平下各类方法的相位展开误差率。具体而言,针对不同频率的光栅,展示了本方法、传统物理模型方法以及UNet方法的相位展开表现。图中背景颜色的深浅反映了误差率的高低,颜色越深表示误差越大。


随后,研究团队搭建了另一套条纹投影系统,在网络从未接触过的系统参数及未见过的光栅频率条件下进行了进一步测试(如图4所示)。结果显示,传统方法在低噪声(1σ)与低光栅频率条件下仍具备一定的展开能力,但当噪声水平升高(2σ)或投影光栅频率提升时,其性能迅速下降,尤其在多波长法和数论法中表现尤为明显,出现较多的展开错误。相比之下,UNet方法在所有测试条件下均未能有效完成相位展开任务,错误率始终处于较高水平,反映出其在面对未见过系统和未见过光栅频率时的泛化能力严重不足。而团队所提出的MA-TPU方法在上述所有条件下均展现出显著优势,依然保持较低的相位展开误差率,显示出良好的鲁棒性与跨域泛化能力。


图片


图4:3D重建结果矩阵,比较了在未见系统中采用未知光栅频率的条件下,不同噪声水平下各类方法的相位展开误差率。具体而言,针对不同频率的光栅,展示了本方法、传统物理模型方法以及UNet方法的相位展开表现。


最后,为了评估MA-TPU方法在动态场景下的适应性,研究团队又搭建了一套条纹投影系统,在网络从未接触过的系统参数及未见过的光栅频率条件下进行测试。实验对比了三种传统时域相位展开算法与仅使用静态场景数据集训练的MA-TPU方法在具有复杂表面的旋转物体下的相位展开精度(如视频1所示)。与静态场景相比,在转速为2转/分钟的情况下,传统方法在重建质量方面表现出明显的性能下降,这主要是由于运动伪影和噪声干扰导致的。相比之下,MA-TPU方法在低转速条件下有效的减少了跳变错误,实现了高质量重建,并展示了鲁棒的噪声抑制能力。


视频1:在旋转场景下三种传统时域相位展开方法与本文所提 MA-TPU 方法的三维重建效果对比。


该研究提出了一种融合物理先验信息的多模态自适应时间相位展开方法。该方法将传统时域相位展开物理模型中得到的初始条纹级数作为先验信息引入深度学习框架,在支持多频法、多波长法和数论法三类相位展开模态的基础上,有效提升了模型在未见过光栅频率及系统变化条件下的展开鲁棒性与泛化能力。实验结果表明,所提方法在未见过光栅频率、系统的复杂测量场景中均保持较高的展开精度,展现出良好的适应性与稳定性,为深度学习方法在不同三维重建场景中的应用拓展提供了技术参考。


[1]    R. Leach, Optical Measurement of Surface Topography (Springer, 2011), Vol. 8.

[2]    S. Zhang, Handbook of 3DMachineVision: Optical Metrology and Imaging (CRC Press, 2013).

[3]    Z. Wu, H. Wang, F. Chen, X. Li, Z. Chen, and Q. Zhang, “Dynamic 3D shape reconstruction under complex reflection and transmission conditions using multi scale parallel single-pixel imaging,” Light: Adv. Manuf. 5, 373 (2024).

[4]    Z. Wu, I. Kang, Y. Yao, Y. Jiang, J. Deng, J. Klug, S. Vogt, and G. Barbastathis, “Three-dimensional nanoscale reduced-angle ptycho-tomographic imaging with deep learning (RAPID),” eLight 3, 7 (2023).

[5]    A. Saba, C. Gigli, A. B. Ayoub, and D. Psaltis, “Physics-informed neural networks for diffraction tomography,” Adv. Photonics 4, 066001 (2022).

[6]    C. Zuo, S. Feng, L. Huang, T. Tao, W. Yin, and Q. Chen, “Phase shifting algo rithms for fringe projection profilometry: A review,” Opt. Lasers Eng. 109, 23–59 (2018).

[7]    M. Takeda and K. Mutoh, “Fourier transform profilometry for the automatic measurement of 3-D object shapes,” Appl. Opt. 22, 3977–3982 (1983).

[8]    Q. Kemao, “Windowed Fourier transform for fringe pattern analysis,” Appl. Opt. 43, 2695–2702 (2004).

[9]    S. Feng, Q. Chen, G. Gu, T. Tao, L. Zhang, Y. Hu, W. Yin, and C. Zuo, “Fringe pattern analysis using deep learning,” Adv. Photonics 1, 025001 (2019).

[10]    S. Feng, C. Zuo, Y. Hu, Y. Li, and Q. Chen, “Deep-learning-based fringe-pattern analysis with uncertainty estimation,” Optica 8, 1507–1510 (2021).

[11]    J. Qian, S. Feng, T. Tao, Y. Hu, Y. Li, Q. Chen, and C. Zuo, “Deep-learning enabled geometric constraints and phase unwrapping for single-shot absolute 3D shape measurement,” APL Photonics 5, 046105 (2020).

[12]    W. Yin, Q. Chen, S. Feng, T. Tao, L. Huang, M. Trusiak, A. Asundi, and C. Zuo, “Temporal phase unwrapping using deep learning,” Sci. Rep. 9, 20175 (2019).

C. Yu, J. Wang, C. Peng, C. Gao, G. Yu, and N. Sang, “BiSeNet: Bilat eral segmentation network for real-time semantic segmentation,” in Proceedings ARTICLE pubs.aip.org/aip/app of the European Conference on Computer Vision (ECCV) (Springer, 2018), pp. 325–341.


文章信息:

Multimodal adaptive temporal phase unwrapping using deep learning and physical priors

Yiheng Liu; Xinsheng Li; Ziheng Jin; Wenwu Chen; Edmund Y. Lam; Shijie Feng; Qian Chen; Chao Zuo

APL Photonics 10, 046104 (2025)

https://doi.org/10.1063/5.0252363




SCILab 官方公众号
SCILab 官方B站