近日,江南大学物联网工程学院机器视觉与网络通信实验室的2022级博士生陶雪峰以第一作者身份在IEEE Transactions on Image Processing(TIP)发表题为“Unsupervised Learning of Intrinsic Semantics with Diffusion Model for Person Re-Identification”的学术论文。TIP是人工智能和计算机视觉领域公认的顶级学术期刊,其近5年影响因子为12.1,是中科院一区TOP期刊,被中国计算机学会(CCF)推荐为A类,要求论文在理论和工程实践上对相关领域具有重要推动作用。
该论文研究内容聚焦于人工智能前沿的扩散模型(Diffusion Model)技术,生成富含行人语义的特征块。如图所示,研究团队创新性地提出了基于扩散模型的行人固有语义学习框架,并精心设计了语义可控扩散损失来精准引导扩散模型的去噪方向,实现了无需借助先验知识或额外网络,便能生成语义对齐且泛化性强的特征块。此项研究为通用式人工智能应用场景下的无监督行人目标检索提供了新的范式。
该论文以江南大学物联网工程学院为第一单位,控制科学与工程博士生陶雪峰为第一作者,其博士生导师孔军教授为责任作者,并得到国家自然科学基金面上项目(62371209, 62371208)和江苏省研究生科研与实践创新项目(KYCX24_2515)的资助。此外,得益于高等学校学科创新引智计划(B12018)的鼎力支持,使得研究工作与澳大利亚西澳大学的Ajmal Mian教授及其团队顺利开展。Ajmal Mian教授作为论文的重要作者之一,是国际模式识别协会的Fellow,也是澳大利亚研究理事会的Future Fellow,同时担任IEEE Transactions on Neural Networks & Learning Systems期刊的主编以及Pattern Recognition期刊的副主编,更是一位人工智能领域的ACM杰出演讲者。未来,机器视觉与网络通信实验室将与Ajmal Mian教授及其团队维持并加强稳定的合作关系,推动人工智能与计算机视觉领域的前沿探索与发展。
基于扩散模型的分块方法与一般分块方法的对比图