【江苏科技报12月6日】近日,江南大学物联网工程学院2020级本科生时世骏以第一作者身份在国际信息科学领域权威期刊《信息处理与管理》上发表题为《使用基于数据增强和L2正则化的提示学习进行鲁棒的科学文本分类》的学术论文,江南大学物联网工程学院副教授胡凯为该文通讯作者。
在ChatGPT及其相关技术大热的背景下,时世骏发现对于一些特殊类型的文本,如科学论文,并不像普通文本那样受众广泛,因此在处理这类文本时,往往面临数据标注量小、新的术语层出不穷等问题。他在导师胡凯的指导下,将研究方向聚焦在少量标注样本场景和模型鲁棒性上,提出了基于提示学习和成对增强(L2正则化)的研究思路。他发现,当样本数量有限时,仅依靠提示学习来构建模型可能会导致模型的鲁棒性(即在面对不同类型数据时的稳定性和可靠性)不足。为了应对这个问题,时世骏引入了L2正则化技术,它在增强数据的同时,也提高了模型的鲁棒性。实验结果显示,该方法明显提升了模型性能。同时,研究的对比试验验证了该方法的优越性,更大的科学数据集和通用领域的文本数据集上也验证了该方法的可扩展性。该方法的提出为深度语言模型在少样本实际生产场景落地提供了有效支撑。
“我是学院‘启智’本科创新人才培养计划的受益者。”时世骏表示,大二上学期,他通过学院“启智计划”双选与胡凯老师结缘,并在为期两年的培养周期内快速成长。目前,时世骏已推免至江南大学,继续跟随导师胡凯攻读硕士研究生。
据悉,江南大学物联网工程学院高度重视拔尖创新人才的培养,积极组织实施“启智”本科创新人才培养计划,遴选优秀本科生进入导师团队,通过学科竞赛、大创项目、科研实训,不断激发学生的自主学习意识和科技创新潜能。
原文链接:http://www.jskjb.com:8081/xpaper/appnews/117410/128919/141642-1.shtml