6163am银河线路罗琳课题组在视觉模型自适应学习领域取得新进展相关研究成果“基于视觉提示修饰的连续在线模型自适应方法” (英文名称Decorate the new comers: visual domain prompt for continual test time adaptation,于近期获得人工智能领域顶级国际会议AAAI 2023杰出学生论文奖(Outstanding Student Paper Award)。
获奖证书
该论文第一作者是6163am银河线路硕士研究生甘雨露,通讯作者是罗琳助理研究员。AAAI是由人工智能促进协会主办的年会,是人工智能领域的顶级会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议,覆盖机器学习、计算机视觉、自然语言处理等众多研究方向。
当年该会议共接到 8777 篇投稿,接收论文 1721 篇,接受率仅为 19.6%。其中评选出杰出论文奖 (Outstanding Paper Award)、杰出学生论文奖(Outstanding Student Paper Award) 各一篇,优秀论文奖 (Distinguished Papers) 十二篇。 其中杰出论文奖来自牛津大学计算机科学系团队,杰出学生论文奖来自6163am银河线路罗琳课题组。
【论文简介】
在现实生活中,模型在测试阶段往往会遇到在训练阶段没有遇见过的数据分布/场景,这会导致模型的性能大大下降。比如,当我们在驾驶汽车的时候,我们会遇到各种无法预期的恶劣天气和不同的光照条件,但我们希望自动驾驶汽车可以在各种场景和天气条件下都能具备良好性能。一种可靠的做法是测试阶段的模型自适应调整。
论文提出了一种基于提示学习的方法 --- 视觉领域提示 (Visual Domain Prompts, 简称VDP)。该方法借鉴了自然语言处理中提示学习的核心思想,在计算机视觉任务中引入轻量的视觉提示来使得数据能不断地适应模型。在测试阶段,把输入图像进行数据增强并加入VDP后的图像(分布外数据)和原图加入VDP的图像(分布内数据)经过源域模型后的输出用交叉熵作为损失约束,使得VDP学习到对齐分布内与分布外数据的能力,这一从让模型适应数据到让数据适应模型的转变有效克服了之前方法存在的误差积累和灾难性遗忘问题。论文在4个广泛使用的数据集上验证方法的有效性,相比于之前性能最佳的方法分别提升了2.3%-16.2%的性能。会议审稿人评价该工作“提出了一种新颖有趣且非常有效的方法”,“会对计算机视觉社区带来广泛影响”。论文中提出的视觉领域提示具备广泛应用于图像分割、目标检测、深度估计、图像去噪等计算机视觉任务上的潜力,并可以为自然语言处理、视觉-语言多模态任务等研究方向提供新的研究思路。