第十九届“挑战杯”全国大学生课外学术科技作品竞赛2024年度“揭榜挂帅”专项赛终审决赛于2024年11月8日至10日在北京、11月15日至17日在浙江举办。“挑战杯”全国大学生课外学术科技作品竞赛是由共青团中央、中国科协、教育部、中国社科院、全国学联和承办地省级人民政府共同主办的一项具有导向性、示范性和群众性的竞赛活动,被誉为当代大学生科技创新的“奥林匹克”盛会。“揭榜挂帅”专项赛是自第十七届“挑战杯”全国大学生课外学术科技作品竞赛起,设立的特别竞赛单元,以“你来挑,我来战”为主题,崇尚“英雄不论出处,谁有本事谁揭榜”,秉承“以国家重大需求为导向、以竞争协同机制为手段、以解决实际问题为目标”的思路,聚焦“卡脖子”技术,瞄准社会重大课题及现实问题,以“政企发榜、竞争揭榜、开榜签约”的方式,通过“征榜—发榜—竞榜—评榜—夺榜”,由企事业单位提出需求,组委会面向高校和社会广发“英雄帖”,高校学生团队和青年科技人才团队打擂揭榜。2024年度“揭榜挂帅”专项赛设置高校学生赛道和青年科技人才赛道,共吸引2.7万余人参加,共有6500余件参赛作品,最终来自全国410余所高校和企业的1950余件作品入围终审决赛。
由中国科学技术大学自动化系於俊老师带领的中国科大参赛团队,参与了此次专项赛的高校学生赛道,在由中国联通发布的“‘基于大模型的多模态风险内容识别技术研究’比赛方案”选题中,凭借“鹰眼”-基于多模态大模型的深度伪造内容检测系统项目,在众多参赛作品中脱颖而出,荣获国家级一等奖。这一成果不仅展现了中科大团队在前沿科技领域的创新实力,也为多模态风险内容识别技术的发展注入了新动力。
针对发榜单位给出的选题,中国科大团队提出了“鹰眼”系统的解决方案。这一系统是在信息技术迅猛发展,深度伪造技术生成的虚假视频、图像等多模态内容,更加逼真且手段多样,现有内容识别技术难以应对的背景之下所研发产生的。该系统由DeepFake专家检测系统和基于多模态大模型的多级描述视频理解生成系统组成。针对传统注意力机制在处理局部细节和模态间关系的不足,团队创新提出Audio-Viusal Local-Global Interaction Module(AV-LG Module),通过局部区域内自注意力、全局区域间自注意力以及局部-全局交互,有效整合视频和音频模态信息。实验数据表明,该专家检测系统在业界最大DeepFake检测数据集上准确率接近100%。在视频、图像理解与多级描述生成方面,模型通过Time-aware Frame Encoder捕捉帧和时间戳信息,Sliding Video Q-Former捕获帧间时序信息并实现模态对齐,在多个测试集上性能优越。
图2. 公示结果(https://mp.weixin.qq.com/s/pteEDMpdd3LVZcoRh6BTww)
此次比赛的团队工作由於俊老师指导研究生王一帆、赵绩等人完成,这次在“挑战杯”专项赛中获奖是对中国科大团队创新能力和科研实力的高度认可。未来,团队将继续深耕多模态风险内容识别领域,不断优化“鹰眼”系统,为保障网络安全、维护社会稳定贡献更多力量。
版权所有© 中国科学技术大学信息技术学院自动化系 皖ICP备05002528号
地址:安徽省合肥市蜀山区黄山路443号,邮政编码:230026