学术报告与学术会议

刘李助理教授受邀进行讲座

发布时间: 2024-05-23 16:26:00

题目：AI向善：最新线索语视频自动识别与生成研究

报告人：刘李助理教授 (邀请人：陈艳男 )

香港科技大学（广州）

时间：5月22日 09：30-10：30

地点：数科院西楼111报告厅

报告人简介:

刘李目前是香港科技大学（广州）的助理教授、博导。2018年9月，她在法国格勒诺布尔阿尔卑斯大学和法国国家科学研究中心共属的GIPSA-lab获得博士学位。她的主要研究方向是多模态视听语音识别与生成以及医疗人工智能等。她目前在人工智能领域已以第一作者或通讯作者身份发表论文超过40篇，其中包括此领域顶级杂志和会议TPAMI, TMM, TMI, Neurips, ICCV, ECCV, ACM MM, ICASSP等。她曾担任2022年语音信号处理顶会ICASSP的Local Chair (China site)。她曾获“深圳市海外高层次人才-孔雀人才计划”。作为项目负责人，她主持国家自然科学基金委员会-青年基金项目、广东省区域联合基金-青年基金项目、阿里巴巴创新研究计划项目、腾讯公益创投计划、腾讯AI Lab犀牛鸟专项计划等。她曾在2017年荣获法国Sephora Berribi数学与计算机领域女性科学家奖。她分别于2022、2023年获得深圳市科协人工智能优秀论文奖。

摘要：

自动线索语识别与生成主要用于智能无障碍人机交互。其中线索语编码系统利用唇型和手势编码口语来辅助听障人群交流。我们首次提出了中文线索语系统。对于线索语识别，我们最近提出了一种基于低秩Transformer的跨模态互学习框架以促进多模态交互。与传统方法相比，我们的模型通过模态无关字典表示来编码不同模态的模态特定信息，从而得到多模态共同表征的语言信息。对于线索语生成，我们提出了一种思维链提示学习的线索语视频扩散生成框架，利用大语言模型和提示工程来捕捉文本描述与手势特征之间的复杂关系，提高生成的手势视频的准确性和多样性。此外，我们构建了首个大规模多人中文线索语视频数据集。我们的方法在不同语种的线索语数据集（中文、法语和英语）上取得了最佳的识别和生成性能。