题 目:多模态联合的大规模视频语义信息理解与编码
主 讲 人:上海交通大学 林巍峣 教授
时 间: 2021年7月16日上午9点
地 点: 机器人视觉感知与控制技术国家工程实验室一楼报告厅
主讲人简介:
林巍峣,上海交通大学教授,教育部青年学者,上海市五四青年奖章、上海市浦江人才,并入选权威国际会议ICME'19评选的多媒体学术新星。部分成果获国际权威评测MOT第一,被音视频编码国家标准(AVS)采纳,并被英国BBC等国际权威媒体报道。获2017微软创新年会唯一最佳成果奖。
林巍峣现为IEEE高级会员(IEEE Senior Member),同时担任IEEE 多媒体信号处理专委会(MMSP TC) 、IEEE多媒体系统与应用专委会(MSA TC) 、 IEEE 多媒体通信专委会 (MMTC) 以及中国计算机协会多媒体专委会等多个学术组织专业委员会的委员;担任IEEE Trans. Image Processing, Trans. Circuits and Systems for Video Technology, IEEE Trans. Intelligent Transportation Systems等6个SCI期刊编委。担任ICPR’20、BMVC’19、MM'18、ICIP'19、ICME'18等领域主席(Area Chair)。在相关领域共发表IEEE Transactions系列及CVPR、ICCV、AAAI等权威期刊和会议论文40余篇,获专利18项。
讲座摘要:随着多媒体应用与服务的迅速发展,视频中的行为、属性等语义信息在大规模多媒体系统中的应用日益重要,因此,对语义信息的精准提取及高效压缩等需求,正变得日益显著。在本次报告中,我们将介绍我们课题组在大规模语义信息提取与压缩方面的一些工作。首先,我们将介绍我们在目标行为和交互语义提取方面的工作,我们对当前的行为识别与定位架构进行的重新建模,并提出了从全局到局部的渐进行为提取架构。其次,我们将介绍多模态联合视频理解的工作,通过音视频的联合分析,实现对多媒体信息中目标的精确定位和分析。第三,我们还将介绍我们在语义信息压缩编码方面的工作,我们设计了面向目标关键点序列等基础语义的压缩编码架构,实现了平均60%以上的码率节省。最后,我们也将介绍一下我们的工作在实际场景中的一些应用演示。