计算机科学与技术学院青年科技协会系列活动(第十九期)

时间:2023-07-03作者:田乔文章来源:计算机科学与技术学院浏览:1537

2023630日,计算机科学与技术学院青年科技协会在21#4017举办第十九期系列活动,本次活动邀请计算机学院2020级硕士肖飞扬以“基于局部信息辅助解码的音频语意概述”为主题进行学术交流,此项研究成果发表在音频信号处理领域顶级国际会议ICASSP2023

音频语意概述任务致力于用自然语言概述文本(如字幕短句)描述音频数据内容。现有方法通常采用“编码器-解码器”结构构建音频语意概述模型,其中基于注意力机制的解码器结构(如Transformer decoder)被广泛用于解码器设计,并取得了较为不错的性能表现。尽管基于注意力机制的解码器结构能够利用注意力机制有效捕获音频数据的全局信息,但该设计可能会忽略音频信号中的局部信息,进而导致预测概述文本失准。为了解决这一问题,团队提出了一种基于局部信息辅助的解码器结构,通过局部注意力机制,在保留全局信息感知能力时,关注并捕获音频数据中潜在的局部信息,使得局部事件被准确地预测表述,并由此构建了音频语意概述模型,提升音频语意概述性能表现。

最后,参会的老师和学生根据肖飞扬的报告内容进行了交流研讨,使得大家对相关研究工作有了进一步了解,促进了学术交流。