DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module

doi:arXiv:2409.00481

	DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module
	Wang, Xinyu 1,2; Jiang, Haotian1,2 ; Huang, Haolin1,2 ; Fang, Yu 1,2; Xu, Mengjie1,2 ; Wang, Qian1,2
	2024-08-31
状态	已发表
摘要	Speech recognition is the technology that enables machines to interpret and process human speech, converting spoken language into text or commands. This technology is essential for applications such as virtual assistants, transcription services, and communication tools. The Audio-Visual Speech Recognition (AVSR) model enhances traditional speech recognition, particularly in noisy environments, by incorporating visual modalities like lip movements and facial expressions. While traditional AVSR models trained on large-scale datasets with numerous parameters can achieve remarkable accuracy, often surpassing human performance, they also come with high training costs and deployment challenges. To address these issues, we introduce an efficient AVSR model that reduces the number of parameters through the integration of a Dual Conformer Interaction Module (DCIM). In addition, we propose a pre-training method that further optimizes model performance by selectively updating parameters, leading to significant improvements in efficiency. Unlike conventional models that require the system to independently learn the hierarchical relationship between audio and visual modalities, our approach incorporates this distinction directly into the model architecture. This design enhances both efficiency and performance, resulting in a more practical and effective solution for AVSR tasks.
关键词	AVSR Cross-Modal Adapter Primary/Auxiliary Modal Training strategies
语种	英语
DOI	arXiv:2409.00481
相关网址	查看原文
出处	Arxiv
收录类别	PPRN.PPRN
WOS记录号	PPRN:91713017
WOS类目	Computer Science, Software Engineering ; Engineering, Electrical& Electronic
文献类型	预印本
条目标识符	https://kms.shanghaitech.edu.cn/handle/2MSLDSTB/421354
专题	生物医学工程学院生物医学工程学院_PI研究组_王乾组生物医学工程学院_硕士生生物医学工程学院_硕士生生物医学工程学院_硕士生
通讯作者	Wang, Qian
作者单位	1.ShanghaiTech Univ, Sch Biomed Engn, Shanghai, Peoples R China 2.ShanghaiTech Univ, State Key Lab Adv Med Mat & Devices, Shanghai, Peoples R China
推荐引用方式 GB/T 7714	Wang, Xinyu,Jiang, Haotian,Huang, Haolin,et al. DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module. 2024.