上海科技大学知识管理系统

ShanghaiTech University Knowledge Management System

图片搜索

粘贴图片网址

KMS > 信息科学与技术学院 > 硕士生

	一种基于视听多模态融合的音视频事件检测方法
申请号	202310038705.1
	2023-01-11
摘要	本发明公开了一种基于视听多模态融合的音视频事件检测方法，包括：从待检测音视频文件中提取出2D视觉特征、3D视觉特征和音频特征；将所述2D视觉特征和3D视觉特征输入至第一模态共有-私有子空间，所述第一模态共有-私有子空间将所述2D视觉特征和3D视觉特征聚合成一路的视觉特征；将所述视觉特征和音频特征输入至第二模态共有-私有子空间，得到视觉表征和听觉表征；将所述视觉表征和听觉表征输入至注意力池化层，得到片段级别和视频级别的事件预测结果。本发明可以解决音视频事件检测任务中模态时序非对齐情况下的跨模态融合问题。本发明公开了一种基于视听多模态融合的音视频事件检测方法，包括：从待检测音视频文件中提取出2D视觉特征、3D视觉特征和音频特征；将所述2D视觉特征和3D视觉特征输入至第一模态共有-私有子空间，所述第一模态共有-私有子空间将所述2D视觉特征和3D视觉特征聚合成一路的视觉特征；将所述视觉特征和音频特征输入至第二模态共有-私有子空间，得到视觉表征和听觉表征；将所述视觉表征和听觉表征输入至注意力池化层，得到片段级别和视频级别的事件预测结果。本发明可以解决音视频事件检测任务中模态时序非对齐情况下的跨模态融合问题。
	朱冬晨 2; 陈泓伯1,2 ; 张广慧 2; 石文君 2; 李嘉茂 2; 张晓林 2
公开国别	CN
文献类型	专利
条目标识符	https://kms.shanghaitech.edu.cn/handle/2MSLDSTB/301129
专题	信息科学与技术学院_硕士生
作者单位	1.上海科技大学 2.中国科学院上海微系统与信息技术研究所
推荐引用方式 GB/T 7714	朱冬晨,陈泓伯,张广慧,等. 一种基于视听多模态融合的音视频事件检测方法. 202310038705.1[P]. 2023-01-11.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
（2235409）微系统-一种基于视听多（479KB）	专利		限制开放	CC BY-NC-SA	请求全文

个性服务

查看访问统计

谷歌学术

谷歌学术中相似的文章

[朱冬晨]的文章

[陈泓伯]的文章

[张广慧]的文章

百度学术

百度学术中相似的文章

[朱冬晨]的文章

[陈泓伯]的文章

[张广慧]的文章

必应学术

必应学术中相似的文章

[朱冬晨]的文章

[陈泓伯]的文章

[张广慧]的文章

相关权益政策

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。

条目量26991
全文量25828
访问量16152239
下载量1080458