一种基于视听多模态融合的音视频事件检测方法
申请号202310038705.1
2023-01-11
摘要

本发明公开了一种基于视听多模态融合的音视频事件检测方法,包括:从待检测音视频文件中提取出2D视觉特征、3D视觉特征和音频特征;将所述2D视觉特征和3D视觉特征输入至第一模态共有-私有子空间,所述第一模态共有-私有子空间将所述2D视觉特征和3D视觉特征聚合成一路的视觉特征;将所述视觉特征和音频特征输入至第二模态共有-私有子空间,得到视觉表征和听觉表征;将所述视觉表征和听觉表征输入至注意力池化层,得到片段级别和视频级别的事件预测结果。本发明可以解决音视频事件检测任务中模态时序非对齐情况下的跨模态融合问题。本发明公开了一种基于视听多模态融合的音视频事件检测方法,包括:从待检测音视频文件中提取出2D视觉特征、3D视觉特征和音频特征;将所述2D视觉特征和3D视觉特征输入至第一模态共有-私有子空间,所述第一模态共有-私有子空间将所述2D视觉特征和3D视觉特征聚合成一路的视觉特征;将所述视觉特征和音频特征输入至第二模态共有-私有子空间,得到视觉表征和听觉表征;将所述视觉表征和听觉表征输入至注意力池化层,得到片段级别和视频级别的事件预测结果。本发明可以解决音视频事件检测任务中模态时序非对齐情况下的跨模态融合问题。

公开国别CN
文献类型专利
条目标识符https://kms.shanghaitech.edu.cn/handle/2MSLDSTB/301129
专题信息科学与技术学院_硕士生
作者单位
1.上海科技大学
2.中国科学院上海微系统与信息技术研究所
推荐引用方式
GB/T 7714
朱冬晨,陈泓伯,张广慧,等. 一种基于视听多模态融合的音视频事件检测方法. 202310038705.1[P]. 2023-01-11.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
(2235409)微系统-一种基于视听多(479KB)专利 限制开放CC BY-NC-SA请求全文
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[朱冬晨]的文章
[陈泓伯]的文章
[张广慧]的文章
百度学术
百度学术中相似的文章
[朱冬晨]的文章
[陈泓伯]的文章
[张广慧]的文章
必应学术
必应学术中相似的文章
[朱冬晨]的文章
[陈泓伯]的文章
[张广慧]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。