博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
李飞飞团队提出视频事件描述新模型,附849小时数据集
阅读量:5935 次
发布时间:2019-06-19

本文共 574 字,大约阅读时间需要 1 分钟。

本文来自AI新媒体量子位(QbitAI)

最近,斯坦福大学的李飞飞与与她的学生Ranjay Krishna、Kenji Hata、Frederic Ren,以及同事Juan Carlos Niebles向ICCV 2017提交论文,提出了一个新模型,可以识别视频中的事件,同时用自然语言描述出来。

 新模型的原理及应用案例

大多数视频都包含着大量事件。举个例子吧,比如在一段钢琴演奏的视频中,可能不仅仅包含钢琴演奏者,还可能包含着一群跳舞的人,或者一群鼓掌的观众,这些事件很可能是同时发生的。当一段视频中包含检测内容和描述内容时,我们称它为“字幕密集型事件”。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

李飞飞团队的模型,可以利用过去和未来的上下文内容信息,来识别视频中这些事件之间的关系,并把所有事件描述出来。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

上面这张流程图展现了新模型的运行原理。

同时,他们还发布了ActivityNet字幕数据集。这个数据集中包含了长达849小时的2万个视频,以及10万条带有开始和结束时间的描述信息,可以用来对字幕密集型事件进行基准测试。

相关资源

论文简介:

数据集下载:

http://cs.stanford.edu/people/ranjaykrishna/densevid/captions.zip
C3D Features:

论文:

本文作者:安妮
原文发布时间:2017-05-08

转载地址:http://jhjtx.baihongyu.com/

你可能感兴趣的文章
发光的二次元——克拉克拉上云实践
查看>>
阿里在使用一种更灵活的软件集成发布模式
查看>>
Java解析excel工具easyexcel助你快速简单避免OOM[图]
查看>>
《赋能》的读后感作文2800字
查看>>
Java并发编程学习三:线程同步的关键字以及理解
查看>>
Kafka的基本设计
查看>>
java B2B2C 仿淘宝电子商城系统-高可用的分布式配置中心
查看>>
JavaWeb学习笔记之EL表达式
查看>>
Qt5开发及实例学习之停靠窗口QDockWidget类
查看>>
幽灵交易者策略(附源代码)
查看>>
yum更换国内源、用yum下载rpm包和源码包的安装
查看>>
对抗粉尘攻击——CashShuffle正在保护BCHer隐私
查看>>
神经网络——构建非线性映射
查看>>
C++ Format
查看>>
人工智能将改变家电使用方式
查看>>
JAVA 大数据学习路线
查看>>
python的for循环怎么用?
查看>>
离线安装配置Android SDK方法
查看>>
使用Hessian远程上传文件遇到expected long at 0x25 (%)问题及解决
查看>>
RocketMq4.2.0 问题汇总
查看>>