Skip to content

forence/Awesome-Language-Moment-Retrieval

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 

Repository files navigation

Awesome-Language-Moment-RetrievalAwesome

A curated list of language moment retrieval and related area. :-)

Introduce

从CVPR16开始,学术界开始关注phrase grounding(i.e. object referring),即给一个query,在image中找到找个query对应的object。2017,2018年,大家也逐渐开始关注video中类似的grounding问题,可以被总结为 Grounding Actions and Objects by Language in Videos。Grounding这个词可能不完全准确,很多论文对这个任务都有不同的定义,如Localizing Moments in Video with Natural Language、Retrieval via Natural Language Queries等等。这里统一简写为Language Moment Retrieval。(这里默认针对视频任务)

以下论文总结主要分成两部分:

  • Temporal Activity Localization by Language:给定一个query(包含对activity的描述),找到对应动作(事件)的起止时间;

  • Spatio-temporal object referring by language: 给定一个query(包含对object/person的描述),在时空中找到连续的bounding box (也就是一个tube)。

Format

Markdown format:

- [Paper Name](link) - Author 1 et al, `Conference Year`. [[code]](link)

Change Log

  • Apr. 03 Just started.

Table of Contents

Papers

Survey

  • None.

Before

  • Visual Semantic Search: Retrieving Videos via Complex Textual Queries - Dahua Lin et al, CVPR 2014.

    简介

    手工设计特征。结合appearance, motion和spatial relations等信息设计视觉特征,采用了Semantic Graph设计描述特征,将二者的匹配问题转换成了整型线性规划问题(这个策略同样在ECCV18中也可以看到)。

    基于KITTI数据集(城市道路驾驶场景),数据库较小。

2015

  • None

2016

  • None

2017

  • Where to Play: Retrieval of Video Segments using Natural-Language Queries - S. Lee et al, arXiv 2017.

    简介

    “Tracking by Captioning”的思想。

    使用Densecap对视频每一帧进行描述,根据相邻图像Captions之间的相似性进行组合得到视频语义片段。

    采用了两种方法比较Captions之间的相似性:Word2Vec和Skip-thoughts vector。可能因为数据集小小的原因后者效果较优。

  • Localizing Moments in Video with Natural Language - Lisa Anne Hendricks et al, ICCV 2017. [code]

    简介

    RGB与Optical Flow同时作为输入,损失函数为inter-intra video ranking loss。

    标了一个新数据集,DiDeMo(把video切成了连续的长度为5s的片段,即 0s-5s 是第一个片段,5s-10s是第二个...,然后为这5s的片段添加语句描述,这样做其实降低了localization的难度,退化成了一个有限集合的retrieval问题)。DiDeMo中描述句的特性主要包含三个方面:相机视角(zoom,pan,cameraman)、时间关系(after,first)和空间关系(left,bottom)。且动词所占比例较多,这种设计思想基于在定位过程中对算法行为的理解是非常重要的。

    Moment Context Network(MCN)对于复杂的描述仍定位困难,如“dog stops, then starts rolling around again”,如何更好的推理语言描述中的语义是一个潜在的改进方向。

  • TALL: Temporal Activity Localization via Language Query - Jiyang Gao et al, ICCV 2017. [code].

    简介

    整个流程分为三步:

    • C3D生成 visual feature;
    • skip-thought / LSTM生成sentence embedding;
    • 将两部分的feature融合在一起 然后生成alignment score和boundary offset。alignment score代表了输入的query和clip是否匹配,boundary offset调整了 输入clip的边界。

    数据集方面:

    • 基于TACoS提供了Charades的语句标注,名为Charades-STA2;
    • 新数据集,DiDeMo(把video切成了连续的长度为5s的片段,即 0s-5s 是第一个片段,5s-10s是第二个...,然后为这5s的片段添加语句描述,这样做其实降低了localization的难度,退化成了一个有限集合的retrieval问题);
    • Activitynet-Caption也提供了时序的语句标注,这个数据集本来是为dense video captioning准备的,但也可以用来做language based localization这个问题。

  • Spatio-temporal Person Retrieval via Natural Language Queries - M. Yamaguchi et al, ICCV 2017. [code]

    简介

    本文聚焦于对视频中符合描述的人的检测,但可以方面得扩展到其他任务,如Clip Retrieval、Action Detection等。

    模型结构如上图所示:

    • 检测每一帧中的人,将相关的检测框连接起来形成tubes;
    • 提取tube features,由6个子特征(box与image的RGB、Optical Flow和C3D特征拼接而成);
    • 提取description features,采用三种方法:FVs based on HGLMM、Skip-thought Vectors和RNN
    • 在DSPE损失函数的基础上又添加了一项:不同模态正样本对之间距离的总和。这样做的目的是使模型直接让正样本对之间靠的更近,实验结果也验证了该方法有效。

2018

  • Find and Focus: Retrieve and Localize Video Events with Natural Language Queries - Dian Shao et al, ECCV 2018.

    简介

    港中文的工作。

    Find and Focus(FIFO)模型整体分为两个部分:

    • Find:top-level matching(paragraph vs video),可以非常高效地滤除数据库中不相关的视频;
    • Focus:part-level association,以句为单位定位视频片段。

    在定位过程中,得到双流特征后,用基于语义的TAG(Temporal Actionness Grouping)生成Clip Proposal,将Sentences与Clip之间的Cross-domain Matching问题转换为Linear Programming问题。

    数据集采用ActivityNet Captions和Modified LSMDC。一些实验结果如下:

  • Object Referring in Videos with Language and Human Gaze - A. B. Vasudevan et al, CVPR 2018. [code].

    简介

    主要特点是添加了观察视频时人眼的信息。

    用两个LSTM分别处理局部信息与全局信息,模型输入源较多,其中人眼图像通过GazeCapture得到视频的大致位置,并将其拼接到局部特征中去(Human Gaze)。应用在一定程度上比较受限。

  • Actor and Action Video Segmentation from a Sentence - Kirill Gavrilyuk et al, CVPR2018.

2019

Dataset

Popular Implementations

PyTorch

  • None.

TensorFlow

  • None.

Others

  • None.

Licenses

CC0

To the extent possible under law, muketong all copyright and related or neighboring rights to this work.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published