视觉语言两开花!谷歌提出全新视觉语言桥梁-人工智能-热点资讯-野望文存-科技 
    欢迎来到野望文存-科技!
当前位置:野望文存-科技 > 热点资讯 > 人工智能 >  视觉语言两开花!谷歌提出全新视觉语言桥梁

视觉语言两开花!谷歌提出全新视觉语言桥梁

发表时间:2020-09-19 12:34:00  来源:野望文存  浏览:次   【】【】【

 作者 | 赛文

编辑 | 陈大鑫


“ 妈妈快来看!有人类在看我。”

小老虎在动物园指着人类开心地说道。

对动物而言可能有些夸张,但是人类在进行事物的描述时,大多都是一边指着目标物体,一边进行语言的描述吗?
来自谷歌研究院的学者们以此为基础提出了“定位叙事”图像标注方法,在传统图像描述标注方法的基础上,巧妙的利用鼠标轨迹为每个单词都提供了较为密集的视觉基础,可以作为一个更为细粒度的图像监督信号,与此同时,定位叙事还连接了四种模态的数据,包括图像语音描述文字描述鼠标轨迹信号,它们共同作用为视觉与语言联合增加了更多的可能性。
本文已被ECCV2020 Spotlight收录。
论文链接:https://arxiv.org/abs/1912.03098
数据集下载链接:https://google.github.io/localized-narratives/
 
1

研究动机

连接视觉和语言的一种方式是使用图像描述(Image Captioning),标注者被要求给每张指定的图像编辑一段话来描述图像中的内容,这种链接方式面对的是整个图像,是比较稀疏的。
随着该领域研究的发展,研究者们对这种标注方式进行了改进,即对文字描述中较为关键的单词和图像中对应区域建立链接(visual grounding),这种方式相比传统的图像描述加入了更加显式的链接,但是它仍然是比较稀疏的,且由于标注付出的代价较大,所以很难关注到较为重要的区域。
上图中分别为几种连接视觉和语言的标注数据集,(a)是最原始的图像描述,(b)和(c)进行了改进,对关键区域进行了bounding box的标记,(d)是本文提出的“定位叙事”(Localized Narratives)标注方法,下面进行详细介绍。
 
2

方法

本文提出了一种全新的多模态图像标注形式,称为“定位叙事”,下面举个例子:
定位叙事要求标注者在描述图像的同时,加入自己的语音描述,还需要使用鼠标在对应图像区域内进行滑动。
如上图所示,注释者一边说 "图中出现了一个女性",一边将鼠标悬停在她的空间范围,从而为这个名词提供视觉链接。之后,将鼠标移动到气球上,说 "握住"。这样就为这个动作提供了直接的视觉基础。
他还描述了 "晴朗的蓝天 "和 "浅蓝色牛仔裤 "等背景物体。由于语音与鼠标指针同步,就可以确定描述中每一个词的图像位置,这就为每个词提供了密集的视觉基础。
定位叙事的核心做法是要求注释者在将鼠标悬停在被描述的区域上时,用他们的声音描述图像的内容。语音和鼠标位置信号都是有时间戳的,所以我们可以知道注释者在说每一个字的时候到底指的是什么。

标注提示

作者认为本文的图像描述方式更加接近人类的正常行为习惯,人类在进行事物的描述时,也是一边指着目标物体,一边进行语言的描述,这种方式可以使标注者更容易理解标注任务,要知道之前的方法会因为标注者没有彻底理解标注目的而带来一系列误差,但是同时也消耗了巨大的代价,除此之外,作者也提供了一个较为详细的注意事项表供标注者参考。

自动转写和手动转写

作者首先使用ASR算法[1]来对标注者的语音进行识别,这一步得到的描述文字有时间戳,并与鼠标轨迹进行同步,但是会因为所采用的语音识别算法的性能缺陷而带来一定的错误。为了修复这些错误,作者要求注解者在完成语音描述后手动记录下他们自己的描述文字,但是手动记录的文字描述又缺少时间戳的标注。所以我们还需要对二者进行对齐,来得到既带有时间戳信号同时也是非常精确的图像描述信息。 

转写对齐

转写对齐是针对自动转写描述和手动转写描述进行的,其中表示单个单词,含有时间戳标记,转写对齐的目标就是将自动转写单词的时间戳迁移到手动转写单词上。
因为和 的时间序列可能存在长度和节奏不一致的现象(例如语音识别算法的识别速率比手动转写的速率要快),所以作者选择了动态时间规整(DTW)方法[2]来对两个时间序列进行调整,使得两个序列的形态尽可能的一致,得到最大可能的相似度,在转换的过程中要保留原来的单词顺序。对齐的本质就是寻找一个匹配函数中的每个单词分配一个 ,需要注意的一点是 可以给每个分配唯一的,但是每个可能对应到多个,如上面图中所示,红色的a1和a2都被分配到了绿色的m2。
首先定义两个序列中对应单词的编辑距离,即从 序列中的错误单词到序列中的正确单词所需的字符插入、删除和替换次数,也可以看作是一个评价函数:
       
然后我们找到最佳匹配函数就可以完成两个转写描述的对齐。
       


3

实验

本文共对四个大规模图像数据集进行了定位叙事的标注,分别是COCO[3]、Flickr30k[4]、ADE20K[5]和Open Images[6]共848,749张图像,目前已全部开放下载。
本文提出的数据集相比于其他数据集在很多方面都更加丰富,例如文字描述的平均长度为36.5字,同时涵盖了几乎全部的单词类型(名词、动词和介词等等)。作者为了说明数据集中内容的多样性,对每个文字叙述中的名词数量进行了分析,如下图所示:
可以看出,定位叙事的名词数量要明显多于其他数据集,此外,定位叙事标注还对很多物体之间的关系进行了标记,除了语言模态的多样性,定位叙事的多样性还体现在视觉模态中,相比传统绘制标记框的方式,使用鼠标轨迹进行视觉基础的标注会带来更多的不确定性,而且也更符合人类本身的感知方式(人类的视线轨迹本身就是动态变化的)。

可控的图像描述

可控的图像描述是指为模型提前加入一个控制信号,例如对图像指定一个区域,然后模型生成对应区域的文字描述,在本文的实验中,作者使用鼠标的轨迹来选择区域,作者在经过定位叙事标注的COCO数据集上进行了实验,效果如下图所示:
鼠标轨迹信号将模型的注意力集中在特定区域,上图中(a)为标准的图像描述,(b)和(c)都是使用定位叙事的可控图像描述,只是它们的鼠标轨迹不同,进而根据鼠标的不同滑动顺序轨迹生成了不同的文字描述。

消融研究
为了证明本文方法带来的性能提升并不是来自操作过程中引入的其他特征,而是来自精确的鼠标轨迹引导,作者进行了多次消融实验,并使用6种评估方法进行了计算,实验结果表明模型获得的大部分注意力信号都来自鼠标轨迹的位置和顺序。

 
4

总结

本文提出了一种全新的图像描述标注方法,其中的每个单词都通过鼠标轨迹确定了较为准确的视觉基础,甚至为一些物体之间的关系也进行了建模和表示。
作者使用本文的方法对849k张图像进行了标注,并进行了一系列的分析和评估,结果表明该数据集具有较好的内容丰富性和多样性,可以为下一步视觉与语言联合的研究发展提供数据基础。
 

引用

[1] Google cloud speech-to-text API. https://cloud.google.com/speech-to-text/

[2] Kruskal, J.B., Liberman, M.: The symmetric time-warping problem: from contin- uous to discrete. In: Time Warps, String Edits, and Macromolecules - The Theory and Practice of Sequence Comparison, chap. 4. CSLI Publications (1999)

[3] Lin, T.Y., Maire, M., Belongie, S., Bourdev, L., Girshick, R., Hays, J., Perona, P., Ramanan, D., Zitnick, C.L., Dolla ?r, P.: Microsoft COCO: Common objects in context. In: ECCV (2014)

[4] Young, P., Lai, A., Hodosh, M., Hockenmaier, J.: From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. TACL 2, 67–78 (2014)

[5] Zhou, B., Zhao, H., Puig, X., Fidler, S., Barriuso, A., Torralba, A.: Semantic un- derstanding of scenes through the ADE20K dataset. IJCV 127(3), 302–321 (2019)

[6] Kuznetsova, A., Rom, H., Alldrin, N., Uijlings, J., Krasin, I., Pont-Tuset, J., Ka- mali, S., Popov, S., Malloci, M., Duerig, T., Ferrari, V.: The Open Images Dataset V4: Unified image classification, object detection, and visual relationship detection at scale. arXiv preprint arXiv:1811.00982 (2018)



EMNLP 9月16日出录用结果了!点击阅读原文加入“EMNLP”小组!

扫描下方二维码,加入学习交流群!

责任编辑:蔡学森