谷歌利用本地化叙事增强了开放图像数据集以推进人工智能

2020-03-19 16:57:26    来源:    作者:

Google LLC今天推出了新版本的Open Images(其用于人工智能研究的照片数据集),其中添加了数百万个其他数据点,并提供了一个被称为“本地化叙事”的功能,旨在帮助学术项目。

谷歌利用本地化叙事增强了开放图像数据集以推进人工智能

Open Images于2016年首次发布,其中包含900万张带有描述性标签的照片。此类数据集在AI生态系统中起着重要作用。研究人员使用它们来开发用于目标识别和自动驾驶等任务的新型机器学习模型。

除了提供可免费使用的照片外,Open Images还包含数百万条对AI培训有价值的注释。未经训练的神经网络无法自行识别照片中的对象,因此需要诸如注释之类的元数据来了解屏幕上的内容。元数据越详细,AI可以学习的越好。

今天发布的新版本的“开放图像”增加了2350万张“照片级”标签,这些标签已经过人类验证,可以对图像中发生的事情提供一般描述。该数据库现在总共有5990万个这样的标签。Google还添加了更多情境注释,包括250万个用于描述照片中人物所执行动作的标签,以及另外391,000个用于描述对象之间关系的标签。

但是,主要亮点是Google的本地化叙述。这些是搜索巨头开发的一种新型注释,它希望AI模型能够比旧的注释方法收集更多有关图像的信息。

谷歌利用本地化叙事增强了开放图像数据集以推进人工智能

Google通过让人类注释者将鼠标悬停在照片中的每个对象上并使用自己的文字进行描述来生成本地化的叙事。然后将光标移动的记录与自然语言描述配对,以便每个单词都可以与其所应用的对象相关联。谷歌说,这种方法将使AI模型在Open Images数据集上进行训练时可以更有效地学习。

“为了了解这些本地化叙述所代表的更多数据量,鼠标轨迹的总长度约为6400公里,如果不停地大声朗读,所有叙述都将花费约1.5年的时间来聆听,” Google研究科学家Jordi Pont-Tuset在博客文章中进行了详细介绍。

谷歌利用本地化叙事增强了开放图像数据集以推进人工智能

到目前为止,Google已经为约500,000个Open Images文件创建了本地化的叙述。Pont-Tuset写道,此次更新代表着“在改善图像分类,物体检测,视觉关系检测和实例分割的统一注释方面,迈出了重要的定性和定量步骤。” “我们希望Open Images V6能够进一步刺激人们对真实场景的理解。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。