上周,
AlphaGo「终极版」AlphaGo Zero再次让世人惊讶,自学3天完胜李世乭,40天登顶「世界围棋冠军」。
但这并不意味着人工智能有能力取代人类,套用机器人界的一句话:
五岁以上的人类能够做的事情,机器人都能轻松胜任,但学会走路,办不到。
简单来说,要AI识别人类的行为动作至今仍是一个难题,而四个月大的婴儿就能识别各种面部表情了。
Google正在让自家的AI克服这个难题,最近Google发布了新的人类动作数据库集体AVA(atomic visual actions),可以精准标注视频中的多人动作,而其学习的对象则是来自Youtube的海量视频。
(图自:Youtube)
据
Google Research Blog介绍,AVA的分析样本主要是Youtube中的影视类视频。Google先从这些视频中收集大量不同的长序列内容,并从每个视频中截取15分钟,并将这些15分钟片段再平均分成300个不重叠的3秒片段,同时在采样时让动作顺序和时间顺序保持一致。
(3秒片段边界框标注示例,示例中只显示一个边界框)
接下来则需要手动标记每个3秒片段中间帧边界框中的每个人,从80个原子动作(atomic action)中选择合适的标签(包括行走、握手、拥抱等)给这些人物行为进行标注。
(sit)
(watch)
(kiss)
Google把这些行为分成了三组,分别是姿势/移动动作、人物交互和人与人互动。目前AVA已经分析了570000个视频片段,标记了96000个人类动作,并生成了21000个动作标签。
在AVA的数据分析中,会对每个视频片段的每个人物动作进行识别,也发现了人类的的行为往往不是单一的。
统计至少带有两个动作标签的人物数据,就可以分析人类不同动作一起出现的频率,在AVA的文档中称之为共现模式(co-occurrence pattern)。
从AVA的数据可以看到,打架和武术、亲吻和拥抱、唱歌和弹奏乐器,这些都是比较常见的共现模式。
同时为了尽可能覆盖更大范围的人类行为,AVA的所分析的电影或剧集,采用了不同国家和类型的影片,这也可能是为了避免出现性别歧视和种族歧视。早在2015年,Google Photos就曾因为误把两名黑人标注为「大猩猩」(Gorilla)而备受诟病。
(图自:Twitter)
Google还将对外开放这一数据库,最终目的是提高AI系统的「社交视觉智能」,从而了解人类正在做什么,甚至预测人类下一步要做什么。
当然目前距离这个目标还很遥远,正如Google软件工程师Chunhui Gu和David Ross在
介绍AVA的文章中写道:
教会机器去识别视频中的人类行为是发展计算机视觉的一大基本难题,但这对于个人视频搜索和发现、体育分析和手势界面等应用至关重要。
尽管过去几年在图像分类和查找物体方面取得了令人激动的突破,但识别人类行为仍然是一个巨大的挑战。
虽然柯洁称「对于AlphaGo的自我进步来说人类太多余了」,可人脑有800亿个神经元细胞、100万亿个连接,AI神经网络要想达到大脑的认知水平也绝非易事。
目前计算机视觉技术的发展也主要集中在静态图像领域。
Google从2006年开始用深度学习算法代替人工识别,Google Photos现在已经可以识别出猫狗的照片并自动分类。
(从a到b分别是Google Creatism系统从街景图到最终作品的全过程)
Google的人工智能实验室DeepMind正在利用人工智能将Google街景图制作成专业的摄影作品,其水准甚至已经可以媲美专业摄影师。
(图自:
Motherboard)
而iPhone X上的Face ID技术,也许会让面部识别技术在智能手机上变得更为普及。就连全球最大的色情网站Pornhub,也宣布将引入人工智能技术对网站上成人影片的内容和表演者进行自主检测,让AI算法为成人影片的内容和演员进行标签分类。