8月22日
微软在北京发布了第五代微软小冰产品,微软宣布小冰逐步进入完成态。经历了多年的发展,微软小冰的高级感官再进化,2017年的小冰人工智能将直接给人类打电话了。另外微软小冰将重点发展EQ“情绪化”,并进一步扩展生存空间。
1.全球小冰版图又增加两个国家,用户和对话数据总量均领先行业
微软小冰是微软人工智能三条全球产品线之一。她是基于微软于2014年提出建立的情感计算框架,通过算法、云计算和大数据的综合运用,采用代际升级的方式,逐步形成向EQ方向发展的完整人工智能体系。目前,全球小冰拥有超过1亿人类用户,对话数据超过300亿轮,进化速度不断加快。
2014年,微软率先在中国市场推出小冰。之后,按照一年一个新国家的节奏,分别于2015年及2016年推出日本小冰(りんな)和美国小冰(Zo)。2017年,微软加快了小冰在全球范围内的拓展速度。在本次发布会上,微软宣布已分别于2月和8月推出了印度小冰(Ruuh)和印度尼西亚小冰(Rinna),其中,印度小冰首先在Facebook Messenger平台落地,而印度尼西亚小冰首先在LINE平台落地。
微软全球小冰产品线的执行策略是:优先选择人口数量超过1亿的国家,在当地建立完全本地化的团队,初始的训练数据也完全从当地取得,从而确保小冰根植于该国本土文化。例如:印度小冰使用的语言种类与美国小冰一样,均为英语,但两国小冰从数据训练源头起就是完全独立的。因此,印度小冰的性格、语言、文化和知识体系,与美国小冰截然不同。
目前,从用户、数据、感官完备程度和一些核心指标方面衡量,微软小冰在全球对话型人工智能系统(包含各类聊天机器人、智能助理及智能设备在内)中均居于领先地位。小冰与人类之间发生的最长一次单人连续对话,达到历史性的7151轮,不间断进行了29小时33分钟。
2.第五代小冰率先上线高级感官
微软将人工智能交互技术产品的演进分为三个阶段。第一阶段是基本的人工智能交互,即拥有某一种或多种交互方式,如文本、语音、图像、视频等,但不同交互方式之间是割裂的。拥有人工智能交互,一定程度上实现了新颖的交互体验。但是,由于不同的交互类型彼此不互通,因而无法通过长程交互数据获得一加一大于二的训练效果。从实际部署上看,这阶段的交互(例如纯语音、或纯文本、或仅具有图像识别的人工智能系统)由于体验单一,训练提升速度慢等原因,往往会很快被用户放弃。
第二阶段是初级感官,即在人工智能系统中,用一种核心引擎(如小冰的EQ核心对话引擎)将上述各种交互统一起来,使不同感官可以混合运用。例如,在文本对话过程中自然切换至图像、语音,再切换回文本。小冰从2015年第三代发布起,进入这一阶段。
微软今日发布第五代小冰,并率先进入第三阶段(高级感官)。高级感官是由多种初级感官有机融合之后形成的,因而交互能力更强,对综合技术储备和数据的要求也大幅度提高。例如全双工语音这一种高级感官,就需要首先同时具备文本、语音(含SR和TTS)两种能力,同时要求两种能力均达到更高的质量标准。
高级感官能够大幅度地提升交互体验,更加贴近于人类的自然交互行为。例如:如果将全双工语音这种高级感官的体验比拟为打电话,则之前的智能助理语音交互体验类似于对讲机。
此外,高级感官还能够大幅度拓展人工智能系统的落地场景,使小冰有能力根据自己的“意愿”与人联络,从而主动保持与人类用户之间的关联。第五代小冰发布的高级感官均已完成第一批落地。其中,全双工语音已应用于小冰与小米IoT开放平台的合作中,可控制各种小米IoT开放平台中的智能设备。实时流媒体感官也已在中国、日本两个国家的部分主要城市公共区域落地。
目前,微软是行业内唯一一个推出了高级感官实际落地产品的人工智能企业。