主题 : “你不温柔,我不主动”,人机关系究竟要怎么改变呢?
千山同一月 万户尽皆春 千江有水千江月 万里无云万里天
级别: 总版主

UID: 998
精华: 0
发帖: 605047
威望: 529651 点
无痕币: 39 WHB
贡献值: 0 点
在线时间: 62572(时)
注册时间: 2008-12-25
最后登录: 2024-05-17

0 “你不温柔,我不主动”,人机关系究竟要怎么改变呢?

技术这个事情,很多时候不是一蹴而就的。
更多时候,是大家先看到了一个东西非常美好,结果左发展右发展也发展不起来,在吃瓜群众们兴奋地送上一首《凉凉》之后,搞不好哪天却突然一个胜负手抛出来,一切又都不一样了。

曾经的移动通讯、触屏交互莫不如是,今天的3D打印、VR说不定也在重复这个套路。更明显的可能是物联网。这个我们念叨了好多年,虽然也一直在发展,但始终没有大热的技术,到底在等待什么呢?
等待AI?但是音箱刮过一阵语音交互的风潮之后,IoT设备搭载语音控制模块也火了起来。可是直到今天,我们好像发现物联网还是那个物联网,基本没什么变化。
让我们往更深层开个脑洞,“AI of Things”在等待的,可能不仅是语音交互,而是耳目鼻口耳协同工作的多模态AI交互。
你不温柔,我不主动:为什么我们始终远离IoT?
首先我们要搞懂一件事:为什么给设备联网的方案推行了这么多年,我们身边,包括工业和工程领域,真正用到的物联网设备还是没有多少?
答案在于,光给机器设备联网是没用的。你家的桌椅板凳又不想聊微信逛淘宝看快手,它们要网作甚?
人最终需要的是服务,所以设备仅仅联网是没用的,联网之后必须能干点什么才行。这就需要两件事情:
人与设备可交互;
设备能够感知到人的需求。
在触屏、键盘和手机集成遥控模式,都被证明太麻烦之后,物联网开始把目光投向了能够提供自然交互与感知能力的AI。
机器能够听懂人类说话,并且产生对话并提供服务,似乎某种意义上从源头解决了物联网设备缺乏实际价值的尴尬。于是我们见到了越来越多搭载语音交互平台,能够实现对话的物联网设备。从电视、冰箱到家居设备,再到各种终端不胜枚举。

但实践下来发现,这种模式问题还是不少:
比如语言控制不如屏幕控制那么精准,很多时候会误判指令和错误唤醒,比较语言充满了不确定性;
再比如,语音交互的物联网设备还是缺乏主动服务的能力,只是换了操作方式而已,用户体验没有本质提升。
仅仅是“能听”,并且还经常听错的物联网设备,就像是两个人谈恋爱,其中一方从来不看你,不会知冷知热、嘘寒问暖,还经常搞错对方的意思,那另一方当然表示我懒得理你……
目前来看,把按钮换成了语音命令平台,隐藏的不确定性太多,而实际价值太少,很难成为物联网爆发的真正依托。
这种“你不温柔我不主动”的人机关系究竟怎么改变呢?
答案也许是让机器能够听和说之外,还要能看,能感觉,甚至能将五感联系到一起进行思考。
感知到交互:机器的五感俱全
所谓“模态modality”,是德国生理学家赫尔姆霍茨提出一种生物学概念。即生物凭借感知器官与经验来接受信息的通道,比如人类有视觉模态、听觉模态等等。
后来这个概念引申到人文科学领域,成为哲学和文学上的一种话语批评方式;而来到机器人和计算机科学领域,就成了机器与物理世界联系的通道。
假如我们把“模态”通俗地理解为感官,那么智能音箱就是只具备听觉模态的物联网设备,而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起,多模态物联网也就诞生了。

事实上,在AI研究当中多模态转换是非常普遍的课题。比如一个很出名的AI研究方向是让智能体根据看到的某张图片来生成文字(也有看到文字生成图片和视频的),这就是让AI模型完成在视觉和语义之间的模态转换。
级别: 十方秋水

UID: 88
精华: 0
发帖: 130120
威望: 221902 点
无痕币: 107420 WHB
贡献值: 0 点
在线时间: 51973(时)
注册时间: 2008-03-18
最后登录: 2024-04-25

感谢楼主的精彩分享。
Total 0.037420(s) query 5, Time now is:05-17 21:02, Gzip enabled 粤ICP备07514325号-1
Powered by PHPWind v7.3.2 Certificate Code © 2003-13 秋无痕论坛