Oren Etzioni,大名鼎鼎的计算机科学教授,创建并运营华盛顿大学图灵中心。自2013年以来,他一直担任艾伦人工智能研究所(以下简称:AI2)的CEO。该机构研究数据挖掘、自然语言处理和语义网的问题。除此之外,他还是Madrona venture Group的风险合伙人。商业内幕人士称他为“你从未听说过的最成功的企业家”。
以下为Oren Etzioni答问实录:
关于艾伦人工智能研究所和Aristo项目
【问】:请您先给我们介绍一些关于艾伦研究所,我很想了解下你们在网站上重点介绍的四个项目,它们都很有趣。
【Oren Etzioni】:艾伦人工智能研究所事实上是Paul Allen的创意。几十年来,他一直对人工智能有着强烈的兴趣,他在西雅图建立了多家科学研究所,这些研究所是仿照艾伦脑科学研究所建立的。自2003年以来,后者一直非常成功。艾伦人工智能研究所是在2013年成立的,是一家非营利组织,作为首席执行官,我感到非常荣幸。我们的使命是为公共利益服务,正如你提到的,我们有四个让我非常兴奋的项目。
我们的第一个项目是“Aristo项目”,这是关于建立一个计算机程序,它能够回答像我们问一个四年级学生那样的科学问题,现在我们也在研究八年级的科学。人们有时会问我,“天啊,你为什么要这么做?”你是想让10岁的孩子失业吗?答案当然是否定的。
我们真的想用这种科学测试题作为衡量我们在智力方面的表现的基准,对吧?我们看到像AlphaGo这样的计算机程序获得了巨大成功,在围棋比赛中击败了世界冠军。我们会说,“嗯,这是怎么转化成语言的——尤其是理解语言,以及理解图表、理解科学?”
回答这个问题的一种方法是,用“让我们问机器和人类同样的问题”来达到一个公平的竞争环境。所以我们从这些科学测试开始,我们可以看到,事实上人类做得更好。矛盾的是,对人来说相对容易的事情,对机器来说真的很难;对人来说很难的事情,对机器来说其实相对容易些,比如参加围棋世界锦标赛。
【问】:等一下,我想花点时间仔细分析一下。我已经注意到,任何时候一个聊天机器人选择参加图灵测试,我问同样的问题,它们没有一个能正确回答问题。这是一个四岁的孩子能回答的问题,也就是“五美分大还是太阳更大?”那么,为什么这是一个难题呢?你正在做的事情会影响你能不能回答这个问题吗?你为什么要从四年级学生开始,而不是四岁的孩子,例如提问一些最基本的问题?所以第一部分是:你正在做的事情是否会影响你能否回答这个问题?
【Oren Etzioni】:当然,我们的目标是给它提供背景知识和理解能力来回答这些类型的问题,这些问题结合了基础知识、基本的推理、以及对语言的足够理解,当你说“五美分”时,你指的不是金属,而是一种特定的硬币,有特定的尺寸,等等。
这台机器感觉如此难回答的原因是它是所谓的“常识”知识的一部分,对吧?当然,如果你编程的话,这台机器可以回答这个特别问题,但这是你还有其他数十亿个相似的问题,比如关于相对大小,关于动物行为等等。
确实有非常多甚至可以说是无穷无尽的基本问题是机器无法回答的。他们之所以纠结于这些问题,是因为他们回答这些问题的依据是什么?他们如何获得所有这些知识?
例如说,“天啊,我们为什么不考虑一个四岁的孩子,或者一个一岁的孩子呢?”我真的考虑过了。因此,在大学里,我们调查了一个夏天,试图跟上发展,说:“让我们从六个月大的孩子或是一岁的孩子开始,等等。”
我尤其感兴趣的是语言。所以我说,天啊,我们当然可以造出一个可以称之为“爸爸”或“妈妈”的东西,对吧?然后我们就从这点开始工作。我们发现,即使是非常年幼的孩子,他们处理语言和理解周围世界的能力也与他们的身体密切相关。他们的目光,以及他们对人们面部表情的理解,最终的结果是我们无法建立一个一岁的孩子。
所以,有趣的是,一旦你达到了四年级学生的水平,阅读并回答有关科学问题的多项选择题,就会变得更容易,而且会更专注于语言和语义学,而不是长身体、能够爬行。当然,这也是具有挑战性的机器人问题。
所以,我们选择从更高的层次开始,例如先从金发开始,对吧?它更侧重于语言,而且有趣的是,比打造一岁或四岁的孩子要容易得多。而且,与此同时,也不像大学水平的生物学问题那么难,这些问题涉及非常复杂的语言和推理。
【问】:所以你的想法是,通过谈论学校的科学考试,你会发现有一套范围非常狭窄的词汇是你必须掌握的,一些范围非常狭窄的东西是你理解物体所必须掌握的,是这个想法吗?比如,人工智能在游戏中表现出色,因为这些游戏是有固定规则的有限世界。你是在尝试建立一个类似的东西吗?
【Oren Etzioni】:这是一种模拟。从这个意义上说,人工智能在完成小范围任务以及有限的领域方面已经表现得很不错了。与此同时,这可能不是真的。所以,从我的观点来看,如果在这些问题中,有非常大的多样性,不仅仅是表达方式的多样性,这些测试通常要求你能理解一些事情,比如重力或光合作用,然后把它应用到特定的情况下。
“如果我们把植物搬到离窗户更近的地方,会发生什么?”这意味着将多种基础科学知识与现实世界情况应用结合在一起,结果是非常多样性的。因此,回答四年级的科学问题比下围棋要难得多。
真的可以建立通用人工智能吗?
【问】:你是否相信我们正走在建立一种“通用人工智能”(AGI)?我们需要做的事情就是为了让他们的规模越来越大,越来越快,越来越好,那么这就是AGI吗?这是在正常路径上吗?或者AGI与你们正在做的事情是否相关?
【Oren Etzioni】:这是一个非常关键的问题。我想说的是,我们并没有走到建立通用人工智能的道路上。你可能认为,如果你建立了Aristo项目,然后你把它扩展到十二年级,掌握更复杂的词汇和更复杂的推理……“嘿,如果我们继续这么扩大规模,我们最终会得到通用人工智能,但我不这么认为。
我认为我们还需要解决很多相关问题,这是一个非常复杂情况的一部分。如果这是一条道路,那它是一条曲折的路。但实际上,我们在迭代。
人们经常会说,“哦,我把钥匙放在哪里了?”你有多少次重复你的脚步,打开那个抽屉,说:“哦,我忘了去看看袜子下面,”或者“我忘了看床底下了。”这是一个非常复杂、不确定的过程,与之相反的是,“哦,我要沿着这条路走下去,目标很明确,我只需要上坡跑5英里,我就能到达那里。”
我有一本关于人工智能的书即将在今年年底出版,在这本书中,我谈到了图灵测试。我介绍了,我能想到的向电脑提问的最难的问题,这样我就能检测出它是电脑还是人。以下是我这个问题的变体,那就是:
“史密斯医生正在他最喜欢的餐厅吃饭,他经常去那吃东西。他接到一个电话,一个紧急电话,他没付钱就跑了出去。“餐厅老板有可能会起诉他吗?”
所以,如果你仔细想想,你会知道他是个医生,他接到的电话可能是急诊,你应该推断出他经常在那里吃饭,他们知道他是谁,他们甚至可能知道他是医生。他们会起诉吗?所以,为了回答这个问题,你必须知道很多社交方面的事情。
那么,这和解决十二年级的科学问题是一样的吗?或者我提出的这个问题,是否需要AGI来回答?
我们学到的一件事是,无论何时你定义一项任务,例如回答一些涉及社会细微差别的问题,可能其中还有一些伦理和实际的考虑,这也是我们研究的一部分。你可以想象,随着时间的推移,Aristo项目将面对这些更微妙的问题的挑战。
但是,同样的是,我们已经非常擅长识别这些任务,建立训练集,建立模型,然后回答这些问题,这个程序可能会很好地回答这些问题,但在过马路时仍然很困难。仍然很难读一首诗或讲一个笑话。
因此,对AGI来说,关键是“G”,通用性非常难以捉摸。这是一件令人惊奇的事,因为我们谈论的四岁孩子问题很有普遍性,尽管她不一定是一个伟大的象棋选手或者伟大的围棋选手。这就是我们所了解到的。
随着人工智能技术的发展,我们不断了解人工智能最难以捉摸的一面。一开始,如果你读过60年代和70年代写的一些东西,人们对电脑程序是否能下国际象棋非常怀疑,因为大众认为非常聪明的人都是很好的棋手。
然而,到现在这个问题就解决了,人们开始谈论学习。他们说,“哦,天哪,但电脑程序是不会学习的。”随着我们变得越来越好,至少在某些学习类型上,现在强调的是通用性,对吧?我们如何建立一个通用的程序,考虑到我们所有的成功,不管是扑克还是象棋,或者是特定的问题,都是在非常狭隘的任务上获得吗?
关于AlphaGo是否有意识问题以及人工智能系统的脆弱性
【问】:我读到的一篇关于Aristo项目的文章说,“可以用一种指导哲学来解释这个项目的重点,即人工智能是建立一种关于事物如何运作的思维模式,并根据新知识来完善这种思维模式。”能跟大家解释一下吗?你说的是什么意思?
【Oren Etzioni】:关键是我们所做的很多事情都是利用了背景知识,即大量事实、词汇以及各种社会细微差别。
深度学习方法是AlphaGo获得成功的关键,但要记住的是,至少从任何经典的定义来看,这些程序都是非常缺乏知识的。如果你能和他们交谈,问他们:“你知道什么?”你会发现:虽然他们可能已经储存了大量信息,比如关于围棋的,但他们并不知道很多东西。
【问】:当然,这也涉及到意识的话题,我理解这在你的书中也提到了:我问AlphaGo,“嘿,你知道你赢了吗?”AlphaGo无法回答这个问题。这并不是因为它不懂自然语言,是因为它并没有意识。卡斯帕罗夫曾就“深蓝”说过这点。他说,“嗯,至少它不会幸灾乐祸。”至少它不知道它打败了我。最优秀的人才花了很长时间才打造出可以击败卡斯帕罗夫的东西。你认为这是那种可能扩散到其他很多东西上吗?Aristo在做一件与AlphaGo或国际象棋截然不同的事情吗?
【Oren Etzioni】:我确实认为我们可以从这段经历中总结点东西出来。但我认为普遍化并不总是人们所做的。所以我们可以概括的是,当我们有一个非常明确的所谓的“目标函数”或“绩效标准”时,基本上很清楚谁赢谁输。
我们有很多数据,作为计算机科学家,我们非常善于利用更快的计算机、更多的数据、更复杂的算法,最终解决问题。然而,在自然语言方面:如果你邀请我参加另一个播客的话,我想做得更好。我该怎么做呢?如果我变得更好的方法包括查看数百万个培训案例,你就不会做数以百万计的播客了。对吧?
你说的对,当事情变得更模糊,或者更不确定,或者更微妙的时候,当有更少的训练数据,这就需要有不同的办法。所有这些特点使得Aristo和其他一些项目非常不同于象棋或围棋,这些都是非常不同的事情。
【问】:那么,Aristo有何不同?说一个它能回答的问题和一个它不能回答的问题。或者这是一个令人信服的问题?你是怎么认为的?
【Oren Etzioni】:首先,我们要记录我们的分数。所以,我马上给你举个例子。虽然Aristo在四年级非图表多项选择题的正确率为80%,但是当我们看到我们所说的“非图表多重选择”,纯粹只有语言的问题,让机器解释图表是困难的。
不管你说任何问题,我们的准确率有80%。这非常棒,因为开始的时候我们的准确率接近20%,包括所有带图表的问题,还有所谓的“直接回答问题”,即你必须用一个短语或一个句子来回答它们,不能只在四个选项中做出选择,那时候我们的水平要低得多。
乐观的讲,我们已经取得了很大的进步。但悲观的一面是,我们在四年级的科学测试中,仍然得到了D。所以这是一个你如何看待它的问题。现在,当你问“我们能解决什么问题?”我们的网站AllenAI.org上上有一个演示。例如我点击“现场演示”,我会看到这样的问题:“水循环的主要能量来源是什么?”甚至,“下面的图表展示了一条食物链。”如果小麦植株死了,老鼠的数量会如何变化?所以,这些都是相当复杂的问题,对吧?
但这些问题并不长,而我们创造的AI仍在纠结的问题,这就是所谓的“脆弱性”。如果你选择任何一个我们能回答的问题,然后改变你问问题的方式,我们就会立刻失败。顺便说一句,这是许多人工智能系统的一个特点,“脆弱性”的概念,即一个非常小的差别,人类看了可能会说,“哦,这没什么不同”,但对机器有很大的不同。
【问】:的确如此。我一直在测试Amazon Alexa,我注意到,如果我说,“有多少个国家?”它给了我一个数字。如果我说,“世界上有多少个国家?”它给了我一个不同的数字。不管是哪个人都会把它们看成是同一个问题。这就是你所说的那种东西吗?
【Oren Etzioni】:这正是我要谈论的事情,这让人非常沮丧。例如,“Siri,你今晚怎么样?”或者,“你比Alexa好吗?”我说的是,就像你和酒店的管理人员之间那种对话,想在市中心找到一家不错的餐厅。所有这些在游戏中很容易解决的问题,在对话的语境中甚至都没有很好地表达出来。
我写了一篇文章,关于Alexa和Google Assistant对于一些事实性问题提供了不同的答案。
如果你问,“一年有多少秒?”他们会给你不同的答案。如果你说,“谁设计了美国国旗?”他们会给你不同的答案。如果详细分析一年有多少秒,你会认为这是一个目标,有对错之分。但是他们一个给了日历年的答案,一个给了太阳年的答案,这两者相差四分之一天。
而对于美国国旗的问题,如果你想想,一个人说Betsy Ross,另一个说的是设计50星国旗的人,即我们现在的国旗。最后,这两种情况都是提问者的错,因为问题本身是模糊的,对吧?所以,即使系统很好,但如果问题的措辞很糟糕,它仍然会搞砸,对吧?它仍然很脆弱。
换句话说,智力的一个方面是能够回答一些模糊的问题,并且能够自圆其说。但这些系统,即使它们的事实存储量是巨大的,甚至有一天,它们肯定会超过我们。但如果你说,“你为什么给我这个数字?”它会说,“嗯,我在这里找到了。”之后,我们会看到一个很大的查找表。它无法处理这种模糊,也无法以一种更有意义的方式解释自己。如果你把数字3放在那张表格上呢?你会问,“一年有多少秒?”这个程序会很高兴地说,“3秒”。你会说,“这真的合理吗?”它会说,“哦,我不能回答这个问题。”对吧?而一个人会说,“等一下。”一年不可能是3秒。这根本说不通啊!”对吧?所以,我们还有很长的路要走。
关于Euclid项目
【问】:我们还有三个项目要讨论,但你肯定对John Searle的中文房间问题很熟悉,我准备在这里也提出来:在一个房间里有一个人,他不懂中文,有人用中文向他提问,他有很多书可以查到,但他只是把这些书抄下来,然后把它们还回去。他不知道对方说的是霍乱还是咖啡豆,或者是什么。很显然,这就是类比电脑。那么电脑真的能理解任何东西吗?
【Oren Etzioni】:你知道,这个中文房间实验真的是思想哲学中最吸引人、最有趣的思想实验之一,有很多文章都是关于它的争论。简而言之,我认为它确实暴露了一些问题,当你深入了解这个中文房间和系统,你会说,“天啊,它看起来好像什么都不懂。”
当你把电脑拆开时,你会说:“天哪,它怎么能理解?”它只是一堆电路、电线和芯片。”这条推理的唯一问题是,如果你深入了解一个人的思维。换句话说,如果你分析他们的大脑,你会看到同样的东西。你可以看到神经元、离子电位、化学过程、神经递质和荷尔蒙。
当你在这个层面上看时,神经元当然也不能理解任何东西。我认为,在中文房间里,如果没有其他的播客,我认为这是一件很有趣的事情,但这有点误导人。理解是一种从复杂的技术系统中产生的东西。这种技术系统可以建立在神经元之上,也可以建立在电路和芯片之上。这是一种自然发生的现象。
【问】:那也会是另一个问题,因为我会问你,它是强自然还是弱自然?但是,正如我所说,我们还有三个项目要讨论。我们来谈谈Euclid。
【Oren Etzioni】:Euclid是Aristo的兄弟,在Euclid,我们研究的是SAT数学问题。Euclid的问题更简单,因为要回答这些纯粹的数学问题,你不需要所有这些背景知识。然而,你真的需要非常全面、全面地理解句子。所以,我会给你我最喜欢的例子。
这个问题是基于一个关于Ramanujan的故事,他是印度的数字理论家。他说,“能用两种不同方式表示的两个自然数立方之和的最小数是多少?”这个问题的答案是一个特定的数字。当然,听众可以在谷歌上搜索。但是要正确地回答这个问题,你必须要完整地解析这个冗长而复杂的句子,并理解“用两种不同方式表示的两个自然数立方之和”。
对于AI系统来说,这到底是什么意思呢?
Euclid项目要对句子和段落有一个完整的理解,这就是我们在SAT考试中所遇到的问题,不过Aristo也也经常遇到这些问题,当你在处理数学问题的时候,你就没有“似乎”了,你必须给出答案。