Q:那好,你从来不怀疑,那是什么时候开始,你所坚持的有了成果?
A:80年代,如果你建造的网络有很多隐藏层,你无法训练它们。Yann LeCun开发了卷积神经网络(CNN)只能训练相当简单的任务,比如实现机器读取手写,但是大部分深度网络,我们是不知道如何训练它们的。
2005年的时候,我研究出一种深层网络的无监督式训练方法,比如你输入像素值,然后能学习一组特征探测器(feature detectors),能够解释像素值为什么有这样的特征,然后你把这组特征探测器作为数据,你学习到另一组特征探测器,我们能解释这些特征探测器为什么有这些相关性。然后你继续一层一层的学习。有趣的是,你可以做数学计算并且证明,每一次你得到的层不一定具有比上次更好的数据模型,但是你在不断递进。
Q:我知道了,就是你在做观察,结果不是正确的,但是它们越来越接近正确。就比如,我对着观众来做一些概括,不是一下子就正确的,但是我会做的越来越好。大体上是这个意思吗?
A:大概是。
Q:2005年的时候,你在数学上取得了突破。什么时候开始你得到了正确的答案,你在运算什么样的数据,你在语音数据上迈出了自己的第一步突破。
A:这仅仅是大量的数据,非常简单的测量。大约同期,他们开始在研发GPU,研究神经网络的人大约在2007年使用GPU。我有一个非常优秀的学生利用GPU在航空遥感图像中寻找道路。他写了一些代码,然后被其他学生加以复用,在语音中识别音位,然后他们使用Pre-Training的想法,做完Pre-Training后,把标签贴在上面,使用反向传播。事实证明,基于Pre-Training你可得到好的深层网络,然后使用反向传播,得出的结果确实打败了当时语音识别的标准,起初,只是领先了非常小的一步。
Q:它打败了最好的商业可用语音识别,还是打败了语音识别的学术研究?
A:在一个相对小的叫做TIMIT的数据集上,表现略好于最优秀的学术研究,同时也好于IBM的成果。很快,人们意识到这个发展了30年的技术正在打败标准模型,只要再往前进一步就会发展得更好。
所以我的研究生们去了微软,IBM,Google,Google是最快转向生产语音识别器的。到2012年成果在Android展现了出现,从2009年提出发展了3年的时间,Android突然变得更加擅长语音识别。
Q:所以,你从四十年前萌生了这个技术概念,自从你发表文章也过去了20年,你终于领先于你的同行们,你当时是什么心情?
A:我有这个想法才30年。
Q:哈哈,是的,30年,这还是「新」点子。
A:它终于在一个真正的难题上达到了最先进的水平,这感觉真好。
Q:当你开始把它应用到其他问题上时,你意识到了它在语音识别上是有效的。
A:我来举几个例子吧。最早从事语音识别研究的人之一的George Dahl把深度学习应用到分子领域,你想要预测该分子是否会与某种物质结合成一种很好的药物。当时有一场比赛,他把我们为美国心脏协会设计的标准技术应用到预测药物的活动上,他们的胜利是一个标志,标志着深度学习可以得到普遍地应用。我有一个学生叫做Ilya Sutskever跟我说,Geoff你知道吗?深度学习要应用在图片识别中,李飞飞已经创建了正确的数据集,公开的竞争开始了,我们必须要做。所以我们基于Yann LeCun的理论研发了一项技术方法,我的一个学生叫做Alex Krizhevsky,他真的是一个魔法师,擅长编程CPU,我们得到的结果比2012年的标准计算机视觉要好得多。
Q:建模,化学,语音。这是它成功的三个领域。那它在哪些领域失败了?
A:失败只是暂时的。
Q:它在哪个领域失败过?(笑)
A:比如机器翻译,我想我们需要花很长的时间才能成功。比如,你有一串符号进来,又有一串符号出去,在这两者之间,你对一串符号进行操作,这是很合理的,这就是经典的AI。事实上,它并不是这样运行。符号串进来,你把它们变成你大脑中巨大的矢量(vectors),这些矢量相互作用,然后你把它们转换回来,而不是把符号串转换出去。如果你在2012年和我说,在接下来的5年时间里,要用相同的技术实现在多种语言之间进行翻译的效果,Recurrent Net(循环神经网络),但如果只是随机初始权重的随机梯度下降,我不相信事情会发生得比我们预料的要快得多。
Q:所以,最快的领域和最耗时的领域都有什么区别,比如像视觉处理,语音识别,是我们利用感官感知做的核心人类活动,这会是第一个要清除的障碍吗?
A:其他的事情比如运动控制,我们人类擅长运动控制,但是深度学习最终也会取胜。抽象推理,我认为是我们最后要学习的一件事。
「人类能做的事情,神经网络也能做」| Google I/O
Q:所以你一直说神经网络最终会赢得一切?
A:我们拥有自己的神经网络,对吗?人类能做的事情,神经网络也能做。
Q:人脑未必是有史以来最高效的计算机,有没有一种建模机器的方法比人脑的效率更高?
A:从哲学上来讲,我不反对可以用完全不同的方法来做这一切的观点。这种方法可能是,你从逻辑开始,你尝试自动化逻辑,做了一些很好的改进,你进行推理然后决定通过推理来进行视觉感知。这种方法有可能会成功,但结果却是没有成功。但我并不反对哲学上的胜利,只是我们知道大脑做不到。
Q:但也有一些事情是我们的大脑做不好的,这些事会不会神经网络也做不好?
A:很有可能。
Q:还有一个单独的问题,我们完全不知道这些东西是如何工作的,我们不明白自顶向下的神经网络。
A:可以看一下现在的机器视觉系统。大多数基本上是前馈的,它们不用反馈链接。目前的机器视觉系统还有一点就是,它们非常容易出现对抗性的例子。你可以稍稍改变几个像素,比如一张熊猫的照片,你看它是熊猫,但机器就突然说它是鸵鸟,但问题是你知道这是个熊猫。最开始我们以为这些机器没问题,然后出现了类似熊猫鸵鸟的问题以后,我们又开始有些担心。
我认为这部分问题在于,它们没有从高级的表征中重建,它们试图做有区别的学习,你只需要学习一层又一层的特征检测器,整个目标就是改变权重,这样你就能更好地得到正确的答案。他们并没有在每一层的特征检测器上做类似的事情,检查一下你是否可以从这些特征检测器的活动中重构底层的数据。
最近在多伦多,我们发现,或者尼克·弗罗斯特(Nick Frost)发现,如果你引入重建,它会帮助你更好地抵御连环攻击。所以我认为在人类的视角,我们在学习时会做重建重构,也因为我们通过重构进行了大量的学习,所以我们对对抗攻击更有抵抗力。
Q:我们来聊一个更大众的话题。现在神经网络就能解决各种各样的问题了,人类大脑中是否有任何奥秘是神经网络无法捕捉到的?
A:没有。
Q:没有?所以比如情感,爱,意识都能通过神经网络重构?
A:当然。一旦你弄明白了这些东西是什么。我们就是神经网络,不是吗?
另外,意识,我对这个很感兴趣。人们其实并不知道它是什么,人们对意识也有各种各样的解释,我觉得这是个未得到科学验证的术语。比方说一百年前,你问人们,生命是什么?他们会说,所有生物都有生命力,一旦死去,生命力就飘走了,这就是生与死的区别,就是你有没有这种生命力。
现在呢?现在我们不会说自己有什么生命力,我们会觉得这是个迷信的说法,现在我们懂了生物化学,懂了分子生物学,我们不需要生命力来解释生命了。我觉得意识也是这个道理。我觉得「意识」是用某种特殊的本质来尝试解释心理现象,而一旦我们用科学解释了意识,你就不需要这种「特殊的本质」了。
Nicholas Thompson, Geoffrey Hinton |极客公园前线记者
Q:说到研究人脑来改进电脑,我们其实是在研究什么?反过来会怎样?我们能不能从对电脑的研究中学到如何改进我们的大脑?
A:我认为我们在过去10年里学到的东西是,比如你采用一个包含数十亿个参数的系统,并且在一些目标函数中做随机梯度下降(Stochastic Gradient Descent),而目标函数可能会获得正确的标签,以填补他们在一串字符中的空白。任何旧的目标函数(都可以)。它的效果比你想象的要好得多。大多数传统人工智能的人和你一样,都会想,取一个有十亿个参数的系统,从随机值开始,测量目标函数的梯度,也就是每个参数的梯度,计算出如果你稍微改变这个参数目标函数会发生什么变化。然后在这个方向上改变它来改善目标函数。你可能会认为这是一种毫无希望的算法,他们会陷入困境,但事实证明这是一种非常好的算法,你把东西缩放得越大,它的效果就越好,这只是一个经验发现。有一些理论,但它在目前基本还是一个经验发现,因为我们已经发现,它使它更合理,大脑正在计算一些目标功能的梯度,并更新突触强度的权重,以遵循梯度。我们只需要算出它是如何得到梯度的以及目标函数是什么。