人工智能领域缺钱,但这两个月来,他们不缺「好消息」。
Google 母公司 Alphabet 旗下的 DeepMind,先推出了蛋白质结构预测 AI——AlphaFold 2,为困扰了生化学界 50 年的难题提供了解决思路;接着又发论文介绍「进阶版 AlphaGo」——MuZero,这个 AI 能在完全不知道棋局规则和人类知识的情况下,自己摸索,决策,并赢棋。
2021 年的第一周还没过去,AI 就再次向人类发起了「挑衅」。
AI 研究机构 OpenAI,继去年部分开放了 AI 模型 GPT-3 并引爆整个科技圈之后,又于近期连发了 DALL·E 和 CLIP 这两个连接文本与图像的神经网络。
它们刚一面世,就点燃了整个 AI 社区。因为人们发现有了这些神经网络,就能通过自然语言操纵视觉概念,比如,你输入「一把牛油果造型的扶手椅」,它们就能通过图像合成,「凭空捏造」出一系列的目标图像。
什么是人工智能的未来?《麻省理工科技评论》认为就是「那把牛油果造型的扶手椅」,因为 AI 又往「构建多模态 AI 系统」这个长期目标又迈近了一大步。
「干掉」程序员后,AI 又对艺术家下手了 DALL·E 率先在社交网络上刷起了屏,因为人们放出了很多看起来像凭空捏造的合成图,比如「立方体状的豪猪」、「由乌龟变成的长颈鹿」和「竖琴状的蜗牛」,这些就像是超现实主义画家萨尔瓦多 · 达利在梦里会看到的奇异造物。有意思的是,DALL·E 也正是「Dalí」和皮克斯动画形象「WALL-E」的合成词。
竖琴状的蜗牛
DALL·E 是 OpenAI 基于 GPT-3 开发的一种「用字生图」的 AI。GPT-3 本质上是一个自然语言处理(NLP)模型,机器就是依靠 NLP 理解了我们平时说的「人话」。在 1750 亿参数量基础上的 GPT-3,展现出了惊人的翻译、问答和文本填空能力,写出来的新闻甚至通过了图灵测试,人们分辨不出是人还是机器写的。
GPT-3 可扩展性非常强大,甚至可以用在无代码开发领域。无代码就是就是不用敲代码也可以直接生成程序,而 GPT-3 就是强大的无代码开发平台,只要对它输入你想要什么样的网页或者 app,它就能帮你直接生成。因此,业内认为基层码农将会被 AI「干掉」。
而 DALL·E 是 GPT-3 的一个小版本,使用了 120 亿个参数。它使用的是「文本 - 图像对」的数据集,而非像 GPT-3 那样广泛的数据集。「从原理上来看,它应该就是 GPT-3 在文本合成图像方向上的扩展版本。」Keras 创始人 François Chollet 表示。
DALL·E 可以利用自然语言从文字说明中「捏造」图像,就像 GPT-3 创建网站和写故事一样。DALL·E 生成复杂图像的表现,让人惊喜,比如下面这则包含多个要素的目标文本:「一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬」。
要正确地解释这句话,DALL·E 不仅要正确地将每件衣服与动物组合在一起,还要将(帽子、红色)、(手套、黄色)、(衬衫、蓝色)和(裤子,绿色)形成各种联想,而且还不能混淆它们。
因为足够强大的 NLP 底层,DALL·E 还能执行多种图像到图像的翻译任务,比如「参照上面的猫在下面生成草图」、「画出和上面一样的茶壶,并在茶壶上写上『GPT』」等等。除此之外,DALL·E 也能理解地理事实,生成让人信服的「中国食物的图片」,它甚至也能理解「时间」,画出从 20 年代起发明的电话,甚至联想未来的手机。
▲中国食物
▲各个年代的手机