秋无痕淘宝天猫优惠券网	秋无痕常用软件全功能装机光盘 2023年金秋版	秋无痕一键优化Windows 10专版	秋无痕一键优化Windows 11专版
秋无痕论坛官方QQ群	获取无痕币和提高等级

主题 : 谷歌BERT模型狂破11项纪录，全面超越人类

使用道具 | 复制链接 | 浏览器收藏 | 打印

加为好友

hexj9

千山同一月万户尽皆春千江有水千江月万里无云万里天

级别: 总版主

作者资料发送短消息

UID: 998
精华: 0
发帖: 605038
威望: 529443 点
无痕币: 22 WHB
贡献值: 0 点
在线时间: 62349(时)
注册时间: 2008-12-25
最后登录: 2024-05-06

0 发表于: 2018-10-14 10:55｜请将IE368导航设置为首页，支持论坛

全看 | 小中大

0 谷歌BERT模型狂破11项纪录，全面超越人类

来源：新智元（AI_era）
（来源：arXiv、知乎；编辑：新智元编辑部）
今天，NLP（自然语言处理）领域取得最重大突破！谷歌AI团队新发布的BERT模型，在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：全部两个衡量指标上全面超越人类，并且还在11种不同NLP测试中创出最佳成绩。毋庸置疑，BERT模型开启了NLP的新时代！

今天请记住BERT模型这个名字。
谷歌AI团队新发布的BERT模型，在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：全部两个衡量指标上全面超越人类！并且还在11种不同NLP测试中创出最佳成绩，包括将GLUE基准推至80.4%（绝对改进7.6%），MultiNLI准确度达到86.7%（绝对改进率5.6%）等。

谷歌团队的Thang Luong直接定义：BERT模型开启了NLP的新时代！

本文从论文解读、BERT模型的成绩以及业界的评价三方面做介绍。
硬核阅读：认识BERT的新语言表示模型
首先来看下谷歌AI团队做的这篇论文。

论文地址：
https://arxiv.org/abs/1810.04805
BERT的新语言表示模型，它代表Transformer的双向编码器表示。与最近的其他语言表示模型不同，BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此，预训练的BERT表示可以通过一个额外的输出层进行微调，适用于广泛任务的最先进模型的构建，比如问答任务和语言推理，无需针对具体任务做大幅架构修改。
论文作者认为现有的技术严重制约了预训练表示的能力。其主要局限在于标准语言模型是单向的，这使得在模型的预训练中可以使用的架构类型很有限。
在论文中，作者通过提出BERT：即Transformer的双向编码表示来改进基于架构微调的方法。
BERT提出一种新的预训练目标：遮蔽语言模型（masked language model，MLM），来克服上文提到的单向性局限。MLM的灵感来自Cloze任务（Taylor, 1953）。MLM随机遮蔽模型输入中的一些token，目标在于仅基于遮蔽词的语境来预测其原始词汇id。
与从左到右的语言模型预训练不同，MLM目标允许表征融合左右两侧的语境，从而预训练一个深度双向Transformer。除了遮蔽语言模型之外，本文作者还引入了一个“下一句预测”（next sentence prediction）任务，可以和MLM共同预训练文本对的表示。
论文的核心：详解BERT模型架构
本节介绍BERT模型架构和具体实现，并介绍预训练任务，这是这篇论文的核心创新。
模型架构
BERT的模型架构是基于Vaswani et al. (2017)中描述的原始实现multi-layer bidirectional Transformer编码器，并在tensor2tensor库中发布。由于Transformer的使用最近变得无处不在，论文中的实现与原始实现完全相同，因此这里将省略对模型结构的详细描述。
在这项工作中，论文将层数（即Transformer blocks）表示为L，将隐藏大小表示为H，将self-attention heads的数量表示为A。在所有情况下，将feed-forward/filter的大小设置为4H，即H = 768时为3072，H = 1024时为4096。论文主要报告了两种模型大小的结果：
为了进行比较，论文选择，它与OpenAI GPT具有相同的模型大小。然而，重要的是，BERT Transformer使用双向self-attention，而GPT Transformer使用受限制的self-attention，其中每个token只能处理其左侧的上下文。研究团队注意到，在文献中，双向Transformer通常被称为“Transformer encoder”，而左侧上下文被称为“Transformer decoder”，因为它可以用于文本生成。BERT，OpenAI GPT和ELMo之间的比较如图1所示。

图1：预训练模型架构的差异。BERT使用双向Transformer。OpenAI GPT使用从左到右的Transformer。ELMo使用经过独立训练的从左到右和从右到左LSTM的串联来生成下游任务的特征。三个模型中，只有BERT表示在所有层中共同依赖于左右上下文。
输入表示（input representation）
论文的输入表示（input representation）能够在一个token序列中明确地表示单个文本句子或一对文本句子（例如，[Question, Answer]）。对于给定token，其输入表示通过对相应的token、segment和position embeddings进行求和来构造。图2是输入表示的直观表示：