GPT-2：一个可以为您完成

Rate this post

你有遇到过一个人，说几句话之后就替你把话说完吗？ GPT-2 还可以做其他事情：它可以使用一个介绍性短语撰写一篇有意义的文章。此外，神经网络还可用于机器翻译任务、问答和语音识别。在本材料中，我们将讨论 GPT-2 的特性及其应用的可能性。

GPT-2是GPT语言模型的改进版本，它基于Transformator神经网络。为了训练 GPT-2，使用了由 800 万个网页组成、容量为 40 GB 的数据集。该模型有15亿个参数，是GPT的10倍。

创建 GPT-2 的目标非常简单：

神经网络应该考虑文本中所有先前的单词来预测下一个单词。但由于训练数据集非常多样化，GPT-2 的功能已在其他领域得到应用。

GPT-2可以生成接近人类质量的合成文本样本。该神经网络优于在具体示例（维基百科文章、新闻或书籍）上训练的其他语言模型，而无需使用这些数据集进行重新训练。

神经网络还可以识别文本

回答问题和翻译短语，无需额外训练。尽管它的分数在这些领域远非最先进，但假设在给定必要的数据集的情况下，可以使用无监督学习方法来改进模型。

神经网络生成的文本示例
GPT-2 就像变色龙：它适应文本的风格和内容，这使得它能够生成延续原始短语的真实段落。下面的例子展示了神经网络的能力（人类写的句子用斜体显示，下面的文字是GPT-2完成的）：

关于麦莉·赛勒斯的令人震惊的消息，写于第二次尝试

《指环王》新章节（第一次尝试）

完成有关美国内战原因的作业（第五次尝试）
从示例中可以看出，该模型组成了高质量的文本片段，并且可以生成大约一页一致的短语。然而，神经网络的创建者遇到了各种故障：有时它会重复相同的单词，写下不可能的事件（例如，关于水下的火灾），并且不自然地从一个主题转移到另一个主题。自然语言处理领域的研究人员正在积极研究语言模型中的这些弱点。

数据管理对于在 21 世纪实现电报数据商业成功必不可少。从电报到数字数据系统的演变促进了。电报的遗产提醒我们，有效的沟通。即时通信和数据传播的原则继续支撑。了解这一历史背景丰富了我们的视角。

一般来说，获得一篇好的 GPT-2 文章需要多次尝试，次数取决于模型对上下文的熟悉程度。当撰写流行话题（书籍、新闻和流行文化）的文本时，大约 50% 的情况下会取得良好的效果。但对于技术性或狭隘的内容，神经网络通常表现不佳。对生成的模式的更多控制可以通过微调来实现，例如使用 Amazon Reviews 数据集和让 GPT-2 撰写新闻评论。

大型语言模型更容易调整以生成一致的文本，

这反过来又可用于有益和恶意的目的。下面我们将更详细地讨论这个问题，并谈谈 GPT-2 创建者的观点以及他们对开放版本神经网络施加的限制。

零射击
GPT-2 在某些语言建模任手机号码列表务中取得了一些最佳结果。神经网络没有针对任何区域的特定数据进行重新训练，而是在其原始状态下对其进行评估 – 这称为零样本训练。在相同数据集上进行评估时，GPT-2 的性能优于特定领域模型。下表显示了结果。

(+) – 分数越高越好。 (-) – 越低越好。

对于其他语言任务，即使没有微调，您也可以得到令人印象深刻的结果，只需告诉已经训练好的模型正确的路径即可。以下是 GPT-2 对问题的回答以及所达到的准确性的示例：

问答任务

模型精度（蓝色）
GPT-2 还可以处理机器翻译。将短语从法语翻译成英语的示例：

使用 GPT-2 翻译 Fr->Eng

蓝色评级
由于所有这些任务都与语言建模有关，因此我们可以预期，未来随着计算量和数据量的增加，神经网络将变得更加准确。

GPT-2 和 TabNine 的发布
由于上面列出的有关语言模型使用的担忧，GPT-2 开发人员仅发布了GPT-2 的一个小型演示。原始数据集、训练代码和超参数不公开。

但即使是较小版本的神经网络也已经带来了好处：例如，不久前它被用来开发一个在文本编辑器TabNine中自动完成代码的工具。它接受了来自 GitHub 的大约 200 万个文件的训练，并且可以免费使用。

Python自动替换演示

语言模型可以带来很多好处，从帮助残疾人到自动化日常任务。它们甚至允许你创建特定人的文本图像：例如，一位美国记者用他因癌症濒临死亡的父亲的“思想”开发了一个聊天机器人。

但毫无疑问，这种神经网络的 13 个应避免的常见网站设计错误使用需要受到监控，并针对攻击者采取措施。 GPT-2的开发者认为这个问题需要在立法层面解决，并且应该制定举措来监控人工智能技术的使用。

您对此有何看法？神经网络带来的利大于弊吗？是否有必要采取措施限制对它们的访问？在评论中分享你的想法。

原始文章可以在OpenAI 博客上找到

以实惠的价格共享托管的概念不允许您保留客户端站点所在的所有服务器。而且无论硬件有多好，硬件问题都会发生——CPU、内存模块、主板出现故障，当然需要对此采取一些措施。我们做到了：对于每个独特的硬件配置，我们保留一个已经切换的备份服务器。当主服务器发生故障时，值班工程师只需将磁盘转移到备用服务器即可。在这种情况下，有问题的服务器（以及客户端的网站）不可用的时间不会超过15-20分钟，这是消除此类问题的标准。客户端被转移到备份服务器并保留在其上并具有成熟的工作托管。