OpenAI不应该发布他们的全语言模型

响应必威是正式注册的网上博彩公司。娱乐城为玩家提供全球最顶尖的betway必威棋牌,betway必威炸金花,betway必威牛牛电子游戏以及多元化网上娱乐.不计输赢,天天高返水2.0%,每日结算,奖金自动派发!

In a world where researchers and corporations emphasize their goals of "民主化人工智能“和”AI for everyone“几乎所有人都认为获得人工智能是一种固有的好处。然而,随着人工智能越来越强大,越来越重要的是,他们被用来优化有利于人类的目标。

Openai的新GPT-2语言模型通常可以生成长段的连贯文本;their choice not to make it open-source has inspired a fair amount of controversy.虽然之前提到的技术,如允许使用假媒体的photoshop,似乎是相关的,假媒体从未如此容易产生,我们也从未如此依赖于社交媒体作为真相的来源。如果你没有,I strongly recommend reading their initial post,Better Language Models and Their Implications.我认为OpenAI在这种情况下的选择是合理的:考虑到发布模型的影响和误用是人工智能研究取得进展的唯一可持续途径。

From the GPT-2 passage betway牛牛about English-speaking unicorns:
“我们可以看到,例如,that they have a common ‘language,' something like a dialect or dialectic."

GPT-2使用不当

GPT-2可能不会break the internet,但这可能会使它变得更糟。

草根营销

草根营销正在创造一种被广泛支持的假象(通常是在线的)。基本上作为人工基层的支持。

它是由包括埃克森美孚麦当劳Comcast,Walmart,还有几家游说公司.人工草皮是在2016年选举期间使用,用来制造假货支持联邦通信委员会选择拒绝网络中立性哪一个FCC later justified their choice with,and is used by外国政府偏离在线对话.今天发生这种情况还有其他途径:一些新闻机构允许本土广告,在公司发布什么的地方,实际上,advertisements,好像是新闻报道。

While the texts generated by GPT-2 have some internal consistency issues,尤其是较长的,然而,它带来了一个真正令人担忧的前景:有能力容易产生任意多个多样性,短,realistic,几乎检测不到的文本片段立即支持针对任何物品的任何问题(or,说真的?大字标题)任何想在互联网上创建支持外观的个人集合都可以做到这一点。虽然联邦通信委员会的大规模铺天盖地被放弃了,因为它选择使用几乎完全相同的格式来处理所有的假帖子,以支持结束网络中立性,而人类的草皮铺得既费时又昂贵,像GPT-2这样的模型可以让两人不费吹灰之力就结婚了。

杰里米·霍华德边缘报价fast.ai的联合创始人

我们拥有完全填满Twitter的技术,电子邮件,网络的声音听起来很合理,上下文适当的散文,它会淹没所有其他的语言,无法过滤。

注意这不是关于垃圾邮件,betway牛牛但是关于betway牛牛塑造对话和创造不存在的共识的外观。The capacity to perform AI-powered astroturfing is not something we've dealt with before,而且,随着语言模型的改进,它只会变得更加难以检测。I'll note that Google's reCAPTCHA has shifted towards more基于身份/活动的反垃圾邮件验证,which should,至少是暂时的,帮助对付这些攻击。

我敢肯定,任何人认为“铺草皮”是“虚假草根支持”的说法,都为自己感到骄傲。

假新闻

与植草运动密切相关,as tabloid-style journalism has been given a breath of fresh air by social media,roughly23%的美国人承认分享了假新闻.虽然希望这可以通过提高认识和技术对策加以抵消,假新闻继续改善。GPT-2可能无法产生令人信服的内部一致的假消息,但假新闻已经不需要在内部保持一致或令人信服了。It just needed to roughly reiterate what the headline said (and fake-news headline generation has long been solved).监护人已经发布了一些尤其是令人担忧的脱欧案例,显示模型生成关于其效果的真实文本的容易程度。betway牛牛


GPT-2不是不是a Big Deal

OpenAI的全语言模型,while not a massive leap algorithmically,是对文本中长期关系建模的实质性(计算和数据驱动)改进,and consequently,长格式语言生成。

困惑

There's a recurring trope betway牛牛about the new OpenAI model that comes up in a lot of online discussion of the new paper:这与最先进的技术,甚至是OpenAI以前发布的算法没有多大的区别。.我不认为进步的确切程度对我的论点至关重要,但我认为这是一个重要的回应点,因为它经常被用来在不经意间忽略这段对话。This new model corresponds to a step forward over state-of-the-art (SotA) in performance on several datasets,尤其是那些评估文本中长期关系的。The LAMBADA and WikiText datasets are the two measurements of this long-range structure which I'll focus on here.

lambada数据集测量在长文本中预测下一个单词的能力。有一个很大的讨论来自于朱等人的兰巴达数据集的挑战。艾尔作为阅读理解的广义语境语言模型.基本上,这太难了,所有现有的方法都表现得很差。下面是一个示例问题:

LAMBADA实例

兰帕达数据集:需要广泛话语背景的单词预测

For context,一个有用的衡量生成能力的方法是困惑(分布距离)。这不仅奖励准确的猜测,but prioritizes confident accurate guesses.人类管理大约1-2的困惑on LAMBADA,越低越好,while OpenAI claims that previous the SotA solution perform over an order of magnitude worse at 99.然而,GPT-2得8.6分,这是迄今为止最接近的自然语言算法来预测长形式的话语。

在许多对话中丢失的一点是,对该模型的大多数最初的NLP批评并不是它是一个微小的改进:它是一个算法上类似于已发布的现有模型,据说,这种改进很大程度上来自于额外的数据和计算能力。这是一个公平的批评,但是,认识到模型在算法上可能与给定更多资源时存在的模型相似,这是有价值的。如下图所示,他们的方法比最先进的方法有几个改进(我将在后面再谈一点兰巴达)。betway牛牛然而,现有的变压器XL(在许多方面类似于GPT-2)在一些问题上也很难理解。While there is no data on Transformer-XL's perplexity performance on LAMBADA,这个Universal Transformer model只有136分,比2016年的报纸差。

提高百分比

为了进行比较,the WikiText-103 dataset includes high-quality Wikipedia articles and,像LAMBADA一样,is used to evaluate how well language models understand long-range dependencies in language.It's also said to be容易得多比LAMBADA。变压器XL的调谐版本,专门训练大规模的wikitext-103语料库,赢得了前索塔困惑of 18.3.没有任何针对wikitext的调整或培训,GPT-2 earned 17.48.openai将其描述为零镜头学习,尽管2-9%的维基文本数据与它们的数据重叠,这是意料之中的。然而,getting a generalist model to outperform a task-specific model is always impressive and challenging,这一困难就显现出来了。作为参数数量的函数,GPT-2 is much more computationally taxing than its smaller versions,即使是最小的OpenAI语言模型也有1.17亿个参数,当变压器“XL”达到1.51亿,如图所示,困惑与参数计数。

困惑型参数

以前的长格式文本生成方法

这是Facebook人工智能的另一个例子Hierarchical Neural Story Generationfrom last year:

Facebook的分层神经故事生成

注意这段文字,虽然仍然令人印象深刻,更短、更重复,提示更简单、更统一。即使在这篇短文中,存在内部一致性问题:例如,科学家们认为他们发现了病毒吗?一种化学物质,一些未知的化学物质,还是怪物?我将包括更多长格式文本生成的示例,but remarkably few papers have released them.What I will note is that even on easier long-form text generation challenges,低于40分是挑战性和罕见性.

简而言之,来自NLP社区的许多批评并不是说该模型的性能不好:在长格式文本生成方面,它确实比现有的模型好得不可忽视。然而,人们常说这不是算法上的新颖。也就是说,大部分的改进来自于他们所投入的大量数据和计算能力,这些数据和计算能力与已经存在的数据和计算能力没有太大的不同。有人可能会问,如果大部分改进来自于用于此模型的额外资源,is it even worth publishing with only the smaller model?我的回答是明确的,是的:看看目前到底有什么可能是有价值的,既然这个模型看起来不太稳定,可能会有更多的改进。

事实是,不管OpenAI是否发布模型,这不太可能持续下去。这个模型的实现可能会在几个月内上线。如果不是为了某个集体的信息去不顾openai,那么也许是因为一些外国势力认识到了互联网上进一步恶化的通信的价值。


我们如何适应?

其中一个论点是,essentially,如果你不能阻止洪水,你应该弄清楚如何在水下生活。也就是说,当人们知道存在威胁时,他们能更好地处理这件事。

While the public in general has become wary of photos as evidence online because of Photoshop,并且由于视频编辑越来越容易,并且产生了大量的伪造品,越来越谨慎地将在线视频作为文档,有几件事使情况有所不同。First,照片和视频不是,也从来不是我们互相交流的主要手段:书面和口头语言是,and likely always will be,几乎所有人类交流世界信息的基础。betway牛牛虽然像Instagram和YouTube这样的网站很受欢迎,when they're used in an informational context,the images are usually used to reinforce rather than to prove the underlying spoken or written content.Associal media tends towards reliance on individual trust in verifying information对新闻界的信任(以及总体上)在美国的衰退,社会媒体上的思想交流已经处于低谷。

我们得问问自己,在这种情况下,“学会在水下生活”到底意味着什么?如果产生现实但完全是假的通信网络不再昂贵,需要大规模的努力,我们与在线交流的关系将发生巨大变化。似乎互联网的一些特征中至少有一个可能会消失,其中任何一个功能的丢失看起来都不吸引人。如果我们假设最终或目前有可能产生与人类文本不可区分的短文本,似乎有必要推动技术能力的极限,或者确保文本实际上是人类的。

City under the sea.

取消匿名

一种解决方案似乎是取消匿名。这有几个问题。First,while a large number of people use sites like Twitter or Facebook to keep track of the thoughts of particular users,在Twitter上,粗略地说0.1%它的用户被验证。这意味着,除了朋友直接邀请某人跟踪他们的帐户之外,几乎不能保证接下来的任何描述都是人类而不是机器人。验证每个用户似乎是删除匿名的唯一有效方法,因为这些网站上的许多对话(当然是公开的)发生在不同人群之间,而不是每个人都认识其他人。对于人们发布的内容通常与他们的在线身份没有明确关联的网站来说,情况更是如此。这些网站包括Reddit,哪一个接收与Twitter类似的流量,如果发布一个完整的生成文本模型,基本上会充斥着虚假但现实的偏颇的帖子。一个中间解决方案经过验证,但匿名帐户,这似乎是一个可能的结果。这是人的弱点卖掉他们的账户而且通常更难生长,但它创造了一些稳定性。This approach also becomes more tricky as语言风格转换改进,你可以付钱让别人发表一些看起来是他们写的东西。

Trust

Alternatively,我们可以依靠人们对他们在网上信任的人保持谨慎,building a tight web of people they trust,每个人都相信他们信任的人也遵循同样的策略。我对这个解决方案持怀疑态度。First,它基本上使回声室正式化。第二,信任是不可传递的,所以你不一定信任你信任的人。Also,it's pretty fundamentally incompatible with the idea with a forum,所以这只在一个小的对话层面上有效。当论坛上的大多数帐户都是bot帐户,并且它们的评论与正常评论不可区分时,您不能仅仅忽略bot帐户。

复杂性

另一个(暂时的)解决方案乍一看似乎可行,只是增加了我们在网上写东西的长度和复杂性。openai的方法无法产生完美和令人信服的长条形作品,但人们也不希望每次评论某件事时都写一篇文章。也许这种解决方案是不可避免的,though,某种逆向推特,如果不是字符最大值,而是字符最小值。这似乎不太可能发展,除非这已经是一个猖獗的问题,也不清楚修复的永久性,因为有了更多的数据和一些调整,OpenAI风格的模型也可以克服这些挑战,这是合理的。

A visualization of why the increasing complexity approach probably won't work for long.

告诫

合法行动者

我认为OpenAI模型有合法的研究用途,将其分配给一些非营利机构可能是有意义的,根据具体和明确的研究目标合同,为了人工智能研究的安全发展。从photoshop的比较中可以得出一点,也就是说,对一项技术及其功能的认识对于对抗这项技术仍然至关重要。

Illegitimate Actors

还有一秒,worrying issue: some of the actors which I've discussed which can get the most value out of a model like this are exactly the ones that would be able to replicate the results of the model in the first place.大公司和政府可以很容易地为自己版本的开源模式提供资金,可能特别适合他们的任务。这是,对我来说,关于公司在线使用和分发生成模型的严格和明确的政策指导方针的有力论据(尽管,of course,对于非美国公司来说,执行变得具有挑战性,需要一定程度的国际合作)。OpenAI选择不开放源代码模式,这给了立法者一些回应的机会。


自由开放的研究

据Nick Cammarata说,Interpretability at OpenAI:

关于是否发布GPT-2和未来的语言模型,内部和外部都进行了大量的讨论。betway牛牛在我的经验中,我已经看到那些以预发布直觉开始的人在更加深思熟虑地考虑利益和安全问题之后,倾向于软化他们的观点。就个人而言,当我想到那些本可以用GPT-2构建出色的新应用程序或初创公betway牛牛司作为理解现在无法理解的语言的基础的修补工时,我感到很难过。虽然总体而言,我认为到目前为止我们处理事情的方式是负责任的。正如我们在帖子中提到的,这是一个负责任的发布的实验,and we encourage the field to think more betway牛牛about release strategies and potentially find ways to capture this upside without compromising safety.

作为一个一直在“发布直觉”阵营的人,我发现最近的这个案子是一个有用的挑战。This raise an important question: what does this mean for AI research in general?在可行的情况下,在AI研究中,不断考虑工作的道德后果至关重要,尤其是在当今这个领域最大的参与者的计算规模上。虽然基本上不可能量化我们与可合理量化为一般人工智能的事物之间的距离,已经存在的技术可以以危险的方式使用,该领域的每个人都有责任尽其所能防止技术的滥用。

虽然机器学习研究的一个吸引力是测试和发布新方法的容易性,也可能是时候要求由经常被误解institutional review boards,which are currently primarily intended to protect the subjects of research.这种误用可能是有意或无意的,and part of solving it is emphasizing the role of these ethical questions when mentoring new up-and-coming AI researchers as the field is "democratized."

如果人工智能是新的电力,让我们先了解一下我们在做什么,然后再把自己吓得喘不过气来。

立法需要炒作

这是一个重要的元方面:选择限制道德边界的人工智能研究,这是不公开提供给全体公众的鼓励我们进行这些对话,并质疑直觉,这些直觉已经加强了我们大多数人对机器学习足够好奇,以参与研究。betway牛牛重要的是,我们要就较低后果的例子进行这些对话,以建立对较难的例子的期望和指导方针。I would probably be on the "we should delay it x months" boat if I believed there was a length of time in which the implications of a study would be addressed in law and in the AI community.然而,简单地说“在更好的法律出台之前我们不会发布这个”听起来像是一种威胁,所以仅仅说你根本不发布这个模型就更可悲了。The crux of my point is that this is a好的玩具实例对它的发布有真正的影响,虽然我们不是在谈论天网,betway牛牛we shouldn't wait until we reach that point to start asking these questions.

最终,我认为我们不能指望这个领域完全自我调节。如果某件事有利可图而且合法,即使不道德,有些组织最终会这么做。积极主动的法律是必须的,这个案例强化了这一点。First,without clear multinational agreements to restrict the ways in which AI technology can be used by corporations and governments to affect the public,选择出版可能造成大规模社会损害的模型是不道德的。第二,当公司疏忽或恶意释放或使用人工智能并造成损害时,我们需要正式确定问责制结构,most of which I suspect are already implicit in existing laws.第三,我们需要讨论跨国科技公司与人工智能研究之间日益密切的关系,and ask whether a distinction should exist between the models which they are allowed to develop for the purpose of research and for commercial purposes.这些协议和结构究竟是什么,比标准程序的协议或某种明确的语言的存在更不重要。

考虑到这些考虑和这些法律框架,it should create an environment for safer collaboration and research.对我来说,OpenAI选择不发布这个模型已经完成了一些非常有价值的事情,并明确了为什么需要进行“负责任的发布实验”。它迫使我们面对重要的伦理和意识形态问题,不再是抽象的上下文,但影响是有限的。

亲爱的Openai:感谢您帮助我们开始这段对话。


特别感谢Andrey Kurenkov,Hugh Zhang,Nancy Xu,Alex Li的反馈,suggestions,和洞察力。

封面图像源.独角兽照片Nicole Honeywill.草照片桑德罗舒赫.海底城市分形最大像素.Lightbulb photo by亚历山德鲁古曼.


埃里克·泽利克曼是斯坦福大学的一名学生,他的研究重点是语义表征和生物可行性学习。在工业上,他主要从事小说设计,高效的人工智能架构和架构不可知论的解释方法。Hear him vent betway牛牛about AI on推特!


如果你喜欢这首歌,想听到更多,betway牛牛 到梯度,然后跟必威棋牌betway棋牌着我们推特.