NLP的泛化问题,以及研究人员如何解决这一问题

泛化是NLP中一个正在激烈讨论和研究的课题。

新闻媒体最近报道说,在阅读文档并回答相关问题betway牛牛,在确定给定语句是否语义上包含另一个给定语句,及AT翻译.如果机器能够完成所有这些任务,这似乎是合理的结论,他们必须具备真正的语言理解和推理能力。

然而,这根本不是真的。许多最近的研究表明,最先进的系统是,事实上,二者都易碎的伪造的.

最先进的NLP模型是易碎的

修改文本时失败,即使它的意义得以保留:

来自贾亮。在阅读理解的语境中,“准确性”的确切含义见脚注2。
来自贝林科夫和比斯克。Bleu是比较文本的候选翻译和一个或多个参考翻译的常用分数。
来自Iyer和合作者。

最先进的NLP模型是伪造的

他们经常记忆人工制品和偏见,而不是真正的学习:

来自Gururangan等人本文的海报展示中有一些例子。
  • 穆萨维和斯特鲁贝〔10〕表明深井〔11〕共指消解模型〔12〕总是把专有名词或普通名词与头联系起来。国家在培训数据中看到的国家。因此,该模型在关于培训数据中未提及的国家的文本上表现不佳。betway牛牛与此同时,利维和合作者〔13〕研究了识别两个词之间词汇推理关系的模型,比如说超名〔14〕.他们表明,与其学习单词之间关系的特征,这些模型学习了只有一个字在这一对中:这个词是否是一个“典型的超同名词”,如动物.
左:来自穆萨维和斯特鲁贝。对:来自利维和合作者。
来自Agrawal等人

改进最先进NLP模型的研讨会

因此,尽管基准数据集性能良好,现代NLP技术远不及人类的技术。在理解和推理语言时,要理解新的自然语言输入。这些见解促使约纳坦比斯克〔18〕欧米尔征〔19〕马克亚茨卡〔20〕组织一个全国有色人种协进会 车间讨论一般化,机器学习的核心挑战。讲习班专门讨论两个问题:

  1. 我们如何充分衡量我们的系统在新产品上的性能,以前未看到的输入?或者换句话说,我们如何充分衡量我们的系统概括得有多好?

  2. 我们应该如何修改我们的模型,以便更好地概括它们?

这些问题很难解决,一天的研讨会显然不足以解决这些问题。然而,在这次研讨会上,全国人民党的一些聪明人概述了许多方法和想法,它们值得注意。特别地,讨论可以概括为三个主要主题:使用更多感应偏差(但巧妙地)致力于将NLP模型嵌入常识,和合作未公开分发和未公开任务.


方向1:更多的归纳偏见(但聪明地)

是否感应偏差-用于从输入到输出学习映射函数的假设集应该减少或增加。

例如,就在去年扬·莱肯和克里斯托弗·曼宁之间的辩论在什么样的先天先验上,我们应该构建深入学习架构。曼宁〔21〕认为结构偏差是必要的从较少的数据和高阶推理中学习。相反地,勒肯〔22〕将结构描述为“必要的邪恶”这迫使我们做出某些可能会受到限制的假设。

Lecun的立场(减少归纳偏见)的一个令人信服的论据是,使用面向语言的偏见的现代模型并不能为许多基准任务带来最佳性能。仍然,全国人民党广泛支持曼宁的观点;在神经体系结构中引入语言结构是2017年acl的显著趋势.由于这种诱导结构在实践中似乎无法按预期工作,可以得出的结论是,一个很好的工作必须探索整合归纳偏见的新形式,或在Manning的话

我们应该有更多的归纳偏见。我们对如何增加归纳偏见一无所知,betway牛牛所以我们做数据集扩充[和]创建伪训练数据来编码这些偏差。似乎是一种奇怪的做事方式。betway牛牛

这是一个问题叶金财〔23〕已经解决了自然语言生成〔24〕.她展示了一个由一个普通人语言模型-一种带波束搜索译码器的门控RNN-训练以最大化下一个令牌的概率。

自然语言输入:

总而言之,我强烈推荐这家酒店给任何想成为活动中心的人。

以及不自然的输出,这是重复的,矛盾的,平淡:

总而言之,我强烈推荐这家酒店给任何想成为活动中心的人,想成为行动的核心。如果你想成为行动的核心,这不是你的地方。然而,如果你想在行动中,这就是要去的地方。

在她看来,当前的语言模型正在生成非自然语言,因为它们是:

  1. 被动学习者.尽管它们读取输入并生成输出,与人类学习者不同的是,他们不考虑根据适当的语言标准(如相关性)产生的内容,风格,重复和限定。或者换句话说,他们不“练习”写作.

  2. 表面学习者.它们没有捕捉到事实之间的高阶关系,实体,事件或活动,这对于人类来说是语言理解的关键线索。他们不了解我们的世界betway牛牛.

如果我们鼓励语言模型学习诸如关联,风格,重复,蕴涵以数据驱动的方式使用特定的损失函数〔25〕.这比依赖于明确的使用的输出自然语言理解(NLU)工具〔26〕,因为NLU传统上只处理自然语言,因此无法理解可能不自然的机器语言,比如重复性,矛盾的,上面例子中平淡无奇的文字。因为NLU不懂机器语言,将NLU工具应用到生成的文本中,教NLG理解生成的文本为什么不自然,并根据这种理解采取行动,这是毫无意义的。综上所述,而不是开发新的神经架构来引入结构偏差,我们应该改进数据驱动的优化方法来学习这些偏差。

NLG并不是我们寻求更好地优化学习者的唯一NLP任务。在机器翻译中,优化过程中的一个严重问题是,我们正在用交叉熵或预期句子级bleu等损失函数训练机器翻译模型。这已经被证明是有偏见的,与人类的判断没有充分的关联。〔27〕.只要我们使用这种简单的度量来训练我们的模型,在预测和人类对文本的判断之间可能存在不匹配。因为目标复杂,强化学习似乎是NLP的完美选择,因为它允许模型在模拟试错环境。

王和合作者〔28〕提出了这样一种培训方法视觉讲故事〔29〕(描述图像或视频的内容)。第一,他们研究了已经提出的利用强化学习直接在不可微度量上训练图像字幕系统的训练方法。〔30〕流星布鲁苹果汁在测试时使用。王和合作者指出,如果用流星分数作为奖励来加强政策,流星评分显著提高,但其他评分受到严重伤害。他们展示了一个流星平均得分高达40.2分的例子:

我们玩得很开心。他们将是一个。他们将在。它应该是。这个,它应该是。

相反地,当使用其他指标(布鲁或苹果酒)评估故事时,恰恰相反:许多相关且连贯的故事得分很低(几乎为零)。机器正在模拟指标。

因此,作者提出了一种新的培训方法,旨在从人类注释的故事和抽样预测中获得类似人类的奖励。仍然,深度强化学习是易碎的并且比有监督的深度学习具有更高的样本复杂性。一个真正的解决方案可能在循环中的人在学习过程中涉及人类的机器学习算法。


方向2:常识

虽然“常识”在人类中很常见,教机器很难。为什么像谈话这样的任务,回复电子邮件,还是很难总结文档?

这些任务缺乏输入和输出之间的1-1映射,需要抽象,认知,推理,以及对我们的世界最广泛的了解。betway牛牛换言之,只要模式匹配(现代NLP中的大部分)没有用类似人类的概念来增强,就不可能解决这些问题。常识,所有人都应该betway牛牛知道的关于世界的事实。

Choi用一个简单却有效的新闻标题例子说明了这一点,标题是“奶酪汉堡刺伤”。

IMAGE 5-2

知道了头国际计算语言学协会关系“刺伤”由从属名词“cheesburger”修饰,不足以理解“奶酪汉堡刺伤”的真正含义。这个数字取自崔的陈述.

机器可能会问的关于这个标题的合理问题是:betway牛牛

有人在奶酪汉堡包上捅了别人?
有人捅了一个芝士汉堡?
一个芝士汉堡刺伤了某人?
一个干酪汉堡包刺伤了另一个干酪汉堡包?

机器可以消除你永远不会问他们是否有社会和身体常识的荒谬问题。社会常识〔31〕可以提醒机器,第一种选择是合理的,因为刺伤某人是不好的,因此具有新闻价值,而刺伤奶酪汉堡包则不然。物理常识〔32〕表明第三和第四种选择是不可能的,因为奶酪汉堡不能用来刺任何东西。

除了整合常识知识外,Choi建议“通过标签理解”〔33〕,重点是“说什么”,应该改为“模拟理解”〔34〕.这模拟了文本隐含的因果效应,不仅关注“说的是什么”,而且关注“说的不是什么,而是隐含的”。Bosselut和同事〔35〕举例说明为什么在文本中预测行为对实体的隐性因果效应很重要:

给出了“在松饼混合物中加入蓝莓”之类的说明,然后烤半个小时,“一个聪明的代理人必须能够预见到一些必然的事实,例如。,蓝莓现在在烤箱里;它们的“温度”会升高。

米哈伊洛夫和弗兰克〔36〕也认识到我们必须通过模拟来理解。他们的完形填空式阅读理解模式〔37〕,与许多其他更复杂的选择不同,处理在一个故事中给出大部分信息来推断答案的情况,但需要更多的常识来预测答案:是一个动物动物用于攀登与…有关动物.

需要常识的完形填空式阅读理解案例。来自米哈洛夫和弗兰克。

唉,我们必须承认现代的NLP技术就像“一张没有大脑的嘴”。为了改变这一点,我们必须向他们提供常识,并教他们思考什么不是说而是隐含的。betway牛牛

“RNN是没有大脑的嘴吗?”幻灯片取自 崔的陈述

方向3:评估未看到的分布和未看到的任务

使用监督学习解决问题的标准方法包括以下步骤:

  1. 决定如何标记数据。
  2. 手动标记数据。
  3. 将标记的数据拆分为训练,测试和验证集。通常建议确保火车,如果可能,dev和测试集具有相同的分布.
  4. 决定如何表示输入。
  5. 学习从输入到输出的映射函数。
  6. 在测试集上使用适当的度量来评估所提出的学习方法。

按照这种方法,解决下面的难题需要标记数据来训练识别单位的模型,考虑多种表达和解释(图片,文本,布局,拼写,语音学)把它们放在一起。该模型确定了“最佳”的全局解释,满足了人类对谜题的解释。

很难注释的示例输入。图由丹·罗斯提供。

在…看来丹罗斯〔38〕

  • 标准方法是不可扩展的。我们永远不会有足够的注释数据来训练所有模型来完成我们需要的所有任务。为了解决上面的难题,我们需要有注释的培训数据来克服任务的至少五个不同部分,或者大量的数据来训练端到端的模型。尽管某些组件(如标识单元)可以使用可用资源(如图像网,在这种情况下,这个资源还不足以认识到“世界”这个词比“地球”这个词更好。即使有人做了大量的注释工作,这些数据必须每天不断更新新的流行文化参考。

Roth让我们注意到存在大量数据的事实独立于给定的任务并且有提示这通常足以推断一系列任务的监控信号。这就是附带监督进入游戏。用他自己的话说〔39〕

附带的信号是指存在于数据和环境中的弱信号的集合,独立于手头的任务。这些信号与目标任务相关,可以被利用,以及适当的算法支持,提供足够的监督和促进学习。考虑一下,例如,命名实体(ne)音译的任务——根据实体之间的语音相似性(例如决定如何用希伯来语写奥巴马。时间信号就在那里,独立于手头的翻译任务。它与手头的任务有着共同的关系,加上其他信号和一些推论,可以用来监督它,而不需要任何重要的注释工作。

佩尔西梁〔40〕认为如果列车和试验数据分布相似,“任何有足够数据的富有表现力的模型都能胜任这项工作。”然而,对于外推——列车和测试数据分布不同的场景——我们必须实际设计一个更“正确”的模型。

在列车和试验时间用相同的任务进行外推法被称为域适应,近年来受到了广泛关注。

但附带监督,或者用与测试时任务不同的训练时任务进行外推,不太常见。李和合作者〔41〕训练文本属性传递模型〔42〕只有给定句子的属性标签,而不是将具有不同属性和相同内容的句子配对的并行语料库。换一种说法,他们训练了一个模型,该模型只在作为分类器训练后才进行文本属性转移,以预测给定句子的属性。同样地,Selsam和合作者〔43〕训练一个学习解决问题的模型SAT问题〔44〕只有经过分类器训练才能预测可满足性.尤其是,两种型号都有很强的归纳偏倚.前者使用的假设是属性通常表现为本地化的歧视性短语。后者捕获了测量传播的感应偏差。

珀西通过断言:

每张纸,连同对保留测试集的评估,应该在新的分配或新的任务因为我们的目标是解决任务,不是数据集。

使用机器学习时,我们需要像机器学习一样思考。,至少在评估时,因为机器学习就像一场龙卷风,吞噬一切,不关心常识,betway牛牛逻辑推理,语言现象或直观物理。

幻灯片取自 梁的陈述

研讨会与会者想知道我们是否要为应力测试-超出正常操作能力的测试,经常到了一个转折点,为了观察模型的真实泛化能力。

有理由认为,只有在模型解决了更简单的情况之后,模型才有机会解决更困难的例子。为了知道更容易的情况是否得到解决,梁建议我们可以根据例子的困难程度对它们进行分类。德维帕里克〔45〕强调的是,只有任务或数据集的一个子集是这样的,如果您已经解决了更简单的示例,那么您可以确定解决硬示例是可能的。任务不在此子集中,比如视觉问答,不适合此框架。不清楚一个模型应该能够解出哪一对图像-问题对才能解出其他图像-问题对,可能更难的图像-问题对。因此,如果我们开始把“更难”的例子定义为模型无法回答的例子,那可能是危险的。.

研讨会与会者担心压力测试集会减慢进度。什么是好的压力测试,能让我们更好地洞察真正的泛化能力,并鼓励研究人员建立更多的泛化系统,但这不会导致资金减少,研究人员也会因低结果而受到压力吗?讲习班没有回答这个问题。


外卖

NAACL关于深入学习和自然语言处理中新的泛化形式的讲习班是认真重新考虑现代NLP技术的语言理解和推理能力的开始。这一重要讨论继续于国际计算语言学协会,计算语言学协会年会。丹尼斯·纽曼·格里菲斯报道acl的与会者反复建议,我们需要开始考虑更广泛的泛化和测试情况,这些情况与培训分布不符,betway牛牛和塞巴斯蒂安·鲁德尔录制NAACL讲习班的主要主题也在复制4NLP,NLP代表性学习的流行ACL研讨会。

这些事件表明,我们对于如何修改我们的模型并没有完全的了解,从而使它们更易于归纳。betway牛牛但仍有足够的空间提出新的建议。

我们应该使用更多的感应偏差,但我们必须找出最合适的方法,将它们集成到神经架构中,这样它们才能真正带来预期的改进。

我们必须增强模式匹配的最先进的模型和一些概念人类的常识这将使他们能够捕捉到事实之间的高阶关系,实体,事件或活动。但是挖掘常识是有挑战性的,所以我们需要新的,提取常识的创造性方法。

最后,我们应该处理未公开分发和未公开任务,否则,“任何有足够数据的表达型模型都能完成任务。”显然,培训这样的模型更难,而且结果不会立即令人印象深刻。作为研究人员,我们必须大胆开发这种模型,作为评审员,我们不应该惩罚那些试图这样做的工作。

这种在NLP领域内的讨论反映了人工智能内部的一个更大的趋势,通常反映了深度学习的缺陷和优势。尤伊尔和刘写了一篇题为深网:他们为视觉做了什么?在视觉的背景下,和盖瑞·马库斯〔46〕一直支持使用方法〔47〕 超过〔48〕 深的〔49〕 学习〔50〕对于人工智能来说。这是一个健康的迹象,表明人工智能研究人员对深度学习的局限性非常清楚,betway牛牛努力解决这些问题。


  1. 贾罗宾和梁佩西。评估阅读理解系统的对抗性示例。EMNLP会议录(2017年)。γ

  2. 阅读理解(RC)是一种阅读文本并回答相关问题的能力。betway牛牛基准班数据集由关于维基百科文章的人工生成的RC问题组成。betway牛牛每个问题涉及一篇文章的一个段落,相应的答案保证是该段中的跨度。小组不提供每个问题的答案选择列表,因此,系统必须从文章中所有可能的跨度中选择答案。RC系统的精度是通过宏观平均F1分数来衡量预测和地面真实答案之间的平均重叠。预测和地面实况被视为一袋袋代币,计算出它们的f1。对给定问题的所有基本真理答案取最大f1。最后,计算出所有问题的平均值。γ

  3. 美满SEOAniruddha Kembhavi先生,阿里·法哈迪和汉娜·哈吉希西。机器理解的双向注意流。ICLR会议录(2017年)。γ

  4. Yonatan Belinkov和Yonatan Bisk。合成和自然噪声都打破了神经机器翻译。ICLR会议录(2018年)。γ

  5. Mohit IyyerJohn WietingKevin Gimpel和Luke Zettlemoyer。使用句法控制的释义网络生成对抗性示例。NAACL-HLT会议录(2018年)。γ

  6. 凯胜泰理查德·索契和克里斯托弗·D。Manning。改进了树结构长期短期内存网络的语义表示。《ACL会议录》(2015年)。γ

  7. 情绪分类是情绪分析中的一项基本任务,旨在对文件中表达的意见进行分类。句子或实体方面是积极的,否定的,或者中立。γ

  8. 苏金古鲁兰根,斯瓦巴·斯瓦姆迪普塔,Omer LevyRoy Schwartz塞缪尔河鲍曼和诺亚。史密斯。自然语言推理数据中的注释伪影。NAACL-HLT会议录(2018年)。γ

  9. 自然语言推理是确定一个给定的陈述(假设)是否真实(蕴涵)的分类任务。错误(矛盾)或不确定(中立)给出另一个陈述(前提)。γ

  10. Nafise Sadat Moosavi和Michael Strube。共指消解中的词汇特征:谨慎使用。《ACL会议录》(2017年)。γ

  11. 凯文·克拉克和克里斯托弗·D。Manning。通过学习实体级的分布式表示来提高共指消解。《ACL会议录》(2016年)。γ

  12. 共指消解是在文本中提到的集群的任务,这些集群指的是同一个底层的现实世界实体。例如,如果提到“希拉里·克林顿,正文中出现“美国第一夫人”和“美国国务卿”,它们必须聚集在一起。γ

  13. Omer LevySteffen RemusChris Biemann和Ido Dagan。监督分配方法真的学习词汇推理关系吗?.NAACL-HLT会议录(2015年)。γ

  14. 语言学中,下义词是一个词或短语,其语义域包含在另一个词的语义域中,它的上位词。γ

  15. Aishwarya Agrawal,Dhruv Batra还有Devi Parikh。分析视觉问答模型的行为。EMNLP会议录(2016年)。γ

  16. 斯坦尼斯劳·安托,Aishwarya Agrawal,贾森璐玛格丽特·米切尔,Dhruv BatraC.劳伦斯·齐特尼克,还有Devi Parikh。视觉问答。国际刑事法院诉讼(2015年)。γ

  17. 视觉问答的目的是回答有关给定图像的问题。betway牛牛γ

  18. YonatanBisk是华盛顿大学的博士后研究员,与Yejin Choi合作。他的研究主要集中在语言基础和弱监督学习方面。他致力于通过学习将抽象语言与低级行为联系起来的表示来教计算机理解语言和世界。他曾在南加州大学信息科学研究所与丹尼尔·马库合作,完成了博士学位。与伊利诺伊大学香槟分校的Julia Hockenemier进行无监督语法归纳,在奥斯汀德克萨斯大学与里斯托·米库莱恩合作时获得了理学学士学位。γ

  19. 奥默·利维是华盛顿大学的博士后研究员,与Luke Zettlemoyer合作。他有兴趣实现高级语义应用,如问答和总结,以帮助人们应对信息过载。这些应用程序的核心是文本蕴涵和语义相似方面的挑战,这是他目前研究的核心。他还对深度学习的最新进展以及它们如何促进语义应用感兴趣。他热爱教学,享受清晰简洁地传达复杂概念的挑战。他完成了博士学位。在Bar Ilan大学,在教授的监督下。我是达根医生。Yoav Goldberg,在以色列理工学院(Technion-Israel Institute of Technology)获得理学硕士和理学学士学位,导师为Shaul Markovitch。γ

  20. MarkYatskar是AllenAi青年研究项目的博士后研究员。他的兴趣在语言和视觉的交叉点上,语言生成,以及语言基础。他一直在为图像中的事件发展一种新的形式主义,称为情景识别。他在华盛顿大学完成了博士学位,由卢克·泽特莫耶(LukeZettlemoyer)和阿里·法哈迪(AliFarhadi)共同顾问。在UW之前,他在康奈尔大学与李丽莲一起研究语言简化。γ

  21. 克里斯托弗·曼宁是托马斯·M的就职典礼。斯坦福大学计算机科学和语言学系的机器学习教授。他的研究目标是能够智能处理的计算机,理解,生成人类语言材料。曼宁是将深度学习应用于自然语言处理的领导者,随着人们对树递归神经网络的研究,情绪分析,神经网络依赖分析,词汇向量的手套模型,神经机器翻译以及深刻的语言理解。他还专注于分析的计算语言方法,强大的文本推理和多语言语言处理,包括成为斯坦福依赖项和通用依赖项的主要开发人员。在这里了解更多关于她betway牛牛的成就和以前的关系:https://nlp.stanford.edu/manning网站/.γ

  22. Yann Lecun是Facebook的人工智能研究主管,达拉科学的银教授,计算机科学,神经科学,纽约大学的电气工程,隶属于纽约大学数据科学中心,科朗数学科学研究所,神经科学中心,以及电气和计算机工程部。他现在的兴趣包括人工智能,机器学习,计算机感知,移动机器人,以及计算神经科学。他发表了180多篇技术论文,并出版了有关这些主题以及神经网络的章节。手写识别,图像处理和压缩,以及计算机感知的专用电路和架构。从80年代末开始,他一直致力于深入学习方法,尤其是卷积网络模型。在这里了解更多关于他betway牛牛的成就和以前的关系:http://yann.lecun.com/.γ

  23. 叶锦彩是保罗G的副教授。华盛顿大学艾伦计算机科学与工程学院,语言学系兼职,以及统计和社会科学中心的附属机构。她还是艾伦人工智能研究所的高级研究经理。以前,她是石溪大学计算机科学系的助理教授。她获得了博士学位。康奈尔大学计算机科学专业(顾问:教授克莱尔·卡迪),韩国首尔国立大学计算机科学与工程学士。她是2013年ICCV2013年marr奖(最佳论文奖)的联合获得者,并被评为2016年IEEEAI的10名观众之一。γ

  24. “在NLP中,许多核心任务包括生成文本,以一些输入信息为条件。在过去几年前,文本生成的主要技术是基于模板或基于规则的系统,或者是很好理解的概率模型,如n-gram或对数线性模型。深度学习方法在机器翻译方面取得了巨大的经验成功,对话响应生成,总结,以及其他文本生成任务。在高水平上,该技术一直在训练由编码器模型组成的端到端神经网络模型,以生成源文本的隐藏表示,然后是解码器模型来生成目标。”γ

  25. Ari HoltzmanJan Buys麦斯威尔福布斯安东尼·博塞鲁特,大卫·高卢和叶锦彩。学习与合作鉴别器写作。《ACL会议录》(2018年)。γ

  26. “自然语言理解(NLU)解决了如何最好地处理由定义不明确和灵活的规则控制的非结构化输入,并将其转换为机器可以理解和执行的结构化形式。虽然人类能够轻松地处理发音错误,交换词,收缩,俗语,还有其他怪癖,机器不太擅长处理不可预测的输入。”γ

  27. WMT的年度指标共享任务评估了自动机器翻译指标的性能,为人工评估翻译质量提供了一种替代方法。见Bojar等人。wmt17度量共享任务的结果。WMT会议录(2017年)。γ

  28. 辛望文虎臣王元芳和王威廉。没有衡量标准是完美的:对抗性的奖励学习视觉讲故事。《ACL会议录》(2018年)。γ

  29. 黄廷浩(Kenneth)先生,弗朗西斯·费拉罗,纳斯林·莫斯塔法扎德,Ishan MisraAishwarya Agrawal,Jacob DevlinRoss Girshick萧东赫Pushmeet KohliDhruv BatraC.劳伦斯·齐特尼克,Devi Parikh露西·范德文德,Michel Galley玛格丽特·米切尔。视觉讲故事。NAACL-HLT会议录(2016年)。γ

  30. 史提芬J。Rennie艾蒂安·马切莱特,Youssef MrouehJerret Ross和Vaibhava Goel。图像字幕的自关键序列训练。cvpr会议录(2017年)。γ

  31. Hannah Rashkin马滕萨普Emily Allaway挪亚史密斯和叶锦彩。事件2提示:事件的常识推理,意图,和反应。《ACL会议录》(2018年)。γ

  32. 麦克斯韦福布斯和叶锦彩。动词物理学:动作和物体的相对物理知识。《ACL会议录》(2017年)。γ

  33. 以文本为中心的语言建模,重点研究表面词的句法和语义标记。γ

  34. 以世界为中心的程序语言建模,侧重于世界状态的变化和抽象,远离表面字符串。γ

  35. 安东尼·博塞鲁特,Omer LevyAri HoltzmanCorin Ennis迪特尔·福克斯和叶锦彩。用神经网络模拟动作动力学。ICLR会议录(2018年)。γ

  36. 托多·米哈伊洛夫和阿内特·弗兰克。知识型读者:用外部常识知识增强完形填空式阅读理解。《ACL会议录》(2018年)。γ

  37. 阅读理解任务设置,通过用占位符替换文章句子中的标记来形成问题。γ

  38. 丹·罗斯是爱德华多·D。格兰特,计算机与信息科学系的杰出教授,宾夕法尼亚大学。Roth被公认为“在自然语言理解建模方面取得了重大的概念和理论进展,机器学习,以及推理。“他在机器学习方面发表了大量的论文,自然语言处理,知识表示与推理与学习理论,并开发了先进的基于机器学习的自然语言应用工具,被研究界广泛使用。在这里了解更多关于他betway牛牛的成就和以前的关系:网址:http://l2r.cs.uiuc.edu/.γ

  39. Dan Roth。附带监督:超越监督学习。AAAI会议录(2017年)。γ

  40. 梁佩西,计算机科学与统计助理教授,斯坦福大学。他的研究是开发可信赖的代理,通过互动与人有效沟通,并随着时间的推移而改进。他广泛认同机器学习和NLP社区。他的大部分工作都集中在将用户请求转换为简单的计算机程序的任务上,这些程序指定了响应时要采取的操作顺序。他帮助创建了班数据集,以促进对阅读理解的研究。最近,他一直在探索互动学习语言的中介,或者可以与人类进行合作对话。他认为制造工具来帮助我们使机器学习“在野外”更加可靠是至关重要的。最近,他致力于估计未知分布的预测值的准确性,使用影响函数了解黑盒模型,并试图提供一个学习算法对敌人是安全的正式保证。他是高效和可重复研究的有力支持者。γ

  41. 俊岑丽Robin Jia他和梁佩西。删除,检索,生成:情绪和风格转换的简单方法。NAACL-HLT会议录(2018年)。γ

  42. 将具有一个属性(负面情绪)的句子转换为具有不同属性(正面情绪)的句子,同时保留所有与属性无关的内容。γ

  43. Benedikt BuenzPercy Liang莱昂纳多·德穆拉,戴维L小茴香。从单位监控中学习SAT解算器。Daniel SelsamMatthew Lamm。arxiv预印arxiv:1802.03685,2018。γ

  44. SAT问题:给定一个布尔公式,是否存在满足要求的任务?γ

  45. Devi Parikh是佐治亚理工学院交互计算学院的助理教授,以及Facebook人工智能研究(Fair)的研究科学家。她的研究兴趣包括计算机视觉和人工智能,尤其是视觉识别问题。她最近的工作涉及到探索视觉和语言交叉点的问题,利用人机协作构建更智能的机器。她还从事其他课题,如分类器合奏,数据融合,概率模型中的推论,三维重组条形码分割,计算摄影,交互式计算机视觉,上下文推理,图像的层次表示,以及人工调试。在这里了解更多关于他betway牛牛的成就和以前的关系:网址:https://www.cc.gatech.edu/~parikh/.γ

  46. Gary Marcus科学家,畅销书作者,企业家是机器学习创业公司几何智能的首席执行官和创始人,最近被优步收购。作为纽约大学的心理学和神经科学教授,他在人类和动物行为、神经科学等领域发表了大量文章,遗传学,以及人工智能,经常出现在科学和自然等主流期刊上。作为一名作家,他经常为《纽约客》和《纽约时报》撰稿,是四本书的作者,包括代数思维,克鲁格:人类思想的偶然进化,《纽约时报》畅销书,吉他零以及最近这本书的编辑,大脑的未来:世界顶尖神经科学家的论文,以2014年诺贝尔奖得主May Britt和Edvard Moser为主角。γ

  47. Gary Marcus。深入学习:一个批判性的评价。arxiv预印arxiv:1801.00631(2018)。γ

  48. Gary Marcus。先天性,阿尔法诺以及人工智能。arxiv预印arxiv:1801.05667(2018)。γ

  49. 辩论“人工智能需要更多的先天机制吗?(Yann LeCun,Gary Marcus)网址:https://youtu.be/vdwpq6iakt4.γ

  50. 欧内斯特·戴维斯和加里·马库斯。人工智能中的常识推理和常识知识。在ACM的通信中(2015年)。γ