返回顶部
返回首页
返回首页
研究人员开发了基于深度神经网络的模型,可以完成广泛的任务,中国风格网,stylechina.com
home 您现在的位置: 首页 >城市科技 > 详细信息
研究人员开发了基于深度神经网络的模型,可以完成广泛的任务
2021年05月01日    阅读量:5654    新闻来源:中国风格网 stylechina.com  |  投稿

在过去的几十年中,研究人员开发了基于深度神经网络的模型,可以完成广泛的任务。这些技术中的一些专门设计用于处理和生成多种语言的连贯文本,翻译文本,回答有关文本的问题以及创建新闻文章或其他在线内容的摘要。


研究人员开发了基于深度神经网络的模型,可以完成广泛的任务 中网时尚,stylechina.com


具有语言功能的深度学习系统已经广泛可用,例如以实时翻译的应用程序,文本分析工具和虚拟助手(例如Siri,Alexa,Bixby,Google Assistant和Cortana)的形式提供。其中一些系统使用由Google发布的特定的深度学习模型,称为Multilingual BERT(mBERT)。该模型同时接受了大约100种语言的培训。这样,它就可以完成各种语言任务,例如,将内容从一种语言翻译成另一种语言。


用户可以使用多种语言与基于mBERT的系统进行交互,从英语,西班牙语和法语到巴斯克语和印尼语。尽管已经发现mBERT模型在许多语言任务上表现良好,但是如何编码与语言相关的信息并做出预测仍知之甚少。


斯坦福大学,加利福尼亚大学欧文分校和加利福尼亚大学圣巴巴拉分校的研究人员最近进行了一项研究,旨在更好地了解基于mBERT的技术如何工作以及它们如何编码语法特征。


他们的论文的主要作者是斯坦福大学计算机科学专业的研究生Isabel Papadimitriou,该论文将在计算语言学会议EACL上发表。本文为这些常用模型的基础以及它们在完成各种任务时如何分析语言提供了宝贵的见解。


加州大学圣塔芭芭拉分校的语言学家凯尔·马哈瓦尔德(Kyle Mahowald)说:“像Multilingual BERT这样的模型非常强大,但是与经过预先训练的深度学习模型不同,即使对于创建者来说,它们实际包含的信息也并不明显。”


负责研究的资深研究人员告诉TechXplore。“这是因为模型是经过训练的,而不是经过编程的;因此,它们通过训练过程来学习大量数据上的参数。”


本质上,mBERT模型将文本表示为一系列矢量,每个矢量包含数千个数字。每个向量都对应一个单词,而单词之间的关系则被编码为高维空间中的几何关系。

 

Mahowald说:“由于这些模型在处理人类语言方面做得很好,因此我们知道这些数字向量必须代表语言知识。” “但是他们如何编码这些信息,这与人脑中知识的表达方式有什么不同吗?我们的工作是这项工作的一部分,旨在理解语言的深层神经模型代表和使用语言信息的方式。”


理解mBERT模型如何对语言进行编码与尝试理解人类如何对其进行处理没有什么不同。因此,最新研究的团队由计算机科学家和语言学家组成。他们的主要目的是确定mBERT向量模型是否实际上包含有关人类语言及其结构的某些更深层方面的信息。


更具体地说,他们想确定这些模型是否自主地揭示了几十年来语言学研究已确定对语言分析特别有用的概括。


加利福尼亚大学欧文分校的语言科学家,该项目的另一位高级顾问理查德·富特雷尔(Richard Futrell)说:“这是学习计算语言学的特别激动人心的时刻。” “多年来,语言学家一直在谈论诸如“语义空间”之类的思想,将单词和短语的含义视为某些空间中的点,但这些概念都有些模糊和印象派。


现在,这些理论已经变得非常精确了:我们实际上有一个模型,其中单词的含义是空间中的一个点,并且该模型的确以暗示其理解(某些)人类语言的方式表现。”


为了处理人类语言,mBERT模型和其他基于深度学习的语言分析框架可能实际上已经重新发现了语言学研究人员在深入分析人类语言之后所设计的理论。或者,他们可以根据全新的语言理论或规则来进行预测。Mahowald和他的同事希望进一步探索这两种可能性,因为了解这些计算技术如何编码语言可能对计算机科学和语言学的研究产生重要影响。


Futrell说:“了解这些模型的工作原理(即,他们学到了什么信息以及如何使用它们)不仅在科学上令人着迷,而且,如果我们要开发我们可以使用和信任的AI系统,这在实践中也至关重要。” 


“如果我们不知道某种语言模型知道什么,那么我们就不能相信它会做正确的事(即,其翻译是正确的,其摘要是准确的),我们也不会信任它还没有学到诸如种族或性别偏见之类的不良信息。”


由于mBERT模型通常是在人类编译的数据集上进行训练的,因此它们可能会发现人类在解决与语言相关的问题时常犯的一些错误。由多学科团队进行的研究可能有助于发现AI工具在分析语言时所犯的一些错误和其他错误。首先,研究人员着手研究mBERT模型如何代表不同语言(即谁在做什么以及对谁/做什么)上的主题和对象之间的差异。


Mahowald说:“当在mBERT中输入一个句子时,每个单词都会得到一个矢量表示。” “我们建立了一个新模型(比mBERT小得多),然后我们问:如果我们从mBERT给您一个单词向量,您能告诉我们它是一个对象还是一个对象?也就是说,这是单词'狗。” 您能否告诉我们,“狗”追赶猫是不是句子的主题?或句子的对象,例如“猫追狗?”


一个人可能会假设主语和宾语关系是用所有语言描绘的,并且它们以相似的方式表示。但是,在不同语言中,构成主体和客体的内容实际上存在巨大差异。Papadimitriou和她的同事们试图利用这些差异来更好地了解mBERT模型如何处理句子。


Papadimitriou说:“如果您使用英语,那么“狗追赶猫”中的“狗”一词似乎与“狗跑了”中的“狗”一词相似。“在第一种情况下,动词有宾语('cat'),在第二种情况下没有动词;但在两种情况下,'dog'是主语,主体,行为者和第一句中的' “猫”是对象,是正在做的事情。但是,并非所有语言都如此。”


在欧洲使用的英语和大多数语言都具有被称为主格对齐的结构,该结构清楚地描述了句子中的主语和宾语。另一方面,某些语言,包括巴斯克语,北印度语和格鲁吉亚语,使用的是一种称谓对齐。在作格对齐中,在没有宾语的句子中(例如,句子“ dog ran”中的单词“ dog”)的主语在某种意义上被视为宾语,因为它遵循用于宾语的语法结构。


Papadimitriou说:“我们工作的主要目的是测试多语种BERT是否理解这种对齐,代名词或主格的思想。” “换句话说,我们问:多语言BERT能否深入理解(1)动词的主体和患者是什么构成的,以及(2)不同语言如何将那个空间刻划成主语和宾语?当时,同时接受约100种语言培训的mBERT以语言上有趣的方式意识到了这些区别。”


这些发现为mBERT模型以及可能用于语言分析的其他计算模型如何表示语法信息提供了新的有趣的见解。有趣的是,还发现研究人员基于mBERT向量表示法检查的模型会产生一致的错误,该错误可能与正在处理语言的人所犯的错误一致。


Papadimitriou说:“在各种语言中,当该主题是一个无生命的名词时,我们的模型更可能错误地将该主题称为一个对象,这意味着该名词不是人或动物,” Papadimitriou说。“


这是因为句子中的大多数行为者往往是有生命的名词:人类或动物。实际上,一些语言学家认为主观性实际上是一个范围。与人类相比,人类的主体比动物的主体更“主观”。动物主题比非人类主题也不是动物主题,这正是我们的模型似乎在mBERT中找到的。”


总体而言,该研究表明,mBERT模型可以识别句子中的主语和宾语,并以与现有语言学文献一致的方式表示两者之间的关系。将来,这一重要发现可以帮助计算机科学家更好地了解旨在处理人类语言工作的深度学习技术的方式,从而帮助他们进一步提高性能。


“我们现在希望继续探索语言的深层神经模型在其连续向量空间中表示语言类别(如主语和宾语)的方式,” “特别是,我们认为语言学的工作不是将主题和客体的角色描述为离散的特征,而是将其作为一组功能来描述,这可以为我们思考这些模型及其工作方式提供信息。”



标签:市场技术今日头条创新工具技术发展城市科技自然科学生活风格数码
免责声明: 本文仅代表作者本人观点,与中国风格网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。邮箱:service@cnso360.com
微信关注WeChat
扫描关注微信,获取涂料最新资讯 公众号:中国风格网 您还可以直接查找
全站地图

深圳网络警察报警平台 深圳网络警
察报警平台

公共信息安全网络监察 公共信息安
全网络监察

经营性网站备案信息 经营性网站
备案信息

中国互联网举报中心 中国互联网
举报中心

中国文明网传播文明 中国文明网
传播文明

深圳市市场监督管理局企业主体身份公示 工商网监
电子标识