EMNLP 2021论文分享会 - 机器智能技术实验室专场
2021/11/30

        EMNLP是计算机语言学和自然语言处理领域的顶级国际会议,由ACL-SIGDAT主办,在Google Scholar计算语言学刊物指标中排名第二。EMNLP 2021共收到投稿4834篇,有效投稿3717篇,总接收论文840篇,接受率为23.3%。就接收论文分布领域而言,NLP 应用、机器学习、机器翻译与多语言占比位列前三,信息提取、对话与交互和语义词汇热度不减。今晚我们有幸邀请到了EMNLP收录论文的四位作者,带我们一起近距离解读达摩院机器智能技术实验室在预训练、对话、翻译领域的新突破。

1.论文标题:《Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning

嘉宾信息:阿里集团-达摩院-机器智能技术实验室-罗福莉

论文摘要(中文)自BERT提出以来,预训练模型的参数量从最开始的3亿,逐渐攀升到了GPT-2的15亿,再到火出NLP圈的1750亿参数的GPT-3。一方面模型越来越大,但另一方面,下游任务的标注数据量有些情况下却很少。如果直接将“大”模型在下游“小”数据上进行标准的Fine-tune,将模型迁移到目标任务中去,往往容易出现过拟合的现象,导致模型在下游任务中的表现差、不稳定、泛化性能差等现象,从而影响我们对于预训练模型的使用。因此,越来越多工作开始聚焦于如何解决这种不匹配现象,缓解大规模预训练模型在下游任务中的过拟合。本文介绍的Child-Tuning围绕这个问题进行探究,从backward参数更新的角度思考问题,提出一种新的Fine-tuning策略,在Fine-tuning过程中仅更新对应的Child Network,在不同下游任务中相比传统Fine-tuning有明显提高,如基于BERT模型在四个不同数据集中平均带来1.5个点的提升,在ELETRA上甚至提升8.6个点。

2.论文标题:《DialogueCSE: Dialogue-Based Contrastive Learning of Sentence Embeddings

嘉宾信息:阿里集团-达摩院-机器智能技术实验室-刘澈

论文摘要(中文):基于对话的句向量表示学习具有低标注成本和高领域适应性的优势,在近些年来受到越来越多的关注。基于孪生网络的方法通过在编码器之上应用前馈网络来对上下文和响应之间的语义相关性建模来学习句子嵌入。 然而,由于在实际应用中,文本的语义相似性通常通过element-wise的距离指标(例如余弦和 L2 距离)来度量,带来了训练和预测之间的差异。此外,如何利用多轮对话来进行句向量表示学习尚无统一框架。在本文中,我们提出了 DialogueCSE,它引入了对比学习来消除训练和预测之间的差异,同时作为一个多轮对话式句向量表示学习框架,充分利用了上下文信息。 我们基于Microsoft Dialogue Corpus、Jing Dong Dialogue Corpus和E-Commerce Dialogue Corpus三个对话数据集来评估模型的效果。 结果表明,DialogueCSE在语义检索和语义相似度两个任务上显著优于基线。 进一步分析实验表明,DialogueCSE在使用更多上下文轮次时取得更显著优于基线的效果,并在小样本、少量负样本的场景下保持稳健。

3.论文标题:《Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning

嘉宾信息:阿里集团-达摩院-机器智能技术实验室-张月

论文摘要(中文):在富文本文档的信息抽取中,前人的工作主要研究语义实体标注任务,而实体关系抽取任务探索的较少。本文专注于实体关系抽取任务,该任务旨在挖掘富文本文档中的语义实体之间的关系。借鉴依存句法分析任务挖掘词语间句法关系的方法,我们将句法分析中的Biaffine模型应用在关系抽取任务中。相比于句法分析的纯文本输入,关系抽取任务的语义实体包含丰富的视觉信息,我们使用多种方法引入视觉信息。此外我们还将语义实体标注与实体关系抽取进行多任务学习,并采用数据增强来弥补标注数据规模小的问题。最终我们的模型在FUNSD数据上F1达到65.96%,并在现实场景中的海关报关数据上取得了良好的性能。

4.论文标题:《Rethinking Zero-shot Neural Machine Translation: From a Perspective of Latent Variables

嘉宾信息:阿里集团-达摩院-机器智能技术实验室-王伟志

论文摘要(中文):零样本翻译是多语言神经机器翻译系统的一个极具前景的能力。然而,由于极大似然训练目标的存在,多语言翻译系统通常会捕获输出语言和通用语义之间的虚假相关,导致零样本翻译的语言迁移性能较差。本文在传统的训练目标中引入了一种基于桥接语言的去噪自动编码目标,以提高零样本方向上的迁移精度。本文从隐变量的角度进行的理论分析表明,我们提出的方法实际上隐式地最大化了零样本方向的概率分布。在两个基准机器翻译数据集上,我们证明了所提出的方法能够有效地消除虚假相关,并且显著优于现有的方法,在MultiUN的六个零样本翻译方向上相较于当前SOTA方法平均提升4.3 BLEU。

Scan QR code
关注Ali TechnologyWechat Account