Alibaba Innovative Research (AIR) > Machine Learning (algorithm)
融合对抗与多语言风险知识的小样本与迁移NLP应用研究

业务背景

国际化作为阿里当前的重要战略正在持续推进,越来越多的业务也正在走向海外。在出海的过程中,阿里经济体内的安全算法需要由CRO线全面覆盖防控,在海外业务快速增长的过程中,因要紧锣密鼓地部署力量建设国际化所需要的文本风险算法能力。

在安全防控运营过程中,文本起到最大作用的部分就是风险识别及回溯排查。很多时候很多风险防控的知识型很强,如FDA药品、泰国皇室等风险。同时这类知识并不是静态的,很多时候都会与语言相关,有各种同义隐喻说法,还有用户为了对抗产生的变形变异。需要形成基于对抗的多语言安全风险知识图谱才能更好的应对实际业务环境。

在面向国际环境进行文本风险知识图谱的算法能力建设过程中,与国内环境相比,会遇到一些比较大的挑战:

(1)多语言环境多且复杂。与中国大一统的汉语环境不同的是,国际环境往往语言环境会很多也很复杂,比如仅东南亚地区就包含至少六种主要语言,且在用户使用过程中往往会多种语言混用,很难像国内环境一样每一种语言如同国内汉语一样的建设方式。

(2)监管要求严格且各地差别较大。与国内环境相比,国际各个国家对于如欺诈、商品准入、知识产权等标准都有所差异且往往更加严格,并且风险的表述方式在不同国家不同语言下也会有很大差别。

(3)安全场景特有的多变异,少样本的难点。在安全场景不断对抗的过程中,风险用户会倾向于通过不断变异来绕过防控,且在多语言环境下这种变异会更加多样化,风险用户可以基于各类语言之间的音形义的多次变异增大防控难度。少样本即安全场景下与风险相关的文本往往在线上浓度很低,很难收集到代表性的相关样本。且在国际场景下由于语料少、标注人员少也会更加凸显该问题。

以上的挑战,使得与国内环境相比,更加急需要在多语言安全场景下,有效的建设基于对抗的多语言安全风险知识图谱技术,能够在小样本环境下进行风险识别及回溯排查下的应用,提升文本风险识别水平,降低集团国际安全风险,提升国际场景的的文本防控能力。

拟解决问题

主要解决的就是基于多语言安全场景,如何快速建立基于对抗的多语言安全风险知识图谱,并基于小样本学习、迁移学习, 应用与实时识别及回溯排查场景,提升相应的文本风险识别水平,具体如下:

(1)多语言迁移学习问题:在拥有其他语言(如汉语)下的各类知识图谱情况下,如何更好的迁移到新的语言场景下。

(2)多语言变异问题:如何更加有效的对抗与感知可能存在的知识图谱节点所对应的多语言场景的文本变异问题。

(3)安全场景下小样本问题:如何有效的解决由于安全场景样本较少导致的模型性能问题。包括语言相关的生语料较少和标注语料更少的问题,通过利用知识图谱更好的建模来提升模型水位。

通过解决上述问题,可以降低国际业务的算法扩展成本和提升算法扩展速度,降低由于变异对抗引起的线上模型衰减,提升在小样本环境下的模型性能,提升风险识别及回溯排查的运营水平。

最终形成的知识图谱类似下图所示,并可以有效的融合在风险识别及回溯排查模型中使用:

期望交付物

1.算法原型在多语言xnli/xtreme数据集上不低于xlm-r的准确率,且在小样本学习(如10%数据)下准确率指标,textattack变异攻击评测的攻击成功率、平均攻击次数指标应大幅优于其余模型

2.在业务数据上,融入相关风险知识图谱情况下,GPU模型在审核比与线上浓度一致的情况下(如千分之一),黑样本召回率95%以上,CPU模型黑样本召回率90%以上。

3.落地形成一个场景(如FDA药品)相关风险知识图谱与可迭代的更新方式

4.在多语言、变异对抗、小样本相关方面,发表1-2篇国际顶会(CCF-A类)文章

Scan QR code
关注Ali TechnologyWechat Account