研究方向
  • 基础技术

自然语言处理基础技术是建立复杂NLP系统的基本能力,技术方向包括了多语言分词、词性标注、命名实体识别、信息抽取、拼写检查/语法纠错、句法和语义分析、深度语言模型、语义表征及相似度、文本摘要等。通过AliNLP平台广泛赋能阿里经济体内部千余个业务场景,并通过阿里云在地址、安全、医疗、能源和海关等行业,结合搜索、推荐、问答、知识图谱等技术不断创造和提升技术影响力,扩大NLP技术的业务价值和商业化能力。

  • 翻译技术

承担着为阿里巴巴国际化战略打造多语言翻译基础设施的重任,翻译技术团队开发的系统和服务在速卖通、阿里巴巴国际站、LAZADA等跨境业务中得到广泛应用。我们希望融合前沿人工智能技术,进行创新性多语言处理研究,并通过平台化和定制化的翻译服务,快速、低成本和高质量地解决电商、办公、教育、医疗等多个行业中的语言难题,让商业没有语言障碍。

  • 多语言技术(新加坡)

聚焦多语言和跨语言技术领域,如东南亚语基础NLP、跨领域学习、自监督学习、低资源NLP等。多语言NER、泰语越南语分词、情感分析/地址解析等多语言技术赋能阿里内部多条国际化业务线,如Lazada电商、云通信、钉钉国际化;同时赋能区域阿里云团队,为上云客户提供AI增值能力。

  • 对话智能

对话智能团队专注于人机对话交互的创新研究和大规模应用,打造了智能对话开发平台Dialog Studio,以及KBQA、TableQA、FAQs、MRC等智能问答技术,在自然语言理解、多轮对话管理、元学习、迁移学习、基于知识图谱问答等多个方向上取得前沿进展。开发的对话技术平台和云小蜜产品已经大规模服务于淘宝天猫电商平台、钉钉、公有云、私有云、国际化等业务中,并在智能服务市场居于业界领先地位。

  • 应用算法

围绕信息抽取、文本分类、文本摘要、文本生成、语义理解、主动学习、情感分析、内容审核等核心技术,赋能阿里集团内部、外部的重要业务。深入重要的行业(如司法、通信、政务、教育、金融等)和场景(如合同、电销、舆情、审核、评价等),依托自主研发的NLP自学习平台,通过定制化和平台化的能力不断突破技术深度、打磨业务价值和输出商业化能力。

  • 营销技术

以NLP结合搜索推荐等营销技术为基础,服务于阿里经济体内部和外部不同的业务平台。典型场景如闲鱼卖家助手(图文识别、定价建议及理由、标题优化、辅助沟通等)、AE多语言营销机器人、阿里云智能推荐产品(AIRec)。技术方向包括对话生成、文本摘要、深度语言模型、多模态内容理解、搜索推荐等。


产品及应用
  • 文档翻译

    产品基于达摩院针对标签优化的翻译模型,可对市面上大部分主流格式的文档进行内容提取与翻译,且对文档中表格、图片包含的文字进行准确识别、翻译和还原,翻译后的文档格式和排版,可与原始文档保持高度一致。目前可支持Word、Powerpoint、Excel、PDF、HTML网页等50多种文档格式解析。

  • 多模态翻译

    针对文本,语音,图片,视频等多种模态信息的翻译问题,达摩院创新性地融合了语音识别、光学字符识别(OCR), 自然语言处理,机器翻译,计算机视觉以及智能排版合图等多种前沿算法和技术,可对多来源多模态的内容输入进行跨语言跨模态的内容转化与生成,目前已广泛应用于跨境电商、多语言会务、视频多语字幕、出境旅游、文档证件翻译等行业场景。此外,实验室基于多模态翻译技术研发了世界上首款电商直播翻译引擎并上线AliExpress。

  • 智能司法

    智能司法以NLP为核心技术,通过融合法律知识图谱构建了面向诉讼与非诉讼场景的法律AI开放平台,为法官、检察院、律师、企业法务等法律从业人员提供法律认知能力和知识辅助服务。在诉讼场景提供覆盖立案、审判、执行一体化的智能办案辅助,具备诉讼风险评估、类案法规检索与推荐、定罪量刑辅助与预测、争议焦点推理与生成、裁判文书解析与生成等功能;在非诉讼场景提供覆盖合同全流程的智能管理能力,具备合同信息抽取、合同审查、合同比对、合同摘要和相对方风险分析等功能。目前,智能司法产品已经在三级法院和大中型企业成功落地,显著提升了客户的办案办公效率,有力推动法律知识服务精准化、标准化、智能化发展,在促进司法公正,优化营商环境方面得到广泛应用。

  • 云客服对话智能

    依托实验室在NLP、人机对话等领域的前沿成果以及阿里巴巴在客服领域的积累,云客服对话智能为企业客户打造了人机一体化的智能服务产品矩阵与行业解决方案,帮助客户低成本快速构建并运营自己的具备自然对话交互能力的智能客服,从而为用户与企业之间建立7*24小时双向即时沟通的桥梁。我们打造的核心能力包括Dialog Studio、TableQA引擎、FAQ引擎及KBQA引擎,其中Dialog Studio对话开发平台实现了从浅层理解到深层语言理解、从状态机到对话管理模型的双重突破,TableQA问答引擎在耶鲁大学&Salesforce联合发起的SParC挑战赛和CoSQL挑战赛排名第一。目前已广泛服务于政务、运营商、银行、保险等行业,如智能IVR机器人为中移在线自动接听电话量达到1.5亿通/年,将更宝贵的人力资源解放出来用于为客户提供更好的服务;疫情防控外呼机器人累计外呼近2000万人次,有效缓解了一线防控人员严重不足且效率低的问题。


研究团队
司罗达摩院语言技术实验室负责人

司罗是最早一批从学术界转向工业界的人工智能科学家之一。加入阿里巴巴前,他是美国普渡大学计算机系终身教授。司罗主持的20余个项目得到美国政府、工业界资助,先后获得美国国家科学基金会成就奖、雅虎、谷歌研究奖等。 发表过150+篇学术论文,都广泛引用。 他先后担任了ACM信息系统(TOIS),ACM 交互信息系统(TIIS)和信息处理与管理(IPM)编辑委员会的副主编,多次在国际学术会议担任重要职务(如2016 ACM CIKM 技术主席等)。司罗先后获得清华大学和卡内基梅隆大学,计算机学士,硕士和博士学位。2014年司罗成为阿里人工智能科学家阵营的一员,并带领阿里NLP团队取得多项重要成果。

黄非达摩院语言技术实验室研究员

阿里巴巴达摩院机器智能语言技术实验室研究员,自然语言基础技术,对话技术和多模态翻译团队负责人。他领导AliNLP 基础技术研发和业务落地,云小蜜对话技术和多模态翻译技术,并支持集团内外的国际化业务需求。黄非博士毕业于卡耐基梅隆大学计算机学院。之后在IBM和Facebook从事自然语言处理的研发和技术管理等职位。他在自然语言处理和人工智能的顶级会议和期刊发表文章40多篇,活得美国专利10多项,曾担任ACL,IJCAI,COLING等多个NLP国际会议的领域主席/资深程序委员和多个期刊会议论文的审稿人。

葛妮瑜达摩院语言技术实验室研究员

布朗大学计算语言学博士。研究领域包括句法、语义和语用的数学模型;在机器翻译方面,从事阿拉伯、汉、英、法、西、德、意、葡、俄等语种工作。曾任职IBM研究院,从事自然语言处理和机器翻译工作。

骆卫华达摩院语言技术实验室资深算法专家

目前担任机器智能技术实验室翻译平台团队负责人,负责面向阿里国际化业务的智能翻译技术研发,参与或承担十多项自然科学基金及重点专项的研发,在国际顶级会议或期刊已发表40余篇论文,曾获得北京市/浙江省科技进步奖。骆卫华博士毕业于中国科学院计算技术研究所,加入阿里巴巴之前他在中科院计算所任职副研究员,长期从事机器翻译技术研发和应用推广,并担任过SIGIR、ACL、NAACL、NLPCC、CWMT等会议的程序委员会或组织委员会委员,目前是中国中文信息学会、中国人工智能学会多个分委会委员。

黄松芳达摩院语言技术实验室资深算法专家

负责大规模预训练语言模型的技术研发,以及医疗和电力等行业应用。英国爱丁堡大学博士,加入阿里巴巴之前,曾在IBM T.J. Watson Research Center和IBM中国研究院工作10多年,主要研究领域是语音和语言信号处理。这期间参与过语音到语音的机器翻译,语音识别中的语言模型,自然语言理解,问答系统等研究项目,拥有医疗、金融、媒体等行业落地相关经验。在相关会议和期刊上发表文章几十篇文章,曾获ICASSP 2010最佳论文。2017年8月至2018年11月担任IBM中国研究院院长助理,协助参与研究院的战略制定和日常管理。

孙常龙达摩院语言技术实验室资深算法专家

2011年加入阿里巴巴,曾负责搜索导航、手淘锦囊的算法架构开发。现作为达摩院-语言技术实验室-应用算法团队负责人,拥有多篇授权专利,在顶级会议发表论文20余篇,承担国家科技部重点研发项目两项,研究方向包括情感分析、信息抽取,对话理解,文本生成等。在技术赋能业务方面,深入司法、合同、教育等垂直领域的智能化建设,首创了智能化审判系统,已经落地多家法院,国内首次联合高校举办了智能合同审核的人机对抗,获得较大的社会关注。同时,建设了nlp自学习平台,赋能更多的行业和场景。

孙健达摩院语言技术实验室资深算法专家

北京邮电大学博士毕业,2014年初带领团队开拓阿里巴巴的人机对话方向,2014-2017为YUNOS操作系统设计并打造了“小云”智能对话助理,并在手机、电视、汽车、音箱等设备端应用,2017年7月开始建设云小蜜技术团队,构建起Goal-oriented的人机对话开发平台Dialog Studio、KBQA问答、FAQ问答和TableQA问答等技术体系,现任达摩院语言技术实验室Conversational AI方向的资深专家和技术负责人。长期担任中国人工智能学会委员、中文信息学会委员,ACL、EMNLP、AAAI、COLING等顶级国际会议的审稿人。

李永彬达摩院语言技术实验室资深算法专家

清华大学自动化系毕业,研究方向为NLP及Conversational AI。早期负责研发的AliWS词法分析系统于2015年获“阿里巴巴集团十大算法”奖。近年来专注在Conversational AI方向,从0到1打造了面向第三方开发者的智能对话开发平台Dialog Studio(对话工厂),该平台为云(阿里云智能客服)、钉钉(钉钉官方智能工作助理)、阿里经济体(手淘等数十个BU)等业务提供海量的人机对话服务,疫情期间基于该平台建立了全国最大的疫情外呼机器人平台,荣获人民网“人民战疫”一等奖;同时探索基于Table结构化知识的多轮问答技术,已在WikiSQL、SParC、CoSQL等多个国际评比中取得第一名。在语言理解、对话管理、智能问答等方向发表多篇国际顶会论文。

赵宇达摩院语言技术实验室资深技术专家

2009年加入阿里巴巴,曾任阿里妈妈架构师,作为阿里妈妈初创团队成员之一,负责并参与过淘宝联盟、直通车、钻展、无线等多条重要产品线建设。现负责翻译和自然语言工程数据团队,组建并带领工程数据团队进行翻译和自然语言技术基础和应用研发工作,负责搭建起翻译及自然语言工程数据基础架构体系。

黄忠强达摩院语言技术实验室资深算法专家

马里兰大学计算机科学博士,负责沟通场景翻译技术、多语言NLP技术、多语言相关性等技术的研发。曾任Raytheon BBN Technologies资深科学家,参与DARPA/IARPA等政府高级研究机构GALE、BOLT、LORELEI等自然语言科研项目。主要研究方向为机器翻译、自然语言处理等人工智能领域,在ACL/EMNLP/NAACL等学术会议上有几十篇合作论文。

谢军达摩院语言技术实验室资深算法专家

中科院计算所博士,研究兴趣为自然语言处理、机器翻译及对话系统等,在ACL、EMNLP、COLING、AAAI等国际顶级会议发表论文20余篇,参与包括863重大、国家自然科学基金在内的科研项目近十项。曾就职于中科院计算所、三星中国研究院、腾讯等,作为技术负责人参与多项商用对话系统和机器翻译系统的研发。

陈博兴达摩院语言技术实验室资深算法专家

中国科学院博士,曾是新加坡信息与通信研究所、加拿大国家研究委员会研究员。发表60多篇会议和期刊论文,曾获ACL 2013最佳论文奖提名,MT Summit 2013最佳论文奖,担任过ACL和EMNLP的领域主席。研究领域包括机器翻译、自然语言处理和机器学习等。


学术成果
论文
  • Nguyen Bach, Hongjie Chen, Kai Fan, Cheung-Chi Leung, Bo Li, Chongjia Ni, Rong Tong, Pei Zhang, Boxing Chen, Bin Ma, Fei Huang. 2018. Alibaba Speech Translation Systems. IWSLT 2018.
  • Jiayi Wang, Kai Fan, Bo Li, Fengming Zhou, Boxing Chen, Yangbin Shi & Luo Si. 2018. Alibaba Submission for WMT18 Quality Estimation Task. In: Proceedings of the Third Conference on Machine Translation. WMT, 2018.
  • Jingang Wang, Junfeng Tian, Long Qiu, Sheng Li, Jun Lang, Luo Si, Man Lan. A Multi-task Learning Approach for Improving Product Title Compression with User Search Log Data. AAAI, 2018.
  • Kai Song, Yue Zhang, Min Zhang, Weihua Luo.Improved English to Russian Translation by Neural Suffix Prediction. AAAI, 2018.
  • Xinzhou Jiang, Zhenghua Li, Bo Zhang, Min Zhang, Sheng Li and Luo Si. Supervised Treebank Conversion: Data and Approaches. ACL, 2018.
  • Shaohui Kuang, Junhui Li, António Branco, Weihua Luo and Deyi Xiong. Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings. ACL, 2018.
  • Wei Wang, ming yan and Chen Wu. Multi-Granularity Hierarchical Attention Fusion Networks for Reading Comprehension and Question Answering. ACL, 2018.
  • YaoBo Ni, Dan Ou, Shichen Liu, Xiang Li, Wenwu Ou, Luo S. Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks. KDD, 2018.
  • Jingjing Wang, Jie Li, Shoushan Li, Yangyang Kang, Min Zhang, Luo Si, Guodong Zhou. Aspect Sentiment Classification with both Word-level and Clause-level Attention Networks. IJCAI, 2018.
  • Lu Wang, Shoushan Li, Changlong Sun, Xiaozhong Liu, Luo Si, Min Zhang and Guodong Zhou . One vs. Many QA Matching with both Word-level and Sentence-level Attention Network. COLING, 2018.
  • Zhuoren Jiang, Yue Yin, Liangcai Gao, Yao Lu and Xiaozhong Liu. Cross-language Citation Recommendation via Hierarchical Representation Learning on Heterogeneous Graph. SIGIR, 2018.
  • Chen Wu , Ming Yan , Luo Si. Session-aware Information Embedding for E-commerce Product Recommendation(Short). ACM CIKM, 2017.
  • Shichen Liu, Fei Xiao, Wenwu Ou, Luo Si. Cascade Ranking for Operational E-commerce Search. KDD, 2017.
展开更多
竞赛
  • KBQA 2020,对话智能团队提交的系统目前Complex Web Questions Freebase Leader Board排第一名。
  • TableQA 2020,对话智能团队在Aug 24, 2020提交的模型(R²SQL + BERT)在耶鲁大学&Salesforce发起的CoSQL挑战赛目前排名第一。
  • TableQA 2020,对话智能团队在July 08, 2020提交的模型(R²SQL + BERT)在耶鲁大学&Salesforce联合发起的SParC挑战赛目前排名第一。
  • 中国法研杯 2020,最高人民法院与清华大学联合组织的“中国法研杯”比赛中,取得辩论挖掘任务第三名。
  • MS MARCO NLG 2020,在MS MARCO自然语言生成榜单排名第一,在智能摘要标准数据集上排名SOTA。
  • XTREME 2020,在多语言XTREME榜单上平均分77.2排名第一,超过主流模型包括XLM-R、XLM、mBERT、FILTER等。
  • CGED 2020,中文语法诊断纠错总数第一,识别和位置F1第二,任务同CGED 2018,评测外国人写的中文作文中,语法错误的类型、位置和纠正。
  • CoNLL 2019 MRP,EDS子任务排名第一,整体排名第三,与苏州大学合作参加,其中我们负责EDS子任务。
  • Semeval 2019 task12,task1、task2、task3均第一名,识别医学论文中的地名,并将识别出的地名对应到知识库中地名。
  • WMT 2018,国际机器翻译评测质量评估任务 六个子任务的第一名。
  • WMT 2018,国际机器翻译评测新闻翻译任务 英中、英俄、俄英、英土、土英五个语项的第一名。
  • 中国法研杯 2018,最高人民法院与清华大学联合组织的“中国法研杯”比赛中,取得了task3(刑期预测)第一名,总分第三名的成绩。
  • NLPCC 2018 task 2 GEC,中文语法纠错任务第二名,对外国人写的中文作文中错误进行纠正。
  • CGED 2018,中文语法检测纠错level精度第一,位置level F1第三,在CGED 2017基础之上新增纠错level子任务。
  • SEMEVAL 2018 task 8,subtask2 第一名,识别恶意攻击相关的实体、动作等;subtask1 第三名,识别文本是否是恶意攻击相关的文本。
  • 2018年(WMT)机器翻译质量评测上取得6个子任务评测No.1。
  • 2018年机器翻译评测(WMT)上取得5个语向机器翻译自动评测的No.1。
  • 2018年国际语义理解评测大会上, 事件抽取、语义抽取、上下位词挖掘等三个项目均是No.1。
  • 2018年美国华盛顿大学举办的Trivia QA Web 问答场景中名列No. 1。
  • 2018年首次在斯坦福大学举办的著名SQuAD机器阅读理解评比中精确阅读超越人类。
  • 2017年中文语法错误自动诊断大赛三个level中均夺得冠军。
  • 2017年美国标准计量局信息抽取英文实体分类比赛No. 1。

扫描二维码
关注阿里技术微信公众号