Alibaba Innovative Research (AIR) > Natural Language Processing
多模态语义分析与匹配

业务背景

随着互联网的普及和发展,海量信息与用户有限认知能力间有着严重的信息过载问题。推荐系统则在近些年已成为解决信息过载问题的主要方法之一,也被广泛应用于各类电子商务平台,在为海量用户带来极大便利的同时也创造了巨大的商业价值。

现有的推荐算法研究大都聚焦于如何更好地建模在当前场景下用户的兴趣偏好,对于商品侧的相关研究与技术积累仍然有限。大量的研究集中在如何优化推荐模型从而直接地提升用户体验(to C),却忽略了具有基础性、通用性的商品侧技术研究,特别是商品表示、多模态信息融合等。这些to B技术可能难以直接地提升用户满意度,但是其能够应用于不同服务及场景,因而具有很高的研究价值和研究意义。

在电子商务场景下,平台内乃至跨平台的商品精准匹配就是一个具有挑战且重要的问题。一方面,精准匹配对于商品对齐、推荐结果去重、商品表征等具有重大帮助,能够进一步提升推荐结果;但是另一方面,由大量第三方卖家(如闲鱼)在添加商品时往往会采用自定义的文字、图片等多模态信息来描述该商品,这使得我们难以仅依赖文本信息实现平台内及平台间商品的精准匹配(如闲鱼二手商品间的匹配或到从闲鱼商品到淘宝商品的匹配)。因此,我们拟开展多模态语义分析与匹配方法研究

拟解决问题

多模态语义分析与匹配方法研究涉及到多模态信息的表征、信息融合以及扩展等。我们拟从以下三方面开展研究内容,主要包括:(1)多模态信息的同一语义空间表示方法研究;(2)面向商品精准匹配的多模态信息融合方法研究;(3)结合多模态信息的推荐服务研究。

(1)多模态信息的同一语义空间表示方法研究

如前所述,在推荐场景下往往有大量的多模态信息,如:商品的文本、图片等。已有的研究工作有大量技术可以用于单模态信息的表示,如:Word2vec、BERT等文本表示技术、CNN等一系列图片表示技术。然而这些特征建模方法将不同模态的信息建模到了不同的向量空间中,难以实现多模态信息的统一表征。

本研究中我们首先关注于多模态信息的同一语义空间表示方法研究,即在进行各自模态信息表示学习时考虑将其最终的输出的特征向量建模到同一语义空间,已有研究中尝试过单向空间映射(如:都映射到语义空间)、特征空间transfer等方法,在本研究我们计划设计半监督的联合空间映射建模技术实现多模态信息的统一表示。与已有方法向单模态空间映射的思路不同,联合空间映射方法本质上在于让多模态数据向中心靠拢,可以称之为“中心同步”,以期达到更快的收敛速度及更好的表示。此外,因为真实环境下不同推荐场景的数据差异较大(如:服饰、鞋类、箱包等),我们考虑融合半监督的学习方法,减少算法的标注需求,提升算法的迁移能力。 

(2)面向商品精准匹配的多模态信息融合方法研究

实现同一语义空间下的多模态表征是多模态信息融合的第一步。注意到一方面在已有的工作中,即便同样是对于文本信息(标题、描述等),我们在商品建模的过程中也往往会使用不同的结构来充分利用其信息,因此我们需要设计信息融合的具体结构;另一方面,在商品匹配的过程中,即便是同一商品也可能出现描述不同但图片相同、图片不同但描述相同、甚至图片和描述都不相同的情况。因此如何有效进行多模态信息的融合用于商品匹配是我们研究的一大难点。

基于第一部分得到的多模态信息统一表征,在这里我们将以商品匹配为主要目标。在模型设计上,拟基于双塔模型进行匹配,并针对多模态信息的特点采用适当的网络结构进行特征融合。同时,为了能让多模态信息的语义映射更好地服务于商品匹配,在框架上拟采用联合学习或迭代学习的方法进行整合。此外,我们拟在匹配的过程中采用一定对抗学习的思路,可以通过多模态信息(如文本、图片)的替换、旋转等变换来生成有真实含义的对抗训练样本,从而进一步提升模型的鲁棒性和表现。

(3)结合多模态信息的推荐服务研究

前两个研究点中我们完成了多模态语义分析及匹配两方面的研究,考虑到现有的商品表示方法一般仅采用了单模态表示特征拼接等方法,难以准确刻画用户,因此我们拟将完成多模态信息融合后的商品表示直接应用于推荐场景,进一步增加提出算法的应用场景。

在这里,我们将基于(1)和(2)的输出,选择一到两个真实场景下的推荐系统进行改进测试,利用多模态信息融合的商品表示替代原有商品表示,并进行必要的模型调整,从而改进不同场景的推荐服务

期望交付物

1.语料

标注和收集商品对作为基准数据集,用于模型的训练,其中,相应的商品应该包含图片、描述、价格等丰富的多模态异质信息。(语料由阿里方面负责收集与标注,均属于公开数据,会走相关数据披露流程给AIR学校合作者)

2.模型和代码

(2.1)多模态信息的同一语义空间表示模型和代码;

(2.2)面向商品精准匹配的多模态信息融合模型和代码。

(2.3)结合多模态信息的推荐模型和代码

3.技术报告或双方认可的高水平会议(如:CCF-A类论文等)1篇

 

Scan QR code
关注Ali TechnologyWechat Account