Alibaba Innovative Research (AIR) > Natural Language Processing
基于多模态信息的广告视频文案生成

业务背景

阿里妈妈短视频创意制作(阿瞳木,详见ATAhttps://www.atatech.org/articles/158341)经过一年多迭代,已发展为样式设计--素材准备--视频生产 相对成熟的自动产出链路。 接入超级推荐猜你喜欢、外投(信息流、抖音、快手)、超级直播外投等阿里妈妈多个重点广告位,并对接1688、AE等其他BU的制作需求。在淘内整体视频战略和5G的大背景下,视频广告的需求正在大幅度增加,然而如何为制作的视频搭配适合的文案素材仍然是一个难题。

在阿瞳木视频制作平台已上线的多种视频设计中,都使用了自动生成的文案作为视频制作的重要素材。现有的生成文案类型按照文案长度区分,主要为长文案和短文案两种,分别作为视频解说长文案、视频画面标题文案和画面搭配解说的字幕文案等应用于视频中。这些文案的使用取得了效果指标显著提升,例如解说长文案用于生成视频中,在各种视频样式中普遍取得了10%以上的点击率(CTR)与千次展现收益(RPM)提升。

如 1)用于视频解说的长文案实例(需打开声音播放):

http://g20.alicdn.com/video_case/%E6%99%BA%E8%83%BD%E8%A7%A3%E8%AF%B4%E5%AD%97%E5%B9%95%E5%89%A7%E6%9C%AC.mp4

2) 用于字幕的短文案实例:

http://g20.alicdn.com/video_case/%E5%AD%97%E5%B9%95%E5%89%A7%E6%9C%AC.mp4

目前视频文案素材已经取得了较大的业务指标提升,文案本身的质量,如保真度和流畅度等指标上也达到了较好的效果,但是自动生成的视频创意文案还是存在着一些不足:

1. 信息缺乏带来的文案准确性问题 - 由于视频所需要的文案素材字数较多(如长文案要求100字到200字左右),对输入信息要求也较高。但现有系统仅依赖较少且单一的信息源(商品标题、商品属性等)缺乏更详细的商品描述信息,导致生成的文案中可能会包含一些编造的商品属性,最终导致文案的保真度较低。另一方面,商品视频和图片等多模态数据中其实包含了大量的商品信息,目前尚未有效使用;

2. 视频-文案关联度问题 - 由于生成文案的过程没有用到视频内容信息,文案与视频相对独立,导致产出视频中包含的文案内容与视频内容是割裂的,关联度较弱,无法产生联动效应,观众的观感较差;

3. 多样性不足问题 - 虽然文案素材在视频制作中已经验证了效果的提升,但由于使用信息所限,产出文案单一(例如,目前单个商品智能产出一条长文案),一方面失去了用户个性化优选的能力,另一方面易导致用户疲劳,长期投放效果下降。

解决上述问题都依赖商品视频、图片等多媒体信息引入,和原有标题属性等文字输入组成多模态信息,而如何借助算法手段,有效利用好这些多模态信息,产出高准确性、高关联度、高多样性的文案,同时提升用户体验和业务收入效果,就成了一个亟待探索优化的技术问题。

拟解决问题

如下图所示,本次AIR项目的中心目标为:探索和完成多模态信息的视频文案生成系统,有效利用商品视频、图片和文案、属性等多种信息,产出高准确性、高关联度、高多样性的文案,产出文案为(1)视频解说长文案 (2)视频嵌入文本的短文案。

 

                   

                               图1  项目目标:嵌入多模态信息的视频文案生成系统

 

然而,综合使用视频片段、图片等多种信息实现文案生成是CV与NLP交叉的前沿热点领域,尽管业界和学术界已有一些进展,但具体到我们所做的大规模、可靠的、兼有长短文案的电商文案生成,仍然是需要利用这次AIR项目探索的开放性问题,具体包括:

1. 多模态信息的高效表达

除文案与属性输入外,视频与图像是此次重点关注的信息源。尽管CV界已经探索了一些图像和视频片段表达,如图像的RestNet、ShuffleNet,视频的TSM[1]、I3D[2]。然而,这些多媒体信息表达网络普遍很深,如何与相对较浅的文案与ID信息一起,高效协调嵌入工业级的文案生成系统,是否需要预训练与Backbone网络固定,有待进一步探索。

2. 适合电商场景高可靠性的多模态文案生成

近年来,文案生成的质量大幅改善[3,4,5],多项任务借助预训练模型效果都得到了显著提升,如摘要[6]、问答[7]、对话[8]等,借助图片和视频片段输入生成文案也有一些进展(如图片输入[9,10],视频输入[11,12]) 。但同时融合了图、文、视频等信息,适合电商场景,高可靠性、高准确率、中文输出的可供工业使用的系统依然是一个非常困难的问题,还未见理想结果展示。

3. 多模态信息对长文本多样性的助力

具备多样性的长文案生成一直是一个非常有挑战性的问题,之前关于多样的长文案生成主要集中在故事生成领域[13,14,15]。在本课题中,从原理上,丰富的多模态信息的加入为电商场景多样性长文案生成提供了素材和可能性,但如何将这个原理上的可能性变为现实,模型上应该如何设计,是一个有趣的开放性问题。

参考文献:

[1] Lin, Ji, Chuang Gan, and Song Han. "Tsm: Temporal shift module for efficient video understanding." Proceedings of the IEEE International Conference on Computer Vision. 2019.

[2] Wang, Xiaolong, et al. "Non-local neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

[3] Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 2019. Language models are unsupervised multitask learners. Technical report, OpenAI.

[4] Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S Weld, Luke Zettlemoyer, and Omer Levy. Spanbert: Improving pre-training by representing and predicting spans.

[5] Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, and Luke Zettlemoyer. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension.

[6] Khandelwal, U., Clark, K., Jurafsky, D., and Kaiser, L. Sample efficient text summarization using a single pretrained transformer.

[7] Ying Ju, Fubang Zhao, Shijie Chen, Bowen Zheng, Xuefeng Yang, and Yunfeng Liu. Technical report on conversational question answering.

[8] Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, and Bill Dolan. 2019. Dialogpt: Largescale generative pre-training for conversational response generation.

[9] Haoran Li, Peng Yuan, Song Xu, Youzheng Wu, Xiaodong He, and Bowen Zhou. 2020a. Aspect-aware multimodal summarization for chinese e-commerce products. In Proceedings of the Thirty-Forth AAAI Conference on Artificial Intelligence (AAAI).

[10] Qibin Chen, Junyang Lin, Yichang Zhang, Hongxia Yang, Jingren Zhou, and Jie Tang. 2019. Towards knowledge-based personalized product description generation in e-commerce. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD 2019, Anchorage, AK, USA, August 4-8, 2019., pages 3040–3050.

[11] Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu, and Zhengjun Zha. Object relational graph with teacher-recommended learning for video captioning. In CVPR, 2020.

[12] Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid. Videobert: A joint model for video and language representation learning. arXiv preprint arXiv:1904.01766, 2019.

[13] Lili Yao, Nanyun Peng, Ralph Weischedel, Kevin Knight, Dongyan Zhao, and Rui Yan. 2019. Plan-and-write: Towards better automatic storytelling. In Association for the Advancement of Artificial Intelligence.

[14] Angela Fan, Mike Lewis, and Yann Dauphin. Hierarchical neural story generation. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pp. 889–898, 2018.

[15] Angela Fan, Mike Lewis, and Yann N. Dauphin. Strategies for structuring story generation.

期望交付物

预期交付一套“多模态信息广告视频文案生成系统” , 该系统以商品视频、图片、商品标题、属性等物料为主要输入,自动产出融合多模态信息高准确性、高图文契合度的的广告视频文案(包括用于解说的长文案和用于字幕的短文案)。该系统在阿里妈妈短视频创意平台落地,获得相应业务收益(见“预期合作收益”)。

同时产出高质量(CCF A)学术论文1-2篇。

Scan QR code
关注Ali TechnologyWechat Account