研究方向
  • 图像理解与分析

研发图像分类、目标检测、特征表示学习、关键点提取、大规模向量搜索引擎等基础技术,解决商品图像,通用图像,人脸人体,文本图像的识别、搜索、分析等问题。

  • 视频理解与挖掘

研发视觉跟踪、视频标签、视频生成等基础技术,解决在海量视频中进行高效和稳定的视频审核、搜索和编辑等问题。

  • 图文理解

研发图文互搜、图文共搜、价格预估等跨媒体内容理解的核心技术,解决跨媒体内容理解与分析等问题。

  • 三维视觉

研发硬件扫描、点云处理、纹理映射、三维分类/检测/特征表达等基础技术,解决小物体、人体及人部件在特定场景的三维模型生成、识别、搜索等问题。

  • 线下智能

研发摄像头网络、传感器融合、行人跟踪与重识别、人体姿态估计、物体检测与识别等基础技术,解决人的身份识别、人的全域追踪、动作序列分析、商品定位和识别、人货绑定等问题。


产品及应用
  • 拍立淘和图像搜索云产品

    研发了业界领先的图像搜索与识别技术,并应用于多种场景。每天有超过1700万人通过淘宝和天猫使用拍立淘的以图搜图功能。基于阿里云平台,研发了图像搜索云产品,为具有海量图像搜索需求的客户(如电商、相册、图库类网站)提供完整的以图搜图解决方案。目前已经有若干海外和国内用户,比如澳洲和新西兰领先的时尚和运动零售商THE ICONIC。

    了解更多
  • 三维智能制造

    通过三维视觉技术,提供行业个性化定制方案,打通消费者、品牌商和工厂的链路通道。目前在鞋履产业,通过高效精确的三维扫描和搜索匹配算法,实现精准鞋款推荐、精准营销;并通过制造端楦体自动生成、智能推理等技术降低个性化定制的成本,实现精准制造。

    了解更多
  • 媒体AI解决方案

    通过多媒体数据的审核、标签、内容生成、版权保护等多维度的媒体AI技术,提升传统媒体行业能效并节省成本。已与中央电视台、东方卫视、央视网、新华社等国内传媒巨头建立合作。

  • 新零售场景人货场数字化

    使用摄像头等传感器和视觉技术改造原有门店或者构建全新无人店,实现店铺内对人的追踪和空间定位、货架商品SKU识别及货架陈列合规的检查、人货关联等功能,从而推动商场、超市、酒店等的人货场数字化,并在此基础上做进一步的商业分析。该方案已经被用于盒马门店。


研究团队
任小枫达摩院视觉智能实验室负责人

华盛顿大学计算机科学与工程系客座教授,拥有加州大学伯克利分校博士学位。加入阿里巴巴之前,曾担任亚马逊资深主任科学家,负责Amazon Go计算机视觉算法的研发。相关论文被引用10,000次以上,是CVPR和ICCV会议的领域主席。

ZELNIK, Lihi达摩院以色列实验室负责人

曾任以色列理工学院电气工程系的副教授,纽约康奈尔大学的客座教授。拥有魏茨曼科学研究所计算机科学博士。一直致力于计算机视觉的研究。 曾任CVPR'16的项目主席,TPAMI的副主编,多次担任CVPR,ECCV的区域主席,并担任ACCV'18和CVPR'19的奖项委员会成员。在2021/22年,她将担任CVPR'21和ECCV'22的主席。

潘攀达摩院视觉智能实验室资深算法专家

拥有伊利诺伊大学芝加哥分校博士学位。拍立淘以图搜图的创始人之一,研究领域包括深度学习、视觉搜索与识别和三维视觉等。曾先后在三菱美国研究院和富士通北京研发中心从事视觉技术工作。已发表20余篇论文,拥有多项授权专利。

刘铸资深技术专家

纽约大学博士,研究领域包括视频内容理解和分析,三维视觉,机器学习。曾任AT&T科研实验室主任科学家,哥伦比亚大学和纽约大学的客座教授。拥有140多项美国专利,发表70余篇论文。曾获AT&T科技奖章。IEEE高级会员,IEEE TMM和SPL副主编。

Itamar Friedman资深技术专家

拥有以色列理工学院电子工程学院的计算机视觉和机器学习硕士学位。研究领域是基于深度学习的视频和图像分析。他曾是Visualead的首席技术官,在机器人和网络开发领域曾连续创业。曾是Microsoft Accelerator TLV的导师,指导以色列领先的医疗和无人机领域的AI创业公司,拥有多项专利。


学术成果
论文
  • Bin Wang, Pan Pan, Qinjie Xiao, Likang Luo, Xiaofeng Ren, Rong Jin, and Xiaogang Jin. Seamless Color Mapping for 3D Reconstruction with Consumer-Grade Scanning Devices. In: Proceedings of the 4th International Workshop on Recovering 6D Object Pose Organized at ECCV 2018, Munich, Germany, 2018.
  • Yanhao Zhang, Pan Pan, Yun Zheng, Kang Zhao, Yingya Zhang, Xiaofeng Ren and Rong Jin. Visual Search at Alibaba. In: Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD'18), London, UK, 2018.
  • Jie Song, Chengchao Shen, Yezhou Yang, Yang Liu, and Mingli Song. Transductive Unbiased Embedding for Zero-shot Learning. In: Proceedings of the 31th IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, UT, 2018.
  • Peisong Wang, Qinghao Hu, Yifan Zhang, Chunjie Zhang, Yang Liu and Jian Cheng. Two-step Quantization for Low-bit Neural Networks. In: Proceedings of the 31th IEEE Conference on Computer Vision and Pattern Recognition (CVPR'18), Salt Lake City, UT, 2018.
  • Lechao Cheng, Zicheng Liao, Xiaowei Zhao and Yang Liu. Exploiting Non-Local Action Relationships for Dense Video Captioning. In: Proceedings of the 29th British Machine Vision Conference (BMVC, 18), Newcastle, British, 2018.
  • Zhiqi Cheng, Xiao Wu, Yang Liu and Xiansheng Hua. Video2Shop: Exact Matching Clothes in Videos to Online Shopping Images. In: Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition (CVPR'17), Honolulu, Hawaii, 2017.
  • Chen Chen, Xiaowei Zhao and Yang Liu. Multi-modal Aggregation for Video Classification. In: Proceedings of the 25th ACM Multimedia Workshop 2017 (ACM MM' 17), Mountain View, CA, 2017.
展开更多
竞赛
  • 2018 KITTI囊括三项道路场景分割任务第一。
  • 2017ACM多媒体大会,大规模视频分类比赛(LSVC)冠军。

扫描二维码
关注阿里技术微信公众号