上海资讯 www.shanghaizxw.com 我要投稿   加入收藏 | 设为首页
资讯 社会 财经 消费
快讯 法制 经济 观察
娱乐 教育 科技 家居
热点 母婴 维权 红榜
女性 健康 旅游 汽车
民生 黑榜 城市 体育
房产 食品 美容 质量
生活 风尚 数码 文化
品牌 游戏 家电 商讯
艺术 图片 传媒 访谈
您当前的位置:首页 > 消费 > 消费

搜索推荐算法国际化的挑战与尝试

时间:2018-01-09 15:30:21  来源:阿里巴巴

国际化是近年来阿里巴巴集团最重要的战略方针之一。什么是国际化?国际化就是提升一个业务的全球用户渗透率的过程。一个有国际化能力的团队,必须要能根据不同国家的市场差异化,以及潜在的竞争对手,在业务上以及技术上不断创新,同时以创业团队的思维来保有开放竞争的心态和生存意识,周而复始的打造足够竞争的壁垒和值得长期投入的业务。

AE的国际化技术创新

AliExpress作为阿里巴巴集团国际化B2C业务的领航员,目前已成功拓展业务到全球200多个国家,拥有全球过亿用户(参见图一)。当前,AE整个系统已经做到规模化,但我们的运营成本却不会成十倍或者是百倍地增长,这一切都仰赖于打造出来的标准化、轻量、低耦合以及整合集团多种技术的跨境交易平台。

具体来说,就在这个平台之上,我们建立了标准化微服务研发体系[5],这套体系能让我们持续保有高研发效率,高适应性,以阶段性业务结果驱动持续创新并且快速试错,比如说,我们在很短的时间内在俄罗斯使用我们的平台快速搭建并且尝试了数种不同的电商业务模式。最后终于找到了最佳的方式并且带来了快速的利润成长。这些尝试所需要的系统开发都是少量,并且我们在俄罗斯的工程师人数也不多。

除此之外,我们在技术上取得了相当多的创新。举例而言,象是多租户架构,区域化部署,多端融合,以及各式各样的搜索推荐算法在国际化场景下的升级。这每一个创新都是相当复杂,需要大篇幅的介绍,所以本文只选择聚焦在国际化场景下的算法创新,这些算法创新都是因应国际化所带来的新挑战。以下将详述这些挑战。

ͼƬ1.png

图一 AliExpress的规模

算法推荐在国际化遇到的挑战与尝试

挑战一:不同国家、人群、文化的差异性造成购买商品非常不一样

我们来看一些数据,图二显示了在不同的国家,人民的购买行为。蓝色代表用户每单购买商品数,灰色代表客单价。从这个图表我们可以明显的可以看出来人民的购买行为在不同的国家差异性是很大的。比如说美国人喜欢买很多商品,但是单价比较低。法国人买的东西比较少,然而却喜欢买贵的东西。另外我们比较了在这些国家的前一千名热销商品,重合度紧紧只有百分之五左右。也就是说不同的国家,人群,语言,文化等所造成的环境差异性,再加上竞争,消费能力等地区差异性,人民最终购买的商品非常不一样,大大提高了我们国际化团队给全球消费者打造搜索推荐产品好体验的难度。

4.2.png

图二 不同国家的购买力行为分布,蓝色代表用户购买商品数,灰色代表件单价

挑战二:海外移动端普及性不高和机房全球化部署挑战

要做到国家个性化以及本地商机发掘,首先我们要能建立流量及人群画像,并且画像中的特征要能够做到实时数据积累。但是,这并不是一件容易的事。一方面,与国内移动端的用户已占绝大多数不同,在许多国家PC端或者Mobile Web端还是有一定比例的使用人群。在这些人群中新用户或者未注册的用户只能用cookie id 去追踪,把不同的cookie id关联起来,或者是cookie id和无线端的device id关联起来,我们需要发展cross device id mapping的技术。另一方面,实时数据积累需要快速地回应及存储,我们必须要有多机房以及全球区域化部署的机制,让所有的画像数据能快速地存处和同步 [4]。

4.3.png

图三 国家差异化的用户体验

挑战三:用户量大,但国家覆盖度不足

AE虽然在全球已有相当大量的注册用户,但是在许多国家的覆盖度还是不够。这和淘宝天猫目前的运营情况是大不相同的,淘宝天猫已是中国第一大电商平台,所累积的商品讯息已经非常庞大,目前所需要的是更精细化的运营,以最尖端的机器学习算法加上大数据来完善最不同场景下的个性化模型。

但是我们在AE个性化搜索推荐模型的设计上还得要考虑大量的新用户所造成的冷启动问题。目前我们正在使用exploration/exploitation Multi-armed bandit(MAB)的技术,将新用户实时反馈的行为数据,不段尝试挖掘出最佳的排序及推荐策略。另外我们也自己开发出来了一套图搜引擎,可以把站外爬取热销商品和热搜词所对应的商品,快速地对齐到我们AE里面的自有商品,同时我们也要求为我们站外引流的站长提供更多的用户画像数据,象是用户拜访过网页的关键字等等。这些额外的数据,都可以成为我们正在尝试的迁移学习,co-training等技术提供更多的训练样本。

4.4.png

图四 以数据驱动的算法技术框架

面对挑战的进一步尝试

为了进一步提升推荐算法的精准度,我们也正在大力投入自然语言的研究,象是多语种翻译以及多语言语意分析等等。AE与阿里巴巴内部多个团队正在紧密合作,如与iDST的自然语言团队正在密切合作,提升机器翻译质量的部分已有不少的进展,新使用神经网络翻译模型(Neural Machine Translation, NMT)对比于传统的统计翻译模型(Statistical Machine Translation, SMT)在翻译准确度和业务效果双双表现正向,目前已全量上线。我们并且打算在全球各地招募不同语种的翻译专才以再精进目前的翻译质量。另外,NLP团队正在尝试使用最新的Deep Learning模型,象是CDSSM在中心词提取,以及Bi-LSTM+CRF在语义分析(NER)上,目前在脱机评测都有相当显著的效果提升,在线AB测试正在进行中。


[正文结束]
    版权与免责声明:
    1. 本网注明来源为上海资讯网的稿件,版权均属于上海资讯网,未经上海资讯网授权,不得转载、摘编使用。
    2. 本网注明“来源:XXX(非上海资讯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。
    3. 如涉及作品内容、版权等其它问题,请在30日内同本网联系。邮箱:hnppxc @126.com
    特别提醒:本网刊发的所有商业信息,文章内容不代表本网观点,仅供参考。
来顶一下
返回首页
返回首页
推荐资讯
斯巴鲁纪念在美上市50周年 全系阵容将推限量版
斯巴鲁纪念在美上市50
瘦子应该如何运动健身
瘦子应该如何运动健身
中国银行网办信用卡柜台激活遭拒用户获赔2000元
中国银行网办信用卡柜
《楚乔传》只拍1本半就结束 赵丽颖:我上当了
《楚乔传》只拍1本半就
相关文章
栏目更新
栏目热门