在大数据的应用场景下,日志是非常重要的数据来源。稳定、可靠、高效的日志采集,对于数仓建设、实时计算和搜索推荐等都有着非常重要的意义。在过去的一年中我们重做了一套“日志采集和归档系统”(Datastream),解决了很多老系统遗留已久的问题,并基本完成了老系统任务的迁移,本次分享将带来其中的一些心得体会和经验。
12年浙江大学毕业,同年加入网易,参与并负责过网易通用搜索系统的开发、推广上云和维护,目前负责网易数帆旗下易数EasyData全链路数据生产力平台产品中任务开发调度、数据服务等子产品,以及网易Datastream日志采集和传输服务的研发和维护。
近年来,众多零售行业打破传统的销售模式,以互联网为依托,通过运用大数据及人工智能的技术能力对商品的生产、流通与销售过程进行升级改造,深度融合线上服务、线下体验以及现代物流,逐步形成了新零售模式。在这样的背景下,商品知识图谱作为零售行业数字化的基石,提供了对于商品相关内容的立体化、智能化、常识化的理解,对上层业务的落地起到了至关重要的作用。相比于传统知识图谱而言,在新零售背景下的商品知识图谱需要应对更加分散、复杂的数据和业务场景,而这些不同的业务对于底层知识图谱都提出了各自不同的需求和挑战。美团点评作为互联网行业中新零售的典型代表,覆盖了包括外卖、商超、生鲜、药品等在内的多个新零售领域,提供了线上购物、线下配送、仓储及供应链等在内的多种新零售业务,因此在相关的知识图谱方面进行了深入的探索。在这次分享中,将会由美团大脑中商品知识图谱的负责人曹雪智博士来对新零售背景下商品知识图谱的构建和应用进行详细的介绍。
背景介绍:
在新零售背景下,将商品相关的数据进行立体化、智能化、常识化的理解对于相关业务来说至关重要,因此催生了商品知识图谱相关的研究方向。在商品图谱构建方面,零散的数据来源、异构数据的整合、多模态数据的信息融合等都对图谱的构建提出了巨大的挑战。在应用方面,由于新零售领域中业务覆盖广泛,包括线上购物、线下配送、仓储、供应链等,在不同业务中商品知识图谱都有不同的应用方式,需要更加紧密的和业务进行对接。这次分享会基于美团点评的应用场景,介绍美团大脑中的商品知识图谱是如何进行构建并赋能新零售行业的。
分享提纲:以案例实践,技术解析,问题解决为方向的分享提纲列举
1、新零售场景下商品知识图谱的特点;
2、新零售场景下商品知识图谱的构建;
3、异构数据源整合;
4、多模态数据的信息融合;
5、新零售场景下商品知识图谱的应用;
6、基于图谱辅助搜索召排优化;
7、基于图谱的用户体验优化;
8、基于图谱提供数据分析服务。
要点:
1、通过零散的数据来源、异构数据的整合、多模态数据的信息融合等技术进行商品知识图谱的构建;
2、利用包括序列标注、成分识别、BERT等在内的自然语言算法对商品进行理解建模;
3、基于图谱知识,为搜索中的召回、排序提供结构化的信息,优化相关的算法模型及链路流程;
4、制定合理的图谱数据服务接口,赋能众多需求各异的上游业务。
曹雪智博士于2018年7月加入美团点评,担任AI平台NLP中心的研究员。目前主要负责美团大脑中商品知识图谱的构建与应用,实现对商品相关内容的更加立体化、智能化、常识化的理解,赋能美团点评的外卖、商超、生鲜等多个业务线。在此之前,曹雪智博士毕业于上海交通大学,由上海交通大学、康奈尔大学、微软亚洲研究院三方联合培养,师从俞勇教授和图灵奖得主John Hopcroft,在个性化推荐系统、在线社交网络等方向上开展研究工作,并在相关领域的会议和期刊上以作者发表10余篇论文,如WWW, SIGIR, AAAI, CIKM, RecSys等。除此之外,曹雪智博士也曾多次在ACM-ICPC竞赛中取得,并在数据挖掘竞赛KDD Cup中夺得。
短视频营销是当前商业营销的热点,本次分享想探讨在短视频领域,结合快手社区的特点,如何打造营销闭环,从而让商业内容成为快手健康生态的一部分,并驱动业务健康可持续发展。
分享提纲:
1、如何搭建商业化大数据中台,基于新的大数据技术,更快速更全面地覆盖完整营销链路;
2、在商业领域,如何基于AI与数据科学,大化发挥数据价值,提升行业竞争力;
3、快手的商业价值观,基于大数据量化用户体验,设计商业机制来保障商业产品与用户产品的协调健康发展。
研发工程师&数据科学家,2017年加入快手,主导开发了快手的商业化大数据体系、快手广告商业机制、快手商业用户体验价值体系等。见证了快手商业引擎从起步到百亿的过程。加入快手之前曾任百度凤巢策略架构师,腾讯搜索算法工程师等职。
百度机器学习开发环境BML-CodeLab,是基于开源JupyterLab的免费端产品,内嵌高性能数据科学引擎、易用的交互开发环境和丰富的领域解决方案。在端上算力受限时,可以一键对接云端算法、算力和数据服务,是更好用的JupyterLab。
具体技术和成果如下:
1、交互开发环境的特色。Jupyterlab、Pandas和Sklearn等开源产品一定程度降低了机器学习开发者的门槛,但面对大数据量的分析和训练,传统工具在处理速度、能处理的数据量、环境和工作流管理等多方面,仍然有极大的限制和复杂度。CodeLab是更好用的JupyterLab,在性能上做了高度优化,新增了众多企业级特征,更关键的是,它是免费的。
2、高性能数据科学引擎。传统的数据分析工具处理大数据量效率低下而分布式系统的使用和运维成本较高。数据科学引擎Blackhole,利用GPU和CPU众核并行加速及混合计算、超大数据处理、高效数据存储等技术,让数据分析、机器学习、可视化等数据科学环节,既保持单机的简单易用,又媲美分布式系统的处理能力。内置了高性能引擎的CodeLab,相比开源Pandas、Sklearn、Spark等,分析训练速度和可处理数据量,可提升接近十倍。
3、易用的交互开发环境。在开源的Jupyterlab UI界面上,通过其原生扩展机制,CodeLab集成了众多开发工具和管理功能,功能丰富,使用简单,开发效率可提升数倍。
百度杰出架构师,百度AI开发平台总架构师,主要负责百度BML、EasyDL、AIStudio等产品的研发工作。