随着京东数据规模和业务复杂度的不断发展,计算任务体量及计算资源压力大幅增长,Spark作为京东大数据的主力计算引擎,在性能和稳定性方面做出了诸多尝试与努力。
此次分享主要涵盖在面对计算引擎全面容器化、实现离在线混合部署的背景下,京东Spark计算引擎在云原生架构部署方面的探索和实践,通过落地Spark On K8s部署、ESS容器化、安全性配置管理、日志服务及实时监控等一系列自研组件和方案,终实现了批流融合的混合部署,达到资源复用、降本增效,助力京东实现数据驱动业务的变革与发展的目的。
马瑞磊,2018年加入京东,大数据研发工程师,Apache Spark Contributor,主要负责Spark计算引擎性能及稳定性的研发与优化,Spark On K8s、Remote Shuffle Service等关键项目的主导及开展,实用工具及产品的设计与开发工作。目前专注于开源大数据领域及云原生技术。
介绍同程旅行是如何将大数据存储计算服务搬到 Kubernetes 之上,提供统一的PAAS平台。
分享大纲:
基于Kubernetes 研发大数据服务的devops流程,我们从简单的计算型服务再到复杂的分布式存储服务,从单机房架构再到多机房架构,我们能解决了一个又一个上云的问题,构建出自己的大数据PAAS平台。
分享要点:
1.为什么我们要将大数据服务搬到私有云上。
2.上云的过程中我们遇到的痛点
3.大数据服务上云攻略
4.现状和未来规划
同程旅行研发工程师。带领大数据cloud team 从零到一构建大数据云舱平台,机器学习平台。致力于解决大数据服务运维效能问题。是一名开源爱好者,TiDBOperatorCommitter.参与贡献了PrometheusOperator&&Volcano&&Chaos-Mesh等多个开源云原生项目。
在智能广告投放的过程中,需要通过大量的A/B测试实验快速试错,寻找佳的广告投放策略与算法。亿贝智能广告投放实验平台团队一直在探索建设先进的实验评估系统,以期能够高效、准确地对实验结果进行评估,快速对业务决策给出建议。实验评估系统的建设面临着诸多挑战:在功能上,系统需要支持数量繁多的业务指标,而且随着业务的高速变化,系统需要灵活地支持不断新增的指标。除此之外,为了能够深度探索测试组和对照组之间的区别,系统需要支持大量的维度组合。另外,要能够提供尽可能准确的实验结果,就必须针对业务指标的特点,提供灵活可插拔的统计学算法计算实验结果的置信度。后,在实验结果的呈现上,需要支持丰富可扩展的图表组合。在性能上,尽管亿贝的用户行为数据量巨大,但是实验评估系统需要在秒级返回出实验结果。针对以上挑战,我们使用了一个多层混合架构,使用了Spark、ClickHouse、Redash等开源技术,并分别在用户行为数据设计、实验对比在线实时分析以及智能报表呈现方面进行了创新,在功能和性能上都成功应对了上述挑战。
分享提纲:
a. 介绍亿贝智能广告投放实验评估系统面临的挑战及机遇;
b. 介绍亿贝智能广告投放实验评估系统的用户行为数据设计;
c. 介绍亿贝智能广告投放实验评估系统的在线实时分析;
d. 介绍亿贝智能广告投放实验评估系统的实验结果可视化;
分享要点:
首先,随着广告业务的不断发展,高效、准确地对广告投放实验进行结果评估对于寻找佳的投放策略是至关重要的;其次,广告投放实验评估系统在业务指标及维度数量、统计学分析方法、实验结果可视化以及查询性能各方面都面临这巨大挑战;后,通过引入多种开源技术,并在用户行为数据设计、在线实时分析以及结果可视化几个方面的创新,亿贝智能广告投放实验平台提供了高效、准确的实验评估系统,帮助亿贝广告投放业务能够为不同的渠道快速地寻找到佳的投放策略。
诸豪文,eBay软件架构师,2015年毕业于清华大学软件工程专业。加入亿贝前先后工作于摩根士丹利以及TikTok,从事服务端开发与架构。于2018年加入eBay智能市场营销部门,
期间主要负责:
1.通用机器学习及特征平台的开发与维护;
2.广告投放实验平台的开发与维护;
3.领导eBay智能市场营销部门技术委员会。对分布式系统、微服务架构及大数据技术有广泛涉猎。译著有《Python网络编程(第三版)》、《Akka入门与实践》。并担任开源项目OpenAPI Generator技术委员会成员。
随着互联网的发展,业务数据快速膨胀,对数据库计算和存储能力的需求日益增高,传统数据库的优化在业务迭代和升级中已经举步维艰,分布式架构的优势愈发明显;
腾讯云原生数据库应运而生,其融合了传统数据库、云计算与新硬件的优势,实现兼容MySQL,在存储容量、可靠性、扩展性和可用性等多个方面都有显著的提升,同时分布式架构赋予了产品更大的优化空间,未来演进和优化都将会有更大的想象空间。
大纲:
1、云原生数据库架构演进;
2、云原生数据库的关键突破(包括在可用性,性能和可靠性上的突破);
3、云原生数据库未来演进之路。
腾讯云原生数据库(TDSQL-C)计算层负责人,负责云原生数据库产品的架构设计、核心开发、系统优化和产品化工作。