主题简介:业务的高速扩张,数据流量巨大, 超大流量的消息队列对整体带宽资源、下游的消费任务的稳定性以及计算资源都带来了巨大的挑战, 为了解决这一问题我们升级了Flink原生的实时流表的方案扩展实现了流表的分区支持, 大大降低了整体的流量带宽和计算资源的消耗;
底层技术的升级带来了大量的任务的升级改造、业务发展太快平台需要下线的废弃数据任务也会越来越多、平台开发水平层次大量的数据任务配置都需要优化升级; 等等这些都是业务平台开发日常面临的繁琐、难以推进的且很难说明价值的工作, 为了更好的触达用户, 系统化解决日常的数据任务治理工作, 我们设计一套系统化、流程化、 可审计跟踪的的大数据任务治理方案来解决日常任务治理工作;
分享大纲:
1.云音乐相关业务以及数据现状
2.云音乐实时流表分区技术介绍
3.大数据任务治理方案介绍
4.未来规划
分享要点:
1.实时流表相关技术方案介绍:我们参考了HIVE的分区实现,在实时流表上实现了类似的分区技术, 支持SQL分区裁剪读取, 支持运行时动态的新增和减少分区
2.大数据任务治理方案介绍: 我们通过收集数据构建任务画像、用户画像、以及资源画像为整体数据治理基础; 通过规则引擎以及运维手动导入等方式在任务的不同阶段发现问题,生产可优化任务; 通过平台工具以GTD的方式来触达用户, 辅助用户优化任务、下线任务; 收集整体任务优化数据形成任务治理处理闭环, 体现整体治理工作的价值。
汪磊, Zeppelin Contributor, 云音乐数据平台开发专家, 数据平台组计算平台负责人, 2013年加入网易, 参与过易信、云音乐等产品的数仓建设, 目前主要负责云音乐离线、实时、机器学习等统一数据平台建设工作。
从“老掉牙”的Oracle体系去反推现在的MPP大数据,大SQL技术,会有怎样的内心体验?
构建云原生的ClickHouse云上数仓,有哪些喜闻乐见?
上云是费钱还是省钱,穷人也可以薅公有云的数仓羊毛?
笔者从一个DBA从业者的角度,跟大伙聊聊数据库,数仓,云数仓的那些事!
原阿里巴巴 Oracle DBA 团队技术 Leader,多年大型电子商务网站数据库的运维与管理经验。
主题简介:数据被列为第五个生产要素,前四大分别是土地、劳动力、资金和技术,每一个生产要素都导致了行业的巨大变革,数据成为了当前全球增长和科技创新的引擎,催生了数字科技革命。
各地积极成立大数据局,并且打造数据交易中心(所),是为了构建数据交易市场的物理载体,围绕数据交易、流通和开发利用推动制度建设和服务创新,更好激发市场供需两端积极性、更深度参与数据要素市场建设,运用市场化手段加快推动数据要素价值转化。
分享大纲:
一、如何进行隐私保护的同时,产生数据流通价值,隐私计算技术在数据交易会发挥具体价值,目前主流隐私计算技术和页面目前的挑战和进展。
二、先行先试的场景,在数据交易层面的几个佳实践场景,具备很好的技术实践作用和引领典范的作用,需要重点展开各参与方职责和价值呈现。
三、数据确权和沙盒计算技术为数据价值流动和确定的前提,面临较多技术侧挑战,在一个多方参与、黑盒计算如何调试、调优、发布服务等众多方面有一些探索实践。
分享要点:
关键词:数据隐私保护、隐私计算、数据沙盒、数据确权、数据交易模式。
一是目前中国大数据交易所的建设形态模式,以及创新和挑战。
二是隐私数据计算技术价值,建立体系标准实践:在数据隐私保护的前提下如何对数据价值的输出是技术标准落地和佳场景实践。
三是未来支撑大数据交易所模式的探索,产品模式、技术模式和运营模式。
京东城市总架构师、技术委员会工程方向主席,擅长大数据、云计算、微服务、区块链架构技术,曾担任全球三大数字货币交易所OKCoin技术副总裁、阿里·饿了么集团首席数据架构师&P10科学家、百度外卖首席大数据架构师,同时也是百度大数据DO平台发起人,拥有40多项国家发明专利。