JuiceFS平台构建与海量数据存储实践
演讲简介:
共享文件系统JuiceFS在携程的平台化过程、海量数据场景的存储实践,以及Elasticsearch等典型应用实现降本增效方案。
分享大纲:
1.数据场景介绍、痛点
2.技术选型与POC
3.JuiceFS 架构与原理
4.生产架构(平台化)演进
5.典型业务佳实践
6.成果与展望
分享要点:
1.JuiceFS平台化需求产生的背景:携程存在规模10PB+ 冷数据,数据类型差异较大,包括备份数据、图片语音训练数据和日志数据等,现有存储方案主要是本地磁盘和GlusterFS。该方案存在性能、弹性、成本三方面的痛点。
2.数据场景痛点的解决方式:混合云的方式实现降本增效,借助公有云降低运维成本,ES、CK等典型使用场景通过单副本方案节省存储空间、内存。海量数据上云需要面临的挑战。
3.技术选型与POC:JuiceFS、TIKV性能测试结果与结论分析。
4.JuiceFS架构与原理:介绍基于fuse的用户态文件系统、JuiceFS的读写流程与优化思路;
5.JuiceFS平台架构演进:从简架构到可以支持10PB+数据的存储平台,分析演进过程中遇到的故障与优化方案,包括TIKV优化、加速数据清理、限流方案、volume数据备份管理等。
6.典型业务佳实践:DB数据备份场景(10PB级)、Elasticsearch引擎部分原理与特点以及两种应用方案。
7.成果与展望:
成果:支持大数据规模、降低成本、部分组件实现一定程度的存算分离。
展望:提供proxy层提高用户体验、实现快速故障隔离;JuiceFS不停服升级、重启方案。
嘉宾介绍:
张妙成 携程 云原生研发工程师
2020年加入携程,主要负责 Elasticsearch、JuiceFS 的研发、运维工作。
Elasticsearch PAAS 负责人,致力于提供基于Elasticsearch的稳定、高性能的搜索、数据分析能力。
负责共享文件系统JuiceFS 的平台构建以及在携程海量冷数据场景下的落地,提供稳定的数据上云、数据共享能力。个人从事过业务开发、PAAS研发等岗位,多年ElasticSearch使用开发经验,对搜索分析系统、日志系统的设计与调优有丰富经验。
Apache IoTDB 0.14.0 分布式新特性及核心技术
演讲简介:
工业物联网机器设备感知形成工业物联网时序数据,相关技术已列入《中国制造2025》规划,是国家战略发展重要举措。为满足新时代工业时序数据管理的需求,Apache IoTDB 项目启动,支持“端-边-云”数据协同部署,目前,Apache IoTDB已在钢铁冶炼、石油化工、飞机制造、核电、风电、智慧电厂、城市交通运输等多个领域得到应用。今年 Apache IoTDB 在发布 0.13 系列版本的同时,社区也在进行下一代分布式时序数据管理技术的探索和研发。本次演讲会围绕工业时序数据管理的挑战,分享 Apache IoTDB 的核心特性和分布式的设计理念。
分享大纲:
1.行业背景与挑战
2.现有技术的问题
3.产品功能和优势
4.IoTDB分布式架构
5.未来规划
分享要点:
时序数据库 Apache IoTDB的设计理念,解决的核心问题,分布式架构的核心特性,如数据一致性、数据分区等。
嘉宾介绍:
乔嘉林,清华大学博士,助理研究员。Apache IoTDB PMC,开放原子基金会银牌讲师,中国通信学会开源技术专委会学术秘书,获北京市科技进步一等奖。
云音乐分布式KV存储实践和演进
演讲简介:
云音乐算法业务在数据存储和读写方面面临诸多技术难题和挑战,如存储场景复杂多样、数据规模大和请求并发高低延迟要求等,而单一的开源存储如Redis、Hbase等只能解决部分业务场景的存储问题,且多种存储方案带来了过高的业务接入成本和维护成本。在此背景下,我们首先引入了开源存储Tair,并针对Tair存储进行了深度优化和改造,大幅提升了不同的算法业务场景中存储效率和空间使用,为云音乐算法业务打造了一套统一化的特征存储服务,支撑业务峰值QPS超800w/s,读写请求超4000亿次/天,存储算法特征数据量100TB+,在高效解决业务在复杂场景下的存储难题的同时,也极大降低了存储资源成本。后,在上述工作基础上,为了能解决Tair存储架构存在的局限和不足,我们自研了一套适用多场景应用的KV数据库系统NuBase。在此过程中,团队积累了从开源改造到自研的丰富经验,形成了一些可供复制和参考的技术沉淀,本次演讲的主要内容就是围绕团队在KV数据库领域的应用和创新方面所积累的经验,以及遇到的问题进行分享,希望能给大家以参考。
分享大纲:
1、背景与挑战
2、技术选型
3、Tair改造方案
4、NuBase自研方案
5、未来规划
分享要点:
分布式存储如何结合推荐搜索等算法业务场景选型,如何针对特定业务场景落地定制化存储方案,如何在分布式KV存储领域进行应用和创新,对通用型KV存储的设计思考和实践进行分享。
嘉宾介绍:
张磊 网易云音乐 存储工程师
主要专注于分布式NOSQL数据库,热衷于NOSQL数据库领域的应用和创新,曾先后任职于唯品会、eBay、网易云音乐等公司,承担和负责分布式KV数据库相关研发和运营工作,具备一定的分布式存储领域技术沉淀,对于推荐搜索等算法业务场景的特征数据存储有深入理解,在复杂业务场景数据存储的“量身定制“方面有丰富的经验,设计实现和落地了部分特定场景的创新性的KV存储方案,致力于通过自研和创新的存储实现为业务赋能的目标。