ByteGraph是字节跳动 2018 年开始自研的分布式图数据存储系统。目前,ByteGraph 支持了头条、抖音、广告、推荐、风控、知识图谱等几乎全部产品线,服务遍布全球机房。由于服务的业务不断增加,我们也面临了各种各样的新型的业务场景,对 ByteGraph 的查询性能提出了更高的要求。本次分享将聚焦于图数据库中的索引加速和执行优化,给大家分享 ByteGraph 关于性能优化一些进展。主要内容有以下几点:
1. ByteGraph 业务场景介绍
2. ByteGraph 架构与实现
3. ByteGraph 索引实现
4. ByteGraph 执行优化
5. 未来的一些探索
陈超,字节跳动研发工程师,深度参与了 ByteGraph 开发到上线以及后续的迭代演进。目前主要负责 ByteGraph 存储层的开发工作。
关联数据爆炸性增长对图计算高效处理提出迫切需求,图计算利用图形结构描述事物联系,成为分析复杂关系数据的重要使能技术。蚂蚁集团拥有大量关联数据,为了更好的利用这些数据服务客户,降低客户风险,蚂蚁集团联合清华大学研发了大规模图计算系统TuGraph。TuGraph图计算系统由图数据库TuGraph-DB,流式图计算系统TuGraph-DataFlow,离线图计算系统TuGraph-Compute等多个子系统构成。其中TuGraph-DB是一个高性能分布式图数据库,它历经蚂蚁万亿级业务的实际场景锤炼,已经成熟应用于金融风控、搜索推荐、设备管理等内外部场景。本次分享将介绍高性能图数据库TuGraph-DB的主要特性和技术架构。我们还将分享TuGraph-DB的几个典型应用场景及演进方向。
洪春涛博士于2011年毕业于清华大学计算机系,主要从事并行计算和高性能计算研究;后加入微软亚洲研究院从事分布式系统和大规模机器学习研究;2016年联合创建了北京费马科技有限公司,研发了TuGraph图数据库;2020年加入蚂蚁集团,目前负责主持蚂蚁图数据库研发。
知识图谱作为认知智能的技术基石,近年来受到广泛关注;为此,北京大学数据管理研究室和北京大学重庆大数据研究院图数据库与知识图谱实验室基于gStore图数据库系统、gbuilder知识图谱自动化构建平台以及gAnswer知识图谱智能问答引擎打造了知识图谱一体化解决方案,并在金融、医疗、公安等多个领域进行了实战部署。我们将和大家分享gStore、gBuilder、gAnswer等平台相关功能和特性,以及在金融等领域的相关案例,共同探讨基于图数据库的知识图谱一体化解决方案未来前景与技术挑战。
李文杰,博士,北京大学王选计算机研究所博士后,北京大学重庆大数据研究院图数据库与知识图谱实验室副主任。目前主要研究方向为图数据库、知识图谱等,在计算机领域国际知名期刊/会议发表论文10余篇。负责或参与国家科技部重点研发计划项目5项,国家自然科学基金重点项目3项,国防科工创新特区项目2项以及其他省部级项目10余项,在军工、金融、医疗、公安、纪检监察等领域均有应用项目落地,在知识图谱构建、知识图谱存储管理和知识图谱应用方面具有丰富的项目研发和实施经验。
现有公司平台目前存在诸多痛点:各个平台只有基础而割裂的元数据,没有建立关联关系;元数据之间的关系没有一个有效的分析和应用;缺乏”千人千面”的标签能力,无法对应用/资源/域名等元数据灵活打标。公司迫切的需要一个能够提炼和分析各种关系数据的一个元数据平台;在此需求背景下,我们选择了百度开源的HugeGraph图数据,并做了深度的集成和二次开发,创建了虎牙应用元数据平台:构建虎牙全网应用和资源的动态关系网络; 并在此基础上结合AI、大数据进行智能检索和分析,横向打通应用和资源的计量关系,纵向建设应用架构合理性、应用标签等智能分析的一站式可视化元数据管理分析平台。
本次分享,聚焦于HugeGraph图数据在虎牙应用元数据项目中的具体实践以及案例分享。分享内容包括:应用元数据的需求背景及解法、应用元数据平台的技术方案选型、图数据库的二次开发及深度集成、图数据库在应用元数据项目中的业务实践分享等。
演讲内容重点提纲:
1)应用元数据的项目背景
1.1 业务背景及解法
1.2 应用元数据目标
2)技术方案选型(技术方案选型的要点,为何选择图数据库)
2.1 技术方案选型的要点
3)系统架构&图数据库集成
3.1 应用元数据架构介绍(架构整体介绍/自定义标签图数据库实现介绍)
3.2 图数据库的集成(性能调优开源社区贡献/图数据SPI扩展/内部基础组件调用链集成)
4)业务实践 (应用元数据在内部的业务实践分享)
4.1 应用资源计量案例
4.2 架构合理性
4.2.1 跨机房调用
4.2.3 链路回环监测
4.3 应用画像标签案例分享
4.4 安全漏洞场景分享
现任虎牙/基础保障部/SRE平台研发-应用元数据项目技术负责人。曾任职于树根互联、唯品会从事高性能、高并发相关研发工作。2013年毕业于天津师范大学,热爱Coding、热爱开源,是Apache DolphinScheduler,Apache HugeGraph(Incubating)等开源社区贡献者。
针对车企的场景,通过采集提取的线上线下用户数据,在图数据库中建立千万量级的用户图谱,并利用图算法对用户图谱进行打分切割提纯,同时把融通数据后萃取的标签附着在用户图谱上,构建用户画像。运用这一套处理逻辑,构建车辆画像、零部件画像、供应商画像。再通过提取到的关系,使用户连接到车辆,车联连接零部件,零部件连接供应商,进而打通车企的多端数据。基于图数据库的高效点查响应,可以提供画像的毫秒级查询服务。
本次分享,聚焦于车企在图数据库的技术实践与使用场景。分享内容包括:图数据库解决哪些场景问题,图数据库如何打通数据,如何进行图建模,如何使用图算法对数据进行加工提纯,如何构建画像,如何建立多个图谱的连接,以及OneID数据底座的实践和价值等。
演讲内容重点提纲:
1.图数据库解决哪些场景问题
(拉通用户数据、ID-Mapping、用户图谱提纯、萃取用户画像等)
2.如何进行图建模
(实体、关系、属性、点、边)
3.图算法的使用
(连通组件算法、短路径算法、社区发现、聚类、GCN、SAGEPool、DiffPool等)
4.图挖掘应用场景
(图切割、图打分、图分类)
5.未来规划与思考
主要从事于新能源行业,5年数据科学领域算法的研究和开发工作经验。在利用深度学习算法解决工业痛点方面有丰富经验,先后任职于比亚迪、气象局,研究领域包括智能推荐、故障诊断、边缘计算等方向。
随着互联网的快速发展,知识图谱数据的规模不断增大,传统的单机系统已经无法有效地处理海量知识图谱数据,因此出现了分布式知识图谱数据管理系统。在设计分布式知识图谱数据管理系统的过程中,知识图谱数据会分成一组子图,然后分布在不同的机器中。针对此设计问题,本研究将深入介绍一系列面向分布式系统的知识图谱管理方法。该研究将可以充分利用知识图谱以及图模式查询上的信息来提升分布式知识图谱查询处理性能。
湖南大学信息科学与工程学院副教授。彭鹏长期从事分布式图数据管理方面的研究,具有坚强的理论研究基础,并且取得了一定的研究成果。