百度图数据库实践2.0
为了解决海量复杂关联关系数据的存储及分析问题,我们自研了HugeGraph图数据库,目前已支持百度内部15+业务线。并于2018年开源,是国内开源图数据库,至今已发布了11个Release版本,社区用户超过100家。HugeGraph是功能完备且性能的分布式图数据库,在千亿规模(点边)图场景下,OLTP延迟在毫秒级、OLAP全图离线分析耗时在小时级。本次分享,以典型图算法实践为主线,结合6个场景:语义问答、协同推荐、关系挖掘、循环担保、群控作弊、团伙欺诈等,介绍HugeGraph图数据库在互联网、金融、保险、证券等领域的实践应用。同时,也基于个人多年图数据库内核研发&业务实践的角度,与大家分享图数据库技术、经验与思考。
现任百度安全事业部研发工程师,HugeGraph图数据库技术负责人。曾任职于华三通信、EasyStack从事云计算与分布式存储相关研发工作。2012年毕业于河北科技大学,热爱Coding,热爱开源, 是OpenStack、RocksDB、Ceph、ScyllaDB、TinkerPop等开源社区贡献者。
分布式图数据库在贝壳找房的应用实践
近年来图数据库技术越来越流行,而贝壳找房的核心业务场景就是围绕经纪人、房子、客户三者的属性与关系展开,是一个典型的图数据库应用场景。贝壳找房目前基于房产领域挖掘而出的房产行业图谱已达到500多亿数据的量级,如此海量的图谱数据传统的Neo4j早已无法支撑,所以迫切的需要一个高性能、高可靠、可扩展的分布式图数据库系统。同时除了行业图谱,贝壳还有风控、推荐等多个部门需要构建相应的关系图谱、知识图谱等。所以我们需要建设一个通用的图数据库平台,来支撑各种图数据库需求,让上层做图谱应用的同学可以专注于策略或算法,而不需要花精力去关注底层的存储技术实现。本次分享主要介绍贝壳找房如何进行图数据库的技术选型,然后如何搭建图数据库平台,以及进行了哪些优化改进等。分享提纲:1、背景介绍:图数据库概念、应用场景、发展趋势等简单介绍;2、图数据库技术选型:各开源图数据库优劣对比,主要是JanusGraph和Dgraph对比;3、图数据库平台建设:从集群部署、写入模块、查询模块、整体架构等方面进行介绍;4、图数据库原理和优化:分享Dgraph基本原理以及贝壳进行的相关优化改进;5、未来规划。分享要点:1、如何进行图数据库技术选型?主要考虑哪些要素?2、当前主流都有哪些图数据库产品?优劣对比如何?JanusGraph和Dgraph哪个更适合自己?3、贝壳是如何基于Dgraph搭建图数据库平台,都做了哪些工作?4、Dgraph的底层原理大致是怎样的?如何实现的图数据的高效查询和存储?如何做的分布式?贝壳都做了哪些优化改进?
8年多搜索及分布式系统相关研发经验,曾负责百度Elasticsearch平台建设,多次参加中国ES开发者大会分享ES相关技术,现负责贝壳搜索平台建设。
基于关系的知识图谱数据库管理系统研发
新一代人工智能对于知识图谱支撑作用的迫切需求亟待知识图谱数据库管理系统的研发。然而,知识图谱数据模型与关系模型的显著差异对传统数据管理方法和系统提出了新的挑战。为了有效管理知识图谱,发展出了面向RDF图的三元组库和面向属性图的图数据库。但目前知识图谱数据模型和查询语言并不统一,研发统一模型和语义的知识图谱数据库管理系统已成为推进新一代人工智能发展的重要关键基础性工作。另一方面,关系数据库经过几十年的发展,其存储底层和查询处理机制已相当成熟。将关系数据库作为物理存储底层并借用关系查询处理引擎,是构建高效知识图谱数据库管理系统的一种可行方案。本次演讲将分享天津大学数据库课题组基于关系数据库研发知识图谱数据库管理系统的技术思路,探讨研发过程中所遇到的若干关键问题,并展望未来的研发方向。制定统一的知识图谱数据模型和查询语言标准1、RDF图数据模型和SPARQL语言2、属性图数据模型和Cypher语言3、知识统一图谱数据模型和查询语言基于关系模型的知识图谱高效存储方案1、知识图谱的关系存储层设计2、知识图谱存储方案实验验证基于关系引擎的知识图谱高效查询处理方法1、基本查询算子设计与实现2、知识图谱查询处理实验验证
天津大学智能与计算学部教授,人工智能学院副院长。CCF会员、信息系统专业委员会秘书长、数据库专业委员会委员、大数据专家委员会通讯委员。研究方向:知识图谱数据管理、大规模图数据库、大数据分布式处理。主持国家自然科学基金项目、国家高技术研究发展计划项目、天津市自然科学基金项目、“CCF-华为数据库创新研究计划”等科研项目。参与编写专著2部,教材1部,获发明专利10余项,在IEEE TPDS, Complexity, WWW, ICDE, AAAI, CIKM, ISWC等国内外学术期刊和会议上发表论文80多篇。担任SCI国际期刊Knowledge-Based Systems副主编、Big Data Research编委、中文核心期刊《计算机工程》、《计算机工程与应用》、《计算机系统应用》编委。担任国际会议APWeb-WAIM2020、JIST2019程序委员会主席以及多个国际会议程序委员会委员。
图数据库行业发展及场景应用
关于行业和图数据库的场景等,因为大部分传统行业如能源,电力,他们其实已经有足够的信息化整合能力了,但是对如何深入能挖掘出这些数据之间的关联,其实还是比较困难,以电力知识图谱为例,支持对电网中接入的各类时序量测数据进行存储和更新,并直接对电网中电力设备的从属关系和拓扑结构进行表示,全面揭示设备状态和设备之间的关系,实现全网设备的监控与管理。不同于传统的基于向量和矩阵进行大型运算的耗时操作,由于复杂的电力网络及知识以图结构进行了表示,可以直接在图上进行查询和计算,并将计算结果直接作为图中的元素进行存储,大幅提升电网计算和分析效率,实现电网运行方式检索、设备状态推理、设备画像和家族性缺陷分析等应用。
现为腾讯云数据库运营负责人,图数据库TGDB产品经理,并在金融,电力,电商等数个行业的进行了图数据库项目的实施和落地,2019年参与制定信通院图数据库标准白皮书。2009年加入腾讯,曾负责腾讯网、新闻客户端、快报、视频、财经、体育等数据库平台,部署、规划及运维支持工作。06-09年曾任新浪数据库专家、数据库平台主管,有非常丰富的海量大数据经验。
Galaxybase分布式图数据库
随着大数据、人工智能、5G、IoT等技术发展,带来了数据量的激增、数据关联的复杂化以及数据处理需求的提升,发掘复杂关联数据的内在价值成为巨大挑战。与此同时,权威IT咨询公司 Gartner 指出:图分析是未来公司可持续竞争力且有效的数据处理手段。图数据库以事物和事物间关系的数据结构存储数据,专门针对复杂关联深链查询优化,成为了近年崛起速度快的数据库技术。包括沃尔玛、亚马逊、CISCO、HP、eBay在内的75%的全球百强企业已开始使用图数据库解决生产问题,提升运营效率、节约运营成本、创造客户价值。然而,伴随图数据库赋能带来的业务增长,客户在数据价值转化过程中又遇到了新的挑战。面对体量激增的超大规模海量图数据以及业务驱动的对关联数据实时查询、计算分析的需求,现有图数据库技术暴露出了性能低、扩展差、资源占用效率低等问题,催生了新一代图数据库技术的发展。本次分享,将向您介绍以Galaxybase为代表的具备大图数据实时查询计算性能的新一代图数据库技术。作为企业决策者,您将了解图数据库整体生态、主流图数据库优缺点对比、如何进行技术选型。作为开发者,您将了解高性能大规模分布式图存储、图计算和图分析的技术实现关键。我们将结合金融领域应用实战案例,介绍如何运用Galaxybase完整实现从数据迁移、数据建模、数据存储、数据查询、数据运算到终数据分析的图数据库解决方案。分享提纲1、Galaxybase分布式图数据库系统介绍2、Galaxybase与其他图数据库产品的性能比较3、Galaxybase底层技术设计与实现介绍,包括设计架构,核心技术与协议,数据存储、查询、计算、接口等4、Galaxybase产品功能介绍,图模型构建、数据迁移、数据可视化、算法引擎、权限管理、集群管理等5、Galaxybase应用案例,介绍在金融等领域的应用实践
人社部 2017 年度“中国留学生回国创业启动支持计划”重点类项目人才之一,浙江省千人计划专家,杭州市全球引才“521”计划专家,浙江省钱江人才计划、杭州市西湖区 325 海外引才计划A类项目人才,浙商青云榜 30 强,加拿大滑铁卢大学计算机科学博士、麦吉尔大学计算机科学博士后。曾担任美国运通大数据科学家,参与研发美国运通内部批大数据挖掘与机器学习的风控算法;其博士论文中基于 HBase 的分布式事务处理的论文和谷歌基于 Bigtable 的分布式事务处理科研同时独立发表,成为了硅谷初创 Splice Machine 的核心底层技术之一,因此受邀成为软件架构师,研发了世界基于 Hadoop 的关系型数据库 Splice Machine。加拿大 Graph Intelligence 联合创始人,搭建了世界深度集成于 Hadoop 的原生分布式图数据库。回国创立浙江创邻科技有限公司,研发了全自主知识产权的分布式图数据库 Galaxybase,参与编写了中国信通院《图数据库白皮书和基础功能标准》。