张文在主会场分享了TDSQL在银行传统核心系统的应用实践。银行的核心系统相当于银行的大脑,所有和钱有关的交易都需要经过核心系统,完成资金的清算核算。换句话说核心系统需要和其他所有关于钱的系统打交道,因而它的业务逻辑也为复杂、为关键,它直接影响着银行核心资产相关的数据。
2019年TDSQL成功应用到张家港银行新核心系统,把张家港银行的核心系统数据库从集中式升级成分布式,成为国内家投产于银行传统核心系统的分布式数据库,这是TDSQL又一个里程碑式的发展。
刘迪做了题为《无人值守时代的数据库智能运维》的分享,刘迪提到数据库运维的演进可以划分为石器时代、工具时代、专家时代和智能时代。数据库无人值守模式的演进是业务和开源技术共同驱动下的产物,以多年的数据库运维实践为基础,随着AI技术在数据库运维领域的不断深入而水到渠成的。
腾讯在探索数据库智能运维的过程中,经历了运维人工化、运维工具化、基础平台化、自动化和服务智能化5个阶段,腾讯云数据库智能管家DBbrain应运而生。DBbrain从内部腾讯新闻、腾讯视频、腾讯体育的业务中经历了萌芽期后,逐渐的成熟开启支持微信红包、财付通、QQ、Qzone等内部业务,随后孵化为云服务,开始服务于私有云和腾讯内部自研上云业务线,今年8月完成品牌升级和发布,将数据库智能化能力赋能给更多的客户。
DBbrain具备实时诊断优化、安全高效、效果可预见、掌上管理、AI助力、多场景兼容的6大特性,会上,刘迪结合今年双十一DBbrain支持腾讯云上电商客户大促的案例为大家深入解读了DBbrain的系统架构、核心功能、优化策略、处理逻辑、AI能力以及评价规则。
电商大促的保障工作为备战准备、大促保障、节后复盘三个阶段,DBbrain可为电商客户在每个阶段都提供智能化的数据库保障,例如:健康巡检、资源评估、优化改造、监控大屏、故障处理、应急止损以及经验总结等。在备战准备阶段,DBbrain提供了健康报告功能,将数据库的核心监控指标(例如活跃连接数、CPU、内存、磁盘等)纳入到评分模型中,同时也将结合数据库的历史异常率,慢日志、死锁、审计日志等深层次分析找出潜在问题,综合给数据库的健康状况进行打分。用户可以利用“健康报告”中发现的问题和优化建议,在大促前对数据库进行优化,然后不断巡检和优化,将数据库中存在的风险点一个个修复,提升数据库整体的性能和稳定性,告别传统扩容和升配的保障方式,以优化为主升级为辅的方式做到从根源上解决数据库实例存在的问题和隐患。
在电商大促进行时,传统的监控很难提供一个关注所有数据库实时状态的全局视野。DBbrain针对这一行业痛点,为用户提供了“全实例监控”、“全实例概览”功能,展示全数据库实例维度(用户整体视角)的监控指标。统一监控视图里展示所有实例(9宫格和36宫格切换)监控指标的横向视图,便于用户查看和发现数据库异常问题,提高运维效率。在出现致数据库实例异常时,DBbrain能够秒级发现故障、定位原因,并给出优化方案建议,帮助用户时间处理问题和恢复业务,尽可能减少数据库异常对业务访问的影响时间。DBbrain还可以在紧急关头做到真正的业务止损,帮助业务完成数据库降级。比如某类SQL并发急剧上升、有数据倾斜SQL影响正常业务、未创建索引SQL造成整体系统繁忙等。针对以上的场景,DBbrain提供的“SQL限流”可快速拒绝异常请求,实现业务降级,保障核心业务的访问顺畅。
未来的智能运维会围绕着自我优化、计划修正、引擎融合、自动调优、失控SQL自治等几个方向发展,腾讯云数据库智能管家正在朝着这个方向不断演进。而在此过程中,传统数据库运维的核心竞争力也从拼体力到编写脚本工具,再到基础平台的研发能力,将专家经验自动化复制,主动帮助业务提升稳定性和性能。进入无人值守的时代,传统的运维工程师将不需要消耗精力在基本的性能优化、问题发现和数据收集工作上,一方面可以更好的聚焦于复杂的数据库问题,不断完善和推动运维服务智能化进程,更重要的是能够聚焦于业务逻辑架构,优化架构设计,实现更高价值。