一、一个时代的崛起
1. 腾讯新闻:资讯行业擎旗者的突破超越
2012年9月,腾讯新闻客户端安卓版正式发布。彼时,几大传统门户衍生的移动端资讯类APP早已上线推广,新闻客户端领域的用户争夺战,一触即发。2014年底,腾讯新闻在移动端的日活跃用户已达2.5亿,仅在第三方应用商店,腾讯新闻的下载量就达5亿次,是第二名的两倍。不久后,腾讯新闻客户端日活跃用户量已超过行业第二名的两倍,牢固确立领军者地位。
通过和微信进行合作,形成立体联动效应,腾讯新闻一路崛起。微信和手Q双插件渠道成为腾讯新闻客户端独有,其他各家新闻竞品艳羡不已的“重型武器”。借助微信平台,通信新闻有效实现资讯的快速、大范围的辐射。
2. 腾讯视频:后发入局、强势生长
2011年后发入局的腾讯视频,在夹缝中顽强生长,在2013年从行业第八跃居行业第三。随后,腾讯视频通过多元立体的内容矩阵、卓越的自制实力、创新的产品体验、精细化的运营思维不断突破。在发力反超后,成长为中国市场大且发展迅速的在线视频平台,并在移动端日活跃用户、付费会员数、商业化收入等核心竞争维度上全面领先。
据艾瑞的mVideoTracker数据显示,到2018年2月,腾讯视频月播放设备量为7.92亿。腾讯视频付费会员规模在兩年时间内,实现了从2000万到8200万的高速增长,持续巩固中国大视频付费平台的市场领导地位。
二、巨头背后的三杆枪
在电光火石间变化随时发生的互联网,腾讯新闻和腾讯视频从落后到领跑,离不开背后强大的后台运维团队。
重大新闻几亿用户瞬间触达,秒级完成亿万用户Push新闻的下发。这么大业务量,引起瞬间请求量突增,需要保证秒级响应、高并发的稳定性、数据容灾、容量扩展迁移、缓存部署、数据监控上报、告警响应处理等,而处理这样庞大工作量的,是一支只有3个人的运维团队,他们支持了当时APP排行榜前10的腾讯新闻和腾讯视频业务。在这样严峻甚至堪称残酷的局面下,当时OMG的数据库负责人邵宗文发现可以结合微信移动化以及人工智能可以有效解决人力问题,于是运维小分队选择开发了兼容PC端和移动端的智能运维平台,来完成这个“不可能完成的任务”。
智能托管平台,是基于OMG的业务不断发展,不断思考运维效率提升方式后的产物,该平台解决了业务问题定位成本高,微信沟通问题无法深入,有告警无跟进的问题。对不同场景业务提供多样化的服务,对于网络波动可快速定位抖动原因,同时还增加单机性能,业务慢日志,大value,混跑等查询功能,并且提供了名字修改和无线业务一键降级功能。智能托管平台2017的业务接入量达到956个,从这个数据不仅能看到OMG业务增速惊人,业务种类层出不穷,同时也看到托管平台在处理效率、服务质量方面能力。
智能托管平台就是腾讯云数据库智能管家DBbrain的前身。
三、“无人值守”的运维时代
DBbrain青出于蓝而胜于蓝,开启了“无人值守运维新时代”。
1、 7*24小时无人值守的数据库运维新模式
对于DBA来说头疼的问题之一就是数据库异常发现、诊断和优化技术门槛高。
-
信息获取难
数据库异常诊断和优化的前提是需要采集足够多和粒度细的监控数据、日志数据、状态数据等,只有基于完备的信息才能给出准确的解法。搭建一套完善的数据库监控体系,需要投入大量的人力和物理成本,信息收集的全面深入则就更困难了。
-
信息分析难
分析数据库异常,查找故障原因需要依赖DBA多年的经验才能给出准确的解法,而且随着数据库的不断发展,故障的种类和场景也在不断变化。经验与场景很难被也成文档进行传承。
-
性能优化难
性能优化的方式并非这么容易,涉及面较广,不仅包括SQL语句优化、业务逻辑需改、数据库参数调优等常见的方式,甚至有的情况下要深入到数据库引擎层代码优化,对DBA的技术要求极高。
DBbrain提出了堪称完美的解决方案。
1)成熟的监控链路
内核团队针对监控进行了优化,在获取完整的数据库执行语句详情和数据库全局快照的同时,对数据库性能影响微乎其微。在主机、网络和全量实例的秒级监控基础上,DBbrain进一步打通数据全链路,实现了全量实例的实时监控和诊断;
2)自动化异常识别
监控数据实时处理,以去规则化的异常检测,自动提取相关性指标,很大程度上弥补了人工经验的不足,并在根因分析上具有明显的帮助作用。主机、实例的监控指标有数百项指标,人工方式找出其中相关性需要很丰富的经验且不能运用于实际生产环境中;在未知问题场景下自动化的异常检测灵能快速的帮助缩小问题范围并定位问题原因;
3)多维度故障诊断
诊断规则库由DBA经验以及计算平台学习指标相关性产出组成。计算平台产生异常指标告警触发实时诊断。根据规则与数据库实时交互,进一步收集数据,结合从日志层面重现给定时间点的会话场景以及系统负载情况,多维度对问题进行根因分析,并借助工具集产生建议;实时诊断在广度和深度上不断加强和完善,多场景的数据收集、原因分析以及建议和告警。
4)智能的性能优化
性能优化是DBbrain在自治闭环建设的关键一环,可划分为SQL优化和性能调参。
SQL优化能自动的给出SQL索引和改写建议,并分析出优化效果。在保证正确率的基础上,计划后期会自动为数据库添加索引,迈向数据库的性能自治。
CDBTune智能性能调优采用探索-开发特点,降低对训练数据的依赖,减小陷入局部优的可能性。无需对负载进行分类,调参动作更符合实际调参时的情况。无需获取足够多的样本来,减少前期数据采集的工作量,获得较好的参数调优效果。
2、双剑合璧,数据库安全防护加持
数据库的安全是一个永恒的话题。而数据安全如同一个木桶,整个防护体系是否坚固完全取决于短板。因此即使网络层、操作系统的安全防护已相对完善,如果存放核心信息的数据库得不到应有的保护,同样会造成较为严重的数据安全危机。
可怕的是人为导致的数据安全危机占数据安全故障总数的的70%,其中也可以分为有意操作和误操作。有意操作是指明知道一些操作会造成数据中心故障,仍执意去做的,这些人往往希望通过造成数据库系统运行瘫痪,而达到不可告人的目的。常见的有黑客、情报人员、商业机密小偷等等,他们攻击的对象往往是数据库里的数据。误操作是指本意并不想破坏数据库系统,但是由于技术积累经验不够或疏忽引发了数据安全故障。这种故障占到了人为故障的80%以上。网上一直以来都个脍炙人口的段子“从删库到跑路”来调侃这一现象。
数据库安全防护也可以通过DBbrain来保障。
DBbrain依托腾讯云专业的深度学习算法模型和海量样本训练环境,可应对变化多端的攻击场景,对各类变体攻击以及非常见威胁操作实现监控和告警。结合数据资产信息、敏感数据发现信息,对严重偏离模型的用户、行为、数据进行告警和安全等级评估,帮助管理员发现恶意操作等问题,为用户数据库提供更为精准的威胁分析和安全治理建议。
1)全面掌控数据流
帮助您了解各类数据的流转信息,解决企业哪些敏感数据常被访问、被谁访问、访问途径是什么等安全问题,助您更好优化数据安全措施。
2)基于AI的威胁识别
AI 威胁智能识别引擎,超越传统安全规则库的局限性,未知风险全面掌控。通过敏感数据发现算法,定位敏感数据,并有机结合 AI 技术与威胁情报,筛选出这些敏感数据的异常访问操作,协助企业提前预防数据泄密问题。
3)提升安全策略有效性
您可通过产品展示的敏感数据存储位置、流转节点、访问用户、异常行为等信息,掌握企业数据安全隐患与风险,并更好的改善相关安全策略。
4)灵活的个性化策略
支持按照库、表、字段、访问源、数据库实例进行审计规则设置,安全策略灵活且自由,实现精细化监控。
3、基于微信生态,数据库小程序运维平台
互联网时代, 本来要洗洗睡的DBA经常无奈发现流量高峰来了,为查一个简单的磁盘或IP归属问题,折腾十多分钟登录公司VPN,抬头看看表,夜已经深了,明天依旧要挤西二旗的地铁,眼前是突然断掉的SecureCRT。去哪都要带着电脑,不管是公交地铁,饭局电影院,只要遇到“火情”,就要慌忙开机,狼狈救急。互联网永远热闹,DBA随时待机。若“火情”无法避免,那救火的水枪是否可以更智能便捷?
DBbrain支持在移动端一键管理数据库。
DBbrain借助微信小程序生态,为用户提供了PC端、移动端的多终端模式。结合用户使用习惯和场景,其功能涵盖了管理实例、监控告警、诊断优化、日报订阅和推送等数据库高频操作。依托微信小程序为载体,为客户节省了下载和安装APP的繁琐步骤,更能时间的关注到数据库的实时动态,为用户者打造了一款智能、高效、便捷的掌上数据库运维体验。