1、鹰眼日志监控报警系统
演讲简介:
鹰眼系统针对系统运行过程中的程序日志、访问日志、性能日志及时序数据日志提供采集、存储、分析、监控及预警的一体化服务。集成了日常常用分析功能,降低学习成本。灵活的报警策略,不仅能及时对线上报错类“急性病”快速报警,还能通过趋势分析,发现“慢性病”。同时具备反馈机制,从根本上解决问题。
范宝胤 汽车之家 系统架构师
嘉宾介绍:
就职于汽车之家,目前负责经销商事业部架构团队工作;致力于通过工具研发提升效能,先后开发了鹰眼日志监控报警系统、微服务工具链等基础设施;对代码之美、DevOps、ServiceMesh 等具有浓厚兴趣,努力让自己和团队成员成长为 SRE 工程师。
2、腾讯游戏营销智能监控实践
演讲简介:
随着腾讯游戏业务的增长,600+款游戏业务,每天全渠道在线营销活动数上万个。微服务设计广泛应用,后台系统的模块数量也显著增加。前端一次调用往往能触发后台几十乃至上百次调用,于此相应系统的报警数量急剧增加,这些报警中相当数量是'噪音'。一方面会造成大量'骚扰'报警,另一方面会把有价值的信息淹没掉,这给系统监控和定位问题带来挑战。
解决思路/成功要点
1,对报警历史数据进行学习,对大部分报警的阈值能够自动生成,不需要手工设置
2,当大量报警产生时,能通过规则推理分析定位到准确原因
3,人工分析工具对自动化分析/学习进行辅助和补充
4,监控自身健壮,当大流量发生,在保证监控质量前提,对监控数据限流。
朱龙云(scott) 腾讯游戏 增值服务部 互娱AMS监控系统负责人
嘉宾介绍:
硕士毕业于西安电子科技大学计算机科学与技术。2007年加入腾讯,曾负责腾讯网网站广告发布系统,从事CPD/CPC/CPM等形式广告发布和运营,在广告领域拥有多项专利。现就职于腾讯游戏增值服务部,曾参与开发过Pandora手游营销系统,支持手游时代新营销形式;主持设计和实现AMS系统全局负载保护系统,保证微服务系统在流量突变时安全运。当前主要负责AMS游戏营销监控系统,从事现网故障分析,长期报警定级,报警阈值智能计算,主动探测系统和旁路验证等方面工作。对分布式计算,大数据,和函数式编程等领域比较感兴趣。
3、数据驱动下的DevOps
演讲简介:
生产工具的产生是为了提高生产力,可量化的数据可以用来衡量生产力的高低,生产工具的不断改进、不断优化促进生产力的提高,生产力的提高进而激励生产工具的升级迭代。
从数据驱动的视角出发,阐述在DevOps领域积累的大量数据,除进行简单的数据管理与统计分析外,如何挖掘其价值驱动DevOps的发展,重点阐述在驱动决策和驱动变革两个方面,应该如何突破,主要致力于哪些方面,才能让数据和产品达到双向反馈,相辅相成,产品产生更丰富的数据,同时数据也能驱动产品更好地发展,形成良性的驱动闭环。
董璐 京东数科 持续集成平台研发负责人
嘉宾介绍:
2016年加入京东数科,主要负责京东数科持续集成平台的设计与架构工作,重点关注于优化研发过程与CI/CD等方面,在保证项目质量的同时,尽可能地提升研发效率,辅助研发团队快速迭代,并通过对研发过程的优化与监控,获取更多额外价值。
2018年参加SACC北京站,阐述京东数科DevOps平台落地经验,针对于平台的发展方向以及难点进行了分享。
2019年参加DIOS北京站,对DevOps平台生态化建设方案进行分享,结合各个阶段DevOps所承担的任务详细阐述了DevOps平台生态化建设的历程。