随着云原生架构的持续演进,IT运维正面临业务规模化增长、架构不确定性熵增和运维成本日益紧缩的多重压力。加速利用自动化、智能化技术实现运维数智化转型,赋能高质量运维是我们必须面对的挑战和机遇。浙江移动从2019年底开始打造架构统一、数据集中、能力共享、智能引领、开放共建的AIOPsDev运维能力平台,通过数字化建模运维世界,智领价值运维转型。
分享提纲:
a)介绍浙江移动运维工具平台发展历程及运维数智化转型顶层设计;
b)介绍浙江移动运维中台建设思路,及运维中台在运营商体系下落地和建设时遇到的问题和解决方案;
c)介绍基于中台孵化的智能运维典型案例。
陈青青,2018年起从事大数据开发、运维能力平台研发、AIOps场景落地等相关工作。现为浙江移动运维中台团队负责人,专注于运维数智化转型体系建设和工具开发。
弹性伸缩计算产品作为云计算IaaS层资源管理的基石服务,其所担负的使命是这个高速发展的时代所赋予的,其所遇到的高可用、可靠性和性能等各个方面的挑战也是前所未有的。作为云计算的基础服务提供商,针对不论大型企业运维人员还是中小开发者,腾讯云提供高效且弹性的计算资源使用体验,赋能用户以灵活经济的业务架构应对市场的瞬息万变。
本次分享将系统性地介绍弹性伸缩计算产品面临的挑战与瓶颈,以及腾讯云在实践中的优化与落地方案。
3.结合案例,介绍网易在日常大规模任务运维过程中遇到过哪些问题以及这些问题背后对产品的思考。
4.网易智能任务运维中心的设计以及应用效果,包括基线预警、任务智能诊断、全链路影响分析、关键链路分析、冻结池、加速器等。网易严选,基于任务运维中心,实现了S级大促数据零延迟,同时任务产出完成率得到了显著提升。
5.网易为什么要选择 Azkaban,主要结合业界主流的几个任务调度系统,包括azkaban,ariflow,oozie,分析网易的技术选型思考。
6.针对azkaban的不足,网易做的优化,包括:跨流依赖、并发链式补数据、节点前后置动作、公共资源、高可用方案、平滑升级等;
7.结合案例,介绍网易在日常大规模任务运维过程中遇到过哪些问题以及这些问题背后对产品的思考。
8.网易智能任务运维中心的设计以及应用效果,包括基线预警、任务智能诊断、全链路影响分析、关键链路分析、冻结池、加速器等。网易严选,基于任务运维中心,实现了S级大促数据零延迟,同时任务产出完成率得到了显著提升。
网易开发工程师,网易大数据核心任务调度系统负责人,主导设计并研发了网易大数据海量任务调度系统,智能任务运维中心产品,支撑了网易云音乐、严选、传媒、有道等业务数据中台的构建,日均任务调度量达到60W ,跨流依赖达到10W 。
美菜网监控系统,在OpenFalcon之上构建基础监控和应用监控,并过渡到Nightangle平台时序数据存储从RRD演进到InfluxDB集群;指标可视化从内部定制演进到Grafana;中间件监控从脚本演进到Prometheus-Exporter指标采集体系;展望:以指标监控为基础,结合日志、链路跟踪构建统一监控平台。
美菜网监控系统架构师,东北大学计算机硕士毕业,拥有十年以上基础系统研发经验,曾就职于微博、雪球等互联网公司。
越来越多的企业使用混合云的方案来构建基础设施,同时使用公有云和自建私有云,同时使用物理机/虚拟机和容器,虽然云商会提供云监控,虽然私有云也会带一个基础监控平台,但是,要想跨多云,跨不同的运行环境,同时兼顾基础设施和应用的监控,则需要一套更全面的云无关的监控系统。
大纲:
需求来源:监控的原始需求来自业务稳定性
产品要求:资源、组件、应用多维度跨云监控
当下现状:细数现有的监控体系,横评对比
夜莺介绍:混合云、全方位、大规模企业级
功能拆解:详细拆解夜莺各个方面的能力
社区情况:社区当前情况,欢迎大家共建社区
核心分享要点是混合云场景下的监控,有哪些难点和诉求、解决思路、以及如何使用夜莺来解决这些需求。
秦晓辉,10余年互联网运维和平台构建经验,曾先后履职于百度、小米、金山云,开源监控系统Open-Falcon主程,Nightingale开源发起人,当前在滴滴负责产业云技术中心,做B端业务,推动滴滴内部中后台能力对外商业化输出。