- 美团外卖配送稳定性保障系统智能化探索
- 演讲简介:
随着美团外卖业务的高速发展,作为外卖履约环节的即时物流在业务规模和复杂性上也随之快速膨胀,即时物流的业务特点决定了上下游对于故障非常敏感,以往靠人肉来进行业务运维的模式已经无法满足我们对于稳定性的要求,对此我们构建了针对即时物流的稳定性保障平台,将我们稳定性保障的手段进行有效的串联,从而提升运维的效率。稳定性保障平台主要围绕防范、发现、定位和恢复这4个阶段进行建设,在防范阶段可以通过服务日常巡检发现风险点、通过发版检测减少上线事故、通过全链路压测发现服务瓶颈,在发现阶段基于异常检测快速发现故障对业务的影响,在定位阶段基于纵向和横向维度的异常分析快速定位导致业务故障的根因,恢复阶段根据定位的根因快送触发预案进行止损和恢复,通过4个阶段的有效串联,可以帮助我们达到以下目标:
1. 防范可能出现的稳定性问题
2. 快速解决线上故障 - 田文博 美团点评技术专家
- 嘉宾介绍:
2015年10月加入美团点评,先后负责外卖配送运单订单核心系统的研发和架构设计,深度参与了从外卖配送20万单到1900万单的架构演变和稳定性保障体系的搭建,目前负责外卖配送稳定性保障平台的建设。
- 演讲简介:
随着人工智能技术的高速发展,越来越多的业务场景开始逐渐引入并融合使用。本次演讲主要分享美图在运维体系平台化建设上的发展演化过程,以及对于AIOPS的尝试和探索,主要内容有:
1. 业务、项目、部门如何建立资产、设备利用率、业务部署与可视化管理的一体化运维树平台;
2. 运维事务基于机器学习、大数据计算形成运维策略体系&知识库;
3. 基于AI的运维系统设计实现细节、算法;
4. 故障精准定位,快速自动程式化自主处理以及灾难预测模型;
5. 遇到的问题、挑战探讨等。 - 魏家富 美图运维总监
- 嘉宾介绍:
曾就职于人人网、美丽说等互联网公司,现任美图公司运维总监。参与过多个重大项目的研发和运维,负责过多个电商抢购、秒杀以及架构优化。专注于运维平台架构以及业务运维优化的领域。带领美图公司运维团队致力于实现一体化业务运维、自动化和高度集成的系统化平台,可以说有着相当丰富的运维架构体系的工作经验。
美图公司智能化运维实践
- 演讲简介:
作为新一代物流(NewGen Logistics)的引领者和实践者,随着京东物流业务的不断发展,各地仓库和机房数量快速增加。频繁的开仓、关仓给仓库系统及相关平台的部署和维护工作带来了极大的挑战。本次分享将围绕上述问题介绍我们在远程业务部署平台的基础上研发的智能化监控平台,从指标监控、业务监控到故障预测、容量预测,化繁为简,并整合京东现有运维工具打通了研发和仓库运营间的壁垒。同时,本次分享还包含了基于KPI聚类、KPI联动分析、故障树构建等AI技术实现的应用异常分析、应用体检报告以及京东物流运维团队对AIOPS的思考和规划、京东物流AIOPS路线图等内容。
- 付正全 京东物流
- 嘉宾介绍:
国家认证信息系统项目管理师,曾任浪潮集团系统架构师,专注监控平台研发工作7年,研究过市场上数十家厂商的监控平台产品,对Devops和监控平台有比较深入的了解。目前负责京东物流火眼监控平台的架构设计和规划工作。
京东物流大规模智能监控的思考与实践
- 大型企业智能运维的探索和实践
- 演讲简介:
智能化运维是大势所趋,对于大公司来说,更是尤为重要。对于一个企业来说,如何从传统运维转向智能化运维呢?智能化运维体系如何设计如何落地。本次主题分享,将从监控、业务全景分析、故障处理、知识库建设等方面全面解析智能运维,带给大家对智能化运维的一些新的思考和启迪。
- 孙杰 中油瑞飞架构师
- 嘉宾介绍:
从业十几载的IT老兵,专注于系统、运维、云计算和数据中心管理,先后在外企、互联网、电商、大型企业任职,参与实施数据中心建设、私有云架构规划及智能运维管理、大数据挖掘等相关工作,在若干大中型项目的建设和部署运维中,积累了丰富的架构设计、项目实施和一线经验。凭借丰富的技术经验和乐于分享精神,先后受邀出席全球云计算峰会、可信云大会、GOPS全球运维大会等大型技术会议并发表热点主题分享,受到广泛好评。不仅是技术分享的推崇者,也是IT行业的实践者、布道者。