服务器资源利用率较低,IT基础设施的总拥有成本(TCO)却逐年上涨,这一直是困扰很多企业的难题。究其原因,一是由于在线/离线业务分开部署管理,采用独立的资源池;二是业务方为了保障在线业务的性能,申请了冗余资源。随着云原生技术的发展,容器和镜像成为应用分发和交付的标准,Kubernetes 也因此成为数据中心的一项基础设施,为上述问题的解决带来了灵活创新的思路。本议题将结合网易轻舟在这一领域的工作实践,详细介绍如何基于 Kubernetes 通过混合部署、容器资源需求推荐、动态水平扩缩容等方式,将在线业务部署密度提高25%、CPU 利用率提高到50%以上,大幅降低企业数据中心成本。
分享提纲:
a. 描述当前国内外数据中心资源利用率现状,分析资源利用率比较低的原因;
b. 针对导致资源利用率较低的原因,分别提出对应的解决方案,详细介绍如何通过在/离线业务混部、容器资源需求推荐、动态水平扩缩容等方式提高资源利用率,如何实现在/离线业务之间的性能隔离;
c. 介绍该方案在网易内部的落地场景和落地成果,分享其中的经验教训。
分享要点:
首先,描述当前国内外数据中心的资源利用率现状,分析资源利用率比较低的几个原因;
然后,介绍 Kubernetes 本身对于在/离线业务混部的支持以及存在的问题;基于 Kubernetes 提供的扩展能力,详细介绍我们如何在保证在线业务性能的前提下实现在/离线业务的混部;
其次,简要介绍了容器资源需求推荐和动态水平扩缩容方案,该方案显著提升了在线业务的部署密度,进一步提高数据中心资源利用率。
整个资源优化的系统解决方案,遵循微服务和云原生的理念,基于 Kubernetes 的扩展机制开发,可以方便集成部署到任何一个标准的 Kubernetes 集群中。
网易数帆轻舟业务部系统开发工程师,具有多年 Kubernetes 开发运维经验,专注于云原生和分布式系统开发,负责网易在/离线业务混部、容器网络编排等多个项目,推动和协助集团内部多个业务实现容器化。
主要是分享搜狗 GPU 云平台的技术演进过程,包括调度框架从 DockerOnYarn 到 Kubernetes 的进化过程,介绍 DockerOnYarn 系统存在的主要问题,以及 Kubernetes 系统的主要功能改进,主要涉及资源调度、本地与云存储、资源管理、容器运行的易用性建设等方面的内容。
任职于搜狗大数据平台部,主要负责建设公司级大数据分析可视化中台,具体包括 Hadoop、HBase、Docker 等基础平台的开发和建设,主要提供一站式数据分析查询服务,让海量数据的价值得到体现,提供高性能和稳定的计算存储平台。
同程艺龙开启了从裸容器迁移基于 Kubernetes 的云原生探索之路,在 Docker 技术的兴起,同程开始使用 Docker 来构建统一的轻量、快速、高效的服务发布平台。到了云原生的时代,同程通过 Kubernetes 来支撑业务的快速发展和服务高效接入。在两者的转换过程中遇到的问题繁多、如何快速高效解决用户的核心问题:隔离、资源利用率、调度以及后的推进,是一件极富挑战的事情。通过技术手段和产品思维解决了上述的问题,才能更好帮助客户实现共同发展。
本次演讲将介绍我们在公司容器化过程中遇到的挑战、以及分享我们的解决心得和实际落地规模、收益。帮助大家能在容器化的过程中少走弯路。
分享提纲:
1. 同程艺龙容器化技术体系介绍;
2. 隔离问题技术方案介绍:
a. 容器感知的隔离缺陷以及相应的方案对比;
b. 容器特定资源的隔离以及相应的解决方案对比;
c. 部署过程中的资源预留隔离和相应的解决方案对比;
d. 安全容器的尝试和缺陷。
3. 调度问题技术方案介绍:
a. 如何评价调度效果;
b. 如何计算集群库存;
c. 服务画像的相关技术方案。
4. 资源利用率问题技术方案介绍:
a. 资源超卖的方案;
b. 云原生方案完成的混合部署;
c. 从分时混合部署到实时混合部署;
d. 弹性扩缩容的解决方案以及业务无感知。
5. 远期的规划:
a. 虚拟机业务转容器;
b. 云原生服务。
6. 产品化和规模落地总结。
分享亮点:
围绕着资源利用率的提升和稳定性的保障,阐述了同程艺龙在容器化道路上遇到的隔离性不足、调度维度缺失、资源利用率低下的现状下通过引入新技术是如何快速有效的解决问题;
其次关于一些新型的技术,关于资源超卖,混合部署、服务画像、弹性扩缩容等是如何帮助业务快速的承载也会在这次的分享中;终会明确整体方案和规模化带来的收益,以及一些后续发展的建议。
同程艺龙架构师,2019年加入艺龙,目前在研发中心的基础架构研发中心负责资源调度相关工作,包括容器化平台建设、在线资源调度、离在线混部、GPU 隔离调度、弹性扩所容、虚拟网路等,尤其在推动业务落地有丰富的实战经验,主导设计的容器平台 furt 已成为公司推动的主流产品,各项技术指标达到业内领先,已经受过相当规模的业务落地检验。
在容器化方向有丰富的理论和实战经验,过去曾就职于百度基础架构部、新浪微博研发中心,参与开发和设计了百度公有云虚拟化网络、以及微博峰值流量与热点应对。Kubernetes 代码贡献者,Flink 代码贡献者。
1. vipkid的传统监控体系介绍
1.1 传统的机器监控,zabbix,falcon
1.2 日志监控,钉钉,邮件直接上报
1.3 业务监控,很基础
2. 基于k8s发布之后的监控体系
从19开始,vipkid开始基于k8s的发布流程改造,响应的基于thanos的监控体系升级。
基于公司内部的CMDBCMD系统,开发k8s的opertor,自动化适配vm(虚拟机)发布项目及监控。
3. 基于日志链路监控
基于流量CDN-LB-WAF-NG等链路信息的日志监控
4. 业务监控的全新规划
对于研发RD和测试QA同学来说,更加关注线上业务的正确性。构建业务监控平台,支持线上业务指标追踪。
2008年,北京理工大学计算机学院工学硕士毕业;
2011-2014 百度,研发工程师;
2016-2018 阿里巴巴 高德 技术专家P7 负责业务监控;
2018至今, VIPKID 架构师,负责大班课后端总架构,VIPKID 监控系统;
出版记录:多篇,服务治理,异常治理的专利。
10月8日,GOOGLE宣布Chrome将开始更积极的支持IETF QUIC,标志着QUIC协议将步入高速发展期。QUIC生态正在IETF的带领下,开始了逐步替代TCP的进程。预计2~3年,QUIC会成为Internet的主流通讯协议。
QUIC大的优势就是实现了TCP协议的替代,TCP协议历史悠久,在网络条件差的情况下,会加剧时延的恶化,比如P机的应用场景、手机信号不好时支付类App遇到的问题等。而TCP难以优化的原因,主要还是因为整个网络的链路层都要完成优化,从路由器到网关到操作系统,需要统一全部升级协议栈,但这个工作已经被证明是不可能完成的。因此,面对特定应用场景,我们连选择优的拥塞控制算法的机会都没有。
而QUIC是基于UDP协议的,这使得所有的核心逻辑均在User Land(用户态)下处理,不需要碰触System Land(系统底层)的部分。QUIC就是利用UDP通道,实现了TCP协议的逻辑,进而再面向未来的高速互联网进行了0-RTT建连等核心点的优化。
在QUIC逐步替代基于TCP的协议的过程中,本讲座将为开发者讲述如何尝试使用基于QUIC的相关技术,如何选型,如何基于QUIC定制自己的服务。
分享提纲:
1. QUIC技术的国内外发展史;
2. IETF对QUIC的支持,IETF与GOOGLE的不同尝试;
3. QUIC与TCP协议的核心区别;
4. QUIC的主要特点,在网络连接方面的优越性;
5. QUIC的安全性;
6. QUIC生态的发展趋势以及在5G与物联网时代的核心应用场景。
从2000年开始从事超大型互联网项目网络协议设计和整体系统架构工作,主导过中国移动飞信等大型项目的核心技术攻坚,有着20年的从业经验。先后打造移动飞信、天语手机、节操精选、数字音乐版权交易平台等多款产品。具有深厚的技术功底和前瞻的产品思维,曾获微软全球有价值专家。
范维肖作为联合创始人兼CTO创办的熹乐科技,也与保利集团所属企业“中国轻工集团”成立混合所有制的合资公司“中轻(贵州)工业互联网有限公司”,将新的网络技术应用在工业互联网领域,即解决了弱网环境的IoT设备互联,又充分发挥了5G、Wi-Fi6下一代网络基础设施的优势,因为这些突破,也成为中国工业互联网技术标准委员会成员。