-
个阶段是应用架构的互联网化。2007年起,随着互联网流量大爆发,阿里开始构建互联网规模分布式应用架构,自研微服务、消息、分布式数据库等核心中间件。 第二个阶段是基础设施云化。阿里云2009年开始自研飞天云操作系统,集团业务开始逐渐上云。同时,2011年阿里集团开始探索落地容器技术,加速应用迁云,大化利用云的弹性,通过离在线混部优化计算成本,到了2019年实现了核心系统全面上云。
企业降本增效之路上面临的难题
规划难。当业务迁移到容器场景后,需要对应用进行容量规划,过度分配资源会导致资源浪费,资源超售过度则会导致稳定性问题。 计费难。容器应用与传统应用相比具备更高的弹性和动态性,可以按需创建和释放资源,这也对费用估算带来更大的挑战。 分账难。与传统应用部署与资源绑定的方式不同。现在多个容器应用共享一个K8s集群。一个计算节点上可以运行多个Pod,而且Pod可以弹性伸缩,在节点间动态迁移。应用层与资源层计量计费在空间、时间等多个维度都无法做到一对一对应,造成成本治理的复杂性。 优化难。云原生技术中例如:弹性、混部、Serverless、超卖等技术都有各自适合的典型场景。如果使用不当,比如弹性配置错误,可能带来意想不到的资源浪费甚至稳定性问题。 管理难。混合云已经成为企业IT架构的新常态。Kubernetes可以帮助企业屏蔽基础差异。而不同环境财资管理能力参差不一,缺乏统一开放的用量数据模型进行管理,使得企业难以从全局的视角进行整体的成本分析与优化。
云原生企业IT成本治理方案:加速企业 FinOps 进程
多样化弹性能力:弹性容器实例可以在 30 秒内扩容 3000 Pod
混部能力升级:在K8s上提供对编排调度能力的增强
差异化 SLO保障:在 Kubernetes 之上抽象一套面向QoS的资源调度机制,比如延迟敏感型的在线类任务,和Best effort类型可抢占的计算任务。在提升资源利用率的通俗,让低优先级的任务,对延迟敏感型任务的影响 < 5%; 资源精细化调度:包括 CPU、GPU 拓扑感知、资源预留、交互式抢占、碎片整理、资源画像、热点打散等精细调度能力;
任务调度:大数据与 AI 相关的任务调度,比如 Gang、批量、优先级抢占以及弹性 Quota(队列间借用)等,从而更好地去应用整个集群资源。