自动化运维平台 云帮手是如何实现自动化运维的

各位老铁们,大家好,今天由我来为大家分享自动化运维平台,以及云帮手是如何实现自动化运维的的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!云帮手是如何实现自动化运维的1.以数据为基础,打造自动化运

各位老铁们,大家好,今天由我来为大家分享自动化运维平台,以及云帮手是如何实现自动化运维的的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!

云帮手是如何实现自动化运维的

1.以数据为基础,打造自动化运维之根。数据乃根源,运维自动化的建设均需以数据为基础,做到数据可靠、状态可查、记录可审和界面可视。

云帮手日志审计功能,支持各种系统、应用日志数据主动采集汇聚云端,轻松实现可视化运维管理,助力用户洞悉操作细节,辅助排障。

2.以平台为支撑,建设合纵连横管理体系。平台是载体,所有数据的整合、存储、计算和展示均以各类平台为载体进行呈现。

云帮手以“监、管、控”为主线建设了运维服务和综合监控管理平台,实现了安全、基础资源、运行和监控等方面的标准化管理,做到7*24小时安全巡检和智能监控,实现自检和修复,并能够通过自主设置的告警规则产生告警,帮助用户快速反应处理各种突发情况。

3.以场景为导向,助力业务发展与创新。场景为导向,只有满足实际业务场景,其数据和平台才有意义,才能真正发挥其价值。

云帮手根据各类业务特点和使用场景,建设了不同的功能模块提供给运维人员使用,如巡检修复、监控告警、环境搭建、站点部署、安全防护、系统管理、日志审计等,提供全方位的运维管理服务,满足不同业务场景需求。

可以跳转这个链接去官网看看https://www.cloudx.cn/?utm_source=wu-wk

什么是自动化运维

首先,IT运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。其次,IT运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。市面上有很多成熟的自动化运维,例如腾讯的蓝鲸,傲冠的行云管家等等

电网自动化运维难不难

电网自动化运维比较难,招人的主要原因应该是在电网系统中运行维护是一项比较辛苦的工作。

比如高压输电线路的运维工作需要爬山越岭,还要承受恶劣天气的影响,因为越是恶劣的天气,输变电设备越容易出现故障,这时候就需要运维人员到现场去抢修和维护他们的工作是十分辛苦的。

蚂蚁金服怎样实现K8S集群自动化运维

“大规模Kubernetes集群”主要体现在几十个Kubernetes集群,十万级别的KubernetesWorker节点。蚂蚁金服使用Operator的模式去运维Kubernetes集群,能便捷、自动化的管理Kubernetes集群生命周期,做到“KubernetesasaService”。

前序知识

1、Kubernetes架构介绍

此章节简单介绍了Kubernetes集群的架构,主要是面向刚学习Kubernetes的同学,对于熟悉Kubernetes的同学,此章节可以跳过。

如上图,一个Kubernete集群由Master节点和Worker节点组成。

在一个高可用Kubernetes集群下面,Master节点一般为3台,在它们上面需要运行KubernetesMaster组件。KubernetesMaster组件包括etcd、Apsierver、Scheduler和Controller-Manager。每个Master组件一般都是3个实例,以保证它们的高可用。Master节点使用StaticPod方式启动Master组件,即将每个组件的Pod描述文件放入Master节点的指定目录,Kubelet会在启动时将它们读取,并以StaticPod方式启动。

KubernetesWorker节点为Kubernetes集群提供调度资源和应用运行环境,即所有的Pod(可以理解为应用的一个个最小化部署单元)都运行在Worker节点上。一个Worker节点将Pod运行上去需要一些on-host软件,包括:kubelet、RuntimeService(docker、pouch等实现方案)、CNI插件等。

2、Operator介绍

我们在这里将用很少的篇幅向刚学习Kubernetes的同学介绍一下Operator。如果期望获得更详细的解读,请参考coreos上关于Operator的介绍。

一个Operator实际上是为了解决某个复杂应用在Kubernetes的自动化部署、恢复。有了Operator,用户只需要向KubernetesApiserver提交一个CRDResource(yaml或者JSON,一个CRDResource其实就是对应一个应用实例,CRDResource用于描述这个应用实例的配置),Operator就会根据用户的需求去完成这个应用实例的初始化,在应用某个模块发生故障时,Operator也会做出自动恢复功能。Operator是用代码运维应用最好的实践之一。

比如我们有一个etcd-operator,我们只需要用户根据需求向KubernetesApiserer提交如下的CRDResource,etcd-operator就能初始化完成一个etcd集群:

apiVersion:etcd.database.coreos.com/v1beta2kind:EtcdClustermetadata:name:xxx-etcd-clusterspec:size:5

其中,上面的Spec.Size=5代表了我们需要一个由5个etcd节点组成的etcd集群。etcd-operator会根据上面的配置,初始化完成etcd集群。相应的,如果你又需要另一个3节点的etcd集群,你只需要提交新的一个Spec.Size=3的CRDResource即可。

背景

在蚂蚁金服,我们面临着需要运维几十个Kubernetes集群,以及十万级别以上的KubernetesWorker节点的难题。

我们将运维Kubernetes的工作拆分两部分:

我们总结了这两部分运维的难点:

难点1:运维Kubernetes集群Master角色

难点2:运维KubernetesWorker节点

实现方案

在实现方案的选择上,我们使用了Kube-on-Kube-Operator和Node-Operator组合的方式来解决上述的难题:

“元集群”只用于管理所有“业务集群”所需的Master组件。“业务集群”是真正提供给业务方运行Pod的Kubernetes集群。也就说,在蚂蚁金服我们只有一个“元集群”,在这个“元集群”中,我们使用Kube-on-Kube-Operator自动化管理了蚂蚁金服所有的“Kubernetes业务集群”的Master组件。

当然,“元集群”也会部署Node-Operator,用于“元集群”Worker节点的上下线,“元集群”的Worker节点也是各个“业务集群”的Master节点。

1、Kube-on-Kube-Operator

Kube-on-Kube-Operator用于WatchClusterCRDResource的变更,将“Cluster”所描述表示的Kubernetes业务集群的所有Master组件达到最终状态。如下图,是“元集群”和它所管理的两个“Kubernetes业务集群”的最终状态:

ClusterCRD的定义包含如下一些信息:

一个业务集群的Master组件部署实际是元集群中的一系列Resource组成,即包括Deployment、Secret、Pod、PVC等组合使用。各Master组件所需要的部署Resource如下:

Kube-on-Kube-Operator除了能够部署上述的Master组件之外,还能维护任何扩展组件,如kube-proxy、kube-dns等。只需要用户提供扩展组件部署模板和扩展插件版本,Kube-on-Kube-Operator能渲染出部署Resource,并保持这些部署Resource到最终态。由于篇幅原因,我们这里不再赘述。

2、Node-Operator

Node-Operator用于WatchMachineCRDResource的变更,将“Machine”所描述表示的Worker节点上的on-host软件(docker、kubelet、cni)达到最终态,最终能让“Machine”所对应的“Node”在Kubernetes集群中达到“Ready”状态。架构图如下:

MachineCRD的定义包含如下一些信息:

Node-Operator用WatchMachine对应Node的状态,当发生一些能处理的Condition(比如kubelet运行中进程消失了)时,Node-Operator会做出恢复处理;Node-Operator会WatchClusterPackageVersionCRD的变更,这个CRD表示整个Kubernetes集群kubelet、docker等组件的默认版本,Node-Operator会根据ClusterPackageVersion描述的信息,控制各个节点的kubelet、docker等组件的版本;Node-Operator还支持控制某些组件灰度发布到某些节点中,用户只要提交描述这个灰度发布的CRD到Apiserver,Node-Operator会有序的执行灰度发布,并将发布状态反馈到CRD中。由于篇幅原因,我们不再赘述。

写在最后

在运维大规模Kubernetes集群的实践中,我们摈弃了传统的模式,使用了Operator模式和面向Apiserver编程。Kubernetes集群的上下线、升级实现了“KubernetesasaService”,就像向云厂商买一个服务一样简单。而Worker节点的运维,使用Operator模式能够让我们统一管理元数据,自动化初始化、恢复Worker节点所需组件。

云帮手支持自动化运维管理服务吗

随着当前IT建设的不断深入,以及云计算能力和规模的扩大,云计算运维管理的难度与复杂度也日益增加,如果只是依靠人工的运维管理将无法满足当前企业的发展需求。这些新特性都对IT管理的自动化能力提出了更高的要求,企业需要更高程度自动化处理来以此实现运维管理的专业化、流程化与标准化。自动化管理已然成为了当前云计算运维管理的一个必然发展趋势。

云帮手作为功能全面的自动化运维工具,能够为用户提供从巡检修复、监控告警、快速建站、环境部署、安全防护到日志审计的一站式运维管理服务,从而实现对云服务统一、便捷、高效、智能的一体化运维管理,包含对整个系统的全生命周期的追踪管理,有效提升业务运行防护能力。

可以跳转这个链接去官网看看https://www.cloudx.cn/?utm_source=wu-wk

好了,文章到这里就结束啦,如果本次分享的自动化运维平台和云帮手是如何实现自动化运维的问题对您有所帮助,还望关注下本站哦!

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 1553299181@qq.com 举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.sinmz.com/8189.html