随着互联网的不断发展,云技术在企业发展过程中也有了更多的应用需求,而云技术的管理是需要运维程序员来操作的,今天我们就一起来了解一下,运维程序员如何才能管理好云技术。
云计算这块遇到的主要问题不是编程,而是运维上的问题,更多考虑的不仅仅是性能,还包括如何保证稳定性。为客户提供服务,程序要写得很严谨,系统在应用一些配置的时候,要设计如果失败的话回退怎么办;另外要考虑稳定性的因素,因为中国的网络环境不是太好,在公网上跑一些东西的时候,大网抖动一下,或者某个数据中心到一个核心节点的链路不是很好,导致一些数据连接的中断,怎么能重建连接,怎么自动做一些重置,怎么保证集群的稳定性,程序必须具备自动诊断、自动恢复的功能。纯Hadoop那套东西全在内网,不用考虑网络环境的问题,云计算的服务器都在公网上,怎么向服务器发送一些消息,服务器怎么保证消息能收到,这些是需要积累经验的,好多经验也都是四处碰壁碰来的。
云计算的运维不是简单的会用Linux,不仅是做一些维护性的操作,还要和开发一起讨论整个系统的物理架构是什么样的,交换机的配置是怎么做的,网络是怎么搭的。因为牵扯到太多的系统,所以对于运维的要求非常高,出问题原因有可能是系统的bug,也有可能是数据中心的网络等,怎么去快速的定位、解决问题,有很高的技术含量。对于一个复杂系统来说,想了解哪儿出了问题,复杂度不亚于给人看病,而且有时候并不简简单单是一个问题,可能是好几个地方的故障引发的导致严重问题。
运维其实挺苦逼的,干好了没人说你好,稍微出点错就挨骂。越牛的运维越是拿钱砸出来的,如果没摔过跟头,就不可能知道地上哪儿有坑。有的公司对于运维犯错这个事儿的思路不太对,运维捅一大篓子,就把人开了招新人,但新人更有可能犯错,而老人不太会犯同样的错误。运维对于产品来说很重要,能不能让系统不出大问题,出了问题之后能不能很快恢复。就跟一样,养兵千日用兵一时,但是很多公司没有把运维当,就当扫地的使。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。