1. 首页 > 电脑手机 >

sre工程师 sre工程师工资

sre是什么意思?

SRE即运维开放。

sre工程师 sre工程师工资sre工程师 sre工程师工资


一般来说,SRE团队要承担以下几类职责:可用性改进、延迟优化、性能优化、效率优化、变更管理、监控、紧急事物处理以及容量规划与管理。

在减少资源消耗的同时,从可用性和性能层面,提升用户的体验。

具体而言,需要具备以下几方面的能力:

语言和工程实现

深入立即开发语言(Java/Golang等)

业务部门使用开发框架

并发、多线程和锁

资源模型理解:网络、内存、CPU

故障处理能力(分析瓶颈、熟悉相关工具、还原现场、提供方案)

常见业务设计方案,多种并发模型,以及相关 Scalable 设计

各类底层数据库和存储系统的特性和优化

问题定位工具

容量管理

Tracing 链路追踪

Metrics 度量工具

Logging 日志系统

运维架构能力

Linux 精通,理解 Linux 负载模型,资源模型

熟悉常规中间件(MySQL Nginx Redis Mongo ZooKeeper 等),能够调优

Linux 网络调优,网络 IO 模型以及在语言里面实现

资源编排系统(Mesos / Kubernetes)

理论

机器学习中相关理论和典型算法

熟悉分布式理论(Paxos / Raft / BigTable / MapReduce / Spanner 等),能够为场景决策合适方案

资源模型(比如 Queuing Theory、负载方案、雪崩问题)

资源编排系统(Mesos / Kubernetes)

对于企业而言,这些都将是非常重要的能力。

运维师岗位职责

运维师岗位职责(精选25篇)

在日新月异的现代社会中,大家逐渐认识到岗位职责的重要性,制定岗位职责有利于提高工作效率和工作质量。那么制定岗位职责真的很难吗?下面是我帮大家整理的运维师岗位职责,欢迎大家借鉴与参考,希望对大家有所帮助。

运维师岗位职责 篇1 1.在阿里云环境部署业务,维护系统运行;

2.开发运维脚本或工具,来提高运维部署的效率;

3.维护集成开发,测试环境;

4.管理内部用户权限和资源;

5.监控系统运行状况,在发生问题是能及时报警并跟进处理。

运维师岗位职责 篇2 资深linux工程师/linux专家(运维架构师)3年以上互联网行业linux运维工程师、sre工程师或系统架构师相关经验

必须大型互联网经验

熟悉linux的安装、配置、调优和排障及常见配置管理和运维工具,如:ansible、saltstack、stackstorm等

精通tcp/ip、http协议,具备抓包分析和排障能力

熟练使用python或go等语言进行运维工具开发

熟悉多种linux下主流开源软件安装、配置、优化及排障,如:nginx、tomcat、squid、varnish、bind、redis、zookeeper、elk等等

具有大规模运维的经验,精于容量规划、架构设计、性能优化等

运维师岗位职责 篇3 职责

1、负责服务器、小型机、存储等硬件系统的安装、调试;

2、熟悉WINDOWS SERVER,Linux/AIX系统的安装配置和系统管理;

3、熟悉Oracle、DB2等数据库的安装流程、系统配置、空间利用、资源占用、系统安全性管理;

4、负责系统运维,SOP制作。根据知识管理要求,建立应用系统运行支持的知识管理库;

5、使用系统监控工具(Zabbix、Nagios),监控系统系统状态.

岗位要求

1、通信、电子工程、自动化、计算机及相关专业,大专或以上学历,一年以上相关工作经验;

2、熟悉和掌握各种计算机软硬件,可独立进行安装、调试及故障排除;

3、了解SQL/Oracle/DB2,有相关工作经验者优先;

4、工作主动性强,耐心细致,有责任心,具备团队合作精神。

运维师岗位职责 篇4 职责:

1、负责计量自动化系统等基础架构(服务器、存储、FC交换机等设备)规划、安装、维护工作;

2、负责计量自动化系统等硬件故障处理、定检等;

3、负责计量自动化系统系统等加固、软件升级等;

4、负责计量自动化系统等运维文档编写;

5、根据需求对新项目的设计、规划、实施、维护等工作。

岗位要求:

1、计算机相关专业;

2、熟悉主流厂商服务器、存储、FC交换机等设备的产品线和设备基本安装;

3、熟悉市场主流操作系统Linux、aix、hpux配置;

4、熟悉TCP/IP协议,掌握网络基础知识;

5、具备良好的团队合作精神,高度的责任感,善于沟通,有创新精神,能够承受压力;

6、有较好的文档编写能力,有标书、方案编写经验值优先;

7、具有RHCE、OCP、CCNP、MCSE、VCP等相关认证优先。

运维师岗位职责 篇5 职责:

1、负责管理靠谱云各zone集群服务器的日常运维管理、故障维护

2、维护靠谱云服务器的硬件管理的监控平台、自动化运维管理平台及工具

3、负责部署、扩容靠谱云系统环境及配置

4、协助完成相关硬件、软件测试

5、强烈的责任心、良好的沟通和协调能力计算机及相关专业

任职要求:

1. 3年以上运维工作经验

2.精通KVM/xen/vmware/docker等相有使用经验

3.具备amazon/阿里云/腾讯云等云服务使用经验,对云产品熟悉;

4.具备mysql/redis/mongodb等数据库运维、开发经验;

5.深入理解Linux操作系统、熟悉开源的监控平台工具、熟悉网络基础知识

6.有CMDB平台开发/openstack二次开发经验者优先;

运维师岗位职责 篇6 职责:

1、负责智慧城市平台领域的需求分析、产品与架构设计,编写核心代码;

2、负责系统的安全性,高可用性,性能优化以及开放扩展性;

3、制订和review产品领域的技术规范,指导和培训开发工程师;

4、负责项目进度把控,线上故障的及时排错及处理;

5、研究新的web、云计算、大数据平台和技术;

6、参与技术研发团队管理工作;

任职要求:

1、5年以上Java研发和软件设计经验;

2、2年以大型项目及平台设计经验,有大型互联网平台设计与研发经验优先;

3、熟练掌握主流应用服务器架构体系,数据库以及各种中间件技术,如Tomcat、Redis、Memcahced、HTTP、Ajax、MySQL、JMS等;

4、熟悉大规模系统的负载均衡、缓存、网络存储、网络安全、数据库高可用设计及性能评估机制;

5、 具备良好的系统分析能力,良好的抽象思维和逻辑思维能力,独立分析问题解决问题的能力;

6、可承受较大压力,有责任感,较强的沟通协调能力,具有团队合作精神,能带领团队进行主要平台产品的研发和平台升级优化;

7、有团队管理经验,熟悉大型项目管理流程规范,有PMP等项目管理证书者优先;

运维师岗位职责 篇7 职责:

1、负责海内外运营业务平台的环境部署及维护,确保平台稳定的运行;

2、协助运维主管完成,运维相关系统的部署;

4、独立编写Linux运维脚本工具;

5、Linux操作系统性能优化,数据库备份和恢复;

6、对服务器和服务的运行状况监控,及时发现问题,并处理问题;

7、日常运维文档编写,如编写系统运维手册、部署文档、性能参数说明等。

岗位要求:

1、两年以上互联网行业运维工作经验,有平台运维工作经验者优先;

2、熟悉LNMP环境部署及MYSQL数据库的主从,双主部署,性能优化;

3、熟悉Memcached、Redis等维护,有Hadoop、zookeeper、rabbitmq、Kafka部署使用经验更佳;

4、熟悉TCP/IP网络通讯协议及常见的监控系统(如Zabbix、Nagios、Cacit等),能开发监控脚本,订制监控模板

5、对负载均衡及分布式系统架构有一定了解;

6、思路清晰,具备良好的团队协作精神、沟通能力、服务意识。

运维师岗位职责 篇8 职责:

1、负责运维管理平台上具体应用的需求分析、设计开发和部署。

2、参与商城架构设计及可用性建设。

3、负责项目需求整理,项目进度管理,对接外包开发团队,解决开发过程中的各种问题,把控开发的工作进度和质量。

4、负责网络和网上商城运维管理平台的部署及运维工作。

5、负责相关故障、疑难问题排查处理,编制汇总故障、问题,定期提交汇总报告。

6、负责日常系统维护及监控,网络安全维护,提供IT服务和支持,保证系统的稳定。

任职要求:

1、大学专科及以上学历,计算机相关专业,有3年以上相关工作经验者;

2、熟悉电商平台部署模型,有大规模服务器运维管理或了解信息安全体系和安全标准;

3、具有网络工程师或网络支持工程师证书者优先;

4、具备网站制作能力(独立),掌握前端开发技能;

5、熟悉网络架构,具备基本的网络故障排错能力,对网络安全有一定的了解;

6、优秀的时间管理能力、沟通协调能力、文档编写能力、问题解决能力;

7、有创新意识,工作积极主动,具备良好的抗压能力、沟通能力和团队合作意识。

运维师岗位职责 篇9 1、负责数据中心日常巡检工作,并根据要求形成相关统计报告。

2、每周按照要求制作机房运行参数等的统计分析。

3、能够部署相关的操作系统(windows、linux)以及一些基本服务,例如AD、DNS、DHCP、AAA、IIS、文件系统等。

4、能够配置交换机的基础配置(MSTP、RSTP、主从VLAN、动态VLAN等基础配置)

5、路由协议(静态、RIP、ospf路由)。

6、了解防火墙的工作原理,能够进行简单的策略下发。

运维师岗位职责 篇10 职责

1、负责网络组网规划、前期设备选型,后期对服务器、主机、应用系统的.日常监控和维护,保障服务器、主机和应用正常、稳定的运行;

2、掌握常用交换机和路由器配置,熟悉网络协议和网络故障排查;

3、熟练配置和使用Windowsserver系列和Linux操作系统,能独立完成常见的服务器搭建配置和排障;

4、驻客户现场,负责网络与安全设施运维工作,撰写相关报告。

任职资格

1、大专或以上学历,计算机或相关专业毕业,有服务器维护1年以上相关工作经验者优先考虑;

2、熟悉windows20xx、windows20xx、linux等各种操作系统;熟练掌握相关网络技术、TCP/IP协议、路由与交换技术等,以及各种主流(CISCO、华为)交换机和路由器等设备的安装配置,具有CCNA或CCNP认证优先;

3、熟悉windows20xx、windows20xx、linux操作系统,熟悉iis、apache、mssql、mysql、ftp等相关服务的架设与排障;

4、热爱运维工作,有良好的学习、沟通和领悟能力;

5、勇于接受挑战,有较强的工作责任心。

运维师岗位职责 篇11 职责:

1.负责客户单位(政府行政部门)机房设备及网络的管理和日常维护;

2.负责客户单位桌面终端设备(PC、打印机等)、视频会议系统的管理和日常维护;

3.负责客户单位软件系统的管理和日常维护,包括安装配置、运行监控、数据备份、故障处理等;

4.负责客户单位的IT问题受理解答及IT系统操作的技能培训;

5.工作地点在长沙暮云镇,长期在客户单位驻场工作。

任职条件:

1.大专以上学历,计算机相关专业,两年以上工作经验;

2.熟悉路由器、交换机、防火墙等网络设备配置和管理,能诊断和处理日常网络问题;

3.熟悉Windows和常用办公软件设置,熟悉服务器设置和管理;

4.熟悉Oracle、SQL数据库日常操作;具备DBA能力者优先。

5.学习能力强,能积极沟通和协作,有高度的责任心和服务意识;有良好的文档撰写能力。

运维师岗位职责 篇12 职责:

1、负责库房物资管理,并定期将统计数据发送给负责人审查;

2、负责终端安全管控及PC终端软硬件的维护;

3、负责网络维护,解决内网不通或地址冲突等相关问题;

4、负责服务器运维以及各个系统浏览器登录兼容性的调试;

5、负责机房日常巡检工作;

任职资格:

1、计算机、通信及其相关专业,大专及以上学历。一年以上相关岗位工作经验;

2、掌握一定的计算机网络知识,熟悉windows以及打印机的安装运维;

3、具有较强的学习能力,并能及时高效地处理各类IT故障;

4、具有主观能动性,责任心强,善于沟通,并能独立完成岗位职责中所要求的各项工作;

运维师岗位职责 篇13 1、响应及解决客户的技术要求、疑问以及系统使用过程中遇到的各种问题;

2、负责服务过程中问题现象和处理方案的收集撰写,形成知识库,并对知识库进行维护更新;

3、及时反馈技术处理过程中的异常情况,及时向部门负责人、服务开发PM、客户经理等相关人员报警;同时,主动协调资源推动问题解决;

4、定期对所有服务问题进行分析,并对服务效率有影响的问题提供反馈意见,提升服务支持团队专业度

运维师岗位职责 篇14 1、日常短彩信质量分析工作,协助短彩信业务质量人工测试、协助自有人员以提升用户感知、加强故障监控能力、消灭安全隐患为目标,提供对短彩信系统业务指标、系统运行效能进行主动发现、隐患整改、持续优化的服务。

2、日常巡检:协助实施系统巡检,协助编写问题报告。

3、投诉处理:协助投诉与故障现象分析,明确投诉原因,提出投诉处理建议。

4、作业计划:协助完成作业计划执行以及完成情况反馈。

5、系统备份与系统资料管理:协助开展系统备份与系统资料整理。

6、日常故障处理:协助数据提取与分析、系统监控,开展人工测试,提供故障处理建议,协助维保厂商及自有人员完成故障处理。

7、紧急故障处理:协助数据提取与分析、系统监控,开展人工测试,协助故障处理,提供故障处理建议,协助8、提供故障分析内容,协助维保厂商及自有人员完成故障处理。

9、话单数据保障:协助进行话单文件的日常维护,协助完成话单缺失的补传工作。

10、协助数据提取与分析、系统监控,开展业务测试。

11、协助开展日常安全扫描等工作,内容主要为:系统安全加固、弱口令、漏洞的自查及修复;信息安全风险的自查及整改;管控平台全面接入及绕行控制;防火墙设备策略梳理;定级备案内容提供;更新应急预案,完成应急演练等。

12、数据配置:进行局数据制作后测试。

13、报表分析:协助提取分析报表,实施分析工作,编写分析报告。

14、数据分析、服务汇报:协助完成系统指标数据提取、整理、问题分析;完成各系统专项服务汇报(故障报告、巡检报告等),以及定期服务总结。

15、协助买方完成其他临时性、阶段性工作任务。

运维师岗位职责 篇15 1、负责NC系统表单、审批流程、打印模板的创建、功能测试及发布;

2、负责NC系统表单及流程的执行情况进行跟踪,确保流程正确有效执行;

3、负责NC系统账套创建、权限开通与调整;表单模板优化调整及审批流程配置、功能测试及发布;

4、负责NC系统、NC系统日常维护工作和系统异常处理;

5、负责接收处理NC系统、NC系统用户反馈的问题并回复处理结果;

6、对NC系统、NC系统新增业务需求进行分析梳理,并给出可行性解决方案;

7、负责其它系统的维护、参与系统开发的测试工作。

运维师岗位职责 篇16 1.参与软件项目的需求评审,关注项目需求的合理性,可测性;

2.全程参与项目生命周期,保证产品质量;

3.负责编写测试流程中各环节相关文档,如制定测试计划、设计测试用例,测试执行,记录缺陷,并跟踪整个缺陷的生命周期,编写测试报告;

4.开发自动化测试脚本,开发性能测试脚本;

5.配合解决测试过程中的问题,协助研发工程师重现、分析、定位、修复bug;

6.积极思考如何通过技术手段提高测试效率,对项目流程的规范建设提有自己的见解;

运维师岗位职责 篇17 岗位职责:

1、负责公司idc机房,企业内部网络以及设备的日常维护,优化和监控;

2、负责集团和分公司之间网络架构的规划、设计、调整、性能优化;

3、熟悉cisco/juniper网络环境的安装、管理、配置、排错,提供网络设备维护方案;

4、熟悉计算机网络和网络安全的调试,网络质量及网络设备的监控,生成网络质量报表;

5、建立完整的网络系统文档,负责及时处理相关网络故障;

6、与开发团队密切沟通,设计并实施高并发高可靠性网络拓扑方案

任职要求:

1、大专以上学历,计算机或信息管理类相关专业;

2、精通各种路由器,交换机,服务器的安装和优化配置;

3、精通防病毒防攻击等软件的安装和使用;

4、熟悉阿里云/腾讯云服务器的配置和性能优化,熟悉域名以及cdn的管理和配置;

5、熟悉sqlserver、mysql数据库的安装及调试;

6、持有ccie/ccnp证书优先;

7、具备良好的客户服务意识和较好亲和力、能独立解决问题和较强的沟通能力和团队精神;

8、了解电话交换机(pbx)以及呼叫中心系统

运维师岗位职责 篇18 岗位职责:

1、按照项目总监要求,开展日常的运维监管实施工作;

2、按时完成各类监管通报的编制;

3、定期编制运维监理服务工作报告。

任职要求:

1、大学本科及上以学历,计算机相关或数据统计分析专业,工作经验不限。

2、有很强的责任心和执行力,工作认真负责,善于发现问题和分析问题。

3、熟悉公文写作,具有较强的技术文档编写能力。

运维师岗位职责 篇19 岗位职责:

1.虚拟化、网络存储、服务器、数据中心、大数据、相关产品的项目交付或支撑项目迁移上云;

2.与客户有效沟通技术方案、项目计划和进度等,获得客户支持和认可;

3.正确理解、有效分析和管理客户需求;

4.初步掌握项目管理基本方法和工具,并运用到工作中,具备项目技术管理成功实践;

任职资格:

1.本科学历,学信网可查,计算机软件相关专业,具有三年以上相关云计算工作经验,熟悉操作系统、网络存储、数据库等,熟悉国内主流公有云服务商应用;

2.熟悉虚拟化技术(KVM/Xen/LXC等),了解OpenStack,CloudStack等云计算开源平台,了解Nginx,Nagois,Zabbix,OVS,CEPH等相关开源技术;

3.熟悉路由器、防火墙、交换机、负载均衡等网络设备的配置;

4、具有良好的技术前瞻性,独立的技术分析及故障处理能力,性格开朗,具有合作精神,良好的服务意识,责任心强;

5、良好的沟通和交流能力,强烈的学习欲望。

6.具有华为云平台实施和维护经验(VM,思杰,cytrix),或具有华为存储产品认证者(HCNP,HCIE)优先.

运维师岗位职责 篇20 职责:

1.业务平台的日常管理和维护。

2.服务器的配置、维护、监控、调优,相关故障、疑难问题排查处理。

3.应用系统性能优化。

4.保障服务器与业务平台安全,检查并消除安全漏洞。

5.设计业务平台和服务器可靠性保障方案、升级方案。

任职要求:

1. 3年以上在线系统运维工作经验,精通Linux系统及常见服务的安装配置,熟悉常见的负载均衡实现方案并有实际实施经验。

2.精通Apache、NginX、MySQL等常用服务的安装、配置和维护。

3.精通和灵活运用一种以上的脚本语言,包括但不限于:Shell、Python等。

4.能够熟练排查运维过程中出现的服务故障、系统故障、网络故障。

5.高度的责任感,较强的故障分析及排除能力,善于在工作中学习,能够承受工作压力,能适应短期出差和加班。

6.优先考虑:精通LAMP架构,熟悉PHP,有相关大中型在线系统开发及维护经验。

运维师岗位职责 篇21 1、熟悉云技术架构,OpenStack,docker技术等

2、熟悉Unix,linux,windows操作系统,虚拟化平台运维,熟悉脚本开发语言,

3、熟悉IaaS层云计算与虚拟化概念、有云主机、云存储相关实施经验

4、熟悉主流云计算产品,对相关云产品有运维经验优先

运维师岗位职责 篇22 职责:

1、负责已验收项目的运维工作(系统安装部署、使用问题咨询、升级维护等);

2、负责已验收项目的问题及需求梳理,收集客户反馈的问题和新需求,整理成文档;

3、负责已验收项目的系统维护,包括系统常见问题的处理,确保系统正常运行等;

4、负责已验收项目的软件开发及优化,包括软件使用过程中出现的问题定位、分析、解决,负责软件Bug修复和新需求功能开发;

5、负责已验收项目的软件相关文档编写及汇报相关工作。

6、完成部门领导安排的其他日常事务。

任职要求:

1、计算机等相关专业本科及以上学历;

2、具备良好的沟通协调能力,文档编写能力;

3、熟悉java,spring,hibernate,js,jquery,jsp,SQLServer,Oracle数据库等基础;

4、有信息化系统运维开发经验,优先考虑。

5、有环保行业工作背景优先。

运维师岗位职责 篇23 1.了解市场及用户需求,负责公司云产品规划、方案设计、运营及资源管理;

2.负责面向研发中心的云产品需求对接,提供云产品开发方向设计。

3.负责面向云服务商的技术交流,优化提升公司云产品、保障公司云产品的正常运营;

4.解决用户在使用公司云产品及其应用过程中的各种问题并做好记录;

5.负责运营数据的统计与分析,并定期提交分析报告。

运维师岗位职责 篇24 1、部署环境实施规划

2、K8S部署安装

3、GitLab,Nginx,Jenkins,Redis,Mysql,Harbor软件安装部署

4、Spring cloud微服务部署

5、远程访问软件安装

6、服务器linux系统安装,KVM虚拟化

7、大数据集群机器容量(CPU,内存,硬盘)以及组件规划

8、售后技术支持

9.熟悉主流服务器调测配置

运维师岗位职责 篇25 1、全面负责省、市、县政府的开拓及维护工作,具备制定合作策略及政府方向谈判能力;

2、根据公司项目开发情况,统筹项目管理工作,制订项目的推进策略,以及系统的项目政策、计划方案;

3、负责有关的业务会议以及重大项目谈判并签订项目合同;

4、负责项目计划的落实、分解并制定阶段性项目计划,组织、指导团队成员各项项目工作;

5、定期与重要客户沟通,发展与重要客户的良好关系,完成公司销售目标;

6、政府职能部门的关系维护;公司内、外部关系维护;

7、完成直属领导、公司安排的其他工作

;

SRE和DevOps

2019年06月25日 - 初稿

阅读原文 -

扩展阅读

SRE vs. DevOps: competing standards or close friends? -

DevOps 和 SRE -

SRE vs. DevOps: competing standards or close friends?

Seth Vargo: Staff Developer Advocate

Liz Fong-Jones: Site Reliability Engineer

May 9, 2018

Site Reliability Engineering (SRE) and DevOps are two trending disciplines with quite a bit of overlap. In the past, some have called SRE a competing set of practices to DevOps. But we think they're not so different after all.

What exactly is SRE and how does it relate to DevOps? Earlier this year, we ( Liz Fong-Jones and Seth Vargo ) launched a video series to help answer some of these questions and reduce the friction between the communities. This blog post summarizes the themes and lessons of each video in the series to offer actionable steps toward better, more reliable systems.

It’s useful to start by understanding the differences and similarities between SRE and DevOps to lay the groundwork for future conversation.

The DevOps movement began because developers would write code with little understanding of how it would run in production. They would throw this code over the proverbial wall to the operations team, which would be responsible for keeping the applications up and running. This often resulted in tension between the two groups, as each group's priorities were misaligned with the needs of the business. DevOps emerged as a culture and a set of practices that aims to reduce the gaps between software development and software operation. However, the DevOps movement does not explicitly define how to succeed in these areas. In this way, DevOps is like an abstract class or interface in programming. It defines the overall behavior of the system, but the implementation details are left up to the author.

SRE, which evolved at Google to meet internal needs in the early 2000s independently of the DevOps movement, happens to embody the philosophies of DevOps, but has a much more prescriptive way of measuring and achieving reliability through engineering and operations work. In other words, SRE prescribes how to succeed in the various DevOps areas. For example, the table below illustrates the five DevOps pillars and the corresponding SRE practices:

If you think of DevOps like an interface in a programming language, class SRE implements DevOps . While the SRE program did not explicitly set out to satisfy the DevOps interface, both disciplines independently arrived at a similar set of conclusions. But just like in programming, classes often include more behavior than just what their interface defines, or they might implement multiple interfaces. SRE includes additional practices and recommendations that are not necessarily part of the DevOps interface.

DevOps and SRE are not two competing methods for software development and operations, but rather close friends designed to break down organizational barriers to deliver better software faster. If you prefer books, check out How SRE relates to DevOps (Betsy Beyer, Niall Richard Murphy, Liz Fong-Jones) for a more thorough explanation.

The SRE discipline collaboratively decides on a system's availability targets and measures availability with input from engineers, product owners and customers.

It can be challenging to have a productive conversation about software development without a consistent and agreed-upon way to describe a system's uptime and availability. Operations teams are constantly putting out fires, some of which end up being bugs in developer's code. But without a clear measurement of uptime and a clear prioritization on availability, product teams may not agree that reliability is a problem. This very challenge affected Google in the early 2000s, and it was one of the motivating factors for developing the SRE discipline.

SRE ensures that everyone agrees on how to measure availability, and what to do when availability falls out of specification. This process includes individual contributors at every level, all the way up to VPs and executives, and it creates a shared responsibility for availability across the organization. SREs work with stakeholders to decide on Service Level Indicators (SLIs) and Service Level Objectives (SLOs).

The video also discusses Service Level Agreements (SLAs). Although not specifically part of the day-to-day concerns of SREs, an SLA is a promise by a service provider, to a service consumer, about the availability of a service and the ramifications of failing to deliver the agreed-upon level of service. SLAs are usually defined and negotiated by account executives for customers and offer a lower availability than the SLO. After all, you want to break your own internal SLO before you break a customer-facing SLA.

SLIs, SLOs and SLAs tie back closely to the DevOps pillar of "measure everything" and one of the reasons we say class SRE implements DevOps .

We focus here on measuring risk through error budgets, which are quantitative ways in which SREs collaborate with product owners to balance availability and feature development. This video also discusses why 100% is not a viable availability target.

Maximizing a system's stability is both counterproductive and pointless. Unrealistic reliability targets limit how quickly new features can be delivered to users, and users typically won't notice extreme availability (like 99.999999%) because the quality of their experience is dominated by less reliable components like ISPs, cellular networks or WiFi. Having a 100% availability requirement severely limits a team or developer’s ability to deliver updates and improvements to a system. Service owners who want to deliver many new features should opt for less stringent SLOs, thereby giving them the freedom to continue shipping in the event of a bug. Service owners focused on reliability can choose a higher SLO, but accept that breaking that SLO will delay feature releases. The SRE discipline quantifies this acceptable risk as an "error budget." When error budgets are depleted, the focus shifts from feature development to improving reliability.

As mentioned in the second video, leadership buy-in is an important pillar in the SRE discipline. Without this cooperation, nothing prevents teams from breaking their agreed-upon SLOs, forcing SREs to work overtime or waste too much time toiling to just keep the systems running. If SRE teams do not have the ability to enforce error budgets (or if the error budgets are not taken seriously), the system fails.

Risk and error budgets quantitatively accept failure as normal and enforce the DevOps pillar to implement gradual change. Non-gradual changes risk exceeding error budgets.

An important component of the SRE discipline is toil, toil budgets and ways to reduce toil. Toil occurs each time a human operator needs to manually touch a system during normal operations—but the definition of "normal" is constantly changing.

Toil is not simply "work I don't like to do." For example, the following tasks are overhead, but are specifically not toil: submitting expense reports, attending meetings, responding to email, commuting to work, etc. Instead, toil is specifically tied to the running of a production service. It is work that tends to be manual, repetitive, automatable, tactical and devoid of long-term value. Additionally, toil tends to scale linearly as the service grows. Each time an operator needs to touch a system, such as responding to a page, working a ticket or unsticking a process, toil has likely occurred.

The SRE discipline aims to reduce toil by focusing on the "engineering" component of Site Reliability Engineering. When SREs find tasks that can be automated, they work to engineer a solution to prevent that toil in the future. While minimizing toil is important, it's realistically impossible to completely eliminate. Google aims to ensure that at least 50% of each SRE's time is spent doing engineering projects, and these SREs individually report their toil in quarterly surveys to identify operationally overloaded teams. That being said, toil is not always bad. Predictable, repetitive tasks are great ways to onboard a new team member and often produce an immediate sense of accomplishment and satisfaction with low risk and low stress. Long-term toil assignments, however, quickly outweigh the benefits and can cause career stagnation.

Toil and toil budgets are closely related to the DevOps pillars of "measure everything" and "reduce organizational silos."

Finally, Customer Reliability Engineering (CRE) completes the tenets of SRE (with the help in the video of a futuristic friend). CRE aims to teach SRE practices to customers and service consumers.

In the past, Google did not talk publicly about SRE. We thought of it as a competitive advantage we had to keep secret from the world. However, every time a customer had a problem because they used a system in an unexpected way, we had to stop innovating and help solve the problem. That tiny bit of friction, spread across billions of users, adds up very quickly. It became clear that we needed to start talking about SRE publicly and teaching our customers about SRE practices so they could replicate them within their organizations.

Thus, in 2016, we launched the CRE program as both a means of helping our Google Cloud Platform (GCP) customers with improving their reliability, and a means of exposing Google SREs directly to the challenges customers face. The CRE program aims to reduce customer anxiety by teaching them SRE principles and helping them adopt SRE practices.

CRE aligns with the DevOps pillars of "reduce organization silos" by forcing collaboration across organizations, and it also closely relates to the concepts of "accepting failure as normal" and "measure everything" by creating a shared responsibility among all stakeholders in the form of shared SLOs.

We are working on some exciting new content across a variety of mediums to help showcase how users can adopt DevOps and SRE on Google Cloud, and we cannot wait to share them with you. What SRE topics are you interested in hearing about? Please give us a tweet or watch our videos .

Posted in:

[好文翻译] 你在找的是 SRE 还是 DevOps?

Neil Wei in KKStream

Aug 3, 2018

敝社这半年来开始 大举征才 ,其中不乏 DevOps 和 SRE 的职缺,然而 HR (或其他部门的同事) 对于两者的相异之处并不了解,甚至认为 SRE 和传统维运单位一样,只是换个名字,从管机房到管云端而已,究竟两者到底有什么差别呢?

这对前来的面试的应征者会有负面的影响,好像连我们自己要找什么样的人都不清楚似的。于是,花了点时间跟 HR 介绍两者的差异,也在支援了 SRE 团队四个月后留下这篇翻译文加一点点心得。

《本文已取得原作者之一 Seth Vargo 同意翻译刊登》

原文网址:

Site Reliability Engineering (SRE) 和 DevOps 是目前相当热门的开发与维运文化,有着很高的相似程度。然而,早期有些人会把 SRE 视为和 DevOps 不同的实践方式,认为两者不一样,必需选择其一来执行,但是现在大家更倾向两者其实其实很相似。

究竟 SRE 和 DevOps 有什么相同点呢?在年初,Google 的工程师 ( Liz Fong-Jones 与 Seth Vargo ) 准备了一系列的影片去解答这些问题以及尝试跳出来去减少社群间的意见分歧,本篇文章总结了影片中所涵盖到的主题,以及如何实际去建置一个更加可靠的系统。

在开始之前,先了解一下 SRE 和 DevOps 有什么相同之处?又有什么相异之处?

DevOps 文化的兴起是因为在早期 (约十年前),有许多开发者对于自己的程式是怎么跑在真实世界,其实所知有限。开发者要做的事情就是将程式打包好,然后扔给维运部门后,自己的工作周期就结束了,而维运部门会负责将程式安装与部署到所有生产环境的机器上,同时也要想尽各种辨法与善用各种工具,确保这些程式持续正常地执行,即使维运部门完全不了解这些程式的实作细节。

这样的工作模式很容易造成两个部门之间的对立,各自的部门都有自己的目标,而各自的目标和公司商业需求可能会不一致。DevOps 的出现是为了带来一种 新的软体开发文化,用以降低开发与维运之间的鸿沟。

然而,DevOps 的本质并不是教导大家 怎么做 才会成功,而是订定一些 基本原则让大家各自发挥 ,以程式设计的术语来说,DevOps 比较像是一个抽象类别 (abstract class),或是介面 (interface),定义了这种文化该有什么样的行为,实作则是靠各个部门成员一起决定,只要符合这个「介面」,就可以说是 DevOps 文化的实践。

SRE 一词由 Google 提出,是 Google 在这十多年间为了解决内部日渐庞大的系统而制定出一连串的规范和实作,和 DevOps 不同的是,它实作了 DevOps 的所定义的抽象方法,而且规范了更多关于 如何用软体工程的方法与从维运的角度出发,以达成让系统稳定的目的 。简单来说,SRE 实作了 DevOps 这个介面 (interface),以下列出五点 DevOps 定义的 介面 以及 SRE 如何 实作 :

如果你已经认同 DevOps 是一个 "介面 (interface)",那么以程式语言的角度来说就是:

虽然实际上两者之间仍有需多独立的原则,SRE 并非完全 1:1 实作了 DevOps 的所有的概念,但最终他们两个的结论是相同的,也和程式语言相同,类别在继承介面之后,可以做更多的延伸,也可以实作更多不同的介面,SRE 包含了更多细节是 DevOps 原本所没有定义的。

在软体开发和维运的领域中, DevOps 和 SRE 并非互相竞争谁才是业界标准 ,相反地,两者都是为了减少组职之间的隔阂与更快更好的软体所设计出来的方法,如果你想看更多细节的话, How SRE relates to DevOps (Betsy Beyer, Niall Richard Murphy, Liz Fong-Jones) 这本书值得一看。

SRE 的原则之一是针对不同的职务,给出不同的量测值。对于工程师,PM,和客户来说,整个系统的可用程度是多少,以及该如何测量,都有不同的呈现方式。

如果无法衡量一个系统的运行时间与可用程度的话,是非常难以维运已经上线的系统,常常会造成维运团队持续处在一个救火队的状态,而最终找到问题的根源时,可能会是开发团队写的 code 出了问题。

如果无法定出运行时间与可用程度的量测方法的话,开发团队往往不会将「稳定度」视为一个潜在的问题,这个问题已经困扰了 Google 好多年,这也是为什么要发展出 SRE 原则的动机之一。

SRE 确保每一个人都知道怎么去衡量可靠度以及当服务失效时该做什么事。这会细到当问题发生时,从 VP 或是 CxO,至最组织内部的每一个相关员工,都有做己该做的事。每一个「人」,该做什么「事」都被规范清楚,SRE 会和所有的相关人员沟通,去决定出 Service Level Indicators (SLIs) 与 Service Level Objectives (SLOs)。

该影片也讨论到了 Service Level Agreements (SLAs),即使这不是 SRE 每天所关心的数字。作为一个线上服务的提供者, SLA 是对客户的承诺 ,确保服务持续运行的百分比,通常是和客户「谈」出来的,每年 (或每月) 的停机时间不得低于几分钟。

SLI, SLO, SLA 的概念和 DevOps 所提的「任何事都可以被量测」非常相似,这也就是为什么会说 class SRE implements DevOps 的原因之一了。

对于风险,我们会用犯错预算来评估,犯错预算是一个量化的值,用来描述服务每天 (或每月) 可以失效的时间,若服务的 SLAs 是 99.9%,那么开发团队就等于有 0.1%的犯错预算通可以用。这个值是一个和 Product Owner 和开发团队谈过之后取得平衡的值,以下的影片也讲到了为什么 0 犯错预算并不是一个适合的值。

致力于将一个系统的可用程度维持在 100% 是一件会累死你又无意义的事情,不切实际的目标会限制了开发团队推出新功能到使用者手上速度,而且使用者多半也不会注意到这件事 (例如可靠度是 99.999999%),因为他们的 ISP 业者,3G/4G 网路,或是家里的 WiFi 可能都小于这个数字。致力维持一个 100% 不间断的服务会严重限制开发团队将新功能交付出去的时间。为了要达成这个严酷的限制,开发人员往往会选择不要修 bug,不要增加功能,不要改进系统,反之,应该要保留一些弹性让开发团队可以自由发挥。

SRE 的原则之一就是计算出可以容忍的「犯错预算」,一旦这个预算耗尽,才应该开始将重点放在可靠性的改善而非持续开发新功能。

如第二个影片提到的,这个文化能让管理阶层买单是最重要的事,因为 SLIs 是大家一起订出来的,如果不照游戏规则走的话,SRE 又会沦为持续为了让系统维持一定的稳定度了而一直做苦力的事,但是没人知道 (因为没有订标准),最终这个服务一定会失败。风险和犯错预算会将犯错视为正常的事,而改善的方式之一是让新功能持续且小规模的发布,这也和 DevOps 的原则相符合。

另一个 SRE 的原则是琐事的控管,如何减少琐事?何谓琐事?

然而琐事并不是「我不想做的事」,举例来说,公司会有许多经常性的事务,一再的发生,例如开会,沟通,回 email,这些都不是琐事。

反之,像是每天手动登入某台机器,取得某个档案后做后续的处理,然后做成报告寄出来,这种就是琐事,因为他是手动,重复,可以被自动化的。

SRE 的原则是尝试使用软体工程的方法消除这些事情,当 SRE 发现事情可以被自动化后,便会着手执行自动化流程的开发,避免之后再做一样的事情,虽然使琐事最小化很重要,但实际上,这是不可能完全消除的, Google 致力于将 SRE 的日常琐事缩小到 50% 以下 ,使得 SRE 成员可以将时间发费在更有意义的事情上,每季的回顾也都会检视成果。

然而琐事也并非完全是坏事,对于新进成员来说,先参与这事例行事务有助于了解这个服务该做些什么事情,这是相对低风险与低压力的,但是长远来看,任何一个工程师都不该一直在做琐事。

琐事管理也和 DevOps 的原则 — 任何事都是可被测量与减少组织之间的谷仓效应相符。

个人觉得这个主题对目前而言稍微走远了,就不逐句翻译。

大意如何将 SRE 的概念传达出去,让 GCP 的客户知道该怎么正确的使用 GCP 的各项服务以及推广 SRE 的风气。

其实目前敝社渐渐转型中,的确处在一个从传统开发与维运转互相独立,到目前渐渐实做 DevOps 文化的路上,在支援了 SRE 部门 4 个月后,参与了很多现实面会碰到的挑战,也和大家一起制定自动化流程与改善目前现有的琐事,也渐渐朝 DevOps 的文化前进中,希望让大家可以知道:

不过理想总是完美的,还是要面对现实,我们的公司不叫 Google,大部份的人也进不去 Google,Google 的 SRE 可能比大多数公司的软体开发工程师还要会写 code,比网路工程师还要懂网路,比维运工程师还要懂维运,在我们周围的环境所开的 SRE 职缺,其实很多都不是想象中的这样美好,琐事 / 手动的事可能还是占大多数,部门间还是存在隔阂,不会写 code 的 SRE 可能也很多,维运还是占日常工作的多数等现况。

传统维运人员或 IT 网管人员若想往 SRE 发展的话,也必需改变一下思维,跳脱舒适圈,在这个什么都 as code,什么都 as a service 的年代,不写 code 就等著等淘汰了。

改变是缓慢而且需要慢慢培养的,就让我们… 咦…P0 事件发生了!先这样啦!

sre是什么意思

首先,sre为什么会诞生?

原因一:企业成本的增长同用户的增长不成线性变化。但是随着系统的复杂度提升,组建越来越多,用户的流量压力也越来越大,相关的变更也会越来越多,各模块之间的变更顺序也会越来越复杂。在这样的情况下,单纯的靠运维人力的数量提升无法满足业务的发展需求,而且会提升企业的成本;

原因二:传统的研发团队和运维团队天然具有冲突。公司的IT人员的配置:研发(Dev)和运维(Ops),研发部门聚焦在快速构建和快速发布;运维部门关注的是如何避免发生故障,从目标上讲就是矛盾的。且随着 IT 技术的发展,对 IT 从业者的要求也越来越高,既要懂得底层系统,也要懂得数据算法,同时对主流技术还要快速追赶,满足这样要求的人才太少;

原因三:生产工具为适配生产力发展的必然产物。为了提高IT行业的整体效率和质量,使得从手工运维时代,逐渐过度到脚本工具运维,在发展到平台数据运维,再到平台软件运维,在发展到智能自动化运维。通过一系列手段、工具、理念的进步,将 Ops 技术发展到 DevOps、DataOps、AIOps 等;

由此,sre 应运而生。

那么,sre具备怎样的能力才让企业迫切需要这类人才呢?

Google 试从解决 Dev 和 Ops 之间的矛盾出发,雇佣软件工程师,创造软件系统来维护系统运行以替代传统运维模型中的人工操作。SRE 团队和产品研发部分在学术和工作背景上非常相似,从本质上将,SRE 就是在用软件工程的思维和方法论完成以前由系统管理员团队手动完成的任务。

SRE在Google不负责某个服务的上线、部署,SRE主要是保障服务的可靠性和性能,同时负责数据中资源分配,为重要服务预留资源,SRE并不负责某个业务逻辑的具体编写,主要负责在服务出现宕机等紧急事故时,可以快速作出响应,尽快恢复服务,减少服务掉线而造成的损失。

一般来说,SRE团队要承担以下几类职责:可用性改进、延迟优化、性能优化、效率优化、变更管理、监控、紧急事物处理以及容量规划与管理。

在减少资源消耗的同时,从可用性和性能层面,提升用户的体验。

具体而言,需要具备以下几方面的能力:

语言和工程实现

深入立即开发语言(Java/Golang等)

业务部门使用开发框架

并发、多线程和锁

资源模型理解:网络、内存、CPU

故障处理能力(分析瓶颈、熟悉相关工具、还原现场、提供方案)

常见业务设计方案,多种并发模型,以及相关 Scalable 设计

各类底层数据库和存储系统的特性和优化

问题定位工具

容量管理

Tracing 链路追踪

Metrics 度量工具

Logging 日志系统

运维架构能力

Linux 精通,理解 Linux 负载模型,资源模型

熟悉常规中间件(MySQL Nginx Redis Mongo ZooKeeper 等),能够调优

Linux 网络调优,网络 IO 模型以及在语言里面实现

资源编排系统(Mesos / Kubernetes)

理论

机器学习中相关理论和典型算法

熟悉分布式理论(Paxos / Raft / BigTable / MapReduce / Spanner 等),能够为场景决策合适方案

资源模型(比如 Queuing Theory、负载方案、雪崩问题)

资源编排系统(Mesos / Kubernetes)

对于企业而言,这些都将是非常重要的能力。

什么是运维?运维工种有哪些

运维工程师从工作方式上分为几大类:

1、运维工程师/运维开发工程师:

负责具体的产品线运维工作,同时也需要掌握开发的能力,深入业务,最了解业务的痛点和问题,同时研发/优化针对产品业务需求的平台、工具和手段,能够接触到各类优秀的系统架构并有能力做出优劣对比,同时对业务的掌控决定了相应运维工程师在业务发展中的作用。长远发展是成为大型系统的架构师。

2、运维平台研发工程师:

专门研发运维相关通用平台和技术,需要有一定的产品线运维经验或从产品线中拿到运维需求。对研发能力有较高的要求,对系统的设计有较严格的标准,并且能够理解用户需求,做出适合服务运维和满足运维工程师使用体验的运维产品,长远的发展是成为各个技术纵向领域的技术专家。

3、数据库研发工程师/数据库工程师:

数据库方向是运维技术中较为特殊的一个方向,由于业务的重要性通常需要专设岗位,业界在该方向也有深厚的研究和积累。主要方向有数据库内核、云数据库等,长远发展是数据库领域的技术专家,数据库架构师。

4、运维经理/运维总监:

运维同学做事情的过程中通常需要协调多个RD和QA同学,对协调和推进能力要求比较高,对一些技术深度还不错,协调和推进能力比较高的同学非常适合转型管理职位,长远的发展和技术部门的管理职位一样目标是CTO、CEO。

各个方向上的工程师发展到一定阶段后,没有明确的界限,需要同时具备较强的运维、架构、编程、算法等能力,是一个要求很高要求的职业。以后运维工程师的素养会越来越高,规范也会越来越强,就像最近几年大家努力推荐的DevOps的概念,还有最近Google SRE的概念的学习,都会给运维行业针对运维人员的规范和要求越来越严格。

sre是什么意思?

sre即运维开发,它为什么会诞生呢?

原因一:企业成本的增长同用户的增长不成线性变化。但是随着系统的复杂度提升,组建越来越多,用户的流量压力也越来越大,相关的变更也会越来越多,各模块之间的变更顺序也会越来越复杂。在这样的情况下,单纯的靠运维人力的数量提升无法满足业务的发展需求,而且会提升企业的成本;

原因二:传统的研发团队和运维团队天然具有冲突。公司的IT人员的配置:研发(Dev)和运维(Ops),研发部门聚焦在快速构建和快速发布;运维部门关注的是如何避免发生故障,从目标上讲就是矛盾的。且随着 IT 技术的发展,对 IT 从业者的要求也越来越高,既要懂得底层系统,也要懂得数据算法,同时对主流技术还要快速追赶,满足这样要求的人才太少;

原因三:生产工具为适配生产力发展的必然产物。为了提高IT行业的整体效率和质量,使得从手工运维时代,逐渐过度到脚本工具运维,在发展到平台数据运维,再到平台软件运维,在发展到智能自动化运维。通过一系列手段、工具、理念的进步,将 Ops 技术发展到 DevOps、DataOps、AIOps 等;

SRE是什么意思?

SRE的全称是Site Reliability Engineering。SRE最早是由 Google 提出,并且在其工程实践中发扬光大。 Google出版了一本同名书籍《Site Reliability Engineering》,让这个理念在互联网工程师圈子里广泛传播。 SRE(站点可靠性工程)是一门结合软件工程的各个方面并将其应用于基础架构和运维问题的学科,于2003年左右在谷歌创建,并通过SRE相关书籍进行宣传。SRE是一个学科,SRE是一种最佳实践,SRE是一类创新岗位。

SREng,全名System Repair Engineer(SREng):一般翻译为系统修复工程师,是世界上最先进的系统辅助分析工具之一。 SREng日志比Hijakcthis的更全(体现在hijackthis会遗漏一些启动项),另外SREng的日志能提供更详细的诊断信息,方便清除顽固病毒。 详细介绍:

SREng,全名System Repair Engineer(SREng):一般翻译为系统修复工程师,是世界上最先进的系统辅助分析工具之一。 SREng日志比Hijakcthis的更全(体现在hijackthis会遗漏一些启动项),另外SREng的日志能提供更详细的诊断信息,方便清除顽固病毒。

SER简称网站稳定性工程师,涵盖了百万并发网站集群-游戏架构-5G 架构-网络安全-游戏-区块链等各个领域。

游戏网站、直播网站、视频网站、5G

网站架构,都必须用云计算技术来保障网站的稳定性。云计算类似于现在的共享充电宝、共享单车。各种服务商把自己的设备出租给你使用,并且可以随时调整配置,这就是最原始的云计算了。

他有两大核心特点:

首先,云计算保证用户可以随时随地访问和处理信息,非常方便地与他人共享信息。

其次,云计算保证用户可以使用云端的大量计算资源,包括 CPU 处理器和存储器(内存和磁盘),而无须自己购置设备。

这是 一款安全工具··

system Repair engineer

一般来说,SRE团队要承担以下几类职责:可用性改进、延迟优化、性能优化、效率优化、变更管理、监控、紧急事物处理以及容量规划与管理。

在减少资源消耗的同时,从可用性和性能层面,提升用户的体验。

具体而言,需要具备以下几方面的能力:

语言和工程实现

深入立即开发语言(Java/Golang等)

业务部门使用开发框架

并发、多线程和锁

资源模型理解:网络、内存、CPU

故障处理能力(分析瓶颈、熟悉相关工具、还原现场、提供方案)

常见业务设计方案,多种并发模型,以及相关 Scalable 设计

各类底层数据库和存储系统的特性和优化

问题定位工具

容量管理

Tracing 链路追踪

Metrics 度量工具

Logging 日志系统

运维架构能力

Linux 精通,理解 Linux 负载模型,资源模型

熟悉常规中间件(MySQL Nginx Redis Mongo ZooKeeper 等),能够调优

Linux 网络调优,网络 IO 模型以及在语言里面实现

资源编排系统(Mesos / Kubernetes)

理论

机器学习中相关理论和典型算法

熟悉分布式理论(Paxos / Raft / BigTable / MapReduce / Spanner 等),能够为场景决策合适方案

资源模型(比如 Queuing Theory、负载方案、雪崩问题)

资源编排系统(Mesos / Kubernetes)

运维工程师主要做什么?

今天传智播客就来说说运维工程师主要做什么。

运维工程师(Operations)在国内又称为运维开发工程师(Devops),在国外称为 SRE(Site Reliability Engineering)。负责维护并确保整个服务的高可用性,同时不断优化系统架构、提升部署效率、优化资源利用率提高整体的ROI。

传智官网看公开课,每个岗位的分类介绍的很清楚,并且每个岗位的重点学习内容,

运维工程师最基本的职责都是负责服务的稳定性,确保服务可以7*24H不间断地为用户提供服务

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至836084111@qq.com 举报,一经查实,本站将立刻删除。

联系我们

工作日:9:30-18:30,节假日休息