TranslateProject/published/202101/20191010 The biggest risk to uptime- Your staff.md
2021-02-01 10:26:42 +08:00

54 lines
4.1 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

[#]: collector: "lujun9972"
[#]: translator: "sthwhl"
[#]: reviewer: "wxy"
[#]: publisher: "wxy"
[#]: url: "https://linux.cn/article-13049-1.html"
[#]: subject: "The biggest risk to uptime? Your staff"
[#]: via: "https://www.networkworld.com/article/3444762/the-biggest-risk-to-uptime-your-staff.html"
[#]: author: "Andy Patrizio https://www.networkworld.com/author/Andy-Patrizio/"
计算机正常运行最大的威胁是什么?是员工
======
> 一项新研究发现,人为失误是引发停机时间的首要原因。你想象一下那是什么场景。
![](https://images.idgesg.net/images/article/2018/07/9_how-well-do-you-know-your-staff_head-in-sand-100765388-large.jpg)
之前有一个很老的笑话:“是人都会犯错,但是要真正把事情搞砸,你还缺台计算机。” 现在情况正好相反了,现如今,数据中心设备的可靠性已经得到了极大的提升,反而是使用设备的人员素质没能跟上,从而给计算机正常运行带来了很大的威胁。
<ruby>正常运行时间协会<rt>Uptime Institute</rt></ruby>对数千名 IT 专业人员一整年发生的故障事件进行了调查,得出结论表示绝大多数的数据中心故障是由于人为错误造成的,人为错误导致的故障率为 70%-75%。
而且有些故障很严重。调查发现,超过 30% 的 IT 服务与数据中心运营商经历了他们称之为是“严重服务退化”的停机事故。2019 年有 10% 的受访者称他们最近的事故造成的损失超过 100 万美元。
在正常运行时间协会在 2019 年 4 月的调查中60% 的受访者认为,对于最近发生的重大停机事件,他们本可以通过更好的管理/流程或配置进行防止。而对于损失超过 100 万美元的故障事件,这一数字跃升至 74%。
正常运行时间协会认为,导致故障事件发生的最终的错误不一定是员工,而是令人失望的管理。
“这个行业仍然严重依赖于人工去完成一些最基础和最重要的工作,易受人为错误的影响,这一点无法避免,也许可做的防错/防灾措施很有限。”正常运行时间协会期刊的主编 Kevin Heslin 在一篇[博客文章][4]中写道。
“然而,对这些故障问题的快速调查发现,故障持续存在的主要原因不是人为失误,而是由于管理失误导致,如针对员工培训投资不足,相关政策执行不力,管理程序老旧,低估一名合格员工的重要性,这一系列的管理问题导致了故障停机。” Heslin 继续写道。
正常运行时间协会指出,公司的 IT 基础设施越复杂,特别是分布式特性基础设施,可能会越容易增加简单的错误层出不穷而导致业务中断的风险。同时指出公司需要意识到基础设施越复杂所涉及的风险就越大。
并警告说,在人员配备方面,不要以超过公司吸引和应用资源来管理基础设施的速度扩大关键 IT 能力,并在影响关键任务操作之前意识到任何人员和技能短缺。
--------------------------------------------------------------------------------
via: https://www.networkworld.com/article/3444762/the-biggest-risk-to-uptime-your-staff.html
作者:[Andy Patrizio][a]
选题:[lujun9972][b]
译者:[sthwhl](https://github.com/sthwhl)
校对:[wxy](https://github.com/wxy)
本文由 [LCTT](https://github.com/LCTT/TranslateProject) 原创编译,[Linux中国](https://linux.cn/) 荣誉推出
[a]: https://www.networkworld.com/author/Andy-Patrizio/
[b]: https://github.com/lujun9972
[1]: https://www.networkworld.com/article/3223692/what-is-a-data-centerhow-its-changed-and-what-you-need-to-know.html
[2]: https://www.networkworld.com/newsletters/signup.html
[3]: https://www.networkworld.com/article/3440100/take-the-intelligent-route-with-consumption-based-storage.html?utm_source=IDG&utm_medium=promotions&utm_campaign=HPE20773&utm_content=sidebar " Take the Intelligent Route with Consumption-Based Storage"
[4]: https://journal.uptimeinstitute.com/how-to-avoid-outages-try-harder/
[5]: https://www.facebook.com/NetworkWorld/
[6]: https://www.linkedin.com/company/network-world