Почему возникают сбои в работе дата-центра: человеческий фактор

Любой центр обработки данных - это сложная, многоуровневая система, принцип работы которой основан на тесном внутреннем взаимодействии. При этом работа ЦОД требует слаженной поддержки от множества подсистем. Звучит, как непробиваемая гарантия успеха, а на практике приводит к тому, что мелкая системная ошибка провоцирует глобальный сбой и полную остановку центра.

Нажать не то, что надо

В качестве яркого примера рассмотрим вариант кнопки ЕРО, которая управляет аварийным отключением питания. Важность этой кнопки велика, но человеческий фактор оказывается сильнее умной аппаратуры. По крайней мере, раз в год, служащие принимают её за кнопку открывания двери, и дата-центр замирает в мучительной невозможность выполнить хоть что-то.

Если говорить о реальном примере, то относительно недавно Википедия была отключена в силу порыва оптоволокна в дата-центре; Твиттер прекратил свою работу во время последних олимпийских игр из-за отказа системы и подсистемы одновременно. Логичный вывод: чтобы дата-центр встал, даже если это дата-центр ответственного и серьёзного сервиса,  не нужно никаких климатических катаклизмов, достаточно отключения питания, вредоносной атаки, или забывчивости работника.

Чем грозит авария ЦОД

Чем грозит авария пусть даже далеко не самого критичного ЦОД?

Стоит отметить, что сегодня большое количество компаний выстраивают работу своих  бизнес процессов на основе исправной работы дата-центра. В этих случаях, сбой и каждая минута простоя, наносит материальный ущерб компании. При этом думать, что клиент повторит попытку через время – наивно. Скорее всего, он развернётся, и обратиться к Вашему конкуренту и там получит всё, что ему нужно. И даже в следующий раз, памятуя о «каких-то проблемах» он не пойдёт к Вам.

Иными словами, реальным клиентам не интересно, почему и что у Вас там не сложилось. Все они хотят сегодня, сейчас и сию минуту получить полный объём услуг, предлагаемых Вашим сервисом. Если нет, то он становится потерянным для Вас и Вашего дела. Тем не менее, минимизация времени устранения поломки очень важна.

Специалист по данному вопросу, Боб Бред высказал мысль, о том, что поломки и остановки не губят Ваш бизнес на корню. По его мнению, региональные бедствия – реальная угроза бизнесу в целом, тогда как проблемы дата-центра, это лишь производственные издержки с которыми можно справиться.

Избежать аварий

Если Вы хотите обезопасить работу собственного дата-центра, то стоит заниматься вопросами, которые могут сказаться на его питании, обслуживании и других процессах.

Прописная истина, конечно. Но – факт.

Комментарии

Ваше имя:

E-mail:  (на сайте не показывается)

Введите код с картинки: