Распределенные/катастрофоустойчивые ЦОД

Компания CSM обладает большим опытом в создании распределенных ИТ-инфраструктур и предлагает полный спектр услуг по проектированию и внедрению решений, обеспечивающих непрерывность работы ключевых корпоративных сервисов даже в условиях глобальных техногенных и природных катаклизмов.

От надежности функционирования вычислительной инфраструктуры зачастую зависит работа всего предприятия. Бизнес-критичные приложения, как правило, должны работать в режиме 24/7/365 с весьма строгими требованиями по степени доступности сервисов и времени простоя.

Для снижения риска влияния инфраструктурных сбоев и отказов на работу предприятия CSM применяет отказоустойчивые решения на базе кластерного программного обеспечения (IBM PowerHA, Oracle RAC, Veritas Cluster Server, VMWare HA, MSCS, RedHat Cluster и др.).

Территориально распределенные системы позволяют обеспечить сохранность данных и минимизировать время простоя ИТ-сервисов даже в случаях природных или техногенных катастроф. В качестве основы для подобных решений CSM использует технологии репликации данных, а также различные программные решения, обеспечивающие автоматизацию переноса сервисов Заказчика между площадками распределенного ЦОД.

Основными техническими параметрами, определяющими свойства, функционирования, стоимость и сложность распределенных вычислительных комплексов являются:

  • допустимая точка восстановления (Recovery Point Objective) – момент времени, на момент которого возможно гарантированно восстановить данные в полном объеме, или, иначе, допустимый объем возможных потерь данных.
  • допустимое время восстановления (Recovery Time Objective) - ожидаемый интервал времени, в течение которого сервисы могут быть недоступны, или, иначе, допустимое время простоя сервиса.
Другим важнейшим моментом является, так называемый, план аварийного восстановления (DR Plan). При наличии четкого, протестированного плана восстановления на случай масштабных отказов и консистентной копии данных на резервной площадке можно гарантировать восстановление работоспособности ИТ-инфраструктуры за требуемое время даже при выходе из строя целой площадки ЦОД.