Файл: Вадим Алджанов итархитектура от а до Я Теоретические основы. Первое.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 18.01.2024
Просмотров: 918
Скачиваний: 4
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
•Поддержание заявленного уровня сервиса
•Восстановление нормального состояния сервиса после сбоя
Основные линии Поддержки Сервиса:
•Нулевая линия (L0) – регистрация инцидентов или самостоятельное устранение. В контексте данного документа подразумевает «нулевой» уровень ИТ знаний. Соответствует уровню знаний сотрудников организации или информационного центра. Предполагает самостоятельное решение инцидента на основе базы знаний.
•Первая линия (L1) – начальный уровень поддержки пользователей. В контексте данного документа подразумевает «базовый» уровень ИТ знаний. Соответствует уровню знаний техника департамента ИТ. Предполагает наличие базовых ИТ знаний и решение простых инцидентов на основе базы знаний.
•Вторая линия (L2) – специалисты по разрешению инцидентов данного типа или сервиса.
В контексте данного документа подразумевает «продвинутый» уровень ИТ знаний.
Соответствует уровню знаний специалиста департамента ИТ. Предполагает наличие углубленных ИТ знаний в определённой области. Является основным субъектом разрешения инцидентов.
•Третья линия (L3) – эксперты по разрешению инцидентов данного типа или сервиса.
В контексте данного документа подразумевает «экспертный» уровень ИТ знаний. Соответствует уровню знаний эксперта департамента ИТ. Предполагает наличие как хороших теоретических знаний, так и достаточного опыта работы в определённой области. Максимальный уровень поддержки, при разрешении инцидентов.
•Четвертая линия
(L4) – уровень поддержки со стороны производителя или профессионального сервиса. В контексте данного документа подразумевает поддержка на уровне производителя или поставщика продукта, или же специализированная организация.
Обеспечивает максимальный уровень поддержки, как правило аутсорсинг, при разрешении инцидентов или проблем.
Деятельность по Поддержке Сервиса включает в себя следующие процессы:
•Управление Изменениями
•Управление Релизами
•Управление Проблемами
•Управление Инцидентами
•Управление Конфигурациями
Основные аспекты по Поддержке Сервисов:
•Формирование функции Поддержки Пользователей (Service Desk).
•Принцип организации «Единой точки контакта» (Single Point of Contact SPOC)
Управление непрерывностью ИТ сервисов
Процесс Управления Непрерывностью ИТ Сервисов является ключевым процессом по предоставлению ИТ услуг компаниям.
Управление непрерывностью ИТ сервисов управляет способностью услуг и их компонентов к восстановлению.
Стратегия обеспечения непрерывности должна включать в себя все рассмотренные ниже способы восстановления. Различные услуги, используемые организацией, требуют различных подходов к восстановлению и уменьшению рисков сбоя. Какая бы опция ни выбиралась, она должна быть экономически эффективной. Главное правило – чем дольше бизнес может обходиться без услуги, тем дешевле должно быть решение по обеспечению ее непрерывности.
Показатели RPO, RTO, RLO, SDO напрямую связаны со стоимостью решений восстановления.
Управление непрерывностью сервиса должно отображать реальные требования и возможности бизнеса. Управление непрерывностью ИТ сервисов (Pass 77: 2006) включает в себя процессы:
•BCM (Business Continuity Management)
•BCP (Business Continuity Planning)
•BCP (Business Contingency Planning)
•DRP (Disaster Recovery Planning)
•CEM (Crisis & Emergency Management)
•RA & RM (Risk Analysis & Risk Management)
•BEA (Business Environment Analysis)
Вводится понятие Уровень Непрерывности Бизнеса (Level of Business Continuity LBC).
Определены 7 уровней готовности к восстановлению:
0 – время не предсказуемо, или вероятность не восстановления
1 – резервное копирования на удаленных хранилищах
2 – резервное копирования на ленту или офлайн сайт
3 – Система Резервное Хранения Данных
4 – Point – in – time – copy
5 – целостность транзакций (актив/актив)
6 – нулевая потеря
7 – Автоматизация бизнеса
Кроме этого вводится классификация приложений и систем (ISO 17799:2002, NIST, COOP):
•Критически важные
•Критичные
•Существенные
•Не критичные
В дополнение к всему выше сказанному, необходимо наличие процесса Антикризисного управление.
Антикризисное управление (Crisis Management) процесс, отвечающий за управление непрерывностью бизнеса в самом широком смысле.
Команда антикризисного управления отвечает за стратегические вопросы, такие как управление взаимодействием со средствами массовой информации и доверием акционеров, а также принимает решение об инициации планов обеспечения непрерывности бизнеса.
В настоящее время технологии являются основным компонентом многих бизнес процессов, поэтому обеспечение их непрерывности и доступности является необходимым для существования бизнеса в целом.
Управление непрерывностью фокусируется на значимых негативных событиях, которые ITIL называет «катастрофами» для бизнеса. Менее значимые события рассматриваются в рамках процесса Управления инцидентами. То, является ли какое-то конкретное событие катастрофой, зависит от организации, в которой оно произошло. Размер и значимость негативного влияния события на бизнес, например, финансовые потери или потеря репутации, измеряется в рамках
Анализа влияния на бизнес. Анализ влияния на бизнес определяет минимальные требования к критичности, конкретные требования к технологиям и услугам определяются в рамках
Управления непрерывностью.
ITSCM главным образом рассматривает активы IT и конфигурации, которые поддерживают бизнес-процессы. В случае катастрофы бизнесу необходимо перестроиться на альтернативную рабочую локацию. При этом необходимо предоставить такие элементы как удобство офиса для персонала, копии критических бумажных отчетов, услуги курьеров и телефонную связь для связи с клиентами и партнерами. В этой связи Управление непрерывностью должно учитывать количество и месторасположение офисов организации, а также услуги, предоставляемые в каждом из них.
Плана Реагирования Бизнеса на непредвиденные Обстоятельства (Business Contingency
Plan)
План определяет порядок реагирования на непредвиденные обстоятельства для обеспечения непрерывности бизнеса, и его корреляция с действиями ИТ. Фокусируется на текущем состоянии сервисов и не катастрофических воздействий. В данный план входят требования по доступности сервиса, управление мощностями и т п. Ключевые процессы при планировании непрерывности
бизнеса являются Управление инцидентами (IM), управление проблемами (PM), управление изменениями и релизами (CM).
В качестве важных показателей определяются следующие показатели:
•Точка Восстановления (Recovery Point Objective RPO)
•Время Восстановления (Recovery Time Objective RTO)
•Уровень Восстановления (Recovery Level Objective RLO)
•Уровень Состояния Сервиса (Service Delivery Objective SDO)
•Определение Среднего Времени Работы до Отказа (MTBF)
•Определение Среднего Времени Работы на Отказ (MTTF)
•Наработка на отказ (OTF)
•Определение Среднего Времени между Отказами (OTBF)
•Определение Среднего времени на восстановление сервиса (MTTR partly) до уровня «as usual»
•Определение Среднего времени на полное восстановление сервиса (MTTR full)
•MTPoD (Maximum Tolerable Period of Disruption)
•Maximum Acceptable Outage (MAO)
•Maximum Allowable Downtime (MAD)
•Maximum Tolerable Downtime (MTD)
•Mean Time to Detect (MTTD) проблемы, нарушения
Определение Плана Восстановления после катастроф (Disaster Recovery Plan)
План определяет порядок действий по восстановлению работоспособности бизнеса и его корреляция с действиями ИТ. Ключевые процессы при планировании плана восстановления являются управление инцидентами (IM), управление чрезвычайными ситуациями (CEM),
В качестве важных показателей определяются следующие показатели:
•Определение RPO, RTO, RLO и SDO
•Определение Среднего времени на восстановление сервиса (MTTR partly) до уровня «as usual»
•Определение Среднего времени на полное восстановление сервиса (MTTR full)
Плана Непрерывности Бизнеса (Business Continuity Plan)
Тоже самое что и План Реагирования на непредвиденные обстоятельства (Business
Contingency Plan), но фокусируется на непрерывности и восстановлении работы после катастроф.
Данный план определяет восстановление бизнеса после значительного ущерба в следствии воздействия катастроф. В отличие от План Реагирования Бизнеса на непредвиденные обстоятельства, план может включать в себя стратегические изменения в каталог ИТ сервисов.
План может включает в себя следующие планы управления непрерывностью:
План обеспечения непрерывности услуг (IT Service Continuity Plan) – план, определяющий шаги, необходимые для восстановления одной или нескольких услуг. План также должен определять события, которые являются основанием для его инициации, людей, которые должны быть задействованы, средства коммуникаций и т. п.
План обеспечения непрерывности бизнеса (Business Continuity Plan BCP) – план определяет шаги, необходимые для восстановления бизнес-процессов в случае нарушения их функционирования. План также должен содержать информацию о событиях, которые являются основанием для его инициирования; людях, которые должны быть задействованы в реализации плана; средствах коммуникаций и т. п.
Основные аспекты:
•Проведение BIA
•Определение превентивных мер
•Определение стратегии восстановление
•Определение плана Реагирования на воздействия
•Формирование команды по оценки ущерба
•Оценка ущерба
•Формирование команды по восстановление
•Выполнение плана восстановления
В качестве важных показателей определяются следующие показатели:
•Точка Восстановления (Recovery Point Objective RPO)
•Время Восстановления (Recovery Time Objective RTO)
•Уровень Восстановления (Recovery Level Objective RLO)
•Уровень Состояния Сервиса (Service Delivery Objective SDO)
•Определение Среднего Времени Работы до Отказа (MTBF)
•Определение Среднего Времени Работы на Отказ (MTTF)
•Наработка на отказ (OTF)
•Определение Среднего Времени между Отказами (OTBF)
•Определение Среднего времени на восстановление сервиса (MTTR partly) до уровня «as usual»
•Определение Среднего времени на полное восстановление сервиса (MTTR full)
•MTPoD (Maximum Tolerable Period of Disruption)
•Maximum Acceptable Outage (MAO)
•Maximum Allowable Downtime (MAD)
•Maximum Tolerable Downtime (MTD)
•Mean Time to Detect (MTTD) проблемы, нарушения
Определение Плана Восстановления после катастроф (Disaster Recovery Plan)
План определяет порядок действий по восстановлению работоспособности бизнеса и его корреляция с действиями ИТ. Ключевые процессы при планировании плана восстановления являются управление инцидентами (IM), управление чрезвычайными ситуациями (CEM),
В качестве важных показателей определяются следующие показатели:
•Определение RPO, RTO, RLO и SDO
•Определение Среднего времени на восстановление сервиса (MTTR partly) до уровня «as usual»
•Определение Среднего времени на полное восстановление сервиса (MTTR full)
Плана Непрерывности Бизнеса (Business Continuity Plan)
Тоже самое что и План Реагирования на непредвиденные обстоятельства (Business
Contingency Plan), но фокусируется на непрерывности и восстановлении работы после катастроф.
Данный план определяет восстановление бизнеса после значительного ущерба в следствии воздействия катастроф. В отличие от План Реагирования Бизнеса на непредвиденные обстоятельства, план может включать в себя стратегические изменения в каталог ИТ сервисов.
План может включает в себя следующие планы управления непрерывностью:
План обеспечения непрерывности услуг (IT Service Continuity Plan) – план, определяющий шаги, необходимые для восстановления одной или нескольких услуг. План также должен определять события, которые являются основанием для его инициации, людей, которые должны быть задействованы, средства коммуникаций и т. п.
План обеспечения непрерывности бизнеса (Business Continuity Plan BCP) – план определяет шаги, необходимые для восстановления бизнес-процессов в случае нарушения их функционирования. План также должен содержать информацию о событиях, которые являются основанием для его инициирования; людях, которые должны быть задействованы в реализации плана; средствах коммуникаций и т. п.
Основные аспекты:
•Проведение BIA
•Определение превентивных мер
•Определение стратегии восстановление
•Определение плана Реагирования на воздействия
•Формирование команды по оценки ущерба
•Оценка ущерба
•Формирование команды по восстановление
•Выполнение плана восстановления
Для формирования и выполнения плана может понадобится наличие следующих команд:
•Команда по восстановлению (Restoration Team)
•Команда по оценке ущерба (Damage Assessment Team)
•Команда по спасению активов (Salvage Team)
Анализ сервисов и их влияние на бизнес (Business Impact Analysis BIA)
Анализ определяет порядок обеспечения непрерывности бизнеса, изменений в бизнес требованиях, а также действий ИТ. Деятельность в рамках процесса Управления непрерывностью бизнеса, которая определяет критичные бизнес-функции и их зависимость от факторов окружения. Этими факторами могут быть поставщики, люди, другие бизнес-процессы, услуги и т. д. BIA определяет последствия потери услуг для бизнеса. Потери могут быть значительными, например, крупные финансовые потери, и «мягкими» – моральные потери, потеря репутации, конкурентного преимущества и т. п.
Анализ влияния на бизнес определяет:
форму, которую может приобретать разрушение или потеря:
•потерянный доход;
•дополнительные затраты;
•вред репутации;
•потеря благосклонности клиентов;
•потеря конкурентного преимущества;
•повреждение и нарушение здоровья, законности и безопасности;
•риск безопасности персонала;
•потеря рынка сбыта в краткосрочном и долгосрочном периодах;
•потеря операционных возможностей, например, контроля.
как будут увеличиваться негативные последствия разрушения или потери после
неблагоприятного события, а также время суток, недели, месяца, когда они будут наиболее
серьезными;
кадровое обеспечение, навыки, аппаратура и услуги, которые необходимы для поддержки минимальных уровней непрерывности критичных бизнес-процессов;
временные рамки, в пределах которых необходимо обеспечить минимальный уровень восстановления кадрового обеспечения, аппаратуры, услуг и других возможностей;
временные рамки, в пределах которых необходимо полностью восстановить критичные
бизнес-процессы и поддерживающие их кадровое обеспечение, аппаратуру, услуги и другие
возможности;
приоритеты восстановления для услуг.
В качестве важных показателей определяются следующие показатели:
•Уровень влияния на целевую систему
•Уровень Состояния Сервиса (SDO)
Для визуального отображения может применятся таблица, с указанием сценариев отказа и результатов.
•Частичный отказ – Сервис продолжает работать благодаря 100% резервированию.
•Полный отказ – Полный отказ всей инфраструктуры.
Анализ сервисов и их влияние друг на друга (Service Failure Analysis SFA)
Анализ влияния на сервис со стороны других ИТ сервисов, изменений в бизнес требованиях, а также действий ИТ для обеспечения непрерывности бизнеса. Данный анализ позволяет определить критичность сервиса.
В качестве важных показателей определяются следующие показатели:
•Уровень влияния на целевую систему
•Уровень Состояния Сервиса (SDO)
Анализ может быть визуально отображается в виде двух таблиц:
•SFA (P) – зависимость работы сервиса от других сервисов и служб
•SFA (D) – зависимость других сервисов от отказа данного сервиса
В качестве оценки может применятся качественный метод с указанием «веса» влияния (от 1 – полный отказ до 0 – не влияет)
Анализ отказа компонентов сервиса (Components Failure Impact Analysis CFIA)
Анализ ИТ сервисов и влияние отказа его компонентов на работу сервиса. В качестве важных показателей определяются следующие показатели:
•Уровень отказа компонента системы
•Определение Среднего Времени Работы до Отказа (MTBF)
•Определение Среднего Времени Работы на Отказ (MTTF)
•Наработка на отказ (OTF)
•Определение Среднего Времени между Отказами (OTBF)
Визуально может отображен в виде таблицы компонентов, их важность, сценарии отказа и результат:
CFIA анализ – анализ работы сервиса при отказе компонентов сервиса
При формировании политики Business Continuity & Disaster Recovery следует использовать дерево решений по следующим вопросам:
•Защита приложения
•Приоритет восстановления
•Выбор резервной площадки
•Связь между площадками
•Архитектура резервного копирования
•Архитектура хранения
•Архитектура репликации
•Архитектура инженерных систем
•Мониторинг производительности при переключении
•Тестирование DRP
•Утверждение факта катастрофы
Опции и методы восстановления
Опции восстановления в рамках Управление Непрерывностью Сервиса, которые должны быть учтены при формировании стратегии:
•переход на ручную работу
•взаимные соглашения
•постепенное восстановление (Gradual Recovery)
•промежуточное восстановление (Intermediate Recovery)
•быстрое восстановление (Fast Recovery)
•немедленное восстановление (Immediate recovery)
Переход на ручную работу для некоторых типов услуг может стать хорошей альтернативой на короткий период до восстановления услуги. Например, Сервис-деск может работать какое-то время с бумажными заявками и журналами;
Взаимные соглашения являются еще одной опцией для восстановления. Предполагают заключение соглашений между организациями, использующими похожие технологии.
В настоящее время являются неприемлемыми для большинства IT-систем, но могут использоваться в отдельных случаях – например, для внешнего резервного копирования или использования принтеров;
Постепенное восстановление (Gradual Recovery) – способ восстановления, также известный как «холодное резервирование». Предусматривается восстановление услуги в течение более чем
72 часов. При постепенном восстановлении обычно задействован мобильный или стационарный резервный центр, оснащенный элементами жизнеобеспечения и сетевой разводкой, без компьютерных систем. Эта опция восстановления рекомендована для некритичных услуг, предоставление которых может быть задержано на дни и недели без значительного влияния на бизнес;