epogrebnyak/chaos_offer.md

## chaos_offer.md

      
    Raw
  

              chaos_offer.md
            
          
    Кому нужен chaos engineering в России?

Мотивы внедрения

Хорошие:

более простые средства испробованы и не дают нужных результатов
команды готовы и умеют заимствовать лучшие практики из рынка
бизнес заинтересован в росте надежности сервисов и готов инвестировать в нее

Не очень:

модно
желание хочется решить все проблемы одной хайповой технологией (silver bullet)

Кто 10-20% лидеров рынка по надежности?

Для Netflix падение даже части сервиса на небольшое
количество времени стоит упущенных денег, репутации
и несет риск оттока клиентов. Netflix пришлось придумать,
как бороться со постоянными сбоями сервиса. Они придумали
"горячее тестирование" своих ИТ систем (chaos engineering),
которое стали применять другие крупнейшие компании - от Amazon до Ситибанка.
"Ну мы же не Netflix, не тот масштаб. У нас клиенты никуда не денутся, а если что - мы
вернем их, дадим больще рекламы. Все понимают, что c ИТ могут быть временные проблемы, так у всех.
Нам главное хоть что-то сейчас запустить, оттестируем как следует потом," - слышим мы как внутри компаний и так и сталкиваемся снаружи, как клиенты.
Все это правда так, для 60-70% компаний. Еще часть компаний вообще не задумываются и
не измеряют надежность своих ИТ-сервисов (либо стартапы, либо от отчаяния).
Остается 10-20% компаний, которые:

почувствовали на себе отток клиентов и другие боли из-за проблем с надежностью
пережили большие аварии, на которые не смогли закрыть глаза владельцы или ключевые партнеры
распрощались с ИТ-командами, которые могли и дальше лепить, все что угодно без оглядки
хотят измеряемого снижения операционных рисков и количественного подтверждения характеристик
надежности ИТ-системы
в инициативном порядке более системно занимаются надежностью, потому что верят в
перспективу и отдачу от этих усилий

Как мы видим профиль такой компании:

высоконагруженный сервис
сами разрабатывают и эксплуатируют свои ИТ-системы
есть KPI по надежности на стороне бизнеса
достаточно зрелая внутренняя культура и мотивация на изменения
признают, что система иногда падает, заинтересованы поддерживать систему на более качественном уровне

Как обычно идет эволюция надежности?


Главное сейчас запустить продукт или сервис, давайте с тестированием потом
Мониторинг сбоев и отклонений, наращивание и обучение команды эксплутации
Разбор инцидетов, обобщение опыта, планирование доработок
Вопрос, что делать дальше и как пройти путь доработки быстрее, чем получалось до этого

На стадии 4 самое время заниматья choas engineering, на стадии 2, 3 - задуматься о нем.
Наше предложение

Как мы можем помочь компаниям в области надежности ИТ систем? Три вещи:

Разработка и проведение тестов для верификации надежности ИТ-системы
Подбор и обучение персонала в области chaos engineering
Планирование работ по повышению надежности