Skip to content

Instantly share code, notes, and snippets.

@epogrebnyak
Last active August 5, 2020 21:49
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save epogrebnyak/6918b6bc3f71bc13714ebd50b8ae2f67 to your computer and use it in GitHub Desktop.
Save epogrebnyak/6918b6bc3f71bc13714ebd50b8ae2f67 to your computer and use it in GitHub Desktop.

Кому нужен chaos engineering в России?

Мотивы внедрения

Хорошие:

  • более простые средства испробованы и не дают нужных результатов
  • команды готовы и умеют заимствовать лучшие практики из рынка
  • бизнес заинтересован в росте надежности сервисов и готов инвестировать в нее

Не очень:

  • модно
  • желание хочется решить все проблемы одной хайповой технологией (silver bullet)

Кто 10-20% лидеров рынка по надежности?

Для Netflix падение даже части сервиса на небольшое количество времени стоит упущенных денег, репутации и несет риск оттока клиентов. Netflix пришлось придумать, как бороться со постоянными сбоями сервиса. Они придумали "горячее тестирование" своих ИТ систем (chaos engineering), которое стали применять другие крупнейшие компании - от Amazon до Ситибанка.

"Ну мы же не Netflix, не тот масштаб. У нас клиенты никуда не денутся, а если что - мы вернем их, дадим больще рекламы. Все понимают, что c ИТ могут быть временные проблемы, так у всех. Нам главное хоть что-то сейчас запустить, оттестируем как следует потом," - слышим мы как внутри компаний и так и сталкиваемся снаружи, как клиенты.

Все это правда так, для 60-70% компаний. Еще часть компаний вообще не задумываются и не измеряют надежность своих ИТ-сервисов (либо стартапы, либо от отчаяния).

Остается 10-20% компаний, которые:

  • почувствовали на себе отток клиентов и другие боли из-за проблем с надежностью
  • пережили большие аварии, на которые не смогли закрыть глаза владельцы или ключевые партнеры
  • распрощались с ИТ-командами, которые могли и дальше лепить, все что угодно без оглядки
  • хотят измеряемого снижения операционных рисков и количественного подтверждения характеристик надежности ИТ-системы
  • в инициативном порядке более системно занимаются надежностью, потому что верят в перспективу и отдачу от этих усилий

Как мы видим профиль такой компании:

  • высоконагруженный сервис
  • сами разрабатывают и эксплуатируют свои ИТ-системы
  • есть KPI по надежности на стороне бизнеса
  • достаточно зрелая внутренняя культура и мотивация на изменения
  • признают, что система иногда падает, заинтересованы поддерживать систему на более качественном уровне

Как обычно идет эволюция надежности?

  1. Главное сейчас запустить продукт или сервис, давайте с тестированием потом
  2. Мониторинг сбоев и отклонений, наращивание и обучение команды эксплутации
  3. Разбор инцидетов, обобщение опыта, планирование доработок
  4. Вопрос, что делать дальше и как пройти путь доработки быстрее, чем получалось до этого

На стадии 4 самое время заниматья choas engineering, на стадии 2, 3 - задуматься о нем.

Наше предложение

Как мы можем помочь компаниям в области надежности ИТ систем? Три вещи:

  • Разработка и проведение тестов для верификации надежности ИТ-системы
  • Подбор и обучение персонала в области chaos engineering
  • Планирование работ по повышению надежности
@epogrebnyak
Copy link
Author

Кто, когда и как будет инвестировать в надежность ИТ-систем
Кто: компании со зрелыми техническими командами, которые активно перенимают с рынка лучшие практики в области обеспечения надежности

Когда: пока этим еще начали заниматься другие компании

Как: постепенно доказывая долгосрочную ценность надежности для клиента и для бизнеса

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment