Хорошие:
- более простые средства испробованы и не дают нужных результатов
- команды готовы и умеют заимствовать лучшие практики из рынка
- бизнес заинтересован в росте надежности сервисов и готов инвестировать в нее
Не очень:
- модно
- желание хочется решить все проблемы одной хайповой технологией (silver bullet)
Для Netflix падение даже части сервиса на небольшое количество времени стоит упущенных денег, репутации и несет риск оттока клиентов. Netflix пришлось придумать, как бороться со постоянными сбоями сервиса. Они придумали "горячее тестирование" своих ИТ систем (chaos engineering), которое стали применять другие крупнейшие компании - от Amazon до Ситибанка.
"Ну мы же не Netflix, не тот масштаб. У нас клиенты никуда не денутся, а если что - мы вернем их, дадим больще рекламы. Все понимают, что c ИТ могут быть временные проблемы, так у всех. Нам главное хоть что-то сейчас запустить, оттестируем как следует потом," - слышим мы как внутри компаний и так и сталкиваемся снаружи, как клиенты.
Все это правда так, для 60-70% компаний. Еще часть компаний вообще не задумываются и не измеряют надежность своих ИТ-сервисов (либо стартапы, либо от отчаяния).
Остается 10-20% компаний, которые:
- почувствовали на себе отток клиентов и другие боли из-за проблем с надежностью
- пережили большие аварии, на которые не смогли закрыть глаза владельцы или ключевые партнеры
- распрощались с ИТ-командами, которые могли и дальше лепить, все что угодно без оглядки
- хотят измеряемого снижения операционных рисков и количественного подтверждения характеристик надежности ИТ-системы
- в инициативном порядке более системно занимаются надежностью, потому что верят в перспективу и отдачу от этих усилий
Как мы видим профиль такой компании:
- высоконагруженный сервис
- сами разрабатывают и эксплуатируют свои ИТ-системы
- есть KPI по надежности на стороне бизнеса
- достаточно зрелая внутренняя культура и мотивация на изменения
- признают, что система иногда падает, заинтересованы поддерживать систему на более качественном уровне
- Главное сейчас запустить продукт или сервис, давайте с тестированием потом
- Мониторинг сбоев и отклонений, наращивание и обучение команды эксплутации
- Разбор инцидетов, обобщение опыта, планирование доработок
- Вопрос, что делать дальше и как пройти путь доработки быстрее, чем получалось до этого
На стадии 4 самое время заниматья choas engineering, на стадии 2, 3 - задуматься о нем.
Как мы можем помочь компаниям в области надежности ИТ систем? Три вещи:
- Разработка и проведение тестов для верификации надежности ИТ-системы
- Подбор и обучение персонала в области chaos engineering
- Планирование работ по повышению надежности
Кто, когда и как будет инвестировать в надежность ИТ-систем
Кто: компании со зрелыми техническими командами, которые активно перенимают с рынка лучшие практики в области обеспечения надежности
Когда: пока этим еще начали заниматься другие компании
Как: постепенно доказывая долгосрочную ценность надежности для клиента и для бизнеса