Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save anonymous/e5ae57d81e3076fb80774559aac0f197 to your computer and use it in GitHub Desktop.
Save anonymous/e5ae57d81e3076fb80774559aac0f197 to your computer and use it in GitHub Desktop.
Где хранить большой объем информации

Где хранить большой объем информации - Как хранить большой объем информации



Только полноправные пользователи могут оставлять комментарии. TM Feed Хабрахабр Geektimes Тостер Мой круг Фрилансим. Хабрахабр Публикации Пользователи Хабы Компании Песочница. Сегодня поговорим о том, как из-за роста объемов данных меняются требования к СХД и почему традиционные системы, которым мы привылки доверять, больше не могут справляться с расширением емкости и обеспечивать надежность хранения. Это мой первый пост после долгого перерыва, поэтому на всякий случай представлюсь — я Олег Михальский, директор по продуктам компании Acronis. Если вы следите за трендами в индустрии, наверняка уже сталкивались с таким понятием как software defined anything. Эта концепция подразумевает перенос на уровень программного обеспечение ключевых функций ИТ-инфраструктуры, обеспечивающих ее масштабируемость, управляемость, надежность и взаимодействие с другими частями. Именно про СХД этого нового типа пойдет речь дальше. Для начала давайте обратимся к статистике роста объемов данных и сделаем некоторые выводы. Несколько лет назад объем создаваемых во всем мире данных превысил 1 зеттабайт — это примерно миллиард целиком заполненных жестких дисков емкостью 1 Тбайт, и уже превышает все доступное на сегодняшний день пространство хранения. Дефицит пространства для хранения создаваемой информации увеличивается Источник: IDC The Digital Universe Decade — Are You Ready? В чем причины лавинооразного роста объемов информации: А оптимизация СХД затачивалась под нужды компаний с большими бюджетами — быстрый сторадж для виртуализации, супер-быстрый сторадж для обработки данных в реальном времени, умный сторадж с оптимизацией под конкретные бизнес-приложения. В случае же с JBOD возрастают и издержки на его поддержку и расширение. Но как уже отмечено выше, у компаний эта проблема долгое время была не на первом плане. Развитие в правильном направлении Не удивительно, что первыми заметили проблему разработчики и инженеры, которые непосредственно связаны с большими массивами данных — такими какие есть в Google, Facebook, а также в научных экспериментах типа известного адронного коллайдера. И стали решать ее доступными им программными средствами, а потом делиться своими наработками в публикациях и на конференциях. Возможно, отчасти поэтому сегмент Storage в Software Defined Anything быстро оказался заполнен большим количеством open-source проектов, а также стартапов, которые стали предлагать узкоспециализированные решения под конкретный тип проблемы, но снова обходя бэкапы и долговоременные архивы стороной. Надежность хранения вынесена в заголовок статьи, и мы сейчас дополнительно разберем почему хранение большого количества данных на обычных СХД становится не только затруднительно по мере роста данных, но и опасным — что особенно важно для бэкапов или логов куда, кстати, относятся и архивы видеонаблюдения , которые могут пригодиться редко, но зато по крайне важному поводу — например для проведения расследования. Дело в том, что в традиционных СХД, чем больше данных становится, тем выше издержки на хранение и риски потери данных в результате аппаратного сбоя. Для СХД емкостью в петабайт это означает выход из строя нескольких дисков в месяц, а при размере хранилища в 10 петабайт, диски могут выходить из строя каждый день. Как выходят из строя жесткие диски. Использование RAID 5 с учетом вероятности ошибки чтения 10 на бит означает возможную потерю реальных данных при каждом ом восстановлении или раз в несколько месяцев. Например, если в системе есть 10 тыс. И время восстановления зависит в том числе от размера диска. Чем больше диск, тем дольше он восстанавливается, увеличивая вероятность повторного сбоя, ведущего к потере данных. Таким образом, с ростом рамера дисков и объема пространства СХД, надежность падает. Кроме того, встречаются ошибки, которые не детектируются на уровне RAID. Для тех, кто хочет больше подробностей — отличный обзор проблем RAID опубликован на Хабре тут. Добавим к этому, что согласно исследованию компании NetApp , в среднем один из 90 дисков имеет скрытое повреждение, связанное с контрольными суммами, ошибками записи в блоки или неправильными битами четности, которые в традиционных СХД не обнаруживаются. Как показывает другое исследование , такие ошибки не способны обнаруживать и традиционные файловые системы. Вероятность даже самых распростарненных из этих типов ошибок мала. Но по мере роста массива данных вероятность потери также возрастает. СХД перестает обеспечивать надежность хранения. Аппаратных средств обеспечения надежности, справлявшихся с ограниченными объемами данных, для надежного хранения сотен терабайт и петабайт оказывается недостаточно. Software Defined Storage Исходя из этих предпосылок и накопленного опыта работы с растущими объемами данных стала развиваться концепция Software Defined Storage. Первые наработки, которые появились в этоф сфере, не ставили во главу угла какую либо одну проблему, как например надежность. Руководствуясь потребностями своих собственных проектов разработчики Google, например, одновременно решали пытались решить несколько задач: Именно по этой причине файловую систему Googler GFS можно считать в некотором роде прародительницей класса решений, о котором пойдет речь ниже. Другие команды разработки, такие как в open source проектах Gluster позднее вошла в состав RedHat и CEPH ныне поддерживается компанией Inktank ориентировались преимущественно на достижение высокой производительности при доступе к данным. Этот список будет неполным без HDFS Hadoop filesystem , которая появилась на основе разработок Google и ориентирована на высокопроизводительную обработку данных. Список можно продолжать, но полробный обзор существующих технологий выходит за ракми этой статьи. Замечу только, что проблема оптимизации долговоременного хранения в чистом виде не ставилась в приоритет, а решалась как бы по ходу дела в процессе оптимизации стоимости решения в целом. Понятно, что создание коммерческого решения на базе open source — эксперимент сложный и рискованный и пойти на него сможет только крупная компания или системный интегратор, которые имеют достаточно экспертизы и ресурсов, чтобы работать со сложным в установке, интеграции и поддержке кодом opensource и имеют достаточную коммерческую мотивацию для этого. Но как уже было сказано выше, у коммерческих вендоров основная мотивация направлена на такие высокобюджетные сферы как СХД с высоким быстродействием для виртуализации или параллельной обработки данных. Готовые решения Ближе всех к решению проблемы с недорогим и надежным хранением подошли стартапы, которые сфокусировались на предоставлении облачного бэкапа, но многие из них уже сошли с дистанции, а другие были поглощены крупными компаниями и перестали вкладываться в развитие технологии. Лучше всего продвинулись такие вендоры как BackBlaze и Carbonite, сделавшие ставку на разворачиваниии облачного хранилища в своих собственных датацентрах на основе типовых комплектующих и сумевшие закрепиться на рынке по своими облачными сервисами. Но и они, в виду крайне высокой конкуренции на своем основном рынке, не продвигают активно технологию хранения как самостоятельное решение класса Software Defined Storage. Во-первых, чтобы не создавать конкурентов, во-вторых чтобы не распылять свои ресурсы на совершенно разные направления бизнеса. В результате перед администраторами СХД, которые отвечают в том числе за хранение бэкапов, логов, архивов систем видеонаблюдения, телепередач, записей голосовых звонков, стоит проблема выбора: И это будет надежно и безопасно — как говорят в индустрии, за покупку железа от крутого вендора еще никого не уволили. Другая альтернатива — собрать СХД самому на основе Linux и JBOD возможно, подойдет специализированной компании типа хостера или телеком-провайдера, где есть опытные и квалифицированные специалисты, которые возьмут на себя ответственность за работоспособность и надежность собственного решения. У обычной же компании среднего или небольшого размера, основной бизнес которой не связан с хранением данных, скорее всего нет бюджета на дорогое железо и квалифицированных специалистов. Эта разработка стала результатом внутреннего стартапа Acronis по облачному хранилищу для резервных копий, которое сейчас уже расширилось до нескольких петабайт в трех датацентрах. Подводим итоги Обзор подходов к хранению большого количества данных не будет полным без упоминания решений, которые построены на базе ПО, но поставляются на рынок в виде аппаратно-программных комплексов appliances. В некоторых случаях, это дает возможность быстро развернуть решение и может подойти не очень большой компании с ограниченными ресурсами. Но использование предопределенной аппаратной конфигурации ограничивает возможности по тонкой настройке системыи и, естественное, задает более высокий чем для чистого ПО порог цены решения, в которую уже включена аппаратная часть. И, конечно же, такой подход наследует многие определенные аппаратных СХД в части апгрейда одного сервера scale-up путем замены дисков на более емкие и быстрые, замены сети на более быструю. В заключении еще раз обратимся к данным аналитиков по индустрии СХД и зафиксируем несколько выводов. Компания компании рознь, но эти данные дают повод специалистам задуматься над долгосрочным планированием емкости СХД которая может понадобиться в их организации в перспективе нескольких лет. В предположении, что по хранению бэкапов все компании примерно похожи друг на друга, то почти у половины из них в ближайшие годы встанет проблема оптимизации СХД для бэкапов, а возможно такие и других холодных данных. Добавить в закладки Метки лучше разделять запятой. В чем преимущество по сравнению с бесплатной MooseFS? Требования прикладывания рук в рабочем режиме при выпадании дисков, серверов, сети? Хочется распределенное хранилище из разных серверов все под Ubuntu сделать. Надежность и настоящее самовосстановление — были главными критериями при выборе. После пары лет еб… и с гластером. Стабильность такая — ноды с данными, хоть режь, хоть коли, диски туда-сюда, всё пофигу, вообще. Сервер запросто можно положить на пару часов, ничего не будет. Конечно если не ССЗБ, и не иметь реплики по одной копии. Я использую для некритичных данных двойную репликацию, для критичных тройную. Расплата конечно есть за это — надо самому писать скрипт переключения мастер-ноды на один из слейвов. Это в боевом применении с тремя контент-нодами и одним мастером два слейва на паре контентных серверах держатся. Советуют мастер с ECC памятью, остальные можно хоть тазики, ФС на дисках любая. Использую везде ext4, также тестировал с zfs, но скорость ну очень не впечатлила. Пруф уже не найду. Изначально система проектировалась так, чтобы показывать максимальную стабильность на наихудшем железе и сети и не требовать оперативного вмешательства руками, поскольку все наши датацентры расположены на значительном удалении даже в других часовых поясах от команды разработки и поддержки стораджа. Выпадающие диски и сервера заменяют местные специалисты даатцентра в обычном режиме по нашим заявкам. После открытия третьего датацентра мы заметили, что наиболее стабильно ведет себя самый первый датацентр, в котором количество серверов перевалило за несколько десятков. Даже на совсем старых, маломощных серверах, где на один сервер для экономии навешивали несколько ролей, сеть была 1GB система работала стабильнее, чем на новой конфигурации с 9 выделенными и мощными серверами под каждую роль и сетью 2GB. По мере увеличения числа серверов новйы датацентр также быстро стабилизировался. В первом датацентре многие сервера были разными как по числу дисков, так и по их емкости. Система нормально работает в такой конфигурации благодаря алгоритму балансировки стораджа. Приемлемая скорость определяется бизнес-задачами у нас есть результаты сравнения произмодительности с типовым брендовым стораджем. Если интересно — пишите в сайп olegmikhalskiy. MooseFS хранит копии данных, в то время как в статье идет речь о технологиях на основе кодов избыточночти, что гарантирует более эффективное потребление пространства и меньшую себестоимость хранения. Доступ к MooseFS осуществляется через FUSE, что с одной стороны дает простую интеграцию, а с другой — наследует узкие места FUSE. Один момент, который меня насторожил в архитектуре MuuseFS — это единственный сервер метаданных в сочетании с бэкап-серверами. Показалось узким местом в плане надежности и бесперебойной работы. И ни слова про чексуминг в zfs, про свифт и ceph. Только махровый уродливый старый энтерпрайз. Понятно, что они будут долго мучаться, а потом подохнут в безвестности, а про новых лидеров — ни слова. Наши инженеры экспериментировали с CEPH и Swift, в том числе меряли производительность, сравнивали удобство установки и управления. Детали можно попросить у них в индивидуальном порядке. В статью эти материалы не попали, потому что сначала хотелось сделать вводный материал, а на технические детали делать акцент в следующих публикациях. Мне кажется, что Swift и CEPH не совсем конкуренты enterprise решениям, потому что требуют значительно больших усилий по системной интеграции. Скорее, это альтернатива для наиболее крупных сервис провайдеров, у кого есть значительныве инженерные ресурсы и достаточная финансовая мотивация, чтобы вложить свои усилия в do-it-yourself проект на open source. Для небольших провайдеров и среднего бизнеса определенно нужны решения out of the box. Дата основания 04 ноября Локация Сингапур Сингапур Сайт acronis. Как с помощью блокчейна защитить свои данные 6,4k Интересные публикации Хабрахабр Geektimes. Авторизация OAuth для Xamarin-приложений. Микроконтроллеры в импульсных источниках питания GT. Linux Foundation представила бесплатный вводный онлайн-курс по Kubernetes. В менеджере дополнений Mozilla Firefox используется Google Analytics GT. Hyperloop One впервые разогнала левитирующее шасси в техническом вакууме GT. Разделы Публикации Хабы Компании Пользователи Песочница. Информация О сайте Правила Помощь Соглашение Конфиденциальность. Услуги Реклама Тарифы Контент Семинары.


Схема телевизора novex
Связать модный свитер схемы
Как и где хранить данные в течение долгого времени
Химические свойства углекислого газа уравнения
Карта петербурга по районам и метро
Саммит большой восьмерки 2001
Мороженое из клубники
Украшенные торты фото для девочек
Декларация прав народов россии 1917 г
Инструкция для новой редакции коллективного договора
Мир обоев в спб каталог фото
Как сделать бассейн из поддонов своими руками
Хранение информации в интернете
Трехфазная схема проводки дома
Инсарская црб запись на прием
История сестринского дела тест
Стихи ру кабинет автора поэт года
Рассказы о женском концлагере
7 популярнейших сервисов хранения файлов в Интернете
Методы оптимизации при модульном проектировании
Как найти синус 30 градусов
Как называется спиленное дерево
Схема подключения светодиодных фар с поворотником
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment