Skip to content

Instantly share code, notes, and snippets.

@sumerman
Last active November 30, 2021 09:29
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save sumerman/bf0e438c7a7db0d9807cfb0dac166ad4 to your computer and use it in GitHub Desktop.
Save sumerman/bf0e438c7a7db0d9807cfb0dac166ad4 to your computer and use it in GitHub Desktop.

Errata

Я сморозил ужасную фигню на 19:05

Пояснение:

  • Консенсус — N участников должны как-то договориться
  • Консенсус в асинхронной сети — N учасников должны договориться в условиях ненадёжной связи (Здесь большинство того, что применяется на практике: Raft, Paxos)
  • Византийский консенсус — N участников должны договориться, связь ненадёжна, некоторые из участников врут и саботируют (например блокчейны)

Что я делаю и какие роли есть

Соц-ссылки https://valeriy.meleshk.in
Data vs database engineer vs DBA

Какие БД вообще есть

  • не исчерпывавшая классификация
  • OLTP
    • на вашем устройстве, в браузере и приложениях обычно есть sqlite
    • на сервере
  • OLAP/DWH
  • "Конструкторы"
    • почти все БД в той или иной степени
    • Apache Calcite / Spark / Flink + Kafka / Pulsar + S3
  • Data lake
    • соберём сами из говна и палок (см выше)
  • Data virtualization / Data mesh / Data lakehouse

Какие сейчас тенденции? Куда идут? Как будут развиваться?

  • В 2010 все компании, которые хотели стать крупными вынуждены были решать проблему того, что БД не влезает в один сервер. Теперь всё наоборот.
    • SQL -> NoSQL -> NewSQL (distributed SQL) -> Cloud Native SQL
  • Диски становятся всё быстрее, фокус на уменьшение накладных расходов на серилизацию и сопутствующие вычисления (apache arrow)
  • Cloud native
  • Дисагрегация compute и storage
  • ML для индексов и подгона настроек
  • Намечается тренд на схождение к популярным диалектам SQL:
    • PGSQL Aurora, Redshift, Spanner, Cockroach
    • MySQL Planetscale, Aurora
  • ML продолжит помогать принимать решения
  • Базы данных, специализированные для ML нагрузок???
  • Data virtualization / Data mesh / Data lakehouse

Когда вся информация будет в блокчейнах (шутка) и т.д.

  • Вся — надеюсь, что никогда
    • реализации чудовищно неэффективны
    • даже если отойти от непосредственно blockchain и смотреть шире, на IPFS например, то есть потенциальные проблемы с законодательством
  • У меня есть сдержанная надежда на local first решения
  • Другая сдержанная надежда на федерированные сервисы

Напутствие

Всем:

  • как минимум разберитесь с SQL, они никуда не планирует деваться
  • не сильно парьтесь про "масштабирование" если вы не огромный бизнес, на облаке можно уехать далкео,
    • просто в какой-то момент станет дорого, но есть глобальный тренд на удешевление

Если вам хочется закопаться глубже:

  • Проще всего кажется заходить из "правильных" универов
  • Путь, которым двигаюсь я: через "бутиковые" разработки и data engineering в сторону кишок
  • Есть успешные примеры движения через Open Source. Например GSoC в PostgreSQL.
  • https://www.youtube.com/c/CMUDatabaseGroup/videos
  • https://blog.acolyer.org
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment