Я сморозил ужасную фигню на 19:05
Пояснение:
- Консенсус — N участников должны как-то договориться
- Консенсус в асинхронной сети — N учасников должны договориться в условиях ненадёжной связи (Здесь большинство того, что применяется на практике: Raft, Paxos)
- Византийский консенсус — N участников должны договориться, связь ненадёжна, некоторые из участников врут и саботируют (например блокчейны)
Соц-ссылки https://valeriy.meleshk.in
Data vs database engineer vs DBA
- не исчерпывавшая классификация
- OLTP
- на вашем устройстве, в браузере и приложениях обычно есть sqlite
- на сервере
- OLAP/DWH
- "Конструкторы"
- почти все БД в той или иной степени
- Apache Calcite / Spark / Flink + Kafka / Pulsar + S3
- Data lake
- соберём сами из говна и палок (см выше)
- Data virtualization / Data mesh / Data lakehouse
- В 2010 все компании, которые хотели стать крупными вынуждены были решать проблему того, что БД не влезает в один сервер. Теперь всё наоборот.
- SQL -> NoSQL -> NewSQL (distributed SQL) -> Cloud Native SQL
- Диски становятся всё быстрее, фокус на уменьшение накладных расходов на серилизацию и сопутствующие вычисления (apache arrow)
- Cloud native
- OLTP
- Aurora / Zenith? (https://devzen.ru/episode-0326/)
- Spanner / Cockroach
- DWH: Snowflake / Databricks / Fire-bolt
- пока ничего открытого близко нет, но есть кусочки типа ClickHouse или Spark
- Фокус смещается с сырой производительности на $/hr
- Serverless
- OLTP
- Дисагрегация compute и storage
- года с 2016 идёт тренд на разделение compute и storage,
- до этого напротив старались всё колонизовать
- https://blog.acolyer.org/2020/03/09/snowflake/
- ML для индексов и подгона настроек
- Намечается тренд на схождение к популярным диалектам SQL:
- PGSQL Aurora, Redshift, Spanner, Cockroach
- MySQL Planetscale, Aurora
- ML продолжит помогать принимать решения
- Базы данных, специализированные для ML нагрузок???
- Data virtualization / Data mesh / Data lakehouse
- Вся — надеюсь, что никогда
- реализации чудовищно неэффективны
- даже если отойти от непосредственно blockchain и смотреть шире, на IPFS например, то есть потенциальные проблемы с законодательством
- У меня есть сдержанная надежда на local first решения
- Другая сдержанная надежда на федерированные сервисы
Всем:
- как минимум разберитесь с SQL, они никуда не планирует деваться
- не сильно парьтесь про "масштабирование" если вы не огромный бизнес, на облаке можно уехать далкео,
- просто в какой-то момент станет дорого, но есть глобальный тренд на удешевление
Если вам хочется закопаться глубже:
- Проще всего кажется заходить из "правильных" универов
- Путь, которым двигаюсь я: через "бутиковые" разработки и data engineering в сторону кишок
- Есть успешные примеры движения через Open Source. Например GSoC в PostgreSQL.
- https://www.youtube.com/c/CMUDatabaseGroup/videos
- https://blog.acolyer.org