sumerman/Itway_sumerman.md Secret

## Itway_sumerman.md

      
    Raw
  

              Itway_sumerman.md
            
          
    Errata

Я сморозил ужасную фигню на 19:05
Пояснение:

Консенсус — N участников должны как-то договориться
Консенсус в асинхронной сети — N учасников должны договориться в условиях ненадёжной связи (Здесь большинство того, что применяется на практике: Raft, Paxos)
Византийский консенсус — N участников должны договориться, связь ненадёжна, некоторые из участников врут и саботируют (например блокчейны)

Что я делаю и какие роли есть

Соц-ссылки https://valeriy.meleshk.in

Data vs database engineer vs DBA
Какие БД вообще есть


не исчерпывавшая классификация
OLTP

на вашем устройстве, в браузере и приложениях обычно есть sqlite
на сервере


OLAP/DWH
"Конструкторы"

почти все БД в той или иной степени
Apache Calcite / Spark / Flink + Kafka / Pulsar + S3


Data lake

соберём сами из говна и палок (см выше)


Data virtualization / Data mesh / Data lakehouse

Какие сейчас тенденции? Куда идут? Как будут развиваться?


В 2010 все компании, которые хотели стать крупными вынуждены были решать проблему того, что БД не влезает в один сервер. Теперь всё наоборот.

SQL -> NoSQL -> NewSQL (distributed SQL) -> Cloud Native SQL


Диски становятся всё быстрее, фокус на уменьшение накладных расходов на серилизацию и сопутствующие вычисления (apache arrow)
Cloud native

OLTP

Aurora / Zenith? (https://devzen.ru/episode-0326/)
Spanner / Cockroach


DWH: Snowflake / Databricks / Fire-bolt

пока ничего открытого близко нет, но есть кусочки типа ClickHouse или Spark


Фокус смещается с сырой производительности на $/hr
Serverless

https://planetscale.com
https://www.cockroachlabs.com/blog/how-we-built-cockroachdb-serverless/


Дисагрегация compute и storage

года с 2016 идёт тренд на разделение compute и storage,
до этого напротив старались всё колонизовать
https://blog.acolyer.org/2020/03/09/snowflake/


ML для индексов и подгона настроек

https://db.cs.cmu.edu/projects/noisepage/
https://research.google/pubs/pub46518/


Намечается тренд на схождение к популярным диалектам SQL:

PGSQL Aurora, Redshift, Spanner, Cockroach
MySQL Planetscale, Aurora


ML продолжит помогать принимать решения
Базы данных, специализированные для ML нагрузок???
Data virtualization / Data mesh / Data lakehouse

Когда вся информация будет в блокчейнах (шутка) и т.д.


Вся — надеюсь, что никогда

реализации чудовищно неэффективны
даже если отойти от непосредственно blockchain и смотреть шире, на IPFS например, то есть потенциальные проблемы с законодательством


У меня есть сдержанная надежда на local first решения

https://www.inkandswitch.com
https://blog.acolyer.org/2019/11/20/local-first-software/


Другая сдержанная надежда на федерированные сервисы

https://scuttlebutt.nz
https://matrix.org


Напутствие

Всем:

как минимум разберитесь с SQL, они никуда не планирует деваться
не сильно парьтесь про "масштабирование" если вы не огромный бизнес, на облаке можно уехать далкео,

просто в какой-то момент станет дорого, но есть глобальный тренд на удешевление


Если вам хочется закопаться глубже:

Проще всего кажется заходить из "правильных" универов
Путь, которым двигаюсь я: через "бутиковые" разработки и data engineering в сторону кишок
Есть успешные примеры движения через Open Source. Например GSoC в PostgreSQL.
https://www.youtube.com/c/CMUDatabaseGroup/videos
https://blog.acolyer.org