Skip to content

Instantly share code, notes, and snippets.

@NickTikhomirov
Last active February 14, 2023 00:37
Show Gist options
  • Save NickTikhomirov/c6254b6c979f566ec6c058643ce2ed35 to your computer and use it in GitHub Desktop.
Save NickTikhomirov/c6254b6c979f566ec6c058643ce2ed35 to your computer and use it in GitHub Desktop.
Обнаружение и распознавание тетрадок в Google Colab

ДАННЫЙ ПЕРЕЧЕНЬ СОДЕРЖИТ ОБЩЕДОСТУПНЫЕ МАТЕРИАЛЫ, ПРОМАРКИРОВАННЫЕ КАК РАЗРАБОТАННЫЕ СОТРУДНИКАМИ ВШЭ И MAIL.RU, АВТОР В МОМЕНТ НАПИСАНИЯ НЕ МОЖЕТ ГАРАНТИРОВАТЬ, ЧТО В БУДУЩЕМ ЭТИ ОРГАНИЗАЦИИ НЕ БУДУТ ПРИЗНАНЫ ИНОСТРАННЫМИ АГЕНТАМИ

Оглавление

  1. Семинар 1
  2. Семинар 2
  3. Семинар 3
  4. Семинар 4
  5. Семинар 5
  6. Семинар 6 (самост.)
  7. Семинар 7
  8. Семинары 8-9
  9. Семинар 10
  10. Семинар 11
  11. Семинар 12
  12. Семинары 13-14
  13. Домашние задания
  14. Конкурс
  15. Дополнительное задание к ДЗ 3
  16. Литература

Семинар 1

Ссылка: https://colab.research.google.com/drive/1j35o-fn70TwGJ66ZKRISybegwkBwjIwW

Материалы:

  • Тренировка с Pandas

Семинар 2

Ссылка: https://colab.research.google.com/drive/1Vuw2_iDuhE_o07-NFL_6YXOovyZ4lagO

Материалы:

  • Тренировка с Pandas
  • Графоний
  • kNN
  • Нормировка для самых маленьких

Семинар 3

Ссылка: https://colab.research.google.com/drive/1JmKS2FdDLOWsOoBnHVKRlwivEGPRXomK

Материалы:

  • Сорта машинного обучения
  • Нормировка для самых побольше чем самых маленьких
  • Бинарная классификация: TP, TN, FP, FN, Precision, Recall, Accuracy
  • kNN
  • tSNE
  • Куча ссылок на статьи по темам

Семинар 4

Ссылка: https://colab.research.google.com/drive/1p8gFK_d7GLO3mvH2fnQmFPY1v4A8GI_7

Материалы:

  • Линейная регрессия
  • Ridge и Lasso (только формулы)

Дополнительные материалы:

Семинар 5

Ссылка: https://colab.research.google.com/drive/1uqkG2EbJ8CthIKgYej9qwB1oCHsWZQnB

Материалы:

  • Логистическая регрессия
  • Анализ текста
  • GridSearch (перебор гиперпараметров)
  • Проблема XOR и введение полиномиальных признаков
  • Пример применения решающего леса

Дополнительные материалы:

Семинар 6

Семинар проходил в формате самообучения. У меня лапки, поэтому, возможно, я выделил не все ключевые темы семинара

Ссылки:

Материалы:

  • PCA (метод главных компонент)
  • SVD (сингулярное разложение и сжатие картинок)
  • k-Means и решающие деревья
  • Кроссвалидация

Семинар 7

Ссылка: https://colab.research.google.com/drive/1utWzvRjfAbisBx5wPsHe5p5h-X0COd4k

Материалы:

  • Bagging
  • Gradient Boosting

Дополнительные материалы:

Семинары 8-9

Ссылка: https://colab.research.google.com/drive/1hDEb8Sk14fNJX7B0bgXov5MCgLBtQ81R

Материалы:

  • Нейронные сети
  • Торч
  • Adagrad, Adam и другие оптимизаторы

Дополнительные материалы:

Семинар 10

Ссылка: отсутствует

Материалы:

  • Нормализация
  • Dropout прямой и обратный, слой dropout-а

Дополнительные материалы:

Семинар 11

Ссылка: https://colab.research.google.com/drive/1yQH9J-K8M7Bs_OThiS7UdhFg_rIM8NCZ

Материалы:

  • Свёрточные нейронные сети
  • MNIST (популярный dataset с рукописными цифрами)

Дополнительные материалы:

Семинар 12

Ссылка (решили, что там в основном ерунда какая-то написана): https://colab.research.google.com/drive/1Ovx-5DJ8q26cYewxyqL4y_DbAGsoW2Lp

Материалы:

  • За здоровье свёрточных нейронок!
  • Рекуррентные нейронные сети
  • Как обрабатывать текст, как кормить его нейронной сети
  • Совет почитать на досуге: word embedding

Дополнительные материалы:

Семинары 13-14

Две недели подряд занятия отменялись, но в жизни всякое бывает

Материалов семинаров пока что не выслано

Материалы:

  • LSTM
  • Разбор понятий обработки данных к дз3 (аугументация изображений, токенизация текста)
  • Word2Vec, Мешок слов, One-Hot и Словарь, Корпус и документ
  • Альтернативные подходы к решению конкурсного задания дз2.3
  • Layer Norm
  • Автокодировщик
  • Self-Attention
  • Как работает машинный перевод

Домашние задания (семестровые)

Зеркало Толика со всеми датасетами: https://gitlab.toliak.ru/Toliak/oirs-datasets/-/blob/master/README.md

  1. (ДЗ 1): https://colab.research.google.com/drive/1UskMwmGQZX24UDhTY9HeJhSrhYi_OnfN
  2. (ДЗ 2):
    1. https://colab.research.google.com/drive/1vCtMz2G9aQWz7iVeaxa1O8BE0wLBrGad
    2. Конкурс из пункта ниже
  3. (ДЗ 3): до 12 июня 23:55
    1. https://colab.research.google.com/drive/1hkVZPCBKHqI1smH1MMsrgcQ_2hgRPuLR
    2. Дополнительное задание к ДЗ 3

Конкурс

  1. Конкурс: https://iu8-challenge.ddns.net
  2. Регистрация: https://iu8-challenge.ddns.net/signup
  3. "Если за дз хочется больше 18 баллов, надо поучаствовать. Хоть как-то"
  4. "Можно делать до 50 попыток в день"
  5. "Письмо на почту не приходит, активация аккаунтов делается вручную" -- (возможно, придётся пинговать своих преподавателей)
  6. Модель: Модель, детектирующая аномальные HTTP-запросы (задача поиска аномалий, обучение без учителя, разметка приведена для оценки качества модели)
  7. Правила для версии "13 мая": https://docs.google.com/document/d/1V6_lOCnwarhkKVoK5jTX5YsujQSZvv-m7eA7CEcnQaI/edit
  8. Данные: https://drive.google.com/file/d/16Rc8aomr5_G-0U4BxpGusCrvsPYoDXo2/view

Формы сдачи и награды:

Критерий 13 мая 15:00 31 мая 23:55
Баллы к ДЗ2 +7 +7
Доп.баллы сверх семестровых +10
Билеты на PHDays Лучшим
Команда 1-3 чел 1-3 чел
Требуется обученная модель + +
Треб. презентация и выступление +
Треб. микросервис +

Дополнительное задание к ДЗ 3

Надо заполнить ноутбук modules.ipunb, чтобы тесты в ноутбуке test_modules.ipynb проходили без ошибок. В test_modules 12 тестов в базовой части и 2 теста в расширенной.

  1. За каждый тест из базовой части можно получить 1/3 балла. Сумма округляется вниз. Max 4 балла.
  2. За каждый тест из расширенной по 1 баллу. Max 2 балла
  3. Обучить нейросеть на наборе данных по варианту. Max 1 балл.

Ссылка на modules: https://colab.research.google.com/drive/1R1tm0t9dFJJih-8M5tkIU_Z2T9ciu5Ad

Ссылка на test_modules: https://colab.research.google.com/drive/1Gx8EQPVBQkQ6UmT3BfNjYf67WLVb8zQ-

Литература

С семинаров:

  1. (семинары 3-7) Джеймс Г. Уиттон А. Хасти Т. Тибширани Р. "Введение в статистическое обучение"
  2. (семинары 11-14) "Deep Learning with PyTorch" Eli Stevens, Luca Antiga,Thomas Viehmann

С лекций:

  1. Николенко С., Кадурин А. "Глубокое обучение"
  2. Черняк Е. "Введение в глубокое обучение"
  3. Гудфеллоу Я. "Глубокое Обучение"
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment