Skip to content

Instantly share code, notes, and snippets.

@ipetrushin
Last active January 24, 2024 00:48
Show Gist options
  • Save ipetrushin/34fab596d5c8aaa869218b5d98b670a9 to your computer and use it in GitHub Desktop.
Save ipetrushin/34fab596d5c8aaa869218b5d98b670a9 to your computer and use it in GitHub Desktop.
Условия "Анализ данных и искусственный интеллект" (Компьютериада 2024)

Вашему вниманию предлагается три набора данных разной сложности. Можно решать несколько сразу, чтобы получить больше баллов (в сумме максимум 100). Для каждого из наборов решение представляет собой Python Notebook (Google Colab) с последовательной обработкой данных. Ключевые шаги обработки, анализа и визуализации должны сопровождаться пояснениями на русском языке. Выбор методов решения, используемых признаков для построения модели должен быть обоснован и описан.

  1. Классический датасет Ирисы (20 баллов) https://archive.ics.uci.edu/dataset/53/iris:
  • понимание задачи/данных (понимание того, какие методы для понижения размерности и обучения классификатора можно использовать): 4 балла
  • понижение размерности: 7 баллов
  • обучение классификатора: 7 баллов
  • оценка модели с использованием метрик (точность, полнота, F1-мера): 2 балла
  1. Оценка успеваемости/эффективности учащихся (35 баллов) https://www.kaggle.com/datasets/nikhil7280/student-performance-multiple-linear-regression:
  • понимание задачи/данных: 5 баллов
  • предварительна обработка данных (кодирование категориальных переменных, нормализация): 5 баллов
  • анализ данных (визуализация распределения, анализ корреляции): 8 баллов
  • моделирование (выбор модели, разделение данных на выборки, обучение, оценка производительности на тестовой выборке): 12 баллов
  • оценка результатов: 5 баллов
  1. Прогноз зарплаты специалистов из data science (45 баллов) https://www.kaggle.com/datasets/henryshan/2023-data-scientists-salary/data: В этом наборе данные о зарплате приводятся дважды: в валюте страны и в долларах, необходимо исключить из рассмотрения поля salary и salary_currency. Модель должна предсказывать salary_in_usd или логарифм от неё (смотря что лучше получится).
  • понимание задачи/данных: 6 баллов
  • предварительна обработка данных (кодирование категориальных переменных, нормализация): 6 баллов
  • анализ данных (визуализация распределения, анализ корреляции): 10 баллов
  • моделирование (выбор модели, разделение данных на выборки, обучение, оценка производительности на тестовой выборке): 15 баллов
  • оценка результатов: 8 баллов
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment