Skip to content

Instantly share code, notes, and snippets.

@vchernogorov
Last active October 8, 2022 03:18
Show Gist options
  • Star 2 You must be signed in to star a gist
  • Fork 4 You must be signed in to fork a gist
  • Save vchernogorov/111bec23339d8f45d1ce1339a01a0927 to your computer and use it in GitHub Desktop.
Save vchernogorov/111bec23339d8f45d1ce1339a01a0927 to your computer and use it in GitHub Desktop.
Анализ данных

Понижение размерности

Зачем нужно?

  1. Визуализация многомерных данных
  2. Компрессия данных
  3. Подавление шума в данных

Матричные разложения

В задаче матричного разложения требуется приблизить матрицу произведением двух других матриц, которые задают новое признаковое описание объектов.

Сингулярное матричное разложение

Сингулярное разложение — это способ представить некоторую исходную матрицу в виде произведения трех других: X=UΣV*.

Факторизация неотрицательных матриц

Применяется для разложения неотрицательных матриц на неотрицательные матрицы: X=WH.

Методы понижения размерности

Метод случайных проекций

Один из основных подходов к понижению размерности — это линейный подход, в котором каждый новый признак представляет собой линейную комбинацию исходных признаков.

Метод главных компонент

Идея метода заключается в поиске в исходном пространстве гиперплоскости заданной размерности с последующим проектированием выборки на данную гиперплоскость.

  • Метод главных компонент через критерий минимизации ошибки проектирования
  • Метод главных компонент через критерий максимизации разброса в данных
  • Ядровой метод главных компонент

Факторный анализ

Задачи факторного анализа

  1. Отбор признаков
  2. Измерение неизеримого. Построение новых обобщенных связей
  3. Наглядное представление многомерных наблюдейний (проецирование данных)
  4. Описание структуры взаимных связей между переменными, в частности выявление групп взаимозависимых переменных
  5. Преодоление мультиколинеарности переменных в регрессионом анализе
  6. Заполнение пропущенных значений
  7. LSA (Latent Sematic Analysis)

Отбор признаков

Зачем нужно?

  1. Признаков может быть слишком много, больше чем нужно для данной задачи.
  2. Вычисление/удаление шумовых признаков.
  3. Ускорение модели за счет меньшего количества вычислений.

Методы отбора признаков

Одномерные методы отбора признаков

Cамые простые и наивные методы отбора признаков. Их недостаток заключается в том, что они не способны оценить информативность комбинированных признаков.

  • Отбор признаков с использованием корреляции
  • Использование бинарного классификатора для отбора признаков
  • Использование метрик теории информации для отбора признаков

Жадные методы отбора признаков

Они перебирают различные подмножества признаков и выбирают то из них, которое дает наилучшее качество определённой модели машинного обучения.

  • Переборные методы
  • Метод жадного добавления
  • ADD-DEL (модификация предыдущего метода)

Отбор признаков на основе моделей

Для оценки информативности признаков и их отбора можно использовать обученные модели.

  • Использование линейных моделей для отбора признаков
  • Применение решающих деревьев для отбора признаков
  • Использование композиций алгоритмов для отбора признаков

Заполнение неизвестных значений

Зачем нужно?

  1. Если исключение признаков/объектов которые содержат неизвестные значения приведет к большим потерям данных
  2. Если пропуск/неизвестное значение является важным признаком при изучении данных

Термины

Случайная величина

Отображение из множества элементарных исходов в множество вещественных чисел.

Дискретная случайная величина

Случайная величина, множество значений которой не более чем счётно, причём принятие ею каждого из значений есть случайное событие с определённой вероятностью.

Распределение вероятностей

Закон, описывающий область значений случайной величины и вероятности их исхода.

Функция распределения

Вероятность того, что случайная величина примет значение, меньшее или равное аргументу функции.

Функция плотности вероятности

Первая производная функции распределения.

Ковариация

Мера линейной зависимости двух случайных величин.

Корреляция

Нормированная мера статистической зависимости двух случайных величин.

Среднеквадратичное отклонение

Квадратный корень из дисперсии случайной величины.

  • В теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания.

Математическое ожидание

Мера среднего значения случайной величины.

Дисперсия

Дисперсия характеризует разброс случайной величины вокруг ее математического ожидания.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment