Данный гист является сборником важной информацией, используемой в анализе данных.
-
-
Save vchernogorov/111bec23339d8f45d1ce1339a01a0927 to your computer and use it in GitHub Desktop.
- Визуализация многомерных данных
- Компрессия данных
- Подавление шума в данных
В задаче матричного разложения требуется приблизить матрицу произведением двух других матриц, которые задают новое признаковое описание объектов.
Сингулярное разложение — это способ представить некоторую исходную матрицу в виде произведения трех других: X=UΣV*
.
Применяется для разложения неотрицательных матриц на неотрицательные матрицы: X=WH
.
Один из основных подходов к понижению размерности — это линейный подход, в котором каждый новый признак представляет собой линейную комбинацию исходных признаков.
Идея метода заключается в поиске в исходном пространстве гиперплоскости заданной размерности с последующим проектированием выборки на данную гиперплоскость.
- Метод главных компонент через критерий минимизации ошибки проектирования
- Метод главных компонент через критерий максимизации разброса в данных
- Ядровой метод главных компонент
- Отбор признаков
- Измерение неизеримого. Построение новых обобщенных связей
- Наглядное представление многомерных наблюдейний (проецирование данных)
- Описание структуры взаимных связей между переменными, в частности выявление групп взаимозависимых переменных
- Преодоление мультиколинеарности переменных в регрессионом анализе
- Заполнение пропущенных значений
- LSA (Latent Sematic Analysis)
- Признаков может быть слишком много, больше чем нужно для данной задачи.
- Вычисление/удаление шумовых признаков.
- Ускорение модели за счет меньшего количества вычислений.
Cамые простые и наивные методы отбора признаков. Их недостаток заключается в том, что они не способны оценить информативность комбинированных признаков.
- Отбор признаков с использованием корреляции
- Использование бинарного классификатора для отбора признаков
- Использование метрик теории информации для отбора признаков
Они перебирают различные подмножества признаков и выбирают то из них, которое дает наилучшее качество определённой модели машинного обучения.
- Переборные методы
- Метод жадного добавления
- ADD-DEL (модификация предыдущего метода)
Для оценки информативности признаков и их отбора можно использовать обученные модели.
- Использование линейных моделей для отбора признаков
- Применение решающих деревьев для отбора признаков
- Использование композиций алгоритмов для отбора признаков
Отображение из множества элементарных исходов в множество вещественных чисел.
Случайная величина, множество значений которой не более чем счётно, причём принятие ею каждого из значений есть случайное событие с определённой вероятностью.
Закон, описывающий область значений случайной величины и вероятности их исхода.
Вероятность того, что случайная величина примет значение, меньшее или равное аргументу функции.
Первая производная функции распределения.
Мера линейной зависимости двух случайных величин.
Нормированная мера статистической зависимости двух случайных величин.
- Корреляция - это ковариация деленная на произведение среднеквадратичных отклонений случайных величин.
Квадратный корень из дисперсии случайной величины.
- В теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания.
Мера среднего значения случайной величины.
Дисперсия характеризует разброс случайной величины вокруг ее математического ожидания.