vchernogorov/_readme.md

## _readme.md

      
    Raw
  

              _readme.md
            
          
    Анализ данных

Данный гист является сборником важной информацией, используемой в анализе данных.
Содержание


Термины
Факторный анализ

Понижение размерности
Отбор признаков
Заполнение неизвестных значений


## dimensionality-reduction.md

      
    Raw
  

              dimensionality-reduction.md
            
          
    Понижение размерности

Зачем нужно?


Визуализация многомерных данных
Компрессия данных
Подавление шума в данных

Матричные разложения

В задаче матричного разложения требуется приблизить матрицу произведением двух других матриц, которые задают новое признаковое описание объектов.
Сингулярное матричное разложение

Сингулярное разложение — это способ представить некоторую исходную матрицу в виде произведения трех других: X=UΣV*.
Факторизация неотрицательных матриц

Применяется для разложения неотрицательных матриц на неотрицательные матрицы: X=WH.
Методы понижения размерности

Метод случайных проекций

Один из основных подходов к понижению размерности — это линейный подход, в котором каждый новый признак представляет собой линейную комбинацию исходных признаков.
Метод главных компонент

Идея метода заключается в поиске в исходном пространстве гиперплоскости заданной размерности с последующим проектированием выборки на данную гиперплоскость.

Метод главных компонент через критерий минимизации ошибки проектирования
Метод главных компонент через критерий максимизации разброса в данных
Ядровой метод главных компонент


## factor-analysis.md

      
    Raw
  

              factor-analysis.md
            
          
    Факторный анализ

Задачи факторного анализа


Отбор признаков
Измерение неизеримого. Построение новых обобщенных связей
Наглядное представление многомерных наблюдейний (проецирование данных)
Описание структуры взаимных связей между переменными, в частности выявление групп взаимозависимых переменных
Преодоление мультиколинеарности переменных в регрессионом анализе
Заполнение пропущенных значений
LSA (Latent Sematic Analysis)


## feature-selection.md

      
    Raw
  

              feature-selection.md
            
          
    Отбор признаков

Зачем нужно?


Признаков может быть слишком много, больше чем нужно для данной задачи.
Вычисление/удаление шумовых признаков.
Ускорение модели за счет меньшего количества вычислений.

Методы отбора признаков

Одномерные методы отбора признаков

Cамые простые и наивные методы отбора признаков. Их недостаток заключается в том, что они не способны оценить информативность комбинированных признаков.

Отбор признаков с использованием корреляции
Использование бинарного классификатора для отбора признаков
Использование метрик теории информации для отбора признаков

Жадные методы отбора признаков

Они перебирают различные подмножества признаков и выбирают то из них, которое дает наилучшее качество определённой модели машинного обучения.

Переборные методы
Метод жадного добавления
ADD-DEL (модификация предыдущего метода)

Отбор признаков на основе моделей

Для оценки информативности признаков и их отбора можно использовать обученные модели.

Использование линейных моделей для отбора признаков
Применение решающих деревьев для отбора признаков
Использование композиций алгоритмов для отбора признаков


## missing-value-treatment.md

      
    Raw
  

              missing-value-treatment.md
            
          
    Заполнение неизвестных значений

Зачем нужно?


Если исключение признаков/объектов которые содержат неизвестные значения приведет к большим потерям данных
Если пропуск/неизвестное значение является важным признаком при изучении данных


## termins.md

      
    Raw
  

              termins.md
            
          
    Термины

Случайная величина

Отображение из множества элементарных исходов в множество вещественных чисел.
Дискретная случайная величина

Случайная величина, множество значений которой не более чем счётно, причём принятие ею каждого из значений есть случайное событие с определённой вероятностью.
Распределение вероятностей

Закон, описывающий область значений случайной величины и вероятности их исхода.
Функция распределения

Вероятность того, что случайная величина примет значение, меньшее или равное аргументу функции.
Функция плотности вероятности

Первая производная функции распределения.
Ковариация

Мера линейной зависимости двух случайных величин.
Корреляция

Нормированная мера статистической зависимости двух случайных величин.

Корреляция - это ковариация деленная на произведение среднеквадратичных отклонений случайных величин.

Среднеквадратичное отклонение

Квадратный корень из дисперсии случайной величины.

В теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания.

Математическое ожидание

Мера среднего значения случайной величины.
Дисперсия

Дисперсия характеризует разброс случайной величины вокруг ее математического ожидания.