vchernogorov/user_cars_eda_report.md

## user_cars_eda_report.md

      
    Raw
  

              user_cars_eda_report.md
            
          
    Исследование зависимости цены объявления от мощности машины


Все объявления в данной выборке были выставлены в пределах одного месяца, с 5 марта 2016 года по 7 апреля 2016 года.
С помощью интерквартильного размаха определим верхние выбросы для цены, по формуле Q3 + 1.5 * IQR. Получилось 26843 выброса, которые будут исключены во время построения нашей модели.
Для нижней оценки выбросов достаточно увидеть, что имеется 10248 выбросов с ценой равной нулю и 1133 выброса с ценой равной единице. Данные значения также не будут участвовать в построении линейной модели.
Полученную линейную модель можно расписать при помощи функции summary, передав в нее нашу модель: summary(lm(price ~ powerPS, data)). Вывод:

Call:
lm(formula = price ~ powerPS, data = autos2)

Residuals:
   Min     1Q Median     3Q    Max 
-60579  -2874  -1370   1852  12453 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 3.797e+03  7.797e+00  486.96   <2e-16 ***
powerPS     3.018e+00  3.578e-02   84.36   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3801 on 316461 degrees of freedom
Multiple R-squared:  0.02199,	Adjusted R-squared:  0.02199 
F-statistic:  7116 on 1 and 316461 DF,  p-value: < 2.2e-16


Residuals (Отклонения) – разница между значениями исследуемой переменной price и значениями, полученными из построенной регрессионной модели. В большинстве случаев график, построенный на значениях отклонений должен представлять из себя нормальное распределение, чтобы утверждать, что построенная модель является идеальной. В таком случае значения квартилей и экстремумов были бы симметричными, а медиана равнялась нулю.


Данный график показывает подвергаются ли наши отклонения нормальному распределению или нет. Так как не все значения лежат на пунктирной прямой, то отклонения распределены не нормально.


Min (Минимум) – минимальное отклонение. В данном случае оно равно -60579. Это значит, что в нашей выборке существует значение, которое отклоняется от нашей модели на -60579.


Q1 (Нижний квартиль) - значение, которое отклонение не превышает с вероятностью 0.25. В нашем примере оно равно -2874, что означает, что любое выбранное значение будет меньше значения модели более чем на 2874 с вероятностью 0.25.


Median (Медиана) – значение, которое отклонение не превышает с вероятностью 0.5.


Q3 (Верхний квартиль) - значение, которое отклонение не превышает с вероятностью 0.75. В нашем примере оно равно 1852, что означает, что любое выбранное значение будет больше значения модели более чем на 1852 с вероятностью 0.25.


Max (Максимум) - максимальное отклонение. В данном случае оно равно 12453. Это значит, что в нашей выборке существует значение, которое отклоняется от нашей модели на 12453.


Coefficients (Коэффициенты) - две неизвестные константы, представляющие собой начальное значение с угловым коэффициентом для построенной линейной модели. Линия строится от начального значения зависимой переменной intercept и с угловым коэффициентом powerPS. Данная линия может показывать различные составляющие модели, такие как:

Estimate (Оценка) - представляет собой среднее значение выборки. В данном случае оценка равна 3797 с угловым коэффициентом 3.018.

Std. Error (Стандартная ошибка) - показывает на сколько может отклонится оценка. В данном случае она может отклонится на 7.797 с угловым коэффициентом 0.03578.
t value - оценка зависимости рассматриваемой переменной от представленных независимых переменных. Используется для вычесления p-value.
Pr(>|t|) (p-значение) - значение данной переменной равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики. В данном примере этот коэффициент близок к нулю, а значит вероятность ошибки при отвержении нулевой гипотезы ничтожно мала.


Residual Standard Error (Остаточная стандартная ошибка) - ошибка стандартного отклонения. Определяет качество построенной регрессионной модели. Отношение данной величины к средней оценке рассматриваемой переменной определяет величину ошибки данной оценки. В нашем примере величина ошибки оценки в 3797 превышает 100%, что является значительным показателем того, что наша модель далека от действительности.


Degrees of Freedom (Степени свободы) - это количество значений в итоговом вычислении статистики, способных варьироваться. Иными словами, количество степеней свободы показывает количество «свободных» величин, необходимых для того, чтобы полностью определить модель. В данном случае это количество - 316461.


R-squared (Коэффициент детерминации) - коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 0.5. Модели с коэффициентом детерминации выше 0.8 можно признать достаточно хорошими. Значение коэффициента детерминации 1 означает функциональную зависимость между переменными. В нашем примере коэффициент равен 0.02, что означает мы врядли сможем предсказать price исходя из одной лишь переменной powerPS.