Skip to content

Instantly share code, notes, and snippets.

@vchernogorov
Last active October 8, 2022 03:18
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 2 You must be signed in to fork a gist
  • Save vchernogorov/228c17f195810d06e4250c970dda4cec to your computer and use it in GitHub Desktop.
Save vchernogorov/228c17f195810d06e4250c970dda4cec to your computer and use it in GitHub Desktop.
Used Cars EDA report

Исследование зависимости цены объявления от мощности машины

  • Все объявления в данной выборке были выставлены в пределах одного месяца, с 5 марта 2016 года по 7 апреля 2016 года.
  • С помощью интерквартильного размаха определим верхние выбросы для цены, по формуле Q3 + 1.5 * IQR. Получилось 26843 выброса, которые будут исключены во время построения нашей модели.
  • Для нижней оценки выбросов достаточно увидеть, что имеется 10248 выбросов с ценой равной нулю и 1133 выброса с ценой равной единице. Данные значения также не будут участвовать в построении линейной модели.
  • Полученную линейную модель можно расписать при помощи функции summary, передав в нее нашу модель: summary(lm(price ~ powerPS, data)). Вывод:
Call:
lm(formula = price ~ powerPS, data = autos2)

Residuals:
   Min     1Q Median     3Q    Max 
-60579  -2874  -1370   1852  12453 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 3.797e+03  7.797e+00  486.96   <2e-16 ***
powerPS     3.018e+00  3.578e-02   84.36   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3801 on 316461 degrees of freedom
Multiple R-squared:  0.02199,	Adjusted R-squared:  0.02199 
F-statistic:  7116 on 1 and 316461 DF,  p-value: < 2.2e-16
  1. Residuals (Отклонения) – разница между значениями исследуемой переменной price и значениями, полученными из построенной регрессионной модели. В большинстве случаев график, построенный на значениях отклонений должен представлять из себя нормальное распределение, чтобы утверждать, что построенная модель является идеальной. В таком случае значения квартилей и экстремумов были бы симметричными, а медиана равнялась нулю.

http://i.imgur.com/ovMQtfZ.png

Данный график показывает подвергаются ли наши отклонения нормальному распределению или нет. Так как не все значения лежат на пунктирной прямой, то отклонения распределены не нормально.

http://i.imgur.com/DFHqNTs.png

  1. Min (Минимум) – минимальное отклонение. В данном случае оно равно -60579. Это значит, что в нашей выборке существует значение, которое отклоняется от нашей модели на -60579.

  2. Q1 (Нижний квартиль) - значение, которое отклонение не превышает с вероятностью 0.25. В нашем примере оно равно -2874, что означает, что любое выбранное значение будет меньше значения модели более чем на 2874 с вероятностью 0.25.

  3. Median (Медиана) – значение, которое отклонение не превышает с вероятностью 0.5.

  4. Q3 (Верхний квартиль) - значение, которое отклонение не превышает с вероятностью 0.75. В нашем примере оно равно 1852, что означает, что любое выбранное значение будет больше значения модели более чем на 1852 с вероятностью 0.25.

  5. Max (Максимум) - максимальное отклонение. В данном случае оно равно 12453. Это значит, что в нашей выборке существует значение, которое отклоняется от нашей модели на 12453.

  6. Coefficients (Коэффициенты) - две неизвестные константы, представляющие собой начальное значение с угловым коэффициентом для построенной линейной модели. Линия строится от начального значения зависимой переменной intercept и с угловым коэффициентом powerPS. Данная линия может показывать различные составляющие модели, такие как:

    1. Estimate (Оценка) - представляет собой среднее значение выборки. В данном случае оценка равна 3797 с угловым коэффициентом 3.018. http://i.imgur.com/w2jsqsl.png
    2. Std. Error (Стандартная ошибка) - показывает на сколько может отклонится оценка. В данном случае она может отклонится на 7.797 с угловым коэффициентом 0.03578.
    3. t value - оценка зависимости рассматриваемой переменной от представленных независимых переменных. Используется для вычесления p-value.
    4. Pr(>|t|) (p-значение) - значение данной переменной равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики. В данном примере этот коэффициент близок к нулю, а значит вероятность ошибки при отвержении нулевой гипотезы ничтожно мала.
  7. Residual Standard Error (Остаточная стандартная ошибка) - ошибка стандартного отклонения. Определяет качество построенной регрессионной модели. Отношение данной величины к средней оценке рассматриваемой переменной определяет величину ошибки данной оценки. В нашем примере величина ошибки оценки в 3797 превышает 100%, что является значительным показателем того, что наша модель далека от действительности.

  8. Degrees of Freedom (Степени свободы) - это количество значений в итоговом вычислении статистики, способных варьироваться. Иными словами, количество степеней свободы показывает количество «свободных» величин, необходимых для того, чтобы полностью определить модель. В данном случае это количество - 316461.

  9. R-squared (Коэффициент детерминации) - коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 0.5. Модели с коэффициентом детерминации выше 0.8 можно признать достаточно хорошими. Значение коэффициента детерминации 1 означает функциональную зависимость между переменными. В нашем примере коэффициент равен 0.02, что означает мы врядли сможем предсказать price исходя из одной лишь переменной powerPS.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment