- Все объявления в данной выборке были выставлены в пределах одного месяца, с 5 марта 2016 года по 7 апреля 2016 года.
- С помощью интерквартильного размаха определим верхние выбросы для цены, по формуле Q3 + 1.5 * IQR. Получилось 26843 выброса, которые будут исключены во время построения нашей модели.
- Для нижней оценки выбросов достаточно увидеть, что имеется 10248 выбросов с ценой равной нулю и 1133 выброса с ценой равной единице. Данные значения также не будут участвовать в построении линейной модели.
- Полученную линейную модель можно расписать при помощи функции
summary
, передав в нее нашу модель:summary(lm(price ~ powerPS, data))
. Вывод:
Call:
lm(formula = price ~ powerPS, data = autos2)
Residuals:
Min 1Q Median 3Q Max
-60579 -2874 -1370 1852 12453
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.797e+03 7.797e+00 486.96 <2e-16 ***
powerPS 3.018e+00 3.578e-02 84.36 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3801 on 316461 degrees of freedom
Multiple R-squared: 0.02199, Adjusted R-squared: 0.02199
F-statistic: 7116 on 1 and 316461 DF, p-value: < 2.2e-16
- Residuals (Отклонения) – разница между значениями исследуемой переменной
price
и значениями, полученными из построенной регрессионной модели. В большинстве случаев график, построенный на значениях отклонений должен представлять из себя нормальное распределение, чтобы утверждать, что построенная модель является идеальной. В таком случае значения квартилей и экстремумов были бы симметричными, а медиана равнялась нулю.
Данный график показывает подвергаются ли наши отклонения нормальному распределению или нет. Так как не все значения лежат на пунктирной прямой, то отклонения распределены не нормально.
-
Min (Минимум) – минимальное отклонение. В данном случае оно равно -60579. Это значит, что в нашей выборке существует значение, которое отклоняется от нашей модели на -60579.
-
Q1 (Нижний квартиль) - значение, которое отклонение не превышает с вероятностью 0.25. В нашем примере оно равно -2874, что означает, что любое выбранное значение будет меньше значения модели более чем на 2874 с вероятностью 0.25.
-
Median (Медиана) – значение, которое отклонение не превышает с вероятностью 0.5.
-
Q3 (Верхний квартиль) - значение, которое отклонение не превышает с вероятностью 0.75. В нашем примере оно равно 1852, что означает, что любое выбранное значение будет больше значения модели более чем на 1852 с вероятностью 0.25.
-
Max (Максимум) - максимальное отклонение. В данном случае оно равно 12453. Это значит, что в нашей выборке существует значение, которое отклоняется от нашей модели на 12453.
-
Coefficients (Коэффициенты) - две неизвестные константы, представляющие собой начальное значение с угловым коэффициентом для построенной линейной модели. Линия строится от начального значения зависимой переменной
intercept
и с угловым коэффициентомpowerPS
. Данная линия может показывать различные составляющие модели, такие как:- Estimate (Оценка) - представляет собой среднее значение выборки. В данном случае оценка равна 3797 с угловым коэффициентом 3.018.
- Std. Error (Стандартная ошибка) - показывает на сколько может отклонится оценка. В данном случае она может отклонится на 7.797 с угловым коэффициентом 0.03578.
- t value - оценка зависимости рассматриваемой переменной от представленных независимых переменных. Используется для вычесления p-value.
- Pr(>|t|) (p-значение) - значение данной переменной равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики. В данном примере этот коэффициент близок к нулю, а значит вероятность ошибки при отвержении нулевой гипотезы ничтожно мала.
-
Residual Standard Error (Остаточная стандартная ошибка) - ошибка стандартного отклонения. Определяет качество построенной регрессионной модели. Отношение данной величины к средней оценке рассматриваемой переменной определяет величину ошибки данной оценки. В нашем примере величина ошибки оценки в 3797 превышает 100%, что является значительным показателем того, что наша модель далека от действительности.
-
Degrees of Freedom (Степени свободы) - это количество значений в итоговом вычислении статистики, способных варьироваться. Иными словами, количество степеней свободы показывает количество «свободных» величин, необходимых для того, чтобы полностью определить модель. В данном случае это количество - 316461.
-
R-squared (Коэффициент детерминации) - коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 0.5. Модели с коэффициентом детерминации выше 0.8 можно признать достаточно хорошими. Значение коэффициента детерминации 1 означает функциональную зависимость между переменными. В нашем примере коэффициент равен 0.02, что означает мы врядли сможем предсказать
price
исходя из одной лишь переменнойpowerPS
.