- Формализация
- Квантификация данных
- Шкалы:
- Номинальная
- Порядковая
- Интервальная
- Относительная
- Шкалы:
- Спецификация
- y = β₀ + β₁x + ε
- Идентификация
- ŷ = 3.84 + 0.12x (0.003)
- R² = 0.35
- Верификация
- ANOVA — Analysis Of Variance
- Is reality fundamentally qualitative?
- В отличие от корреляцинной модели, изучается не просто взаимосвязь, а зависимость
- y = ƒ(x) + ε (регрессионная модель)
- y — зависимая, объясняемая переменная, регрессант
- x — независимая, объясняющая переменная, предиктор, регрессор
- Гамильтон изучал зависимость роста детей от роста родителей
j | 1 | 1 | ... | m | m |
---|---|---|---|---|---|
i | 1 | n₁ | ... | 1 | nₘ |
y | y₁₁ | yₙ₁ | ... | y₁ₘ | yₙₘ |
j — "уровень"
Дискретные уровни:
- yᵢⱼ = μ + μᵢ + εᵢⱼ
- E(εᵢⱼ) = 0
- E(εᵢⱼ εᵢ′ⱼ′) = 0, i ≠ i′, j ≠ j′
- H₀: μⱼ = 0, j = 1 ... m
- H₁: o/w (otherwise)
- Q-общее = Q-модельное + Q-остаточное
- Q-общ. = Σ[j=1...m] Σ[i=1...n] (yᵢⱼ - y**)² = Total Sum of Squares
- Q-мод. = Σ[j=1...m] Σ[i=1...n] (y*ⱼ - y**)² = Estimated/Regression Sum of Squares
- Q-ост. = Σ[j=1...m] Σ[i=1...n] (yᵢⱼ - y*ⱼ)² = Residual/Error Sum of Squares
* — среднее значение y по соотв. группе (i или j)
Непрерывные уровни:
- y = β₀ + β₁xᵢ + εᵢ
- E(εᵢ) = 0
- E(εᵢ εⱼ) = 0
- Var(εᵢ) = σ² — homoscedasticity — "равноразбросанность"
Природа x:
- x — не случайная
- x — случайная
- E(xᵢ εᵢ) = 0
- ε ~ N(0, σ²)
-
ε — остатки регрессионной модели
-
Нужно найти оценки β^₀ = b₀, β^₁ = b₁
- Метод наименьших квадратов
- Метод максимального правдоподопия
- Метод моментов
-
Модельные точки: (xᵢ, ŷᵢ)
-
Отклонение: εᵢ = yᵢ - ŷᵢ
-
Минимизируем отклонения: {εᵢ} → min
- Σ[i=1...n] εᵢ² → min — effective (эффективный критерий)
- Σ[i=1...n] |εᵢ| → min — robust (устойчивый критерий)
-
Q-ост. = Σ[i=1...n] (yᵢ - b₀ - b₁xᵢ) → min
-
∂Q-ост. / ∂b₁ = 0
-
{ 2Σ[i=1...n] (yᵢ - b₀ - b₁xᵢ) xᵢ = 0; 2Σ[i=1...n] (yᵢ - b₀ - b₁xᵢ) = 0 }
- Нормальность условна, доказать практически невозможно