Без темы
<<  Одномерные массивы целых чисел Оптимизация одномерных функций  >>
Определение последствий включения или невключения объясняющих
Определение последствий включения или невключения объясняющих
Последствия некорректной спецификации модели
Последствия некорректной спецификации модели
Предположим, что опущена переменная X3, которая не считается
Предположим, что опущена переменная X3, которая не считается
Переменная X2 в отсутствие X3 будет играть двойную роль: кажущаяся
Переменная X2 в отсутствие X3 будет играть двойную роль: кажущаяся
Y
Y
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Поскольку b2 и b3 – константы, а X2 и X3 так же имеют неслучайные
Поскольку b2 и b3 – константы, а X2 и X3 так же имеют неслучайные
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Последствия некорректной спецификации модели
Последствия некорректной спецификации модели
Спецификация переменных регрессии: отсутствие переменной
Спецификация переменных регрессии: отсутствие переменной
Неверная спецификация: включение лишней переменной
Неверная спецификация: включение лишней переменной
Неверная спецификация: включение лишней переменной
Неверная спецификация: включение лишней переменной
. reg LGEARN S ASVABC Source | SS df MS Number of obs = 570
. reg LGEARN S ASVABC Source | SS df MS Number of obs = 570
Неверная спецификация: включение лишней переменной
Неверная спецификация: включение лишней переменной
Неверная спецификация: включение лишней переменной
Неверная спецификация: включение лишней переменной
Переменная-заместитель вводится при невозможности точного определения
Переменная-заместитель вводится при невозможности точного определения
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Замещающие переменные
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения
Проверка линейного ограничения

Презентация: «Определение последствий включения или невключения объясняющих переменных в регрессионную модель Включение замещающих переменных в модель». Автор: KSI. Файл: «Определение последствий включения или невключения объясняющих переменных в регрессионную модель Включение замещающих переменных в модель.ppt». Размер zip-архива: 127 КБ.

Определение последствий включения или невключения объясняющих переменных в регрессионную модель Включение замещающих переменных в модель

содержание презентации «Определение последствий включения или невключения объясняющих переменных в регрессионную модель Включение замещающих переменных в модель.ppt»
СлайдТекст
1 Определение последствий включения или невключения объясняющих

Определение последствий включения или невключения объясняющих

переменных в регрессионную модель Включение замещающих переменных в модель

Спецификация переменных регрессии

Вопросы неправильной спецификации регрессионной модели.

1

2 Последствия некорректной спецификации модели

Последствия некорректной спецификации модели

Истинная модель

Оцененная модель

Коэффициенты смещены (как правило). Стандартные ошибки некорректны.

Корректная спецификация, нет проблем

Несмещенность коэффициентов. Корректность стандартных ошибок

Корректная спецификация, нет проблем

Спецификация переменных регрессии

Невключение существенных переменных ведет к смещенности оценок коэффициентов и некорректности расчетов стандартных ошибок. Лишние переменные приводят к неэффективности несмещенных оценок.

2

3 Предположим, что опущена переменная X3, которая не считается

Предположим, что опущена переменная X3, которая не считается

существенной. Если истинно первое уравнение, то b2 является оценкой b2,. Эта оценка будет смещенной на b3 Cov(X2, X3)/Var(X2) ? 0.

Спецификация переменных регрессии: отсутствие переменной

3

4 Переменная X2 в отсутствие X3 будет играть двойную роль: кажущаяся

Переменная X2 в отсутствие X3 будет играть двойную роль: кажущаяся

способность X2 объяснять поведение X3 и влияние X3 на Y, определяемую коэффициентом b3..

Спецификация переменных регрессии: отсутствие переменной

Y

Эффект X3

Эффект X2, при неизменности X3

b2

b3

Кажущийся эффект X2, в качестве заменителя X3

X2

X3

4

5 Y

Y

Эффект X3

Эффект X2, при неизменности X3

b2

b3

Кажущийся эффект X2, в качестве заменителя X3

X2

X3

Возможность X2 замещать X3 определяется углом наклона регрессии X3=g+hX2, которая равна Cov(X2, X3)/Var(X2). Прямое влияние X3 на Y определяется ?3.

Спецификация переменных регрессии: отсутствие переменной

5

6 Спецификация переменных регрессии: отсутствие переменной

Спецификация переменных регрессии: отсутствие переменной

Для парной регрессии (в отсутствие b3 ) оценка b2 складывается из 3-х компонент.

6

7 Поскольку b2 и b3 – константы, а X2 и X3 так же имеют неслучайные

Поскольку b2 и b3 – константы, а X2 и X3 так же имеют неслучайные

значения, то 3-е слагаемое равно 0. Таким образом при коррелированности X2 и X3 b2 – смещенная оценка, что приводит к невозможности использовать t и F-тесты, а так же к некорректности расчетов стандартных ошибок.

Спецификация переменных регрессии: отсутствие переменной

7

8 Спецификация переменных регрессии: отсутствие переменной

Спецификация переменных регрессии: отсутствие переменной

. reg S ASVABC SM Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 2, 567) = 156.81 Model | 1230.2039 2 615.101949 Prob > F = 0.0000 Residual | 2224.04347 567 3.92247526 R-squared = 0.3561 ---------+------------------------------ Adj R-squared = 0.3539 Total | 3454.24737 569 6.07073351 Root MSE = 1.9805 ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556 SM | .154783 .0350728 4.413 0.000 .0858946 .2236715 _cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475 ------------------------------------------------------------------------------

Предположим в регрессионной зависимости отброшена переменная SM. Попытаемся предсказать изменение оценки коэффициента для ASVABC. ?3 – положительно. Корреляция – положительная. Т.е. смещение ожидается положительное.

. cor SM ASVABC (obs=570) | SM ASVABC --------+------------------ SM| 1.0000 ASVABC| 0.3819 1.0000

8

9 Спецификация переменных регрессии: отсутствие переменной

Спецификация переменных регрессии: отсутствие переменной

. reg S ASVABC SM ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556 SM | .154783 .0350728 4.413 0.000 .0858946 .2236715 _cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475 ------------------------------------------------------------------------------ . reg S ASVABC ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213 _cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803 ------------------------------------------------------------------------------

Сравнение расчетных коэффициентов подтверждает положительность смещения ASVABC при отбрасывании SM.

9

10 Спецификация переменных регрессии: отсутствие переменной

Спецификация переменных регрессии: отсутствие переменной

. reg S SM Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 1, 568) = 83.59 Model | 443.110436 1 443.110436 Prob > F = 0.0000 Residual | 3011.13693 568 5.30129742 R-squared = 0.1283 ---------+------------------------------ Adj R-squared = 0.1267 Total | 3454.24737 569 6.07073351 Root MSE = 2.3025 ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- SM | .3445198 .0376833 9.142 0.000 .2705041 .4185354 _cons | 9.506491 .4495754 21.145 0.000 8.623458 10.38952 ------------------------------------------------------------------------------

Предположим, что ASVABC исключается из модели. Можно ожидать смещения b3 . Можно ожидать, что оно положительно, поскольку b2 и ковариация – положительны.

10

11 Спецификация переменных регрессии: отсутствие переменной

Спецификация переменных регрессии: отсутствие переменной

. reg S ASVABC SM ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556 SM | .154783 .0350728 4.413 0.000 .0858946 .2236715 _cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475 ------------------------------------------------------------------------------ . reg S SM ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- SM | .3445198 .0376833 9.142 0.000 .2705041 .4185354 _cons | 9.506491 .4495754 21.145 0.000 8.623458 10.38952 ------------------------------------------------------------------------------

В этом случае ситуация гораздо хуже: коэффициент при SM практически удвоился. (Причина столь большого эффекта в малом значении Var(SM) << Var(ASVABC) ).

11

12 Спецификация переменных регрессии: отсутствие переменной

Спецификация переменных регрессии: отсутствие переменной

. reg S ASVABC SM Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 2, 567) = 156.81 Model | 1230.2039 2 615.101949 Prob > F = 0.0000 Residual | 2224.04347 567 3.92247526 R-squared = 0.3561 ---------+------------------------------ Adj R-squared = 0.3539 Total | 3454.24737 569 6.07073351 Root MSE = 1.9805 . reg S ASVABC Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 1, 568) = 284.89 Model | 1153.80864 1 1153.80864 Prob > F = 0.0000 Residual | 2300.43873 568 4.05006818 R-squared = 0.3340 ---------+------------------------------ Adj R-squared = 0.3329 Total | 3454.24737 569 6.07073351 Root MSE = 2.0125 . reg S SM Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 1, 568) = 83.59 Model | 443.110436 1 443.110436 Prob > F = 0.0000 Residual | 3011.13693 568 5.30129742 R-squared = 0.1283 ---------+------------------------------ Adj R-squared = 0.1267 Total | 3454.24737 569 6.07073351 Root MSE = 2.3025

В итоге оценим, как изменяется R2 при отбрасывании переменных. В парной регрессии S от ASVABC, R2 = 0.33, а в регрессии S от SM - 0.13. Свидетельствует ли это о том, что S объясняется SM на 13%? Нет, в силу эффекта замещения одной переменной при отбрасывании другой переменной. R2 отражает объединенную объясняющую способность каждой из переменных с учетом их корреляции.

12

13 Спецификация переменных регрессии: отсутствие переменной

Спецификация переменных регрессии: отсутствие переменной

. reg LGEARN S MALE Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 2, 567) = 65.74 Model | 28.951332 2 14.475666 Prob > F = 0.0000 Residual | 124.850561 567 .220194992 R-squared = 0.1882 ---------+------------------------------ Adj R-squared = 0.1854 Total | 153.801893 569 .270302096 Root MSE = .46925 ------------------------------------------------------------------------------ LGEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | .0818944 .0079976 10.240 0.000 .0661858 .097603 MALE | .2285156 .0397695 5.746 0.000 .1504021 .3066291 _cons | 1.19254 .1134845 10.508 0.000 .9696386 1.415441 ------------------------------------------------------------------------------

Всегда ли R21+ R22 > R2с ? Нет, как видно из примера логарифмической зависимости часовой платы от S и MALE (пол), связанных отрицательной корреляционной зависимостью.

. cor S MALE (obs=570) | S MALE --------+------------------ S| 1.0000 MALE| -0.0581 1.0000

13

14 Спецификация переменных регрессии: отсутствие переменной

Спецификация переменных регрессии: отсутствие переменной

. reg LGEARN S MALE ------------------------------------------------------------------------------ LGEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | .0818944 .0079976 10.240 0.000 .0661858 .097603 MALE | .2285156 .0397695 5.746 0.000 .1504021 .3066291 _cons | 1.19254 .1134845 10.508 0.000 .9696386 1.415441 . reg LGEARN S ------------------------------------------------------------------------------ LGEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | .0792256 .0082061 9.655 0.000 .0631077 .0953435 _cons | 1.358919 .1127785 12.049 0.000 1.137406 1.580433 . reg LGEARN MALE ------------------------------------------------------------------------------ LGEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- MALE | .2048652 .0431797 4.744 0.000 .1200538 .2896767 _cons | 2.313324 .032605 70.950 0.000 2.249282 2.377365

В результате коэффициенты при S и MALE имеют отрицательное смещение. Они меньше, чем в множественной регрессии.

14

15 Спецификация переменных регрессии: отсутствие переменной

Спецификация переменных регрессии: отсутствие переменной

. reg LGEARN S MALE Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 2, 567) = 65.74 Model | 28.951332 2 14.475666 Prob > F = 0.0000 Residual | 124.850561 567 .220194992 R-squared = 0.1882 ---------+------------------------------ Adj R-squared = 0.1854 Total | 153.801893 569 .270302096 Root MSE = .46925 . reg LGEARN S Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 1, 568) = 93.21 Model | 21.681253 1 21.681253 Prob > F = 0.0000 Residual | 132.12064 568 .23260676 R-squared = 0.1410 ---------+------------------------------ Adj R-squared = 0.1395 Total | 153.801893 569 .270302096 Root MSE = .48229 . reg LGEARN MALE Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 1, 568) = 22.51 Model | 5.86288165 1 5.86288165 Prob > F = 0.0000 Residual | 147.939011 568 .260456005 R-squared = 0.0381 ---------+------------------------------ Adj R-squared = 0.0364 Total | 153.801893 569 .270302096 Root MSE = .51035

Сравнение R2 показывает, что для множественной модели R2 больше суммы R2 в парных моделях.

15

16 Последствия некорректной спецификации модели

Последствия некорректной спецификации модели

Истинная модель

Оцененная модель

Коэффициенты смещены (как правило). Стандартные ошибки некорректны.

Корректная спецификация, нет проблем

Несмещенность коэффициентов. Корректность стандартных ошибок

Корректная спецификация, нет проблем

Спецификация переменных: отсутствие переменной

Включение лишних переменных приводит к неэффективности в общем случае несмещенных оценок.

16

17 Спецификация переменных регрессии: отсутствие переменной

Спецификация переменных регрессии: отсутствие переменной

Добавив в модель X3 в качестве объясняющей переменной с истинным коэффициентом b3 =0. Следовательно оценка b2 будет несмещенной оценкой b2 , а b3 будет несмещенной оценкой 0.

17

18 Неверная спецификация: включение лишней переменной

Неверная спецификация: включение лишней переменной

Выборочная дисперсия оценки b2 будет тем больше, чем больше корреляция переменных. Таким образом оценка будет тем менее эффективна, чем более коррелированны переменные. Замена дисперсии ее оценкой при вычислении стандартной ошибки не приводит к потере ее корректности.

18

19 Неверная спецификация: включение лишней переменной

Неверная спецификация: включение лишней переменной

Стандартные ошибки коэффициентов будут значимыми, по причине формальной корректности модели, но значения оценок будет больше (потеря эффективности).

19

20 . reg LGEARN S ASVABC Source | SS df MS Number of obs = 570

. reg LGEARN S ASVABC Source | SS df MS Number of obs = 570

---------+------------------------------ F( 2, 567) = 57.45 Model | 25.9166749 2 12.9583374 Prob > F = 0.0000 Residual | 127.885218 567 .225547121 R-squared = 0.1685 ---------+------------------------------ Adj R-squared = 0.1656 Total | 153.801893 569 .270302096 Root MSE = .47492 ------------------------------------------------------------------------------ LGEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | .0544266 .0099018 5.497 0.000 .034978 .0738753 ASVABC | .0114733 .0026476 4.333 0.000 .0062729 .0166736 _cons | 1.118832 .124107 9.015 0.000 .8750665 1.362598 ------------------------------------------------------------------------------

Неверная спецификация: включение лишней переменной

Иллюстрация влияния лишней переменной на примере полулогарифмической зависимости LGEARN от S и ASVABC.

20

21 Неверная спецификация: включение лишней переменной

Неверная спецификация: включение лишней переменной

. reg LGEARN S ASVABC SM SF Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 4, 565) = 29.22 Model | 26.3617806 4 6.59044515 Prob > F = 0.0000 Residual | 127.440112 565 .22555772 R-squared = 0.1714 ---------+------------------------------ Adj R-squared = 0.1655 Total | 153.801893 569 .270302096 Root MSE = .47493 ------------------------------------------------------------------------------ LGEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | .0511811 .0101812 5.027 0.000 .0311835 .0711788 ASVABC | .010444 .0027481 3.800 0.000 .0050463 .0158417 SM | .0071835 .0102695 0.699 0.485 -.0129876 .0273547 SF | .004794 .0076389 0.628 0.531 -.0102101 .0197981 _cons | 1.073972 .1324621 8.108 0.000 .8137933 1.33415 ------------------------------------------------------------------------------

Добавим в качестве объясняющих образовательный ценз родителей SM и SF. Они имеют косвенное отношение к величине платы, но не очевиден их прямой эффект. T-статистика показывает их возможную незначимость.

21

22 Неверная спецификация: включение лишней переменной

Неверная спецификация: включение лишней переменной

. reg LGEARN S ASVABC ------------------------------------------------------------------------------ LGEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | .0544266 .0099018 5.497 0.000 .034978 .0738753 ASVABC | .0114733 .0026476 4.333 0.000 .0062729 .0166736 _cons | 1.118832 .124107 9.015 0.000 .8750665 1.362598 ------------------------------------------------------------------------------ . reg LGEARN S ASVABC SM SF ------------------------------------------------------------------------------ LGEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- S | .0511811 .0101812 5.027 0.000 .0311835 .0711788 ASVABC | .010444 .0027481 3.800 0.000 .0050463 .0158417 SM | .0071835 .0102695 0.699 0.485 -.0129876 .0273547 SF | .004794 .0076389 0.628 0.531 -.0102101 .0197981 _cons | 1.073972 .1324621 8.108 0.000 .8137933 1.33415 ------------------------------------------------------------------------------

Стандартные ошибки больше в плохо специфицированной модели с избыточными переменными. Потеря эффективности не очень велика. Образование родителей коррелированно и с S и c ASVABC не очень сильно.

. cor S ASVABC SM SF (obs=570) | S ASVABC SM SF --------+------------------------------------ S| 1.0000 ASVABC| 0.5779 1.0000 SM| 0.3582 0.3819 1.0000 SF| 0.4066 0.4179 0.6391 1.0000

22

23 Переменная-заместитель вводится при невозможности точного определения

Переменная-заместитель вводится при невозможности точного определения

какого-либо показателя. Например, для оценки общего социально-экономического благополучия можно использовать сильно коррелированный с ним показатель дохода населения. Введение замещающих переменных позволяет: Устранить смещенность оценок, возникающих при отсутствии определяющей переменной в модели; Получить косвенную информацию о замещенной переменной по результатам оценки регрессии с замещающей переменной.

Замещающие переменные

23

24 Замещающие переменные

Замещающие переменные

Предположим, что Y гипотетически зависит от набора объясняющих переменных X2, ..., Xk ,как показано выше, и предположим, что по каким-то причинам мы не можем получить данных по X2. Регрессия без этой переменной приводит к смещенности оценок и недостоверности тестов.

24

25 Замещающие переменные

Замещающие переменные

Предположим, что имеется другая переменная Z, связанная с X2 сильной функциональной связью. Тогда регрессионная модель может быть переписана, как показано выше. В результате получается модель со всеми наблюдаемыми переменными. Невозможно оценить величины ? и ? посредством регрессионного анализа поскольку неизвестны значения X2.

25

26 Замещающие переменные

Замещающие переменные

Оценки коэффициентов при X3, ..., Xk ,, их t-статистики и стандартные ошибки будут теми же самыми, что и для полной регрессии Y от X2, ..., Xk. R2 будет таким же, как и в случае использования X2 вместо Z. Коэффициент при Z будет оценкой величины ?2?, поэтому невозможно получить оценку ?2 если неизвестна оценка ?. Тем не менее t-статистика для Z будет такой же, как для X2 поэтому можно оценить значимость X2 даже не зная значение коэффициента. Невозможно получить оценку ?1 поскольку постоянный член равен ?1 + ?2 ?, но обычно постоянный член представляет меньший интерес с любой точки зрения.

26

27 Замещающие переменные

Замещающие переменные

Поскольку регрессионное соотношение между исходной и замещающей переменной носит приблизительный характер, то такой же характер будут иметь и приведенные выше утверждения. При низкой корреляции между исходной и замещающей переменной при оценке коэффициентов можно получить совсем плохие результаты, так как здесь суммируются два эффекта: добавление лишней переменной, приводящее к неэффективности, и отбрасывание существенной переменной, приводящее к смещенности оценок.

27

28 Замещающие переменные

Замещающие переменные

Пример, зависимость образовательного уровня от интеллектуальных способностей и «семейного фона». ASVABC - измеримый параметр. Как измерить такой параметр, как «семейный фон» так же влияющий на мотивацию человека? Для его оценки можно использовать значения образовательного уровня родителей SM и SF.

28

29 Замещающие переменные

Замещающие переменные

Получается функциональная зависимость S от ASVABC, SM и SF.

29

30 Замещающие переменные

Замещающие переменные

. reg S ASVABC SM SF Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 3, 566) = 110.83 Model | 1278.24153 3 426.080508 Prob > F = 0.0000 Residual | 2176.00584 566 3.84453329 R-squared = 0.3700 ---------+------------------------------ Adj R-squared = 0.3667 Total | 3454.24737 569 6.07073351 Root MSE = 1.9607 ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527 SM | .069403 .0422974 1.641 0.101 -.013676 .152482 SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401 _cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214 ------------------------------------------------------------------------------

Параметры регрессионной модели.

30

31 Замещающие переменные

Замещающие переменные

. reg S ASVABC Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 1, 568) = 284.89 Model | 1153.80864 1 1153.80864 Prob > F = 0.0000 Residual | 2300.43873 568 4.05006818 R-squared = 0.3340 ---------+------------------------------ Adj R-squared = 0.3329 Total | 3454.24737 569 6.07073351 Root MSE = 2.0125 ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213 _cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803 ------------------------------------------------------------------------------

Зависимость S только от ASVABC.

31

32 Замещающие переменные

Замещающие переменные

. reg S ASVABC SM SF ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527 SM | .069403 .0422974 1.641 0.101 -.013676 .152482 SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401 _cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214 ------------------------------------------------------------------------------ . reg S ASVABC ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213 _cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803 ------------------------------------------------------------------------------

Сравнение результатов показывает смещенность коэффициента при ASVABC в простой модели. Поскольку мать и отец одинаково влияют на образовательные установки, то все переменные коррелированны между собой.

. cor ASVABC SM SF (obs=570) | ASVABC SM SF --------+--------------------------- ASVABC| 1.0000 SM| 0.3819 1.0000 SF| 0.4179 0.6391 1.0000

32

33 Замещающие переменные

Замещающие переменные

. reg S ASVABC SM SF LIBRARY SIBLINGS Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 5, 564) = 66.87 Model | 1285.58208 5 257.116416 Prob > F = 0.0000 Residual | 2168.66529 564 3.84515122 R-squared = 0.3722 ---------+------------------------------ Adj R-squared = 0.3666 Total | 3454.24737 569 6.07073351 Root MSE = 1.9609 ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1277852 .010054 12.710 0.000 .1080373 .147533 SM | .0619975 .0427558 1.450 0.148 -.0219826 .1459775 SF | .1045035 .0314928 3.318 0.001 .042646 .166361 LIBRARY | .1151269 .1969844 0.584 0.559 -.2717856 .5020394 SIBLINGS | -.0509486 .039956 -1.275 0.203 -.1294293 .027532 _cons | 5.236995 .5665539 9.244 0.000 4.124181 6.349808 ------------------------------------------------------------------------------

Добавим еще 2 переменные: LIBRARY (фиктивная переменная равная 1 если кто-то в семье записан в библиотеку) и SIBLINGS (число братьев и сестер), которые так же могут характеризовать семейный фон. Чтение может свидетельствовать о повышенном интересе к образованию (положительная корреляция LIBRARY с S). Чем больше детей, тем меньше возможности выучить всех (отрицательная корреляция SIBLINGS с S). Есть и другие характеристики семейного фона: этнические х-ки и регион проживания.

33

34 Замещающие переменные

Замещающие переменные

Непреднамеренное использование замещающих переменных: вместо одной замещающей переменной используется другая, не имеющая прямого отношения к модели. Если корреляция невысока, то ошибку можно обнаружить. Если нет, то ошибку обнаружить трудно. Возможные последствия: в модели используемой для предсказания это не критично; в модели, используемой для экономического управления с помощью изменения значения определяющих переменных последствия могут оказаться катастрофическими. Если нет сильной функциональной зависимости между истинной и замещающей переменной, то изменение определяющей переменной не будет оказывать никакого влияния на результат. Пример: регрессионные модели динамических рядов. Падение рождаемости в зависимости от уменьшения численности аистов или зайцев.

34

35 Проверка линейного ограничения

Проверка линейного ограничения

Уменьшение числа переменных при мультколлинеарности модели приводит к улучшению оценок. Задача проверки значимости вводимых ограничений.

35

36 Проверка линейного ограничения

Проверка линейного ограничения

. reg S ASVABC SM SF Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 3, 566) = 110.83 Model | 1278.24153 3 426.080508 Prob > F = 0.0000 Residual | 2176.00584 566 3.84453329 R-squared = 0.3700 ---------+------------------------------ Adj R-squared = 0.3667 Total | 3454.24737 569 6.07073351 Root MSE = 1.9607 ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527 SM | .069403 .0422974 1.641 0.101 -.013676 .152482 SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401 _cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214 ------------------------------------------------------------------------------

Коэффициент для образования матери SM оказывается незначимым. Имеется сильная корреляционная связь между SM и SF. Сильная мультиколлинеарность модели.

. cor SM SF (obs=570) | SM SF --------+------------------ SM| 1.0000 SF| 0.6391 1.0000

36

37 Проверка линейного ограничения

Проверка линейного ограничения

Устранение мультиколлинеарности за счет объединения двух переменных в одну SP с помощью ограничения равенства вкладов в образование обоих супругов.

37

38 Проверка линейного ограничения

Проверка линейного ограничения

. g SP = SM + SF . reg S ASVABC SP Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 2, 567) = 166.22 Model | 1276.73764 2 638.368819 Prob > F = 0.0000 Residual | 2177.50973 567 3.84040517 R-squared = 0.3696 ---------+------------------------------ Adj R-squared = 0.3674 Total | 3454.24737 569 6.07073351 Root MSE = 1.9597 ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1295653 .0099485 13.024 0.000 .1100249 .1491057 SP | .093741 .0165688 5.658 0.000 .0611973 .1262847 _cons | 4.823123 .4844829 9.955 0.000 3.871523 5.774724 ------------------------------------------------------------------------------

Регрессионная модель с SP вместо SM и SF. Высокая значимость коэффициента. Насколько достовена гипотеза о равном влиянии обоих супругов?

38

39 Проверка линейного ограничения

Проверка линейного ограничения

. reg S ASVABC SM SF ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527 SM | .069403 .0422974 1.641 0.101 -.013676 .152482 SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401 _cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214 ------------------------------------------------------------------------------ . reg S ASVABC SP ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1295653 .0099485 13.024 0.000 .1100249 .1491057 SP | .093741 .0165688 5.658 0.000 .0611973 .1262847 _cons | 4.823123 .4844829 9.955 0.000 3.871523 5.774724 ------------------------------------------------------------------------------

Сравнение показывает, что в объединенной модели меньше значения стандартных ошибок и лучше t-статистика. Объединенная модель лучше, но при условии истинности введенного ограничения. Как проверить значимость введенного ограничения? Если оно неверно, то оценки смещенные. Проблема в том, что значения коэффициентов в регрессионной модели и их стандартные ошибки сильно различаются, что не подтверждает априори гипотезу.

39

40 Проверка линейного ограничения

Проверка линейного ограничения

Нуль-гипотеза состоит в том, что значения коэффициентов одинаковые.

40

41 Проверка линейного ограничения

Проверка линейного ограничения

. reg S ASVABC SM SF Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 3, 566) = 110.83 Model | 1278.24153 3 426.080508 Prob > F = 0.0000 Residual | 2176.00584 566 3.84453329 R-squared = 0.3700 ---------+------------------------------ Adj R-squared = 0.3667 Total | 3454.24737 569 6.07073351 Root MSE = 1.9607 . reg S ASVABC SP Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 2, 567) = 166.22 Model | 1276.73764 2 638.368819 Prob > F = 0.0000 Residual | 2177.50973 567 3.84040517 R-squared = 0.3696 ---------+------------------------------ Adj R-squared = 0.3674 Total | 3454.24737 569 6.07073351 Root MSE = 1.9597

Для проверки статистической значимости улучшения качества регрессии используют изменение значения RSS, как показателя объясняющей силы модели. Если удельное изменение RSS есть малое случайное число (как в данном примере), то гипотеза о значимости ограничения верна.

41

42 Проверка линейного ограничения

Проверка линейного ограничения

Проверка значимости ограничения основана на F тесте. Поскольку F-статистика не может быть меньше 1, то это свидетельствует о том, что нулевая гипотеза не может быть отвергнута при любом уровне значимости.

42

43 Проверка линейного ограничения

Проверка линейного ограничения

Для оценки значимости гипотезы можно использовать и t-тест. Найдем, чем отличаются обе модели и добавим разницу к модели с ограничением. Для этого вычтем второе уравнение из первого. Добавим разницу к модели и проверим значимость этого слагаемого. Нуль гипотеза состоит в том, что коэффициент в преобразованном уравнении равен 0.

43

44 Проверка линейного ограничения

Проверка линейного ограничения

. reg S ASVABC SP SF Source | SS df MS Number of obs = 570 ---------+------------------------------ F( 3, 566) = 110.83 Model | 1278.24153 3 426.080508 Prob > F = 0.0000 Residual | 2176.00584 566 3.84453329 R-squared = 0.3700 ---------+------------------------------ Adj R-squared = 0.3667 Total | 3454.24737 569 6.07073351 Root MSE = 1.9607 ------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527 SP | .069403 .0422974 1.641 0.101 -.013676 .152482 SF | .0408654 .0653386 0.625 0.532 -.0874704 .1692012 _cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214 ------------------------------------------------------------------------------

В вычисленной регрессионной модели коэффициент при SF не существенно отличается о 0 и не противоречит нулевой гипотезе.

44

«Определение последствий включения или невключения объясняющих переменных в регрессионную модель Включение замещающих переменных в модель»
http://900igr.net/prezentacija/algebra/opredelenie-posledstvij-vkljuchenija-ili-nevkljuchenija-objasnjajuschikh-peremennykh-v-regressionnuju-model-vkljuchenie-zameschajuschikh-peremennykh-v-model-185348.html
cсылка на страницу

Без темы

326 презентаций
Урок

Алгебра

35 тем
Слайды
900igr.net > Презентации по алгебре > Без темы > Определение последствий включения или невключения объясняющих переменных в регрессионную модель Включение замещающих переменных в модель