Задача №4. Построение регрессионной модели с использованием фиктивной переменной

Исследовать зависимость между результатами зимней (Х) и летней (У) сессий.
В таблице приведена средняя оценка, полученная по итогам сессии, а также указана принадлежность студента к группе А или Б.

№ п/п х у Группа
1 3,7 4,8 Б
2 3,5 3,5 Б
3 4,3 5 Б
4 3 4 Б
5 4,6 4,2 Б
6 4,6 4,1 Б
7 3,8 4,8 А
8 3,6 3,5 Б
9 3,3 4,4 Б
10 3,9 3 Б
11 4,7 3,7 Б
12 4,6 4,4 Б
13 4,6 3,8 Б
14 3,3 3,1 Б
15 4,3 3,6 Б
16 3,1 4,8 А
17 3,2 3 А
18 4,2 4,8 А
19 3,3 3,4 Б
20 3,5 4,2 А

1. Построить линейную регрессионную модель У по Х.
2. Проверить значимость коэффициентов уравнения и самого уравнения регрессии.
3. Построить регрессионную модель У по Х с использованием фиктивной переменной «группа».
4. Проверить значимость коэффициентов уравнения и самого уравнения регрессии.
5. Вычислить коэффициенты детерминации для обычной модели и модели с фиктивной переменной.

 

Решение:

1. Для расчёта параметров а и b линейной регрессии

Уравнение линейной регрессии

необходимо решить систему нормальных уравнений относительно a и b:

Расчёт параметров линейной регрессии

Число наблюдений n = 20.

Построим таблицу исходных и расчётных данных.

Таблица 1 Расчетные данные для оценки линейной регрессии

№ п/п х у х2 у2 х*у Теоретическое значение у Квадрат отклонения  значения расчётного от фактического Квадрат разности фактического значения фактора х от его среднего Группа z
1 3,7 4,8 13,69 23,04 17,76 3,973 0,684 0,024 Б 1
2 3,5 3,5 12,25 12,25 12,25 3,931 0,186 0,126 Б 1
3 4,3 5 18,49 25 21,5 4,098 0,814 0,198 Б 1
4 3 4 9 16 12 3,827 0,030 0,731 Б 1
5 4,6 4,2 21,16 17,64 19,32 4,160 0,002 0,555 Б 1
6 4,6 4,1 21,16 16,81 18,86 4,160 0,004 0,555 Б 1
7 3,8 4,8 14,44 23,04 18,24 3,994 0,650 0,003 А 0
8 3,6 3,5 12,96 12,25 12,6 3,952 0,204 0,065 Б 1
9 3,3 4,4 10,89 19,36 14,52 3,889 0,261 0,308 Б 1
10 3,9 3 15,21 9 11,7 4,014 1,029 0,002 Б 1
11 4,7 3,7 22,09 13,69 17,39 4,181 0,232 0,714 Б 1
12 4,6 4,4 21,16 19,36 20,24 4,160 0,057 0,555 Б 1
13 4,6 3,8 21,16 14,44 17,48 4,160 0,130 0,555 Б 1
14 3,3 3,1 10,89 9,61 10,23 3,889 0,623 0,308 Б 1
15 4,3 3,6 18,49 12,96 15,48 4,098 0,248 0,198 Б 1
16 3,1 4,8 9,61 23,04 14,88 3,848 0,907 0,570 А 0
17 3,2 3 10,24 9 9,6 3,868 0,754 0,429 А 0
18 4,2 4,8 17,64 23,4 20,16 4,077 0,523 0,119 А 0
19 3,3 3,4 10,89 11,56 11,22 3,889 0,239 0,308 Б 1
20 3,5 4,2 12,25 17,64 14,7 3,930 0,072 0,126 А 0
Итого: 77,1 80,1 303,67 328,73 310,13 80,1 7,649 6,45 х 15
Среднее: 3,855 4,005 15,184 16,4365 15,5065 х х х х х
Дисперсия 0,322 0,396 х х х х х х х х
Среднее квадратическое значение 0,568 0,630 х х х х х х х х

Среднее значение определим по формуле:

Формула среднего значения х

Среднее квадратическое отклонение рассчитаем по формуле:

Формула сренего квадратического отклонения

Возведя в квадрат полученное значение, получим дисперсию:

Формула дисперсии

Параметры уравнения можно определить также и по формулам:

Формула и расчёт коэффициента регрессии

 

Формула и расчёт параметра а

Таким образом, уравнение регрессии имеет вид:

 Уравнение линейной регрессии

Следовательно, с повышением средней оценки, полученной по итогам зимней сессии, на один балл, средняя оценка по итогам летней сессии увеличивается в среднем на 0,2085.

2. Рассчитаем линейный коэффициент парной корреляции:

Коэффициент корреляции

Связь очень слабая, практически отсутствует.

Определим коэффициент детерминации:

Коэффициент детерминации

Вариация результата на 3,53% объясняется вариацией фактора х. На долю других, не учтённых в модели факторов, приходится 96,47%. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчётные) значения Теоретическое значение у.
Так как Равенство суммы фактических и теоретических значений, следовательно, параметры уравнения определены верно.

3. Проверим значимость коэффициентов уравнения и самого уравнения регрессии.

Оценку качества уравнения регрессии проведём с помощью F-критерия Фишера.
F-критерий состоит в проверке гипотезы Н0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера.
Fфакт определяется по формуле:

Формула F-критерия

где n – число единиц совокупности;
m – число параметров при переменных х.

Фактическое значение F-критерия Фишера

Сравнение фактического и табличного значения F-критерия

Таким образом, Н0 – гипотеза о случайной природе оцениваемых характеристик принимается и признаётся их статистическая незначимость и ненадёжность.

4. Оценку статистической значимости коэффициентов регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н0 о статистически незначимом отличии показателей от нуля: a = b = rxy = 0.
tтабл = 2,1 для числа степеней свободы df = n – 2 = 18 и α = 0,05.

Определим случайные ошибки ma, mb, mrxy:

Формула и расчёт стандартной ошибки коэффициента регрессии

Формула и расчёт стандартной ошибки параметра а

Фактические значения t-статистики определим по формулам:

Формула и расчёт t-статистики

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

1) Формула t-критерия для коэффициента корреляции

Формула стандартной ошибки коэффициента корреляции – случайная ошибка коэффициента корреляции.

Расчёт t-критерия коэффициента корреляции

2) Кроме того

Формула и расчёт t-критерия для коэффициента корреляции

Сравним фактические значения t-статистики с табличными значениями.

Сравнение фактического и табличного t-критерия

Так как фактическое значение t-критерия для коэффициента а превышает табличное, следовательно, гипотезу о несущественности коэффициента а можно отклонить.

Сравнение фактического и табличного t-критерия

Величина t-критерия для коэффициента регрессии меньше табличного и совпадает с величиной tr.
Следовательно, полученная линейная зависимость является недостоверной.

5. По 20 наблюдениям уравнение линейной регрессии (без учёта принадлежности студента к группе А или Б) составило:

Уравнение линейной регрессии

Введём в уравнение регрессии фиктивную переменную z для отражения принадлежности студента к группе, а именно: z = 1, для группы Б и z = 0 для группы А. Уравнение регрессии примет вид:
уxz = a + b*x + c*z + ɛ
Применяя метод наименьших квадратов для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:

Система нормальных уравнений для двух факторов

В виду того, что z принимает лишь два значения (1 и 0), Σz = n1 = 15 (число студентов группы Б), Σх*z =Σх1 =59,3 (сумма х по группе Б), Σz2 =Σz =15, Σy*z =Σy1 =58,5 (сумма у по группе Б).

Тогда система нормальных уравнений примет вид:

Решение системы уравнений

Решая её, получим уравнение регрессии:

Уравнение регрессии с фиктивной переменной

6. Найдём индекс детерминации для данной модели по формуле:

Формула индекса детерминации

Добавление в регрессию фиктивной переменной существенно улучшило результат модели: доля объяснённой вариации выросла с 3,53% (Коэффициент детерминации) до 16,6% (Rухz2 = 0,166). Но, не смотря на это, связь между признаками остаётся слабой.

7. Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью F-критерия Фишера:

 Формула и расчёт F-критерия

Сравнение фактического и табличного F-критерия

Так как фактическое значение F-критерия меньше табличного, то уравнение статистически не значимо.

8. Оценка значимости коэффициентов регрессии производится, как и в парной регрессии по t-критерию Стьюдента, по формуле:

t-критерий Стьюдента

где bi – величина параметра регрессии (в наших обозначениях это a, b и с)

a = 3,129; b = 0,335; с = - 0,5516;

ma = 0,9578; mb = 0,2574; mc = 0,3376;

ta = 3,266; tb = 1,3; tc = -1,634.

Величина t-статистики коэффициентов регрессии b и c меньше табличного tтабл.=2,1 при уровне значимости α 0,05, что свидетельствует о случайной природе взаимосвязи, о статистической ненадёжности всего уравнения.

Таким образом, уравнение в целом незначимо и ненадёжно и не может использоваться в дальнейшем для анализа и прогноза.


Смотри ещё