Оценка параметров уравнения регреcсии. Пример

Итоговые тесты по эконометрике

1. Оценка значимости параметров уравнения регрессии осуществляется на основе:

А) t - критерия Стьюдента;

б) F -критерия Фишера – Снедекора;

в) средней квадратической ошибки;

г) средней ошибки аппроксимации.

2. Коэффициент регрессии в уравнении , характеризующем связь между объемом реализованной продукции (млн. руб.) и прибылью предприятий автомобильной промышленности за год (млн. руб.) означает, что при увеличении объема реализованной продукции на 1 млн. руб. прибыль увеличивается на:

г) 0,5млн. руб.;

в) 500тыс. руб.;

Г) 1,5 млн. руб.

3. Корреляционное отношение (индекс корреляции) измеряет степень тесноты связи между Х и Y :

а) только при нелинейной форме зависимости;

Б) при любой форме зависимости;

в) только при линейной зависимости.

4. По направлению связи бывают:

а) умеренные;

Б) прямые;

в) прямолинейные.

5. По 17 наблюдениям построено уравнение регрессии:
.
Для проверки значимости уравнения вычислено наблюдаемое значение t - статистики: 3.9. Вывод:

А) Уравнение значимо при a= 0,05;

б) Уравнение незначимо при a = 0,01;

в) Уравнение незначимо при a = 0,05.

6. Каковы последствия нарушения допущения МНК «математическое ожидание регрессионных остатков равно нулю»?

А) Смещенные оценки коэффициентов регрессии;

б) Эффективные, но несостоятельные оценки коэффициентов регрессии;

в) Неэффективные оценки коэффициентов регрессии;

г) Несостоятельные оценки коэффициентов регрессии.

7. Какое из следующих утверждений верно в случае гетероскедастичности остатков?

А) Выводы по t и F- статистикам являются ненадежными;

г) Оценки параметров уравнения регрессии являются смещенными.

8. На чем основан тест ранговой корреляции Спирмена?

А) На использовании t – статистики;

в) На использовании ;

9. На чем основан тест Уайта?

б) На использовании F– статистики;

В) На использовании ;

г) На графическом анализе остатков.

10. Каким методом можно воспользоваться для устранения автокорреляции?

11. Как называется нарушение допущения о постоянстве дисперсии остатков?

а) Мультиколлинеарность;

б) Автокорреляция;

В) Гетероскедастичность;

г) Гомоскедастичность.

12. Фиктивные переменные вводятся в:

а) только в линейные модели;

б) только во множественную нелинейную регрессию;

в) только в нелинейные модели;

Г) как в линейные, так и в нелинейные модели, приводимые к линейному виду.

13. Если в матрице парных коэффициентов корреляции встречаются
, то это свидетельствует:

А) О наличии мультиколлинеарности;

б) Об отсутствии мультиколлинеарности;

в) О наличии автокорреляции;

г) Об отсутствии гетероскедастичности.

14. С помощью какой меры невозможно избавиться от мультиколлинеарности?

а) Увеличение объема выборки;

Г) Преобразование случайной составляющей.

15. Если
и ранг матрицы А меньше (К-1) то уравнение:

а) сверхиденцифицировано;

Б) неидентифицировано;

в) точно идентифицировано.

16.Уравнение регрессии имеет вид:

А)
;

б)
;

в)
.

17.В чем состоит проблема идентификации модели?

А) получение однозначно определенных параметров модели, заданной системой одновременных уравнений;

б) выбор и реализация методов статистического оценивания неизвестных параметров модели по исходным статистическим данным;

в) проверка адекватности модели.

18. Какой метод применяется для оценивания параметров сверхиденцифицированного уравнения?

В) ДМНК, КМНК;

19. Если качественная переменная имеет k альтернативных значений, то при моделировании используются:

А) (k-1) фиктивная переменная;

б) kфиктивных переменных;

в) (k+1) фиктивная переменная.

20. Анализ тесноты и направления связей двух признаков осуществляется на основе:

А) парного коэффициента корреляции;

б) коэффициента детерминации;

в) множественного коэффициента корреляции.

21. В линейном уравнении x = а 0 +a 1 х коэффициент регрессии показывает:

а) тесноту связи;

б) долю дисперсии "Y", зависимую от "X";

В) на сколько в среднем изменится "Y" при изменении "X" на одну единицу;

г) ошибку коэффициента корреляции.

22. Какой показатель используется для определения части вариации, обусловленной изменением величины изучаемого фактора?

а) коэффициент вариации;

б) коэффициент корреляции;

В) коэффициент детерминации;

г) коэффициент эластичности.

23. Коэффициент эластичности показывает:

А) на сколько % изменится значение y при изменении x на 1 %;

б) на сколько единиц своего измерения изменится значение yпри измененииxна 1 %;

в) на сколько % изменится значение yпри измененииxна ед. своего измерения.

24. Какие методы можно применить для обнаружения гетероскедастичности ?

А) Тест Голфелда-Квандта;

Б) Тест ранговой корреляции Спирмена;

в) Тест Дарбина- Уотсона.

25. На чем основан тест Голфельда -Квандта

а) На использовании t– статистики;

Б) На использовании F – статистики;

в) На использовании ;

г) На графическом анализе остатков.

26. С помощью каких методов нельзя устранить автокорреляцию остатков?

а) Обобщенным методом наименьших квадратов;

Б) Взвешенным методом наименьших квадратов;

В) Методом максимального правдоподобия;

Г) Двухшаговым методом наименьших квадратов.

27. Как называется нарушение допущения о независимости остатков?

а) Мультиколлинеарность;

Б) Автокорреляция;

в) Гетероскедастичность;

г) Гомоскедастичность.

28. Каким методом можно воспользоваться для устранения гетероскедастичности?

А) Обобщенным методом наименьших квадратов;

б) Взвешенным методом наименьших квадратов;

в) Методом максимального правдоподобия;

г) Двухшаговым методом наименьших квадратов.

30. Если по t -критерию большинство коэффициентов регрессии статистически значимы, а модель в целом по F - критерию незначима то это может свидетельствовать о:

а) Мультиколлинеарности;

Б) Об автокорреляции остатков;

в) О гетероскедастичности остатков;

г) Такой вариант невозможен.

31. Возможно ли с помощью преобразования переменных избавиться от мультиколлинеарности?

а) Эта мера эффективна только при увеличении объема выборки;

32. С помощью какого метода можно найти оценки параметра уравнения линейной регрессии:

А) методом наименьшего квадрата;

б) корреляционно-регрессионного анализа;

в) дисперсионного анализа.

33. Построено множественное линейное уравнение регрессии с фиктивными переменными. Для проверки значимости отдельных коэффициентов используется распределение:

а) Нормальное;

б) Стьюдента;

в) Пирсона;

г) Фишера-Снедекора.

34. Если
и ранг матрицы А больше (К-1) то уравнение:

А) сверхиденцифицировано;

б) неидентифицировано;

в) точно идентифицировано.

35. Для оценивания параметров точно идентифицируемой системы уравнений применяется:

а) ДМНК, КМНК;

б) ДМНК, МНК, КМНК;

36. Критерий Чоу основывается на применении:

А) F - статистики;

б) t - статистики;

в) критерии Дарбина –Уотсона.

37. Фиктивные переменные могут принимать значения:

г) любые значения.

39. По 20 наблюдениям построено уравнение регрессии:
.
Для проверки значимости уравнения вычислено значение статистики: 4.2. Выводы:

а) Уравнение значимо при a=0.05;

б) Уравнение незначимо при a=0.05;

в) Уравнение незначимо при a=0.01.

40. Какое из следующих утверждений не верно в случае гетероскедастичности остатков?

а) Выводы по tиF- статистикам являются ненадежными;

б) Гетероскедастичность проявляется через низкое значение статистики Дарбина-Уотсона;

в) При гетероскедастичности оценки остаются эффективными;

г) Оценки являются смещенными.

41. Тест Чоу основан на сравнении:

А) дисперсий;

б) коэффициентов детерминации;

в) математических ожиданий;

г) средних.

42. Если в тесте Чоу
то считается:

А) что разбиение на подынтервалы целесообразно с точки зрения улучшения качества модели;

б) модель является статистически незначимой;

в) модель является статистически значимой;

г) что нет смысла разбивать выборку на части.

43. Фиктивные переменные являются переменными:

а) качественными;

б) случайными;

В) количественными;

г) логическими.

44. Какой из перечисленных методов не может быть применен для обнаружения автокорреляции?

а) Метод рядов;

б) критерий Дарбина-Уотсона;

в) тест ранговой корреляции Спирмена;

Г) тест Уайта.

45. Простейшая структурная форма модели имеет вид:

А)

б)

в)

г)
.

46. С помощью каких мер возможно избавиться от мультиколлинеарности?

а) Увеличение объема выборки;

б) Исключения переменных высококоррелированных с остальными;

в) Изменение спецификации модели;

г) Преобразование случайной составляющей.

47. Если
и ранг матрицы А равен (К-1) то уравнение:

а) сверхиденцифицировано;

б) неидентифицировано;

В) точно идентифицировано;

48. Модель считается идентифицированной, если:

а) среди уравнений модели есть хотя бы одно нормальное;

Б) каждое уравнение системы идентифицируемо;

в) среди уравнений модели есть хотя бы одно неидентифицированное;

г) среди уравнений модели есть хотя бы одно сверхидентифицированное.

49. Какой метод применяется для оценивания параметров неиденцифицированного уравнения?

а) ДМНК, КМНК;

б) ДМНК, МНК;

В) параметры такого уравнения нельзя оценить.

50. На стыке каких областей знаний возникла эконометрика:

А) экономическая теория; экономическая и математическая статистика;

б) экономическая теория, математическая статистика и теория вероятности;

в) экономическая и математическая статистика, теория вероятности.

51. В множественном линейном уравнении регрессии строятся доверительные интервалы для коэффициентов регрессии с помощью распределения:

а) Нормального;

Б) Стьюдента;

в) Пирсона;

г) Фишера-Снедекора.

52. По 16 наблюдениям построено парное линейное уравнение регрессии. Для проверки значимости коэффициента регрессии вычислено t на6л =2.5.

а) Коэффициент незначим при a=0.05;

б) Коэффициент значим при a=0.05;

в) Коэффициент значим при a=0.01.

53. Известно, что между величинами X и Y существует положительная связь. В каких пределах находится парный коэффициент корреляции?

а) от -1 до 0;

б) от 0 до 1;

В) от –1 до 1.

54. Множественный коэффициент корреляции равен 0.9. Какой процент дисперсии результативного признака объясняется влиянием всех факторных признаков?

55. Какой из перечисленных методов не может быть применен для обнаружения гетероскедастичности ?

А) Тест Голфелда-Квандта;

б) Тест ранговой корреляции Спирмена;

в) метод рядов.

56. Приведенная форма модели представляет собой:

а) систему нелинейных функций экзогенных переменных от эндогенных;

Б) систему линейных функций эндогенных переменных от экзогенных;

в) систему линейных функций экзогенных переменных от эндогенных;

г) систему нормальных уравнений.

57. В каких пределах меняется частный коэффициент корреляции вычисленный по рекуретным формулам?

а) от - до +;

б) от 0 до 1;

в) от 0 до + ;

Г) от –1 до +1.

58. В каких пределах меняется частный коэффициент корреляции вычисленный через коэффициент детерминации?

а) от - до +;

Б) от 0 до 1;

в) от 0 до + ;

г) от –1 до +1.

59. Экзогенные переменные:

а) зависимые переменные;

Б) независимые переменные;

61. При добавлении в уравнение регрессии еще одного объясняющего фактора множественный коэффициент корреляции:

а) уменьшится;

б) возрастет;

в) сохранит свое значение.

62. Построено гиперболическое уравнение регрессии: Y = a + b / X . Для проверки значимости уравнения используется распределение:

а) Нормальное;

Б) Стьюдента;

в) Пирсона;

г) Фишера-Снедекора.

63. Для каких видов систем параметры отдельных эконометрических уравнений могут быть найдены с помощью традиционного метода наименьших квадратов?

а) система нормальных уравнений;

Б) система независимых уравнений;

В) система рекурсивных уравнений;

Г) система взаимозависимых уравнений.

64. Эндогенные переменные:

А) зависимые переменные;

б) независимые переменные;

в) датированные предыдущими моментами времени.

65. В каких пределах меняется коэффициент детерминации?

а) от 0 до +;

б) от -до +;

В) от 0 до +1;

г) от -l до +1.

66. Построено множественное линейное уравнение регрессии. Для проверки значимости отдельных коэффициентов используется распределение:

а) Нормальное;

б) Стьюдента;

в) Пирсона;

Г) Фишера-Снедекора.

67. При добавлении в уравнение регрессии еще одного объясняющего фактора коэффициент детерминации:

а) уменьшится;

Б) возрастет;

в) сохранит свое значение;

г) не уменьшится.

68. Суть метода наименьших квадратов заключается в том, что:

А) оценка определяется из условия минимизации суммы квадратов отклонений выборочных данных от определяемой оценки;

б) оценка определяется из условия минимизации суммы отклонений выборочных данных от определяемой оценки;

в) оценка определяется из условия минимизации суммы квадратов отклонений выборочной средней от выборочной дисперсии.

69. К какому классу нелинейных регрессий относится парабола:

73. К какому классу нелинейных регрессий относится экспоненциальная кривая:

74. К какому классу нелинейных регрессий относится функция вида ŷ
:

А) регрессии, нелинейные относительно включенных в анализ переменных, но линейных по оцениваемым параметрам;

б) нелинейные регрессии по оцениваемым параметрам.

78. К какому классу нелинейных регрессий относится функция вида ŷ
:

а) регрессии, нелинейные относительно включенных в анализ переменных, но линейных по оцениваемым параметрам;

Б) нелинейные регрессии по оцениваемым параметрам.

79. В уравнении регрессии в форме гиперболы ŷ
если величина
b >0 , то:

А) при увеличении факторного признака х значения результативного признака у замедленно уменьшаются, и при х→∞ средняя величина у будет равна а;

б) то значение результативного признака у возрастает с замедленным ростом при увеличении факторного признака х , и при х→∞

81. Коэффициент эластичности определяется по формуле

А) Линейной функции;

б) Параболы;

в) Гиперболы;

г) Показательной кривой;

д) Степенной.

82. Коэффициент эластичности определяется по формуле
для модели регрессии в форме:

а) Линейной функции;

Б) Параболы;

в) Гиперболы;

г) Показательной кривой;

д) Степенной.

86. Уравнение
называется:

А) линейным трендом;

б) параболическим трендом;

в) гиперболическим трендом;

г) экспоненциальным трендом.

89. Уравнение
называется:

а) линейным трендом;

б) параболическим трендом;

в) гиперболическим трендом;

Г) экспоненциальным трендом.

90. Система виды называется:

А) системой независимых уравнений;

б) системой рекурсивных уравнений;

в) системой взаимозависимых (совместных, одновременных) уравнений.

93. Эконометрику можно определить как:

А) это самостоятельная научная дисциплина, объединяющая совокупность теоретических результатов, приемов, методов и моделей, предназначенных для того, чтобы на базе экономической теории, экономической статистики и математико-статистического инструментария придавать конкретное количественное выражение общим (качественным) закономерностям, обусловленным экономической теорией;

Б) наука об экономических измерениях;

В) статистический анализ экономических данных.

94. К задачам эконометрики можно отнести:

А) прогноз экономических и социально-экономических показателей, характеризующих состояние и развитие анализируемой системы;

Б) имитация возможных сценариев социально-экономического развития системы для выявления того, как планируемые изменения тех или иных поддающихся управлению параметров скажутся на выходных характеристиках;

в) проверка гипотез по статистическим данным.

95. По характеру различают связи:

А) функциональные и корреляционные;

б) функциональные, криволинейные и прямолинейные;

в) корреляционные и обратные;

г) статистические и прямые.

96. При прямой связи с увеличением факторного признака:

а) результативный признак уменьшается;

б) результативный признак не изменяется;

В) результативный признак увеличивается.

97. Какие методы используются для выявления наличия, характера и направления связи в статистике?

а) средних величин;

Б) сравнения параллельных рядов;

В) метод аналитической группировки;

г) относительных величин;

Д) графический метод.

98. Какой метод используется для выявления формы воздействия одних факторов на другие?

а) корреляционный анализ;

Б) регрессионный анализ;

в) индексный анализ;

г) дисперсионный анализ.

99. Какой метод используется для количественной оценки силы воздействия одних факторов на другие:

А) корреляционный анализ;

б) регрессионный анализ;

в) метод средних величин;

г) дисперсионный анализ.

100. Какие показатели по своей величине существуют в пределах от минус до плюс единицы:

а) коэффициент детерминации;

б) корреляционной отношение;

В) линейный коэффициент корреляции.

101. Коэффициент регрессии при однофакторной модели показывает:

А) на сколько единиц изменяется функция при изменении аргумента на одну единицу;

б) на сколько процентов изменяется функция на одну единицу изменения аргумента.

102. Коэффициент эластичности показывает:

а) на сколько процентов изменяется функция с изменением аргумента на одну единицу своего измерения;

Б) на сколько процентов изменяется функция с изменением аргумента на 1%;

в) на сколько единиц своего измерения изменяется функция с изменением аргумента на 1%.

105. Величина индекса корреляции, равная 0,087, свидетельствует:

А) о слабой их зависимости;

б) о сильной взаимосвязи;

в) об ошибках в вычислениях.

107. Величина парного коэффициента корреляции, равная 1,12, свидетельствует:

а) о слабой их зависимости;

б) о сильной взаимосвязи;

В) об ошибках в вычислениях.

109. Какие из приведенных чисел могут быть значениями парного коэффициента корреляции:

111. Какие из приведенных чисел могут быть значениями множественного коэффициента корреляции:

115. Отметьте правильную форму линейного уравнения регрессии:

а) ŷ
;

б) ŷ
;

в) ŷ
;

Г) ŷ
.

Оценив параметры a и b , мы получили уравнение регрессии, по которому можно оценить значения y по заданным значениям x . Естественно полагать, что расчетные значения зависимой переменной не будут совпадать с действительными значениями, так как линия регрессии описывает взаимосвязь лишь в среднем, в общем. Отдельные значения рассеяны вокруг нее. Таким образом, надежность получаемых по уравнению регрессии расчетных значений во многом определяется рассеянием наблюдаемых значений вокруг линии регрессии. На практике, как правило, дисперсия ошибок неизвестна и оценивается по наблюдениям одновременно с параметрами регрессии a и b . Вполне логично предположить, что оценка связана с суммой квадратов остатков регрессии. Величина является выборочной оценкой дисперсии возмущений , содержащихся в теоретической модели . Можно показать, что для модели парной регрессии

где - отклонение фактического значения зависимой переменной от ее расчетного значения.

Если , то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, построенная по функции ) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак у полностью обусловлен влиянием фактора х.

Обычно на практике имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонения эмпирических данных от теоретических . Этот разброс обусловлен как влиянием фактора х , т.е. регрессией y по х , (такую дисперсию называют объясненной, так как она объясняется уравнением регрессии),так и действием прочих причин (необъясненная вариация, случайная). Величина этих отклонений и лежит в основе расчета показателей качества уравнения.

Согласно основному положению дисперсионного анализа общая сумма квадратов отклонений зависимой переменной y от среднего значения может быть разложена на две составляющие: объясненную уравнением регрессии и необъясненную:

,

где - значения y , вычисленные по уравнению .

Найдем отношение суммы квадратов отклонений, объясненной уравнением регрессии, к общей сумме квадратов:

, откуда

. (7.6)

Отношение части дисперсии, объясненной уравнением регрессии к общей дисперсии результативного признака называется коэффициентом детерминации . Значение не может превзойти единицы и это максимальное значение будет только достигнуто при , т.е. когда каждое отклонение равно нулю и поэтому все точки диаграммы рассеяния в точности лежат на прямой.

Коэффициент детерминации характеризует долю объясненной регрессией дисперсии в общей величине дисперсии зависимой переменной. Соответственно величина характеризует долю вариации (дисперсии) у, необъясненную уравнением регрессии, а значит, вызванную влиянием прочих неучтенных в модели факторов. Чем ближе к единице, тем выше качество модели.



При парной линейной регрессии коэффициент детерминации равен квадрату парного линейного коэффициента корреляции: .

Корень из этого коэффициента детерминации есть коэффициент (индекс) множественной корреляции, или теоретическое корреляционное отношение.

Для того чтобы узнать, действительно ли полученное при оценке регрессии значение коэффициента детерминации отражает истинную зависимость между y и x выполняют проверку значимости построенного уравнения в целом и отдельных параметров. Проверка значимости уравнения регрессии позволяет узнать, пригодно уравнение регрессии для практического использования, например, для прогноза или нет.

При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю параметров регрессии, или, что то же самое, о равенстве нулю коэффициента детерминации: . Альтернативная гипотеза о значимости уравнения - гипотеза о неравенстве нулю параметров регрессии или о неравенстве нулю коэффициента детерминации: .

Для проверки значимости модели регрессии используют F- критерий Фишера, вычисляемый как отношение суммы квадратов (в расчете на одну независимую переменную) к остаточной сумме квадратов (в расчете на одну степень свободы):

, (7.7)

где k – число независимых переменных.

После деления числителя и знаменателя соотношения (7.7) на общую сумму квадратов отклонений зависимой переменной, F- критерий может быть эквивалентно выражен на основе коэффициента :

.

Если нулевая гипотеза справедлива, то объясненная уравнением регрессии и необъясненная (остаточная) дисперсии не отличаются друг от друга.

Расчетное значение F- критерий сравнивается с критическим значением, которое зависит от числа независимых переменных k , и от числа степеней свободы (n-k-1) . Табличное (критическое) значение F- критерия – это максимальная величина отношений дисперсий, которое может иметь место при случайном расхождении их для заданного уровня вероятности наличия нулевой гипотезы. Если расчетное значение F- критерий больше табличного при заданном уровне значимости, то нулевая гипотеза об отсутствии связи отклоняется и делается вывод о существенности этой связи, т.е. модель считается значимой.

Для модели парной регрессии

.

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его коэффициентов. Для этого определяется стандартная ошибка каждого из параметров. Стандартные ошибки коэффициентов регрессии параметров определяются по формулам:

, (7.8)

(7.9)

Стандартные ошибки коэффициентов регрессии или среднеквадратические отклонения, рассчитанные по формулам (7.8,7.9), как правило, приводятся в результатах расчета модели регрессии в статистических пакетах.

Опираясь на среднеквадратические ошибки коэффициентов регрессии, проверяют значимость этих коэффициентов используя обычную схему проверки статистических гипотез.

В качестве основной гипотезы выдвигают гипотезу о незначимом отличии от нуля «истинного» коэффициента регрессии. Альтернативной гипотезой при этом является гипотеза обратная, т. е. о неравенстве нулю «истинного» параметра регрессии. Проверка этой гипотезы осуществляется с помощью t- статистики, имеющей t -распределение Стьюдента:

Затем расчетные значения t- статистики сравниваются с критическими значениями t- статистики, определяемыми по таблицам распределения Стьюдента. Критическое значение определяется в зависимости от уровня значимости α и числа степеней свободы, которое равно (n-k-1), п - число наблюдений, k - число независимых переменных. В случае линейной парной регрессии число степеней свободы равно (п- 2). Критическое значение также может быть вычислено на компьютере с помощью встроенной функции СТЬЮДРАСПОБР пакета Ехсеl.

Если расчетное значение t- статистики больше критического, то основную гипотезу отвергают и считают, что с вероятностью (1-α) «истинный» коэффициент регрессии значимо отличается от нуля, что является статистическим подтверждением существования линейной зависимости соответствующих переменных.

Если расчетное значение t- статистики меньше критического, то нет оснований отвергать основную гипотезу, т. е. «истинный» коэффициент регрессии незначимо отличается от нуля при уровне значимости α . В этом случае фактор, соответствующий этому коэффициенту должен быть исключен из модели.

Значимость коэффициента регрессии можно установить методом построения доверительного интервала. Доверительный интервал для параметров регрессии a и b определяют следующим образом:

,

,

где определяется по таблице распределения Стьюдента для уровня значимости α и числа степеней свободы (п- 2) для парной регрессии.

Поскольку коэффициенты регрессии в эконометрических исследованиях имеют четкую экономическую интерпретацию, доверительные интервалы не должны содержать нуль. Истинное значение коэффициента регрессии не может одновременно содержать положительные и отрицательные величины, в том числе и нуль, иначе мы получаем противоречивые результаты при экономической интерпретации коэффициентов, чего не может быть. Таким образом, коэффициент значим, если полученный доверительный интервал не накрывает нуль.

Пример 7.4. По данным примера 7.1:

а) Построить парную линейную модель регрессии зависимости прибыли от реализации от отпускной цены с использованием программных средств обработки данных.

б) Оценить значимость уравнения регрессии в целом, используя F- критерий Фишера при α=0,05.

в) Оценить значимость коэффициентов модели регрессии, используя t -критерий Стьюдента при α=0,05 и α=0,1.

Для проведения регрессионного анализа используем стандартную офисную программу EXCEL. Построение регрессионной модели проведем с помощью инструмента РЕГРЕССИЯ настройки ПАКЕТ АНАЛИЗА (рис.7.5), запуск которого осуществляется следующим образом:

СервисАнализ данныхРЕГРЕССИЯОК.

Рис.7.5. Использование инструмента РЕГРЕССИЯ

В диалоговом окне РЕГРЕССИЯ в поле Входной интервал Y необходимо ввести адрес диапазона ячеек, содержащих зависимую переменную. В поле Входной интервал Х нужно ввести адреса одного или нескольких диапазонов, содержащих значения независимых переменных Флажок Метки в первой строке – устанавливается в активное состояние, если выделены и заголовки столбцов. На рис. 7.6. показана экранная форма вычисления модели регрессии с помощью инструмента РЕГРЕССИЯ.

Рис. 7.6. Построение модели парной регрессии с помощью

инструмента РЕГРЕССИЯ

В результате работы инструмента РЕГРЕСИЯ формируется следующий протокол регрессионного анализа (рис.7.7).

Рис. 7.7. Протокол регрессионного анализа

Уравнение зависимости прибыли от реализации от отпускной цены имеет вид:

Оценку значимости уравнения регрессии проведем используя F- критерий Фишера. Значение F- критерий Фишера возьмем из таблицы «Дисперсионный анализ» протокола EXCEL (рис. 7.7.). Расчетное значение F- критерия 53,372. Табличное значение F- критерия при уровне значимости α=0,05 и числе степеней свободы составляет 4,964. Так как , то уравнение считается значимым.

Расчетные значения t -критерия Стьюдента для коэффициентов уравнения регрессии приведены в результативной таблице (рис. 7.7). Табличное значение t -критерия Стьюдента при уровне значимости α=0,05 и 10 степенях свободы составляет 2,228. Для коэффициента регрессии a , следовательно коэффициент a не значим. Для коэффициента регрессии b , следовательно, коэффициент b значим.

После того как уравнение регрессии построено и с помощью коэффициента детерминации оценена его точность, остается открытым вопрос за счет чего достигнута эта точность и соответственно можно ли этому уравнению доверять. Дело в том, что уравнение регрессии строилось не по генеральной совокупности, которая неизвестна, а по выборке из нее. Точки из генеральной совокупности попадают в выборку случайным образом, по этому в соответствии с теорией вероятности среди прочих случаев возможен вариант, когда выборка из “широкой” генеральной совокупности окажется “узкой” (рис. 15).

Рис. 15. Возможный вариант попадания точек в выборку из генеральной совокупности.

В этом случае:

а) уравнение регрессии, построенное по выборке, может значительно отличаться от уравнения регрессии для генеральной совокупности, что приведет к ошибкам прогноза;

б) коэффициент детерминации и другие характеристики точности окажутся неоправданно высокими и будут вводить в заблуждение о прогнозных качествах уравнения.

В предельном случае не исключен вариант, когда из генеральной совокупности представляющей собой облако с главной осью параллельной горизонтальной оси (отсутствует связь между переменными) за счет случайного отбора будет получена выборка, главная ось которой окажется наклоненной к оси. Таким образом, попытки прогнозировать очередные значения генеральной совокупности опираясь на данные выборки из нее чреваты не только ошибками в оценке силы и направления связи между зависимой и независимой переменными, но и опасностью найти связь между переменными там, где на самом деле ее нет.

В условиях отсутствия информации обо всех точках генеральной совокупности единственный способ уменьшить ошибки в первом случае заключается в использовании при оценке коэффициентов уравнения регрессии метода, обеспечивающего их несмещенность и эффективность. А вероятность наступления второго случая может быть значительно снижена благодаря тому, что априори известно одно свойство генеральной совокупности с двумя независимыми друг от друга переменными – в ней отсутствует именно эта связь. Достигается это снижение за счет проверки статистической значимости полученного уравнения регрессии.

Один из наиболее часто используемых вариантов проверки заключается в следующем. Для полученного уравнения регрессии определяется
-статистика
- характеристика точности уравнения регрессии, представляющая собой отношение той части дисперсии зависимой переменной которая объяснена уравнением регрессии к необъясненной (остаточной) части дисперсии. Уравнение для определения
-статистики в случае многомерной регрессии имеет вид:

где:
- объясненная дисперсия - часть дисперсии зависимой переменнойYкоторая объяснена уравнением регрессии;

-остаточная дисперсия - часть дисперсии зависимой переменнойYкоторая не объяснена уравнением регрессии, ее наличие является следствием действия случайной составляющей;

- число точек в выборке;

- число переменных в уравнении регрессии.

Как видно из приведенной формулы, дисперсии определяются как частное от деления соответствующей суммы квадратов на число степеней свободы. Число степеней свободы это минимально необходимое число значений зависимой переменной, которых достаточно для получения искомой характеристики выборки и которые могут свободно варьироваться с учетом того, что для этой выборки известны все другие величины, используемые для расчета искомой характеристики.

Для получения остаточной дисперсии необходимы коэффициенты уравнения регрессии. В случае парной линейной регрессии коэффициентов два, по этому в соответствии с формулой (принимая
) число степеней свободы равно
. Имеется в виду, что для определения остаточной дисперсии достаточно знать коэффициенты уравнения регрессии и только
значений зависимой переменной из выборки. Оставшиеся два значения могут быть вычислены на основании этих данных, а значит, не являются свободно варьируемыми.

Для вычисления объясненной дисперсии значений зависимой переменной вообще не требуются, так как ее можно вычислить, зная коэффициенты регрессии при независимых переменных и дисперсию независимой переменной. Для того чтобы убедиться в этом, достаточно вспомнить приводившееся ранее выражение
. По этому число степеней свободы для остаточной дисперсии равно числу независимых переменных в уравнении регрессии (для парной линейной регрессии
).

В результате
-критерий для уравнения парной линейной регрессии определяется по формуле:

.

В теории вероятности доказано, что
-критерий уравнения регрессии, полученного для выборки из генеральной совокупности у которой отсутствует связь между зависимой и независимой переменной имеет распределение Фишера, достаточно хорошо изученное. Благодаря этому для любого значения
-критерия можно рассчитать вероятность его появления и наоборот, определить то значение
-критерия которое он не сможет превысить с заданной вероятностью.

Для осуществления статистической проверки значимости уравнения регрессии формулируется нулевая гипотеза об отсутствии связи между переменными (все коэффициенты при переменных равны нулю) и выбирается уровень значимости.

Уровень значимости – это допустимая вероятность совершитьошибку первого рода – отвергнуть в результате проверки верную нулевую гипотезу. В рассматриваемом случае совершить ошибку первого рода означает признать по выборке наличие связи между переменными в генеральной совокупности, когда на самом деле ее там нет.

Обычно уровень значимости принимается равным 5% или 1%. Чем выше уровень значимости (чем меньше
), тем вышеуровень надежности теста, равный
, т.е. тем больше шанс избежать ошибки признания по выборке наличия связи у генеральной совокупности на самом деле несвязанных между собой переменных. Но с ростом уровня значимости возрастает опасность совершенияошибки второго рода – отвергнуть верную нулевую гипотезу, т.е. не заметить по выборке имеющуюся на самом деле связь переменных в генеральной совокупности. По этому, в зависимости от того, какая ошибка имеет большие негативные последствия, выбирают тот или иной уровень значимости.

Для выбранного уровня значимости по распределению Фишера определяется табличное значение
вероятность превышения, которого в выборке мощностью, полученной из генеральной совокупности без связи между переменными, не превышает уровня значимости.
сравнивается с фактическим значением критерия для регрессионного уравнения.

Если выполняется условие
, то ошибочное обнаружение связи со значением
-критерия равным или большимпо выборке из генеральной совокупности с несвязанными между собой переменными будет происходить с вероятностью меньшей чем уровень значимости. В соответствии с правилом “очень редких событий не бывает”, приходим к выводу, что установленная по выборке связь между переменными имеется и в генеральной совокупности, из которой она получена.

Если же оказывается
, то уравнение регрессии статистически не значимо. Иными словами существует реальная вероятность того, что по выборке установлена не существующая в реальности связь между переменными. К уравнению, не выдержавшему проверку на статистическую значимость, относятся так же, как и к лекарству с истекшим сроком годнос- ти – такие лекарства не обязательно испорчены, но раз нет уверенности в их качестве, то их предпочитают не использовать. Это правило не уберегает от всех ошибок, но позволяет избежать наиболее грубых, что тоже достаточно важно.

Второй вариант проверки, более удобный в случае использования электронных таблиц, это сопоставление вероятности появления полученного значения
-критерия с уровнем значимости. Если эта вероятность оказывается ниже уровня значимости
, значит уравнение статистически значимо, в противном случае нет.

После того как выполнена проверка статистической значимости регрессионного уравнения в целом полезно, особенно для многомерных зависимостей осуществить проверку на статистическую значимость полученных коэффициентов регрессии. Идеология проверки такая же как и при проверке уравнения в целом но в качестве критерия используется -критерий Стьюдента , определяемый по формулам:

и

где: , - значения критерия Стьюдента для коэффициентовисоответственно;

- остаточная дисперсия уравнения регрессии;

- число точек в выборке;

- число переменных в выборке, для парной линейной регрессии
.

Полученные фактические значения критерия Стьюдента сравниваются с табличными значениями
, полученными из распределения Стьюдента. Если оказывается, что
, то соответствующий коэффициент статистически значим, в противном случае нет. Второй вариант проверки статистической значимости коэффициентов – определить вероятность появления критерия Стьюдента
и сравнить с уровнем значимости
.

Для переменных, чьи коэффициенты оказались статистически не значимы, велика вероятность того, что их влияние на зависимую переменную в генеральной совокупности вообще отсутствует. По этому или необходимо увеличить число точек в выборке, тогда возможно коэффициент станет статистически значимым и заодно уточнится его значение, или в качестве независимых переменных найти другие, более тесно связанные с зависимой переменной. Точность прогнозирования при этом в обоих случаях возрастет.

В качестве экспрессного метода оценки значимости коэффициентов уравнения регрессии можно применять следующее правило – если критерий Стьюдента больше 3, то такой коэффициент, как правило, оказывается статистически значим. А вообще считается, что для получения статистически значимых уравнений регрессии необходимо, чтобы выполнялось условие
.

Стандартная ошибка прогнозирования по полученному уравнению регрессии неизвестного значения
при известном
оценивают по формуле:

Таким образом прогноз с доверительной вероятностью 68% может быть представлен в виде:

В случае если требуется иная доверительная вероятность
, то для уровня значимости
необходимо найти критерий Стьюдента
идоверительный интервал для прогноза с уровнем надежности
будет равен
.

Прогнозирование многомерных и нелинейных зависимостей

В случае если прогнозируемая величина зависит от нескольких независимых переменных, то в этом случае имеется многомерная регрессия вида:

где:
- коэффициенты регрессии, описывающие влияние переменных
на прогнозируемую величину.

Методика определения коэффициентов регрессии не отличается от парной линейной регрессии, особенно при использовании электронной таблицы, так как там применяется одна и та же функция и для парной и для многомерной линейной регрессии. При этом желательно чтобы между независимыми переменными отсутствовали взаимосвязи, т.е. изменение одной переменной не сказывалось на значениях других переменных. Но это требование не является обязательным, важно чтобы между переменными отсутствовали функциональные линейные зависимости. Описанные выше процедуры проверки статистической значимости полученного уравнения регрессии и его отдельных коэффициентов, оценка точности прогнозирования остается такой же как и для случая парной линейной регрессии. В тоже время применение многомерных регрессий вместо парной обычно позволяет при надлежащем выборе переменных существенно повысить точность описания поведения зависимой переменной, а значит и точность прогнозирования.

Кроме этого уравнения многомерной линейной регрессии позволяют описать и нелинейную зависимость прогнозируемой величины от независимых переменных. Процедура приведения нелинейного уравнения к линейному виду называется линеаризацией . В частности если эта зависимость описывается полиномом степени отличной от 1, то, осуществив замену переменных со степенями отличными от единицы на новые переменные в первой степени, получаем задачу многомерной линейной регрессии вместо нелинейной. Так, например если влияние независимой переменной описывается параболой вида

то замена
позволяет преобразовать нелинейную задачу к многомерной линейной вида

Так же легко могут быть преобразованы нелинейные задачи у которых нелинейность возникает вследствие того, что прогнозируемая величина зависит от произведения независимых переменных. Для учета такого влияния необходимо ввести новую переменную равную этому произведению.

В тех случаях, когда нелинейность описывается более сложными зависимостями, линеаризация возможна за счет преобразования координат. Для этого рассчитываются значения
и строятся графики зависимости исходных точек в различных комбинациях преобразованных переменных. Та комбинация преобразованных координат или преобразованных и не преобразованных координат, в которой зависимость ближе всего к прямой линии подсказывает замену переменных которая приведет к преобразованию нелинейной зависимости к линейному виду. Например, нелинейная зависимость вида

превращается в линейную вида

где:
,
и
.

Полученные коэффициенты регрессии для преобразованного уравнения остаются несмещенными и эффективными, но проверка статистической значимости уравнения и коэффициентов невозможна

Проверка обоснованности применения метода наименьших квадратов

Применение метода наименьших квадратов обеспечивает эффективность и несмещенность оценок коэффициентов уравнения регрессии при соблюдении следующих условий (условий Гауса -Маркова ):

1.

2.

3. значения не зависят друг от друга

4. значения не зависят от независимых переменных

Наиболее просто можно проверить соблюдение этих условий путем построения графиков остатков
в зависимости от, затем от независимой (независимых) переменных. Если точки на этих графиках расположены в коридоре расположенном симметрично оси абсцисс и в расположении точек не просматриваются закономерности, то условия Гауса-Маркова выполнены и возможности повысить точность уравнения регрессии отсутствуют. Если это не так, то существует возможность существенно повысить точность уравнения и для этого необходимо обратиться к специальной литературе.

В социально-экономических исследованиях часто приходится работать в условиях ограниченной совокупности, либо с выборочными данными. Поэтому после математических параметров уравнение регрессии необходимо оценить их и уравнение в целом на статистическую значимость, т.е. необходимо убедиться, что полученное уравнение и его параметры сформированы под влиянием неслучайных факторов.

Прежде всего, оценивается статистическая значимость уравнения в целом. Оценка, как правило, проводится с использованием F-критерия Фишера. Расчет F-критерия базируется на правиле сложения дисперсий. А именно, общего дисперсионного признака-результата = дисперсия факторная + дисперсия остаточная.

Фактическая цена

Теоретическая цена
Построив уравнение регрессии можно рассчитать теоретическое значение признака-результата, т.е. рассчитанные по уравнению регрессии с учетом его параметров.

Эти значения будут характеризовать признак-результат, сформировавшийся под влиянием факторов включенных в анализ.

Между фактическими значениями признака-результата и рассчитанными на основе уравнения регрессии всегда существуют расхождения (остатки), обусловленные влиянием прочих факторов, не включенных в анализ.

Разность между теоретическими и фактическими значениями признака-результата называется остатками. Общая вариация признака-результата:

Вариация по признаку-результату, обусловленная вариацией признаков факторов, включенных в анализ оценивается через сопоставления теоретических значений резул. признака и его средних значений. Остаточная вариация через сопоставление теоретических и фактических значений результатирующего признака. Общая дисперсия , остаточная и фактическая имеют разное число степеней свободы.

Общая , п - число единиц в изучаемой совокупности

Фактическая , п - число факторов, включенных в анализ

Остаточная

F-критерий Фишера рассчитывается как отношение к , причем рассчитаны на одну степень свободы.

Использование F-критерия Фишера в качестве оценки статистической значимости уравнения регрессии очень логично. - это результат. признака, обусловленная факторами включенными в анализ, т.е. это доля объясненной результат. признака. - это (вариация) признака результата обусловленная факторами влияние которых не учитывается, т.е. не включенными в анализ.

Т.о. F-критерий призван оценить значимое превышение над . Если несущественно ниже , а тем более, если оно превышает , следовательно, в анализ включены не те факторы, которые действительно влияют на признак-результат.

F-критерий Фишера табулирован, фактическое значение сравнивается с табличным. Если , то уравнение регрессии признается статистически значимым. Если наоборот – уравнение статистически не значимо и не может использоваться на практике, значимость уравнения в целом говорит о статистической значимости показателей корелляции.

После оценки уравнения в целом необходимо оценить статистическую значимость параметров уравнения. Эта оценка осуществляется с использованием t-статистики Стьюдента. t-статистика рассчитывается как отношение параметров уравнения (по модулю) к их стандартной средней квадратической ошибке. Если оценивается однофакторная модель, то рассчитывается 2 статистики.

Во всех компьютерных программах расчет стандартной ошибки и t-статистики для параметров проводится с расчетом самих параметров. T-статистика табулирована. Если значение , то параметр признается статистически значимым, т.е. сформированным под влиянием неслучайных факторов.

Расчет t-статистики по существу означает проверку нулевой гипотезы о незначимости параметра, т.е. равенстве его нулю. При однофакторной модели оценивается 2 гипотезы: и

Уровень значимости принятия нулевой гипотезы зависит от уровня принятой доверительной вероятности. Так если исследователь задает уровень вероятности 95%, уровень значимости принятия будет рассчитываться , следовательно, если уровень значимости ≥ 0,05, то принимается и параметры считаются статистически незначимыми. Если , то отвергается и принимается альтернатива: и .

В пакетах прикладных программ по статистике также приводится уровень значимости принятия нулевых гипотез. Оценка значимости уравнения регрессии и его параметров может дать следующие результаты:

Во-первых, уравнение в целом значимо(по F-критерию) и также статистически значимы все параметры уравнения. Это означает, что полученное уравнение может быть использовано как для принятия управленческих решений, так и для прогнозирования.

Во-вторых, по F-критерию уравнение статистически значимо, но не значим хотя бы один из параметров уравнения. Уравнение может быть использовано для принятия управленческих решений относительно анализируемых факторов, но не может быть использовано для прогнозирования.

В-третьих, уравнение статистически не значимо, либо по F- критерию уравнение значимо, но не значимы все параметры полученного уравнения. Уравнение не может быть использовано не для каких целей.

Чтобы уравнение регрессии можно было признать моделью связи между признаком-результатом и признаками-факторами необходимо чтобы в него были включены все важнейшие факторы, определяющие результат, чтобы содержательная интерпретация параметров уравнения соответствовала теоретически обоснованным связям в изучаемом явлении. Коэффициент детерминации R 2 должен быть > 0,5.

При построении множественного уравнения регрессии целесообразно осуществить оценку по так называемому скорректированному коэффициенту детерминации (R 2). Величина R 2 (как и корелляции) возрастает при увеличение числа факторов включенных в анализ. Особенно завышается значение коэф-в в условиях небольших совокупностей. С целью погасить отрицательное влияние R 2 и корелляции корректируют с учетом числа степеней свободы, т.е. числа свободно варьирующих элементов при включении определенных факторов.

Скорректированный коэф-т детерминации

п –объем совокупности/число наблюдений

k – число факторов включенных в анализ

п-1 – число степеней свободы

(1-R 2) - величина остатка/ необъясненной дисперсии результативного признака

Всегда меньше R 2 . на основе можно сравнивать оценки уравнений с разным числом анализируемых факторов.

34. Задачи изучения динамических рядов.

Ряды динамики называют временными рядами или динамическими рядами. Динамический ряд – это упорядоченная во времени последовательность показателей, характеризующих то или иное явление (объем ВВП с 90 по 98 гг). Целью изучения рядов динамики является выявление закономерности развития изучаемого явления (основной тенденции) и прогнозирование на этой основе. Из определения РД следует, что любой ряд состоит из двух элементов: время t и уровень ряда (те конкретные значения показателя, на основе которого построен ДРяд). ДРяды могут быть 1)моментными – ряды, показатели которых фиксируются на момент времени, на определенную дату, 2)интервальными – ряды, показатели которого получают за какой-то период времени (1.численность населения СПб, 2.объем ВВП за период). Разделение рядов на моментные и интервальные необходимо, поскольку это определяет специфику расчета некоторых показателей ДРядов. Суммирование уровней интервальных рядов дает содержательно интерпретируемый результат, что нельзя сказать о суммировании уровней моментных рядов, поскольку последние содержат повторный счет. Важнейшей проблемой в анализе рядов динамики является проблема сопоставимости уровней ряда. Это понятие очень разноплановое. Уровни должны быть сопоставимы по методам расчета и по территории и охвату единиц совокупности. Если ДРяд строится в стоимостных показателях, то все уровни должны быть представлены или рассчитаны в сопоставимых ценах. При построении интервальных рядов уровни должны характеризовать одинаковые отрезки времени. При построении моментных РядовД уровни должны фиксироваться на одну и ту же дату. ДРяды могут быть полными и неполными. Неполные ряды используются в официальных изданиях (1980,1985,1990,1995,1996,1997,1998,1999…). Комплексный анализ РД включает изучение следующих моментов:

1. расчет показателей изменения уровней РД

2. расчет средних показателей РД

3. выявление основной тенденции ряда, построение трендовых моделей

4. оценка автокорреляции в РД, построение авторегрессионных моделей

5. корреляция РД (изучение связей м/у ДРядами)

6. прогнозирование РД.

35. Показателей изменения уровней временных рядов .

В общем виде РядД может быть представлен:

у – уровень ДР, t – момент или период времени к которому относится уровень (показатель), n – длина ДРяда (число периодов). при изучении ряда динамики рассчитывают следующие показатели: 1. абсолютный прирост, 2. коэффициент роста (темп роста), 3. ускорение, 4. коэффициент прироста (темп прироста), 5. абсолютное значение 1 % прироста. Рассчитываемые показатели могут быть: 1. цепные – получают путем сопоставления каждого уровня ряда с непосредственно предшествующим, 2. базисные – получают путем сопоставления с уровнем, выбранным за базу сравнения (если специально не оговаривается, за базу берется 1ый уровень ряда). 1. Цепные абсолютные приросты: . Показывает на сколько больше или меньше . Цепные абсолютные приросты называют показателями скорости изменения уровней динамического ряда. Базисный абсолютный прирост : . Если уровни ряда представляют собой относительные показатели, выраженные в %-ах, то абсолютный прирост выражается в пунктах изменения. 2. коэффициент роста (темпы роста): Рассчитывается как отношение уровней ряда к непосредственно предшествующим (цепные коэффициенты роста), либо к уровню, принятому за базу сравнения (базисные коэффициенты роста): . Характеризует во сколько раз каждый уровень ряда > или < предшествующего или базисного. На основе коэффициентов роста рассчитываются темпы роста. Это коэффициенты роста, выраженные в %ах: 3. на основе абсолютных приростов рассчитывают показатель – ускорение абсолютных приростов : . Ускорение – абсолютный прирост абсолютных приростов. Оценивает как изменяются сами приросты, они стабильны или принимают ускорение (возрастают). 4. темп прироста – это отношение прироста к базе сравнения. Выражается в %-ах: ; . Темп прироста – это темп роста минус 100%. Показывает на сколько % данный уровень ряда > или < предшествующего либо базисного. 5. абсолютное значение 1% прироста. Рассчитывается как отношение абсолютного прироста к темпу прироста, т.е.: - сотая доля предыдущего уровня. Все эти показатели рассчитываются для оценки степени изменения уровней ряда. Цепные коэффициенты и темпы роста называются показателями интенсивности изменения уровней ДРядов.

2. Расчет средних показателей РД Рассчитывают средние уровни рядов, средние абсолютные приросты, средние темпы роста и средние темпы прироста. Средние показатели рассчитываются с целью обобщения информации и возможности сравнивать уровни и показатели их изменения по различным рядам. 1. средний уровень ряда а) для интервальных временных рядов рассчитывается по средней арифметической простой: , где n – число уровней во временном ряду; б) для моментных рядов средний уровень рассчитывается по специфической формуле, которая называется средней хронологической: . 2. средний абсолютный прирост рассчитывается на основе цепных абсолютных приростов по средней арифметической простой:

. 3. Средний коэффициент роста рассчитывается на основе цепных коэффициентов роста по формуле средней геометрической: . При комментарии средних показателей ДРядов необходимо указывать 2 момента: период, который характеризует анализируемый показатель и временной интервал, за который построен ДРяд. 4. Средний темп роста : . 5. средний темп прироста : .

ТЕМА 4. СТАТИСТИЧЕСКИЕ МЕТОДЫ ИЗУЧЕНИЯ СВЯЗЕЙ

Уравнение регрессии - этоаналитическое представление корреляционной зависимости. Уравнение регрессии описывает гипотетическую функциональную зависимость между условным средним значением результативного признака и значением признака – фактора (факторов), т.е. основную тенденцию зависимости.

Парная корреляционная зависимость описывается уравнением парной регрессии, множественная корреляционная зависимость – уравнением множественной регрессии.

Признак-результат в уравнении регрессии – это зависимая переменная (отклик, объясняемая переменная), а признак-фактор – независимая переменная (аргумент, объясняющая переменная).

Простейшим видом уравнения регрессии является уравнение парной линейной зависимости:

где y – зависимая переменная (признак-результат); x – независимая переменная (признак-фактор); и – параметры уравнения регрессии; - ошибка оценивания.

В качестве уравнения регрессии могут быть использованы различные математические функции. Частое практическое применение находят уравнения линейной зависимости, параболы, гиперболы, степной функции и др.

Как правило, анализ начинается с оценки линейной зависимости, поскольку результаты легко поддаются содержательной интерпретации. Выбор типа уравнения связи – достаточно ответственный этап анализа. В «докомпьютерную» эпоху эта процедура была сопряжена с определенными сложностями и требовала от аналитика знания свойств математических функций. В настоящее время на базе специализированных программ можно оперативно построить множество уравнений связи и на основе формальных критериев осуществить выбор лучшей модели (однако математическая грамотность аналитика не утратила своей актуальности).

Гипотезу о типе корреляционной зависимости можно выдвинуть по результатам построения поля корреляции (см. лекцию 6). Исходя из характера расположения точек на графике (координаты точек соответствуют значениям зависимой и независимой переменных), выявляется тенденция связи между признаками (показателями). Если линия регрессии проходит через все точки поля корреляции, то эта свидетельствует о функциональной связи. В практике социально-экономических исследований такую картину наблюдать не приходится, поскольку присутствует статистическая (корреляционная) зависимость. В условиях корреляционной зависимости при нанесении линии регрессии на диаграмму рассеивания наблюдается отклонение точек поля корреляции от линии регрессии, что демонстрирует, так называемые, остатки или ошибки оценивания (см. рисунок 7.1).

Наличие ошибки уравнения связано с тем, что:

§ не все факторы, влияющие на результат, учитываются в уравнении регрессии;

§ может быть неверно выбранаформа связи - уравнение регрессии;

§ не все факторы включены в уравнение.

Построить уравнение регрессии – означает рассчитать значения его параметров. Уравнение регрессии строится на основе фактических значений анализируемых признаков. Расчет параметров, как правило, выполняется с использованием метода наименьших квадратов (МНК).

Суть МНК состоит в том, что удается получить такие значения параметров уравнения, при которых минимизируется сумма квадратов отклонений теоретических значений признака-результата (рассчитанных на основе уравнения регрессии), от фактических его значений:

,

где - фактическое значение признака-результата у i-й единицы совокупности; - значение признака-результата у i-й единицы совокупности, полученное по уравнению регрессии ().

Т.о., решается задача на экстремум, то есть необходимо найти, при каких значениях параметров, функция S достигает минимума.

Проводя дифференцирование, приравнивая частные производные нулю:



, (7.3)

, (7.4)

где - среднее произведение значений фактора и результата; - среднее значение признака - фактора; - среднее значение признака -результата; - дисперсия признака-фактора.

Параметр в уравнении регрессии характеризует угол наклона линии регрессии на графике. Этот параметр называют коэффициентом регрессии и его величина характеризует, на сколько единиц своего измерения изменится признак-результат при изменении признака-фактора на единицу своего измерения. Знак при коэффициенте регрессии отражает направленность зависимости (прямая или обратная) и совпадает со знаком коэффициента корреляции (в условиях парной зависимости).

В рамках рассматриваемого примера, в программе STATISTICA рассчитаны параметры уравнения регрессии, описывающего зависимость между уровнем среднедушевых денежных доходов населения и величиной валового регионального продукта на душу населения в регионах России, см. таблицу 7.1.

Таблица 7.1 - Расчет и оценка параметров уравнения, описывающего зависимостьмежду уровнем среднедушевых денежных доходов населения и величиной валового регионального продукта на душу населения в регионах России, 2013 г.

В графе "В" таблицы содержатся значения параметров уравнения парной регрессии, следовательно, можно записать: = 13406,89 + 22,82 x.Данное уравнение описывает тенденцию связи между анализируемыми характеристиками. Параметр - это коэффициент регрессии. В данном случае он равен 22,82 и характеризует следующее: при увеличении ВРП на душу населения на 1 тыс.рублей среднедушевые денежные доходы в среднем возрастают (на что указывает знак "+") на 22,28 руб.

Параметр уравнения регрессии в социально-экономических исследованиях, как правило, содержательно не интерпретируется. Формально он отражает величину признака - результата при условии, что признак - фактор равен нулю. Параметр характеризует расположение линии регрессии на графике, см. рисунок 7.1.

Рисунок 7.1 - Поле корреляции и линия регрессии, отражающие зависимость уровня среднедушевых денежных доходов населения в регионах России и величины ВРП на душу населения

Значение параметра соответствует точке пересечения линии регрессии с осью Y, при X=0.

Построение уравнения регрессии сопровождается оценкой статистической значимости уравнения в целом и его параметров. Необходимость таких процедур связана с ограниченным объемом данных, что может препятствовать действию закона больших чисел и, следовательно, выявлению истинной тенденции во взаимосвязи анализируемых показателей. Кроме того, любую исследуемую совокупность можно рассматривать как выборку из генеральной совокупности, а характеристики, полученные в ходе анализа, как оценку генеральных параметров.

Оценка статистической значимости параметров и уравнения в целом – это обоснование возможности использования построенной модели связи для принятия управленческих решений и прогнозирования (моделирования).

Статистическая значимость уравнения регрессии в целом оценивается с использованием F-критерия Фишера , который представляет собой отношение факторной и остаточных дисперсий, рассчитанных на одну степень свободы:

где - факторная дисперсия признака - результата; k – число степеней свободы факторной дисперсии (число факторов в уравнении регрессии); - среднее значение зависимой переменной; - теоретическое (полученной по уравнению регрессии) значение зависимой переменной у i – й единицы совокупности; - остаточная дисперсии признака - результата; n – объем совокупности; n-k-1 – число степеней свободы остаточной дисперсии.

Величина F-критерия Фишера, согласно формуле, характеризует соотношение между факторной и остаточной дисперсиями зависимой переменной, демонстрируя, по существу, во сколько раз величина объясненной части вариации превышает необъясненную.

F-критерий Фишера табулирован, входом в таблицу является число степеней свободы факторной и остаточной дисперсий. Сравнение расчетного значения критерия с табличным (критическим) позволяет ответить на вопрос: статистически значима ли та часть вариации признака-результата, которую удается объяснить факторами, включенными в уравнение данного вида. Если , то уравнение регрессии признается статистически значимым и, соответственно, статистически значим и коэффициент детерминации. В противном случае (), уравнение – статистически незначимо, т.е. вариация учтенных в уравнении факторов не объясняет статистически значимой части вариации признака-результата, либо не верно выбрано уравнение связи.

Оценка статистической значимости параметров уравнения осуществляется на основе t-статистики , которая рассчитывается как отношение модуля параметров уравнения регрессии к их стандартным ошибкам ():

, где ; (7.6)

, где ; (7.7)

где - стандартные отклонения признака - фактора и признака - результата; - коэффициент детерминации.

В специализированных статистических программах расчет параметров всегда сопровождается расчетом значений их стандартных (среднеквадратических) ошибок и t-статистики (см. таблицу 7.1). Расчетное значение t-статистики сравнивается с табличным, если объем изучаемой совокупности менее 30 единиц (безусловно малая выборка), следует обратиться к таблице t- распределения Стьюдента, если объем совокупности большой, следует воспользоваться таблицей нормального распределения (интеграла вероятностей Лапласа). Параметр уравнения признается статистически значимым, если.

Оценка параметров на основе t-статистики, по существу, является проверкой нулевой гипотезы о равенстве генеральных параметров нулю (H 0: =0; H 0: =0;), то есть о статистически не значимой величине параметров уравнения регрессии. Уровень значимости гипотезы, как правило, принимается: = 0,05. Если расчетный уровень значимости меньше 0,05 , то нулевая гипотеза отвергается и принимается альтернативная - о статистической значимости параметра.

Продолжим рассмотрение примера. В таблице 7.1 в графе «B» приведены значения параметров, в графе Std.Err.ofB - величины стандартных ошибок параметров (), в графе t(77 – число степеней свободы) рассчитаны значения t - статистики с учетом числа степеней свободы. Для оценки статистической значимости параметров расчетные значения t - статистик необходимо сравнить с табличным значением. Заданному уровню значимости (0,05) в таблице нормального распределения соответствует t = 1,96. Поскольку 18,02, 10,84, т.е. , следует признать статистическую значимость полученных значений параметров, т.е. эти значения сформированы под влиянием не случайных факторов и отражают тенденцию связи между анализируемыми показателями.

Для оценки статистической значимости уравнения в целом обратимся к значению F-критерия Фишера (см. таблицу 7.1). Расчетное значение F-критерия = 117,51, табличное значение критерия, исходя из соответствующего числа степеней свободы (для факторной дисперсии d.f. =1, для остаточной дисперсииd.f. =77), равно 4,00 (см. приложение.....). Таким образом, , следовательно, уравнение регрессии в целом статистически значимо. В такой ситуации можно говорить и о статистической значимости величины коэффициента детерминации, т.е. вариация среднедушевых доходов населения в регионах России на 60 процентов может быть объяснена вариацией объемов валового регионального продукта на душу населения.

Проводя оценку статистической значимости уравнения регрессии и его параметров, можем получить различное сочетание результатов.

· Уравнение по F-критерию статистически значимо и все параметры уравнения по t-статистике тоже статистически значимы. Данное уравнение может быть использовано как для принятия управленческих решений (на какие факторы следует воздействовать, чтобы получить желаемый результат), так и для прогнозирования поведения признака-результата при тех или иных значениях факторов.

· По F-критерию уравнение статистически значимо, но незначимы параметры (параметр) уравнения. Уравнение может быть использовано для принятия управленческих решений (касающихся тех факторов, по которым получено подтверждение статистической значимости их влияния), но уравнение не может быть использовано для прогнозирования.

· Уравнение по F-критерию статистически незначимо. Уравнение не может быть использовано. Следует продолжить поиск значимых признаков-факторов или аналитической формы связи аргумента и отклика.

Если подтверждена статистическая значимость уравнения и его параметров, то может быть реализован, так называемый, точечный прогноз, т.е. получена оценка значения признака-результата (y) при тех или иных значениях фактора (x).

Совершенно очевидно, что прогнозное значение зависимой переменной, рассчитанное на основе уравнения связи, не будет совпадать с фактическим ее значением ().Графически эта ситуация подтверждается тем, что не все точки поля корреляции лежат на линии регрессии,лишь при функциональной связи линия регрессии пройдет через все точки диаграммы рассеивания. Наличие расхождений между фактическими и теоретическими значениями зависимой переменной связано, прежде всего, с самой сутью корреляционной зависимости:одновременно на результат воздействует множество факторов, из которых только часть может быть учтена в конкретном уравнении связи. Кроме того, может быть неверно выбрана форма связи результата и фактора (тип уравнения регрессии). В связи с этим возникает вопрос, насколько информативно построенное уравнение связи. На этот вопрос отвечают два показателя: коэффициент детерминации (о нем уже говорилось выше) и стандартная ошибка оценивания.

Разность между фактическими и теоретическими значениями зависимой переменной называют отклонениями или ошибками, или остатками . На основе этих величин рассчитывается остаточная дисперсия. Квадратный корень из остаточной дисперсии и является среднеквадратической (стандартной) ошибкой оценивания:

= (7.8)

Стандартная ошибка уравнения измеряется в тех же единицах, что и прогнозируемый показатель. Если ошибки уравнения подчиняются нормальному распределению (при больших объемах данных), то 95 процентов значений должны находиться от линии регрессии на расстоянии, не превышающем 2S (исходя из свойства нормального распределения - правила трех сигм). Величина стандартной ошибки оценивания используется при расчете доверительных интервалов при прогнозировании значения признака - результата для конкретной единицы совокупности.

В практических исследованиях часто возникает необходимость в прогнозе среднего значения признака - результата при том или ином значении признака - фактора. В этом случае в расчете доверительного интервала для среднего значения зависимой переменной()

учитывается величина средней ошибки:

(7.9)

Использование разных величин ошибок объясняется тем, что изменчивость уровней показателей у конкретных единиц совокупности гораздо выше, чем изменчивость среднего значения, следовательно, ошибка прогноза среднего значения меньше.

Доверительный интервал прогноза среднего значения зависимой переменной:

, (7.10)

где - предельная ошибка оценки (см. теорию выборки); t – коэффициент доверия, значение которого находится в соответствующей таблице, исходя из принятого исследователем уровня вероятности (числа степеней свободы) (см. теорию выборки).

Доверительный интервал для прогнозируемого значения признака-результата может быть рассчитан и с учетом поправки на смещение (сдвиг) линии регрессии. Величина поправочного коэффициента определяется:

(7.11)

где - значение признака-фактора, исходя из которого, прогнозируется значение признака-результата.

Отсюда следует, что чем больше значение отличается от среднего значения признака-фактора, тем больше величина корректирующего коэффициента, тем больше ошибка прогноза. С учетом данного коэффициента доверительный интервал прогноза будет рассчитываться:

На точность прогноза на основе уравнения регрессии могут влиять разные причины. Прежде всего, следует учитывать, что оценка качества уравнения и его параметров проводится, исходя из предположения о нормальном распределении случайных остатков. Нарушение этого допущения может быть связано с наличием резко отличающихся значений в данных, с неравномерной вариацией, с наличием нелинейной зависимости. В этом случае качество прогноза снижается. Второй момент, о котором следует помнить, - значения факторов, учитываемые при прогнозировании результата, не должны выходить за пределы размаха вариации данных, на основе которых построено уравнение.

©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2018-01-08

КАТЕГОРИИ

ПОПУЛЯРНЫЕ СТАТЬИ

© 2024 «kingad.ru» — УЗИ исследование органов человека