Прогнозирование. Доверительный интервал прогноза

При определении прогнозных значений того или иного явления с помощью экстраполяции наибольший интерес представляет, по-видимому, не сама экстраполяция – это более или менее механический прием, а определение доверительных интервалов прогноза.

Доверительные интервалы могут быть определены двояко: формально и неформально. Что касается последнего, то это дело экспертного суждения, которое выносится при качественном осмыслении результатов прогноза, сопоставлении их с другими имеющимися у эксперта данными. При этом, естественно, эксперт должен учитывать не только степень колеблемости фактических уровней вокруг тренда в прошлом, но и возможность деформации тренда в будущем (соответственно могут быть получены различные варианты прогноза).

Основное внимание в данном учебном пособии уделим оценке формальных доверительных интервалов, базирующихся на статистическом анализе.

Соответствующая погрешность имеет следующие источники:

1) выбор формы кривой, характеризующей тренд, содержит элемент субъективизма. Во всяком случае, часто нет твердой основы для того, чтобы утверждать, что выбранная форма кривой является единственно возможной, а тем более лучшей для экстраполяции в данных конкретных условиях;

2) оценивание параметров кривых (иначе говоря, оценивание тренда) производится на основе ограниченной совокупности наблюдений, каждое из которых содержит случайную компоненту. В силу этого параметрам кривой, а, следовательно, и ее положению в пространстве свойственна некоторая неопределенность;

3) тренд характеризует средний уровень ряда на каждый момент времени. Отдельные наблюдения, как правило, отклонялись от него в прошлом. Естественно ожидать, что подобного рода отклонения будут происходить и в будущем.

Вполне возможны случаи, когда форма кривой, описывающей тенденцию, выбрана неправильно или когда тенденция развития в будущем может существенно измениться и не следовать тому типу кривой, который был принят при выравнивании. В последнем случае основное допущение экстраполяции не соответствует фактическому положению вещей. Найденная кривая лишь выравнивает динамический ряд и характеризует тенденцию только в пределах периода, охваченного наблюдением. Экстраполяция такого тренда неизбежно приведет к ошибочному результату, причем ошибку такого рода нельзя оценить заранее. В связи с этим можно лишь отметить то, что, по-видимому, следует ожидать рост такой погрешности (или вероятности ее возникновения) при увеличении периода упреждения.

Погрешность, связанная со вторым и третьим источниками, может быть отражена в виде доверительного интервала прогноза при принятии некоторых допущений о свойстве ряда. С помощью такого интервала точечный прогноз преобразуется в интервальный.

Интуитивно понятно, что в основу расчета доверительного интервала прогноза должен быть положен измеритель колеблемости ряда наблюдаемых значений признака. Чем выше эта колеблемость, тем менее определенно положение тренда в пространстве “уровень - время” и тем шире должен быть интервал для вариантов прогноза при одной и той же степени доверия. Традиционно в качестве такого измерителя колеблемости используется среднее квадратическое (стандартное) отклонение (3.11).

Полученные в ходе статистического оценивания параметры не свободны от погрешности, связанной с тем, что объем информации, на основе которой производилось оценивание, ограничен, и в некотором смысле эту информацию можно рассматривать как выборку. Во всяком случае, смещение периода наблюдения только на один шаг или добавление, или устранение членов ряда в силу того, что каждый член ряда содержит случайную компоненту, приводит к изменению численных оценок параметров. Отсюда расчетные значения несут на себе груз неопределенности, связанной с ошибками в значении параметров.

В общем виде доверительный интервал для тренда определяется как:

, (4.1)

где – средняя квадратическая ошибка тренда; –расчетное значение уровня ряда; –значение t -статистики Стьюдента.

В STATISTICA при расчете доверительных интервалов прогноза величину среднего квадратического отклонения S y можно определить, воспользовавшись таблицей дисперсионного анализа (см. рис. 3.17). Рассчитанное в ячейке Residual Mean Squares значение соответствует подкоренному выражению в формуле (3.11) для S y , то есть остаточной дисперсии.Остается только извлечь из него квадратный корень ( тыс.чел.).

Значение коэффициента доверия t=2,306 нам известно при оценке статистической значимости параметров линейной модели тренда.

Таким образом, доверительный интервал прогноза на 2011 год определяется как:

На 2012 год:

Этот прогноз можно интерпретировать следующим образом: число выездов россиян за границу с целью туризма в 2011 году с вероятностью 95% будет составлять от 12137,31 тыс.чел. до 13289,88 тыс. чел.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Доверительные интервалы прогноза

Заключительным этапом применения кривых роста является экстраполяция тенденции на базе выбранного уравнения. Прогнозные значения исследуемого показателя вычисляют путем подстановки в уравнение кривой значений времени t, соответствующих периоду упреждения. Полученный таким образом прогноз называют точечным, так как для каждого момента времени определяется только одно значение прогнозируемого показателя.

На практике в дополнении к точечному прогнозу желательно определить границы возможного изменения прогнозируемого показателя, задать "вилку" возможных значений прогнозируемого показателя, т.е. вычислить прогноз интервальный.

Несовпадение фактических данных с точечным прогнозом, полученным путем экстраполяции тенденции по кривым роста, может быть вызвано:

1) субъективной ошибочностью выбора вида кривой;

2) погрешностью оценивания параметров кривых;

3) погрешностью, связанной с отклонением отдельных наблюдений от тренда, характеризующего некоторый средний уровень ряда на каждый момент времени.

Погрешность, связанная со вторым и третьим источником, может быть отражена в виде доверительного интервала прогноза. Доверительный интервал, учитывающий неопределенность, связанную с положением тренда, и возможность отклонения от этого тренда, определяется в виде:

где n - длина временного ряда;

L - период упреждения;

-точечный прогноз на момент n+L;

t a - значение t-статистики Стьюдента;

S p - средняя квадратическая ошибка прогноза.

Предположим, что тренд характеризуется прямой:

Так как оценки параметров определяются по выборочной совокупности, представленной временным рядом, то они содержат погрешность. Погрешность параметра a0 приводит к вертикальному сдвигу прямой, погрешность параметра a1 - к изменению угла наклона прямой относительно оси абсцисс. С учетом разброса конкретных реализаций относительно линий тренда, дисперсию S 2 p можно представить в виде:

доверительный интервал прогноз погрешность

Доверительные интервалы прогнозов, полученных с использованием уравнения экспоненты, определяют аналогичным образом. Отличие состоит в том, что как при вычислении параметров кривой, так и при вычислении средней квадратической ошибки используют не сами значения уровней временного ряда, а их логарифмы.

По такой же схеме могут быть определены доверительные интервалы для ряда кривых, имеющих асимптоты, в случае, если значение асимптоты известно (например, для модифицированной экспоненты).

В таблице 4.1 приведены значения K* в зависимости от длины временного ряда n и периода упреждения L для прямой и параболы. Очевидно, что при увеличении длины рядов (n) значения K* уменьшаются, с ростом периода упреждения L значения K* увеличиваются. При этом влияние периода упреждения неодинаково для различных значений n: чем больше длина ряда, тем меньшее влияние оказывает период упреждения L.

Таблица 4.1.

Значения К* для оценки доверительных интервалов прогноза на основе линейного тренда и параболического тренда при доверительной вероятности 0,9 (7).

Проверка адекватности выбранных моделей

Проверка адекватности выбранных моделей реальному процессу (в частности, адекватности полученной кривой роста) строится на анализе случайной компоненты. Случайная остаточная компонента получается после выделения из исследуемого ряда систематической составляющей (тренда и периодической составляющей, если она присутствует во временном ряду). Предположим, что исходный временной ряд описывает процесс, не подверженный сезонным колебаниям, т.е. примем гипотезу об аддитивной модели ряда вида:

При использовании кривых роста y t вычисляют, подставляя в уравнения выбранных кривых соответствующие последовательные значения времени. Принято считать, что модель адекватна описываемому процессу, если значения остаточной компоненты удовлетворяют свойствам случайности, независимости, а также случайная компонента подчиняется нормальному закону распределения.

При правильном выборе вида тренда отклонения от него будут носить случайный характер. Это означает, что изменение остаточной случайной величины не связано с изменением времени. Таким образом, по выборке, полученной для всех моментов времени на изучаемом интервале, проверяется гипотеза о зависимости последовательности значений e t от времени, или, что то же самое, о наличии тенденции в ее изменении. Поэтому для проверки данного свойства может быть использован один из критериев, рассматриваемых в разделе I, например, критерий серий.

Если вид функции, описывающей систематическую составляющую, выбран неудачно, то последовательные значения ряда остатков могут не обладать свойствами независимости, т.к. они могут коррелировать между собой. В этом случае говорят, что имеет место автокорреляция ошибок. В условиях автокорреляции оценки параметров модели, полученные по методу наименьших квадратов, будут обладать свойствами несмещенности и состоятельности (с этими свойствами знакомятся в курсе математической статистики). В то же время эффективность этих оценок будет снижаться, а, следовательно, доверительные интервалы будут иметь мало смысла в силу своей ненадежности.

Существует несколько приемов обнаружения автокорреляции. Наиболее распространенным является метод, предложенный Дарбиным и Уотсоном. Критерий Дарбина-Уотсона связан с гипотезой о существовании автокорреляции первого порядка, т.е. автокорреляции между соседними остаточными членами ряда. Значение этого критерия определяется по формуле:

Можно показать, что величина d приближенно равна:

где r 1 - коэффициент автокорреляции первого порядка (т.е. парный коэффициент корреляции между двумя рядами e 1 , e 2 ,.,e n -1 и e 2 , e 3 ,., e n).

Из последней формулы видно, что если в значениях e t имеется сильная положительная автокорреляция (r 1 ~1), то величина d=0, в случае сильной отрицательной автокорреляции (r 1 ~ - 1) d=4. При отсутствии автокорреляции (r 1 ~ 0) d=2.

Для этого критерия найдены критические границы, позволяющие принять или отвергнуть гипотезу об отсутствии автокорреляции. Авторами критерия границы определены для 1, 2,5 и 5% уровней значимости. Значения критерия Дарбина-Уотсона при 5% уровне значимости приведены в таблице 4.2 В этой таблице d 1 и d 2 - соответственно нижняя и верхняя доверительные границы критерия Дарбина-Уотсона; k| - число переменных в модели; n - длина временного ряда.

Применение на практике критерия Дарбина-Уотсона основано на сравнении величины d, рассчитанной по формуле (4.10.), с теоретическими значениями d 1 и d 2 , взятыми из таблицы. Отметим, что большинство программных пакетов статистической обработки данных осуществляет расчет этого критерия (например, ППП "Олимп", "Мезозавр", "Statistica" и др.).

При сравнении величины d с d 1 и d 2 , возможны следующие варианты:

1) Если d < d 1 , то гипотеза о независимости случайных отклонений (отсутствие автокорреляции) отвергается;

2) Если d > d 2 , то гипотеза о независимости случайных отклонений не отвергается;

3) Если d 1_ < d<_ d 2 , то нет достаточных оснований для принятия решений, т.е. величина попадает в область "неопределенности".

Рассмотренные варианты относятся к случаю, когда в остатках имеется положительная автокорреляция. Когда же расчетное значение d превышает 2, то можно говорить о том, что в e t существует отрицательная автокорреляция.

Для проверки отрицательной автокорреляции с критическими значениями d 1 , и d 2 , сравнивается не сам коэффициент d, а 4-d.

Для определения доверительных интервалов модели свойство нормальности распределения остатков имеет важное значение. Поскольку временные ряды экономических показателей, как правило, невелики (<50), то проверка распределения на нормальность может быть произведена лишь приближенно, например, на основе исследования показателей асимметрии и эксцесса.

При нормальном распределении показатели асимметрии (А) и эксцесса (Э) равны нулю. Так как мы предполагаем, что отклонения от тренда представляют собой выборку из некоторой генеральной совокупности, то можно определить выборочные характеристики асимметрии и эксцесса, а также их среднеквадратические ошибки.

где А - выборочная характеристика асимметрии;

Э - выборочная характеристика эксцесса;

среднеквадратическая ошибка выборочной характеристики асимметрии;

среднеквадратическая ошибка выборочной характеристики эксцесса.

Если одновременно выполняются следующие неравенства:

то гипотеза о нормальном характере распределения случайной компоненты не отвергается. Если выполняется хотя бы одно из неравенств

то гипотеза о нормальном характере распределения отвергается.

Другие случаи требуют дополнительной проверки с помощью более мощных критериев.

Пример 4 .1 .

Программа выдала следующие характеристики ряда остатков:

длина ряда n=20; коэффициент асимметрии А=0,6; коэффициент эксцесса Э=0,7.

На основании этих характеристик можно считать, что:

а) случайная компонента подчиняется нормальному закону распределения;

б) случайная компонента не подчиняется нормальному закону распределения;

в) требуется дополнительная проверка характера распределения случайной компоненты.

Определим:

Т.к. одновременно выполняются оба неравенства

можно считать, что случайная компонента подчиняется нормальному закону распределения - вариант ответа а).

Характеристики точности моделей

Важнейшими характеристиками качества модели, выбранной для прогнозирования, являются показатели ее точности. Они описывают величины случайных ошибок, полученных при использовании модели. Таким образом, чтобы судить о качестве выбранной модели, необходимо проанализировать систему показателей, характеризующих как адекватность модели, так и ее точность.

О точности прогноза можно судить по величине ошибки (погрешности) прогноза. Ошибка прогноза - величина, характеризующая расхождение между фактическим и прогнозным значением показателя.

Абсолютная ошибка прогноза определяется по формуле:

Эта характеристика имеет ту же размерность, что и прогнозируемый показатель и зависит от масштаба измерения уровней временного ряда. На практике широко используется относительная ошибка прогноза, выраженная в процентах относительно фактического значения показателя:

Также используются средние ошибки по модулю (абсолютные и относительные):

где n - число уровней временного ряда, для которых определялось прогнозное значение.

Из (4.18.), (4.19.) видно, что если абсолютная и относительная ошибка больше 0, то это свидетельствует о "завышенной" прогнозной оценке, если - меньше 0, то прогноз был занижен.

Очевидно, что все указанные характеристики могут быть вычислены после того, как период упреждения уже окончился, и имеются фактические данные о прогнозируемом показателе или при рассмотрении показателя на ретроспективном участке.

В последнем случае имеющаяся информация делится на две части: по первой - оцениваются параметры модели, а данные второй части рассматриваются в качестве фактических. Ошибки прогнозов, полученные ретроспективно (на втором участке) характеризуют точность применяемой модели.

На практике при проведении сравнительной оценки моделей могут использоваться такие характеристики качества как дисперсия (S 2) или среднеквадратическая ошибка прогноза (S):

Чем меньше значения этих характеристик, тем выше точность модели. О точности модели нельзя судить по одному значению ошибки прогноза. Например, если прогнозная оценка месячного уровня производства в июне совпала с фактическим значением, то это не является достаточным доказательством высокой точности модели. Надо учитывать, что единичный хороший прогноз может быть получен и по плохой модели, и наоборот. Следовательно, о качестве применяемых моделей можно судить лишь по совокупности сопоставлений прогнозных значений с фактическими. Простой мерой качества прогнозов может стать - относительное число случаев, когда фактическое значение охватывалось интервальным прогнозом:

где р - число прогнозов, подтвержденных фактическими данными;

q - число прогнозов, не подтвержденных фактическими данными.

Когда все прогнозы подтверждаются, q=0 и =1.

Если же все прогнозы не подтвердились, то р=0 и =0. Отметим, что сопоставление коэффициентов для разных моделей может иметь смысл при условии, что доверительные вероятности приняты одинаковыми.

Список литературы

1. Айвозян С.А. Прикладная статистика и основы прогнозирования. - 1998.

2. Дуброва Т.А. Статистические методы прогнозирования в экономике, - 1999.

3. Статистическое моделирование и прогнозирование. - учебное пособие, под. ред. Гранберга А.Г. - 1990.

Размещено на Allbest.ru

Подобные документы

Применение моделей кривых роста в бизнес-прогнозировании. Методы выбора кривых роста. Доверительные интервалы прогноза для линейного тренда, и полученные с использованием уравнения экспоненты. Дисперсия отклонений фактических наблюдений от расчетных.

курсовая работа , добавлен 13.09.2015

Максимальная ошибка прогноза. Геометрический смысл коэффициента. Истинная прямая регрессии. Ширина доверительного интервала. Матричная запись многофакторной регрессии. Эконометрический анализ нелинейной зависимости показателя от второго фактора.

контрольная работа , добавлен 30.07.2010

Расчет доверительных интервалов прогноза для линейного тренда с использованием уравнения экспоненты. Оценка адекватности и точности моделей. Использование адаптивных методов в экономическом прогнозировании. Экспоненциальные средние для временного ряда.

контрольная работа , добавлен 13.08.2010

Выработка экономических ориентиров для обоснования решений планирования и управления. Прогнозирование цены облигации. Определение интервала прогноза с заданной вероятностью. Определение коэффициента эластичности для значения прогноза цены тренда.

контрольная работа , добавлен 04.11.2009

Анализ изменения курса доллара и проведение аналитического выравнивания. Вычисление точечного прогресса на начало 2018 года с помощью уравнения динамического ряда. Расчет среднеквадратического отклонения от тренда для определения интервального прогноза.

задача , добавлен 15.04.2014

Задача на нахождение коэффициента эластичности. Точечный прогноз для любой точки из области прогноза. Нахождение производной заданной функции. Эконометрический анализ линейной зависимости показателя от двух факторов. Эластичность в точке прогноза.

контрольная работа , добавлен 30.07.2010

Основные элементы эконометрического анализа временных рядов. Задачи анализа и их первоначальная обработка. Решение задач кратко- и среднесрочного прогноза значений временного ряда. Методы нахождения параметров уравнения тренда. Метод наименьших квадратов.

контрольная работа , добавлен 03.06.2009

Построение поля корреляции. Оценка данной зависимости линейной, степенной и гиперболической регрессией. Оценка тесноты связи с помощью показателей корреляции и детерминации. Расчет коэффициента эластичности. Определение доверительного интервала прогноза.

контрольная работа , добавлен 13.11.2011

Зависимость объема выпуска продукции от объема капиталовложений. Оценка параметров регрессий. Линейный коэффициент парной корреляции. Прогнозные значения результативного признака. Построение интервального прогноза. Ширина доверительного интервала.

контрольная работа , добавлен 25.10.2011

Проверка гипотезы на наличие тенденции. Обоснование периода упреждения прогноза. Выбор оптимальной прогнозной модели по коэффициенту детерминации. Получение точечного и интервального прогноза. Расчет параметров линейной и экспоненциальной моделей.

Один из наиболее распространенных методов прогнозирования заключается в экстраполяции, т.е. в продлении в будущее тенденции, наблюдавшейся в прошлом. Экстраполяция тенденций динамических рядов сравнительно широко применяется в практических исследованиях в силу ее простоты, возможности осуществления на основе относительно небольшого объема информации, наконец, ясности принимаемых допущений. Отсутствие иной информации помимо отдельно рассматриваемого динамического ряда часто оказывается решающим аргументом при выборе этого метода прогнозирования.

При таком подходе к прогнозированию предполагается, что размер признака, характеризующего явление, формируется под воздействием множества факторов, причем не представляется возможным выделить порознь их влияние. В связи с этим ход развития связывается не с какими-либо конкретными факторами, а с течением времени.

Экстраполяция базируется на следующих допущениях:

1) развитие явления может быть с достаточным основанием охарактеризовано плавной (эволюторной) траекторией - трендом;

2) общие условия, определяющие тенденцию развития в прошлом, не претерпят существенных изменений в будущем.

Таким образом, экстраполяция дает описание некоторого общего будущего развития объекта прогнозирования. Причем если развитие в прошлом носило перманентно скачкообразный характер, то при достаточно продолжительном периоде наблюдений скачки оказываются “зафиксированными” в самом тренде, и последний опять-таки можно применить в прогнозировании.

Выше были сформулированы основные условия, наличие которых дает возможность осуществлять экстраполяцию тренда. В практике прогнозирования может возникнуть вопрос, а как поступить, если условия формирования тренда заметно изменяются и этого следует ожидать и в будущем? В этом случае возможны различные подходы к решению проблем. В частности, в ряде случаев тренд можно “исправить”, сокращая период наблюдения, отсекая члены ряда, сформировавшиеся при явно других условиях и искажающие новую тенденцию. Однако далеко не всегда можно провести четкую границу во времени, разделяющую новые и старые условия развития исследуемого явления. В этом случае подходящим является оценивание параметров, учитывающее устаревание данных. Такой прием возможен тогда, когда переход к новым условиям не имеет резкой границы и в то же время есть, основания считать влияние этого перехода достаточно эффективным. Наконец, возможна корректировка параметров уравнений, характеризующих тренд. Например, изменение постоянного члена в уравнении полинома сдвигает тренд по оси ординат, не изменяя формы кривой. Такой прием применим, когда предполагается, что развитие будет следовать прошлой тенденции, однако есть основание для перехода к какому-либо базовому уровню, отличающемуся от уровня, полученного по уравнению тренда.

Корректированию могут быть подвергнуты и другие параметры (помимо постоянного члена). Такого рода поправки изменяют форму тренда. Например, изменяют угол наклона прямой, растягивают или сжимают кривую и т.д. Подобные деформации тренда, разумеется, должны иметь достаточные основания.

По-видимому, самым правильным было бы рассматривать экстраполяцию не как конечный результат прогнозирования, а как некоторый отправной момент, на основе которого с привлечением дополнительной информации, не содержащейся в самом динамическом ряду, разрабатывают прогноз. Вместе с тем часто ее результат с соответствующей корректировкой или без нее рассматривается и как окончательный прогноз.

Если при анализе развития объекта прогноза есть основания принять два базовых допущения экстраполяции, о которых говорилось выше, то процесс прогнозирования заключается в подстановке соответствующей величины периода упреждения в формулу, описывающую тренд.

Проведем прогнозирование на основе экстраполяции лучшей формы тренда (полином 3-ей степени) для третьего периода исходного динамического ряда:

Для экспорта,

Для импорта.

Соответственно прогноз объем экспорта и импорта на 2006 год (t=13) составит:

Экспорт: млрд.$ US,

Импорт: млрд.$US.

Соответственно прогноз объем экспорта и импорта на 2007 год (t=14) составит:

Экспорт: млрд.$ US,

Импорт: млрд.$US.

Экстраполяция дает возможность получить точечное значение прогноза, что может быть признано удовлетворительным только при наличии функциональной зависимости. Однако для экономических явлений характерна корреляционная зависимость и переменные, как правило, являются непрерывными. Следовательно, указание точечных значений прогноза, строго говоря, лишено содержания, поскольку “попадание” в точку имеет нулевую вероятность. Отсюда следует, что прогноз должен быть дан в виде интервала значений, т.е. необходимо определение доверительного интервала прогноза.

6.1. Доверительные интервалы прогноза

При определении прогностических значений того или иного явления с помощью экстраполяции наибольший интерес представляет, по-видимому, не сама экстраполяция - это более или менее механический прием, а определение доверительных интервалов прогноза.

Формальный доверительный интервал учитывает лишь ту неопределенность, которая связана с ограниченностью числа наблюдений и соответствующей неточностью найденных оценок параметров кривой. Основной вопрос - в какой мере в будущем сохранится найденная тенденция, - естественно, не может быть решен с помощью таких доверительных интервалов. Это дело содержательного экономического анализа и экспертной оценки. Основное внимание в данном учебном пособии уделим оценке формальных доверительных интервалов, базирующихся на статистическом анализе. Заметим, что формальные доверительные интервалы можно получить далеко не во всех случаях. В частности, для сложных кривых, отличающихся от полиномов, если их и можно определить, доверительные интервалы имеют достаточно условный характер.Как было сказано выше, точное совпадение фактических данных и прогностических точечных оценок, полученных путем экстраполяции кривых, характеризующих тенденцию, - явление маловероятное. Соответствующая погрешность имеет следующие источники:

где ¾соответственно фактическое и расчетное значения уровня ряда;

f ¾ число степеней свободы, f = n ‑ т, где т ¾ число оцениваемых параметров; n ¾ число наблюдений. Так, если выравнивание производится по прямой, то f = n ‑ 2, для параболы второй степени f = n ‑ 3 и т. д.

Сумму квадратов отклонений от тренда (возьмем для простоты линейный тренд) можно, очевидно, разложить следующим образом:

Это выражение можно упростить. Допустим, что начало отсчета времени находится в середине ряда, тогда St = 0. Параметры а и b, как мы уже убедились ранее, в этом случае равны:

Отсюда после упрощений получаем:

Разность первых двух членов правой стороны этого равенства равна сумме квадратов отклонений от средней арифметической, т. е. . Таким образом,

Выражение показывает, что сумма квадратов отклонений от линейного тренда меньше, чем от средней арифметической. Этим выражением можно воспользоваться в тех случаях, когда характеристика колебаний вокруг тренда определяется до того, как определен сам тренд.

Сумма квадратов отклонений от линий тренда, т. е. , и среднее квадратическое отклонение от тренда S y являются основой при определении средней квадратической ошибки отдельных параметров уравнения тренда и их доверительных интервалов, а также ошибки и доверительных интервалов тренда и прогноза.

Прежде чем приступить к определению доверительного интервала прогноза, необходимо сделать оговорку о некоторой условности рассматриваемого ниже расчета. То, что следует далее, является, в некоторой мере, произвольным перенесением результатов, найденных для регрессии выборочных показателей, на анализ динамических рядов. Дело в том, что предположение регрессионного анализа о нормальности распределения отклонений вокруг линии регрессии не может, по существу, безоговорочно утверждаться при анализе динамических рядов.

В общем виде доверительный интервал для тренда определяется как:

где ¾ средняя квадратическая ошибка тренда;

¾расчетное значение y t ;

¾ значение t -статистики Стьюдента.

Доверительный интервал для прогноза, очевидно, должен учитывать не только неопределенность, связанную с положением тренда, но возможность отклонения от этого тренда.

В практике встречаются случаи, когда более или менее обоснованно для экстраполяции можно применить несколько типов кривых. При этом рассуждения иногда сводятся к следующему. Поскольку каждая из кривых характеризует один из альтернативных трендов, то очевидно, что пространство между экстраполируемыми трендами и представляет собой некоторую “естественную доверительную область” для прогнозируемой величины. С таким утверждением нельзя согласиться. Прежде всего потому, что каждая из возможных линий тренда отвечает некоторой заранее принятой гипотезе развития. Пространство же между трендами не связано ни с одной из них - через него можно провести неограниченное число трендов. Следует также добавить, что доверительный интервал связан с некоторым уровнем вероятности выхода за его границы. Пространство между трендами не связано ни с каким уровнем вероятности, а зависит от выбора типов кривых. К тому же при достаточно продолжительном периоде упреждения это пространство, как правило, становится настолько значительным, что подобный “доверительный интервал” теряет всякий смысл.

В STATISTICA при расчете доверительных интервалов прогноза величину среднего квадратического отклонения S y можно определить воспользовавшись таблицей дисперсионного анализа. Рассчитанное в ячейке Residual Mean Squares значение соответствует подкоренному выражению в формуле для S y , то есть остаточной дисперсии.Остается только извлечь из него квадратный корень. Однако, необходимо помнить, о том, что мы пользовались линеаризацией, а соответственно этот показатель также необходимо пересчитать.

Одна из основных задач, возникающих при экстраполяции тренда, заключается в определении доверительных интервалов прогноза. Интуитивно понятно, что в основу расчета доверительного интервала прогноза должен быть положен измеритель колеблемости ряда наблюдаемых значений признака. Чем выше эта колеблемость, тем менее определенно положение тренда в пространстве “уровень -- время” и тем шире должен быть интервал для вариантов прогноза при одной и той же степени доверия. Следовательно, при построении доверительного интервала прогноза следует учесть оценку колеблемости или вариации уровней ряда. Обычно такой оценкой является среднее квадратическое отклонение (стандартное отклонение) фактических наблюдений от расчетных, полученных при выравнивании динамического ряда.

Прежде чем приступить к определению доверительного интервала прогноза, необходимо сделать оговорку о некоторой условности рассматриваемого ниже расчета. То, что следует далее, является в некоторой мере произвольным перенесением результатов, найденных для регрессии выборочных показателей, на анализ динамических рядов. Дело в том, что предположение регрессионного анализа о нормальности распределения отклонений вокруг линии регрессии не может, по существу, безоговорочно утверждаться при анализе динамических рядов.

Полученные в ходе статистического оценивания параметры не свободны от погрешности, связанной с тем, что объем информации, на основе которой производилось оценивание, ограничен, и в некотором смысле эту информацию можно рассматривать как выборку. Во всяком случае смещение периода наблюдения только на один шаг или добавление, или устранение членов ряда в силу того, что каждый член ряда содержит случайную компоненту, приводит к изменению численных оценок параметров. Отсюда расчетные значения несут на себе груз неопределенности, связанной с ошибками в значении параметров.

В общем виде доверительный интервал для тренда определяется как

? расчетное значение yt;

Если t = i + L то уравнение определит значение доверительного интервала для тренда, продленного на L единиц времени.

Доверительный интервал для прогноза, очевидно, должен учитывать не только неопределенность, связанную с положением тренда, но возможность отклонения от этого тренда. В практике встречаются случаи, когда более или менее обоснованно для экстраполяции можно применить несколько типов кривых. При этом рассуждения иногда сводятся к следующему. Поскольку каждая из кривых характеризует один из альтернативных трендов, то очевидно, что пространство между экстраполируемыми трендами и представляет собой некоторую “естественную доверительную область” для прогнозируемой величины. С таким утверждением нельзя согласиться. Прежде всего потому, что каждая из возможных линий тренда отвечает некоторой заранее принятой гипотезе развития. Пространство же между трендами не связано ни с одной из них -- через него можно провести неограниченное число трендов. Следует также добавить, что доверительный интервал связан с некоторым уровнем вероятности выхода за его границы. Пространство между трендами не связано ни с каким уровнем вероятности, а зависит от выбора типов кривых. К тому же при достаточно продолжительном периоде упреждения это пространство, как правило, становится настолько значительным, что подобный “доверительный интервал” теряет всякий смысл.

При условии учета стандартных ошибок оценок параметров уравнения тренда (которые по определению являются выборочными, а следовательно, могут не являться оценками неизвестных генеральных параметров из-за проявления случайной ошибки репрезентативности), и не рассматривая последовательность преобразований получим общую формулу доверительного интервала прогноза.

где - значение прогноза, рассчитанного по уравнению тренда на период t+L

Средняя квадратическая ошибка тренда;

К - коэффициент, учитывающий ошибки коэффициентов уравнения тренда

Значение t-статистики Стьюдента.

Коэффициент К рассчитывается следующим образом

n ? число наблюдений (длина ряда динамики);

L - число прогнозов

Значение К зависит только от п и L, т. е. продолжительности наблюдения и периода прогнозирования.

Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной (предсказание среднего значения ), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения ).

Замечание. Некоторые авторы различают такие понятия, как прогнозирование и предсказание. Если значение объясняющей переменной X известно точно, то оценивание зависимой переменной Y называется предсказанием . Если же значение объясняющей переменной X неизвестно точно, то говорят, что делается прогноз значения Y . Такая ситуация характерна для временных рядов. В данном случае мы не будем различать предсказание и прогноз.

Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости.

а) Предсказание среднего значения . Пусть построено уравнение парной регрессии , на основе которого необходимо предсказать условное математическое ожидание . В данном случае значение является точечной оценкой . Тогда естественно возникает вопрос, как сильно может отклониться модельное значение , рассчитанное по эмпирическому уравнению, от соответствующего условного математического ожидания. Ответ на этот вопрос даётся на основе интервальных оценок, построенных с заданным уровнем значимости a при любом конкретном значении x p объясняющей переменной.

Запишем эмпирическое уравнение регрессии в виде

Здесь выделены две независимые составляющие: средняя и приращение . Отсюда вытекает, что дисперсия будет равна

Из теории выборки известно, что

Используя в качестве оценки s 2 остаточную дисперсию S 2 , получим

Дисперсия коэффициента регрессии, как уже было показано

Подставляя найденные дисперсии в (5.41), получим

. (5.56)

Таким образом, формула расчета стандартной ошибки предсказываемого по линии регрессии среднего значения Y имеет вид

. (5.57)

Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере удаления от в любом направлении. Иными словами, больше разность между и , тем больше ошибка с которой предсказывается среднее значение y для заданного значения x p . Можно ожидать наилучшие результаты прогноза, если значения x p находятся в центре области наблюдений X и нельзя ожидать хороших результатов прогноза по мере удаления от .

Случайная величина

(5.58)

имеет распределение Стьюдента с числом степеней свободы n=n –2 (в рамках нормальной классической модели ). Следовательно, по таблице критических точек распределения Стьюдента по требуемому уровню значимости a и числу степеней свободы n=n –2 можно определить критическую точку , удовлетворяющую условию

С учетом (5.46) имеем:

Отсюда, после некоторых алгебраических преобразований, получим, что доверительный интервал для имеет вид:

, (5.59)

где предельная ошибка D p имеет вид

. (5.60)

Из формул (5.57) и (5.60) видно, что величина (длина) доверительного интервала зависит от значения объясняющей переменной x p : при она минимальна, а по мере удаления x p от величина доверительного интервала увеличивается (рис. 5.4). Таким образом, прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение x p объясняющей переменной X не выходит за диапазон ее значений по выборке (причем более точный, чем ближе x p к ). Другими словами, экстраполяция кривой регрессии, т.е. её использование вне пределов обследованного диапазона значений объясняющей переменной (даже если она оправдана для рассматриваемой переменной исходя из смысла решаемой задачи) может привести к значительным погрешностям .

б) Предсказание индивидуальных значений зависимой переменной . На практике иногда более важно знать дисперсию Y , чем ее средние значения или доверительные интервалы для условных математических ожиданий. Это связано с тем, что фактические значения Y варьируют около среднего значения . Индивидуальные значения Y могут отклоняться от на величину случайной ошибки e, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка предсказываемого индивидуального значения Y должны включать не только стандартную ошибку , но и случайную ошибку S . Это позволяет определять допустимые границы для конкретного значения Y .

Пусть нас интересует некоторое возможное значение y 0 переменной Y при определенном значении x p объясняющей переменной X . Предсказанное по уравнению регрессии значение Y при X =x p составляет y p . Если рассматривать значение y 0 как случайную величину Y 0 , а y p – как случайную величину Y p , то можно отметить, что

Случайные величины Y 0 и Y p являются независимыми, а следовательно, случайная величина U = Y 0 –Y p имеет нормальное распределение с

И . (5.61)

Используя в качестве s 2 остаточную дисперсию S 2 , получим формулу расчета стандартной ошибки предсказываемого по линии регрессии индивидуального значения Y :

. (5.63)

Случайная величина

(5.64)

имеет распределение Стьюдента с числом степеней свободы k =n –2. На основании этого можно построить доверительный интервал для индивидуальных значений Y p :

, (5.65)

где предельная ошибка D u имеет вид

. (5.66)

Заметим, что данный интервал шире доверительного интервала для условного математического ожидания (см. рис. 5.4).

Пример 5.5. По данным примеров 5.1-5.3 рассчитать 95%-ый доверительный интервал для условного математического ожидания и индивидуального значения при x p =160.

Решение. В примере 5.1 было найдено . Воспользовавшись формулой (5.48), найдем предельную ошибку для условного математического ожидания

Тогда доверительный интервал для среднего значения на уровне значимости a=0,05 будет иметь вид

Другими словами, среднее потребление при доходе 160 с вероятностью 0,95 будет находиться в интервале (149,8; 156,6).

Рассчитаем границы интервала, в котором будет сосредоточено не менее 95% возможных объёмов потребления при уровне дохода x p =160, т.е. доверительный интервал для индивидуального значения . Найдем предельную ошибку для индивидуального значения

Тогда интервал, в котором будут находиться, по крайней мере, 95% индивидуальных объёмов потребления при доходе x p =160, имеет вид

Нетрудно заметить, что он включает в себя доверительный интервал для условного среднего потребления. â

ПРИМЕРЫ

Пример 5.65. По территориям региона приводятся данные за 199X г. (таб. 1.1).

2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.

3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F -критерия Фишера.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x , составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05. Сделать выводы.

Решение

1. Для определения степени тесноты связи обычно используют коэффициент корреляции :

где , – выборочные дисперсии переменных x и y . Для расчета коэффициента корреляции строим расчетную таблицу (табл. 5.4):

Таблица 5.4

	x	y	xy	x 2	y 2			e 2
						148,77	-15,77	248,70
						152,45	-4,45	19,82
						157,05	-23,05	531,48
						149,69	4,31	18,57
						158,89	3,11	9,64
						174,54	20,46	418,52
						138,65	0,35	0,13
						157,97	0,03	0,00
						144,17	7,83	61,34
						157,05	4,95	24,46
						146,93	12,07	145,70
						182,83	-9,83	96,55
Итого						–		1574,92
Среднее значение	85,58	155,75	13484,00	7492,25	24531,42	–	–	–

По данным таблицы находим:

, , , ,

, .

Таким образом, между заработной платой (y) и среднедушевым прожиточным минимумом (x) существует прямая достаточно сильная корреляционная зависимость .

Для оценки статистической значимости коэффициента корреляции рассчитаем двухсторонний t-критерий Стьюдента :

который имеет распределение Стьюдента с k =n –2 и уровнем значимости a. В нашем случае

и .

Поскольку , то коэффициент корреляции существенно отличается от нуля.

Для значимого коэффициента можно построить доверительный интервал , который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n <30), используют z-преобразование Фишера :

Распределение z уже при небольших n является приближенным нормальным распределением с математическим ожиданием и дисперсией . Поэтому вначале строят доверительный интервал для M[z ], а затем делают обратное z -преобразование. Применяя z -преобразование для найденного коэффициента корреляции, получим

Доверительный интервал для M(z ) будет иметь вид

где t g находится с помощью функции Лапласа F(t g)=g/2. Для g=0,95 имеем t g =1,96. Тогда

или . Обратное z -преобразование осуществляется по формуле

В результате находим

В указанных границах на уровне значимости 0,05 (с надежностью 0,95) заключен генеральный коэффициент корреляции r.

2. Таким образом, между переменными x и y имеет существенная корреляционная зависимость. Будем считать, что эта зависимость является линейной. Модель парной линейной регрессии имеет вид

где y – зависимая переменная (результативный признак), x – независимая (объясняющая) переменная, e – случайные отклонения, b 0 и b 1 – параметры регрессии. По выборке ограниченного объема можно построить эмпирическое уравнение регрессии:

где b 0 и b 1 – эмпирические коэффициенты регрессии. Для оценки параметров регрессии обычно используют метод наименьших квадратов (МНК ). В соответствие с МНК, сумма квадратов отклонений фактических значений зависимой переменной y от теоретических была минимальной:

где – отклонения y i от оцененной линии регрессии. Необходимым условием существования минимума функции двух переменных является равенство нулю ее частных производных по неизвестным параметрам b 0 и b 1 . В результате получаем систему нормальных уравнений:

Решая эту систему, найдем

, .

По данным таблицы находим

Получено уравнение регрессии:

Параметр b 1 называется коэффициентом регрессии . Его величина показывает среднее изменение результата с изменением фактора на одну единицу. В рассматриваемом случае, с увеличением среднедушевого минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб .

где F подчиняется распределению Фишера с уровнем значимости a и степенями свободы k 1 =1 и k 2 =n –2. В нашем случае

Поскольку критическое значение критерия равно

и , то признается статистическая значимость построенного уравнения регрессии. Отметим, что для линейной модели F - и t -критерии связаны равенством , что можно использовать для проверки расчётов.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Прогнозное значение y p определяется путем подстановки в уравнение регрессии (1.16) соответствующего (прогнозного) значения x p

ЛЕКЦИЯ 5 99

§5.2. Анализ точности оценок коэффициентов регрессии 99

5.2.1. Оценка дисперсии случайного отклонения 99

5.2.2. Проверка гипотез относительно коэффициентов регрессии 100

5.2.3. Интервальные оценка коэффициентов регрессии 103

§5.3. Показатели качества уравнения регрессии 104

5.3.1. Коэффициент детерминации 104

5.3.2. Проверка общего качества уравнения регрессии: F-тест 106

5.3.3. Проверка общего качества уравнения регрессии: t-тест 108

§5.4. Интервалы прогноза по уравнению регрессии 108