Решение парной регрессии. Линейная парная регрессия

Наиболее простой с точки зрения понимания, интерпретации и техники расчетов является линейная форма регрессии .

Уравнение линейной парной регрессии , где

a 0 , a 1 - параметры модели, ε i - случайная величина (величина остатка).

Параметры модели и их содержание:


Уравнение регрессии дополняется показателем тесноты связи. В качестве такого показателя выступает линейный коэффициент корреляции , который рассчитывают по формуле:

или .

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции , называемый коэффициентом детерминации . Коэффициент детерминации характеризует долю дисперсии результативного признака , объясняемую регрессией, в общей дисперсии результативного признака:

,

где

.

Соответственно величина характеризует долю дисперсии , вызванную влиянием остальных, неучтенных в модели, факторов.

После того как уравнение регрессии построено, выполняется проверка его адекватности и точности.Эти свойства модели исследуются на основе анализа ряда остатков ε i (отклонений расчетных значений от фактических).

Уровень ряда остатков

Корреляционный и регрессионный анализ проводится для ограниченной по объему совокупности. В связи с этим показатели регрессии, корреляции и детерминации могут быть искажены действием случайных факторов. Чтобы проверить, насколько эти показатели характерны для всей совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверить адекватность построенной модели.

Проверка адекватности модели заключается в определении значимости модели и установление наличия или отсутствия систематической ошибки.

Значения у 1 соответствующие данным х i при теоретических значениях а 0 и а 1 , случайные. Случайными будут и рассчитанные по ним значения коэффициентов а 0 и а 1 .

Проверка значимостиотдельных коэффициентов регрессии проводится по t-критерию Стьюдента путем проверки гипотезы равенстве нулю каждого коэффициента регрессии. При этом выясняют, насколько вычисленные параметры характерны для отображения комплекса условий: не являются ли полученные значения параметров результатом действия случайных величин. Для соответствующих коэффициентов регрессии применяют соответствующие формулы.

Формулы для определения t- критерия Стьюдента

где

S a 0 ,S a 1 - стандартные отклонения свободного члена и коэффициента регрессии. Определяются по формулам

где

S ε - стандартное отклонение остатков модели (стандартная ошибка оценки), которая определяется по формуле

Расчетные значения t-критерия сравнивают с табличным значением критерия t αγ , .которое определяется при (n — k — 1) степенях свободы и соответствующем уровне значимости α. Если расчетное значение t -критерия превосходит его табличное значение t αγ ,то параметр признается значимым. В таком случае практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями.

Оценка значимости уравнения регрессии в целом производится на основе - критерия Фишера , которому предшествует дисперсионный анализ.

Общая сумма квадратов отклонений переменной от среднего значения раскладывается на две части - «объясненную» и «необъясненную»:

Общая сумма квадратов отклонений;

Сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений);


- остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов.

Схема дисперсионного анализа имеет вид, представленный в таблице 35 ( - число наблюдений, - число параметров при переменной ).

Таблица 35 - Схема дисперсионного анализа

Компоненты дисперсии Сумма квадратов Число степеней свободы Дисперсия на одну степень свободы
Общая
Факторная
Остаточная

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину -критерия Фишера:

Для проверки значимости уравнения регрессии в целом используют F-критерий Фишера . В случае парной линейной регрессии значимость модели регрессии определяется по следующей формуле: .

Если при заданном уровне значимости расчетное значение F -критерия с γ 1 =k, γ 2 =(п - k - 1) степенями свободы больше табличного, то модель считается значимой, гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Проверка наличия или отсутствия систематической ошибки (выполнения предпосылок метода наименьших квадратов — МНК) осуществляется на основе анализа ряда остатков. Расчет случайных ошибок параметров линейной регрессии и коэффициента корреляции производят по формулам

,

Для проверки свойства случайности ряда остатков можно использовать критерий поворотных точек (пиков). Точка считается поворотной, если выполняются следующие условия: ε i -1 < ε i > ε i +1 или ε i -1 > ε i < ε i +1

Далее подсчитывается число поворотных точек р. Критерием случайности с 5 % уровнем значимости, т.е. с доверительной вероятностью 95%, является выполнение неравенства:

Квадратные скобки означают, что берется целая часть числа, заключенного в скобки. Если неравенство выполняется, то модель считается адекватной.

Для проверки равенства математического ожидания остаточной последовательности нулю вычисляется среднее значение ряда остатков:

Если = 0, то считается, что модель не содержит постоянной систематической ошибки и адекватна по критерию нулевого среднего.

Если ≠ 0, то проверяется нулевая гипотеза о равенстве нулю математического ожидания. Для этого вычисляют t -критерий Стьюдента по формуле:

где S ε — стандартное отклонение остатков модели (стандартная ошибка).

Значение t -критерий сравнивают с табличным t αγ . Если выполняется неравенство t > t αγ , то модель неадекватна по данному критерию

Дисперсия уровней ряда остатков должна быть одинаковой для всех значений х (свойство гомоскедастичности ).Если это условие не соблюдается, то имеет место гетероскедастичность .

Для оценки гетероскедастичности при малом объеме выборки можно использовать метод Гольдфельда—Квандта , суть которого заключается в том, что необходимо:

Расположить значения переменной х в порядке возрастания;

Разделить совокупность упорядоченных наблюдений на две группы;

По каждой группе наблюдений построить уравнения регрессии;

Определить остаточные суммы квадратов для первой и второй групп по формулам: ; , где

n 1 - число наблюдений в первой группе;

n 2 - число наблюдений во второй группе.

Рассчитать критерий или (в числителе должна быть большая сумма квадратов). При выполнении нулевой гипотезы о гомоскедастичности критерий F расч будет удовлетворять F-критерию со степенями свободы γ 1 =n 1 -m, γ 2 =n - n 1 - m) для каждой остаточной суммы квадратов (где mчисло оцениваемых параметров в уравнении регрессии). Чем больше величина F расч превышает табличное значение F- критерия, тем больше нарушена предпосылка о равенстве дисперсий остаточных величин.

Проверку независимости последовательности остатков (отсутствие автокорреляции) осуществляют с помощью d-критерия Дарбина—Уотсона . Он определяется по формуле:

Расчетное значение критерия сравнивается с нижним d 1 и верхним d 2 критическими значениями статистики Дарбина—Уотсона. Возможны следующие случаи:

1) если d < d 1 , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;

2) если d 1 < d < d 2 (включая сами эти значения), то считается, что нет достаточных оснований сделать тот или иной вывод. Необходимо использовать дополнительный критерий, например первый коэффициент автокорреляции:

Если расчетное значение коэффициента по модулю меньше табличного значения г 1кр, то гипотеза об отсутствии автокорреляции принимается; в противном случае эта гипотеза отвергается;

3) если d 2 < d < 2, то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию;

4) если d> 2, то это свидетельствует об отрицательной автокорреляции остатков. В этом случае расчетное значение критерия необходимо преобразовать по формуле d′= 4 - dи сравнивать с критическим значением d′, а не d.

Проверку соответствия распределения остаточной последовательности нормальному закону распределенияможно осуществить с помощью R/S - критерия, который определяется по формуле:

где S ε — стандартное отклонение остатков модели (стандартная ошибка). Расчетное значение R/S - критерия сравнивают с табличными значениями (нижней и верхней границами данного отношения), и если значение не попадает в интервал между критическими границами, то с заданным уровнем значимости гипотеза о нормальности распределения отвергается; в противном случае гипотеза принимается

Для оценки качества регрессионных моделей целесообразно также использовать индекс корреляции (коэффициент множественной корреляции).

Формула определения индекса корреляции

где

Общая сумма квадратов отклонений зависимой переменной от ее среднего значения. Определяется по формуле:

Сумма квадратов отклонений, объясненная регрессией. Определяется по формуле:

Остаточная сумма квадратов отклонений. Вычисляется по формуле:

Уравнение можно представить следующим образом:

Индекс корреляции принимает значение от 0 до 1. Чем выше значение индекса, тем ближе расчетные значения результативного признака к фактическим. Индекс корреляции используется при любой форме связи переменных; при парной линейной регрессии он равен парному коэффициенту корреляции.

В качестве меры точности модели применяют точностные характеристики: Для определения меры точности модели рассчитывают:

- максимальная ошибка - соответствует отклонению расчетному отклонению расчетных значений от фактических

- средняя абсолютная ошибка - ошибка показывает, насколько в среднем отклоняются фактические значения от модели

- дисперсия ряда остатков (остаточная дисперсия)

где - среднее значение ряда остатков. Определяется по формуле

- средняя квадратическая ошибка . Представляет собой корень квадратный из дисперсии: , чем меньше значение ошибки, тем точнее модель

- средняя относительная ошибка аппроксимации .

Средняя ошибка аппроксимации не должна превышать 8-10%.

Если модель регрессии признана адекватной, а параметры модели значимы, то переходят к построению прогноза.

Прогнозируемое значение переменной у получается при подстановке в уравнение регрессии ожидаемой величины независимой переменной х прогн.

Данный прогноз называется точечным. Вероятность реализации точечного прогноза практически равна нулю, поэтому рассчитывается доверительный интервал прогноза с большой надежностью.

Доверительные интервалы прогноза зависят от стандартной ошибки, удаления х прогн от своего среднего значения , количества наблюдений n и уровня значимости прогноза α. Доверительные интервалы прогноза рассчитывают по формуле: или

где

t табл - определяется по таблице распределения Стьюдента для уровня значимости α и числа степеней свободы γ=n-k-1.

Пример13 .

По данным проведенного опроса восьми групп семей известны данные связи расходов населения на продукты питания с уровнем доходов семьи (таблица 36).

Таблица 36 - Связи расходов населения на продукты питания с уровнем доходов семьи

Расходы на продукты питания, , тыс. руб. 0,9 1,2 1,8 2,2 2,6 2,9 3,3 3,8
Доходы семьи, , тыс. руб. 1,2 3,1 5,3 7,4 9,6 11,8 14,5 18,7

Предположим, что связь между доходами семьи и расходами на продукты питания линейная. Для подтверждения нашего предположения построим поле корреляции (рисунок 8).

По графику видно, что точки выстраиваются в некоторую прямую линию.

Для удобства дальнейших вычислений составим таблицу 37.

Рассчитаем параметры линейного уравнения парной регрессии . Для этого воспользуемся формулами:

Рисунок 8 - Поле корреляции.

Получили уравнение:

Т.е. с увеличением дохода семьи на 1000 руб. расходы на питание увеличиваются на 168 руб.

Расчет линейного коэффициента корреляции .

Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Важным и нетривиальным этапом построения регрессионной модели является выбор уравнения регрессии. Этот выбор основывается на теоретических данных об изучаемом явлении и предварительном анализе имеющихся статистических данных.

Уравнение парной линейной регрессии имеет вид:

где - теоретические значения результативного признака, полученные по уравнению регрессии; - коэффициенты (параметры) уравнения регрессии.

Модель регрессии строится на основании статистических данных, причем могут использоваться как индивидуальные значения признака, так и сгруппированные данные. Для выявления связи между признаками по достаточно большому числу наблюдений статистические данные предварительно группируют по обоим признакам и строят корреляционную таблицу. При помощи корреляционной таблицы отображается только парная корреляционная связь, т.е. связь результативного признака с одним фактором. Оценка параметров уравнения регрессии осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и требование минимальности суммы квадратов отклонений эмпирических данных от выровненных значений результативного фактора :

.

Для линейного уравнения регрессии имеем:

Для нахождения минимума данной функции приравняем к нулю ее частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

где - объем исследуемой совокупности (число единиц наблюдения).

Решение системы нормальных уравнений позволяет найти параметры уравнения регрессии .

Коэффициент парной линейной регрессии является средним значением в точке , поэтому его экономическая интерпретация затруднена. Смысл этого коэффициента можно трактовать как усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов. Коэффициент показывает, на сколько в среднем изменяется значение результативного признака при изменении факторного признака на единицу.

После получения уравнения регрессии необходимо проверить его адекватность, то есть соответствие фактическим статистическим данным. С этой целью производится проверка значимости коэффициентов регрессии: выясняется, насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом случайного стечения обстоятельств.

Для проверки значимости коэффициентов простой линейной регрессии при объеме совокупности меньше 30 единиц используется критерий Стьюдента. Сопоставляя значение параметра с его средней ошибкой, определяют величину критерия:


где - средняя ошибка параметра .

Средняя ошибка параметров и рассчитываются по следующим формулам:

; ,

– объем выборки;

Среднеквадратическое отклонение результативного признака от выровненных значений ;

Среднеквадратическое отклонение факторного признака от общей средней :

или

Тогда расчетные (фактические) значения критерия соответственно равны:

- для параметра ;

- для параметра .

Вычисленные значения критерия сравниваются с критическими значениями , которые определяют по таблице Стьюдента с учетом принятого уровня значимости и числа степеней свободы , где - объем выборки, -1 ( - число факторных признаков). В социально-экономических исследованиях уровень значимости обычно принимают 0.05 или 0.01. Параметр признается значимым, если (отклоняется гипотеза о том, что параметр лишь в силу случайных обстоятельств оказался равным полученной величине, а в действительности равен нулю).

Адекватность регрессионной модели может быть оценена при помощи -критерия Фишера. Расчетное значение критерия определяется по формуле ,

где - число параметров модели;

Объем выборки.

По таблице определяется критическое значение -критерия Фишера для принятого уровня значимости и числа степеней свободы , . Если , то модель регрессии признается адекватной по этому критерию (отвергается гипотеза о несоответствии заложенных в уравнении и реально существующих связей).

Вторая задача корреляционно-регрессионного анализа – измерение тесноты зависимости результативного и факторного признака.

Для всех видов связи задача измерения тесноты зависимости может быть решена с помощью исчисления теоретического корреляционного отношения:

,

где - дисперсия в ряду выровненных значений результативного признака , обусловленная факторным признаком ;

- дисперсия в ряду фактических значений . Это общая дисперсия, которая слагается из дисперсии, обусловленной фактором (т.е. факторной дисперсии), и дисперсии остатка (отклонение эмпирических значений признака от выровненных теоретических).

На основании правила сложения дисперсий теоретическое корреляционное отношение может быть выражено через остаточную дисперсию :

.

Так как дисперсия отражает вариацию в ряду только за счет вариации фактора , а дисперсия отражает вариацию за счет всех факторов, то их отношение, именуемое теоретическим коэффициентом детерминации , показывает, какой удельный вес в общей дисперсии ряда занимает дисперсия, вызываемая вариацией фактора . Квадратный корень из отношения этих дисперсий дает теоретическое корреляционное отношение. При нелинейных связях теоретическое корреляционное отношение называют индексом корреляции и обозначают .

Если , то это означает, что роль других факторов в вариации отсутствует, остаточная дисперсия равна нулю и отношение означает полную зависимость вариации от . Если , то это означает, что вариация никак не влияет на вариацию , и в этом случае . Следовательно, корреляционное отношение принимает значения от 0 до 1. Чем ближе корреляционное отношение к 1, тем теснее связь между признаками.

Кроме того, при линейной форме уравнения связи применяется другой показатель тесноты связи – линейный коэффициент корреляции:

.

Линейный коэффициент корреляции принимает значения от –1 до 1. Отрицательные значения указывают на обратную зависимость, положительные – на прямую. Чем ближе модуль коэффициента корреляции к единице, тем теснее связь между признаками.

Приняты следующие граничные оценки линейного коэффициента корреляции:

Связи нет;

Связь слабая;

Связь посредственная;

Связь сильная;

Связь очень сильная.

Квадрат линейного коэффициента корреляции называют линейным коэффициентом детерминации.

Факт совпадения или несовпадения теоретического корреляционного отношения и линейного коэффициента корреляции используется для оценки формы зависимости. Их значения совпадают только при наличии линейной связи. Несовпадение этих величин свидетельствует о нелинейности связи между признаками. Принято считать, что если , то гипотезу о линейности связи можно считать подтвержденной.

Показатели тесноты связи, особенно исчисленные по данным сравнительно небольшой статистической совокупности, могут искажаться действием случайных причин. Это вызывает необходимость проверки их надежности (значимости), дающей возможность распространять выводы, полученные по выборочным данным, на генеральную совокупность.

Для этого рассчитывается средняя ошибка коэффициента корреляции:

Где - число степеней свободы при линейной зависимости.

Затем находится отношение коэффициента корреляции к его средней ошибке, то есть , которое сравнивается с табличным значением критерия Стьюдента.

Если фактическое (расчетное) значение больше табличного (критического, порогового), то линейный коэффициент корреляции считается значимым, а связь между и - реальной.

После проверки адекватности построенной модели (уравнения регрессии) ее необходимо проанализировать. Для удобства интерпретации параметра используют коэффициент эластичности. Он показывает средние изменения результативного признака при изменении факторного признака на 1% и вычисляется по формуле:

Точность полученной модели может быть оценена на основании значения средней ошибки аппроксимации:

Кроме того, в некоторых информативными являются данные об остатках, характеризующих отклонение -х наблюдений от расчетных значений . Особый экономический интерес представляют значения, остатки которых имеют наибольшие положительные или отрицательные отклонения от ожидаемого уровня анализируемого показателя.

Линейная парная регрессия находит широкое применение в экономет­рике в виде четкой экономической интерпретации ее параметров. Линейная регрессия сводится к нахождению уравнения вида

или . (3.6)

Уравнение вида позволяет по заданным значени­ям фактора х иметь теоретические значения результативного признака, подставляя в него фактические значения фактора x .

Построение парной линейной регрессии сводится к оценке ее пара­метров и . Оценки параметров линейной регрессии могут быть найдены разными методами. Например, методом наименьших квадратов (МНК).

Согласно метода наименьших квадратов оценки параметров и выбираются таким образом, чтобы сумма квадратов отклонений фактических значений ре­зультативного признака (у) от расчетных (теоретических, модельных) была ми­нимальна.Иными словами, из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной (рис. 3.2):

, (3.7)

Рис. 3.2. Линия регрессии с минимальной суммой квадратов расстояний по вертикали между точками и этой линией

Для дальнейших выводов в выражении (3.7) подставим модельное значение, т. е. и получим:

Чтобы найти минимум функции (3.8), надо вычислить част­ные производные по каждому из параметров и и приравнять их к нулю:

Преобразуя эту систему, получим следующую систему нор­мальных уравнений для оценки параметров и :

. (3.9)

Матричная форма записи этой системы имеет вид:

. (3.10)

Решая систему нормальных уравнений (3.10) в матричной форме получим:

Алгебраическая форма решения системы (3.11) можно записать следующим образам:

После несложных преобразовании формулу (3.12) можно записать в удобной форме:

Необходимо заметить, что оценки параметров уравнения регрессии можно получить и по другим формулам, например:

(3.14)

Здесь выборочный парный линейный коэффициент корреляции.

После вычисления параметров регрессии мы можем записать уравнение математической модели регрессии :

Необходим заметить, что параметр показывает среднее изменение результата с изменением фактора на одну единицу. Так, если в функции издержек (у - издержки (тыс. руб.), х - количество единиц продукции). То, следовательно, с увеличением объема продукции (х) на 1 ед. издержки производства возрастают в среднем на 2 тыс. руб., т. е. дополнительный прирост продукции на 1 ед. потребует увеличения затрат в среднем на 2 тыс. руб.

Возможность четкой экономической интерпретации коэф­фициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследова­ниях.

Формально - значение у при х = 0. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка свободного члена не имеет смысла. Параметр может не иметь экономического содержания. Попытки экономически интерпретировать параметр могут привести к абсурду, особен­но при < 0.

Пример 3.2 . Предположим по группе предприятий, выпускающих один и тот же вид продукции, рассматривается функция издержек: . Информация, необходимая для расчета оценок параметров и , представлена в табл. 3.1.

Таблица 3.1

Расчетная таблица

№ предприятия

Выпуск продукции, тыс. ед. ()

Затраты на производство, млн руб. ()

Система нормальных уравнений будет иметь вид:

.

Решение этой системы по формуле (4.13) дает результат:

Запишем модель уравнения регрессии (4.16):

Подставив в уравнение значения x , найдем теоретические (модельные) значения у, (см. последнюю графу табл. 3.1).

В данном случае величина параметра не имеет экономичес­кого смысла.

В рассматриваемом примере имеем:

Уравнение регрессии всегда дополняется показателем тесно­ты связи. При использовании линейной регрессии в качестве та­кого показателя выступает линейный коэффициент корреляции . Существуют разные модификации формулы линейного коэф­фициента корреляции. Некоторые из них приведены ниже:

Как известно, линейный коэффициент корреляции находит­ся в границах: .

Если коэффициент регрессии , то, и, наобо­рот, при, .

По данным табл. 4.1 величина линейного коэффициента кор­реляции составила 0,993, что достаточно близко к 1 и означает наличие очень тесной зависимости затрат на производство от ве­личины объема выпущенной продукции.

Следует иметь в виду, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины линейного коэффициента корреляции к нулю еще не означает от­сутствие связи между признаками. При иной спецификации мо­дели связь между признаками может оказаться достаточно тесной.

Для оценки качества подбора линейной функции рассчиты­вается квадрат линейного коэффициента корреляции , назы­ваемый коэффициентом детерминации. Коэффициент детермина­ции характеризует долю дисперсии результативного признака у, объяснимуюрегрессией, в общей дисперсии результативного признака.

Соответственно величина характеризует долю дисперсии вызванную влиянием остальных не учтенных в модели факторов.

В нашем примере . Следовательно, уравнением регрессии объясняется 98,6% дисперсии результативного признака,а на долюпрочих факторов приходится лишь 1,4% ее дисперсии (т. е. остаточная дисперсия). Величина коэффициента детерминации служитодним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньшероль прочих факторов, и, следовательно, линейная модельхорошо аппроксимирует исходные данные и ею можно воспользоваться для прогноза значений результативного признака. Так, полагая, что объем продукции предприятия может составить 6 тыс. ед., прогнозное значение для издержек производства ока­жется 221,01 тыс. руб.

Уравнение парной регрессии .

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Линейное уравнение регрессии имеет вид y = bx + a + ε

Система нормальных уравнений.

a n + b∑x = ∑y

a∑x + b∑x 2 = ∑y x

Для наших данных система уравнений имеет вид

12a + 1042 b = 1709

1042 a + 91556 b = 149367

Из первого уравнения выражаем а и подставим во второе уравнение:

Получаем эмпирические коэффициенты регрессии: b = 0.9, a = 64.21

Уравнение регрессии (эмпирическое уравнение регрессии):

y = 0.9 x + 64.21

Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов β i , а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.

Для расчета параметров линейной регрессии построим расчетную таблицу (табл. 1)

1. Параметры уравнения регрессии.

Выборочные средние.

Выборочные дисперсии:

Среднеквадратическое отклонение

1.1. Коэффициент корреляции

Ковариация .

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 0.9 x + 64.21

1.3. Коэффициент эластичности .

Коэффициент эластичности находится по формуле:

1.4. Ошибка аппроксимации .

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.

1.5. Эмпирическое корреляционное отношение.

Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах .

Индекс корреляции .

Для линейной регрессии индекс корреляции равен коэфииценту корреляции r xy = 0.79.

Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции :

1.6. Коэффициент детерминации.

Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.

R 2 = 0.79 2 = 0.62

Для оценки качества параметров линейной регрессии построим расчетную таблицу (табл. 2)

2. Оценка параметров уравнения регрессии.

2.1. Значимость коэффициента корреляции .

Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H 1 ≠ 0, надо вычислить наблюдаемое значение критерия

и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку t крит двусторонней критической области. Если t набл < t крит оснований отвергнуть нулевую гипотезу. Если |t набл | > t крит - нулевую гипотезу отвергают.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим t крит:

где m = 1 - количество объясняющих переменных.

2.2. Интервальная оценка для коэффициента корреляции (доверительный интервал).

2.3. Анализ точности определения оценок коэффициентов регрессии.

Несмещенной оценкой дисперсии возмущений является величина:

S 2 y = 53.63 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

S y = 7.32 - стандартная ошибка оценки (стандартная ошибка регрессии).

S a - стандартное отклонение случайной величины a.

S b - стандартное отклонение случайной величины b.

2.4. Доверительные интервалы для зависимой переменной.

(a + bx p ± ε)

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 107

Индивидуальные доверительные интервалы для Y при данном значении X.

(a + bx i ± ε)

t крит (n-m-1;α/2) = (10;0.025) = 2.228

2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.

1) t-статистика. Критерий Стьюдента.

t крит (n-m-1;α/2) = (10;0.025) = 2.228

Доверительный интервал для коэффициентов уравнения регрессии .

(b - t крит S b ; b + t крит S b)

(a - t крит S a ; a + t крит S a)

2) F-статистика. Критерий Фишера.

Табличное значение критерия со степенями свободы k 1 =1 и k 2 =10, F табл = 4.96

Парная линейная регрессия

Предварительные расчеты :

;
;
;
;
;

;
.

Построение таблицы вида

Среднее значение

Формулы для расчетов параметров:

,
.

Линейн

Оценка тесноты связи :

а) коэффициент корреляции
, или
;

При компьютерном подборе использовать встроенную функцию Коррел

б) коэффициент эластичности
;

в) коэффициент детерминации .

Оценка значимости уравнения регрессии в целом:

Предварительные расчеты с построением таблицы вида

а) F -критерий Фишера при числе степеней свободы
и
и уровне значимости 0,05 смотреть в таблице. Расчетное значение критерия:

.

Если расчетное значение F- критерия больше табличного, нулевая гипотеза об отсутствии значимой связи признаков x и y отклоняется, и делается вывод о существенности этой связи.

б) Средняя ошибка аппроксимации

.

Оценка значимости параметров регрессии:

а) Стандартная ошибка параметра a рассчитывается по формуле

, где
.

б) Стандартная ошибка коэффициента регрессии b рассчитывается по формуле

.

в) Стандартная ошибка коэффициента корреляции рассчитывается по формуле

.

t -критерий Стъюдента при числе степеней свободы
и уровне значимости 0,05 смотреть в таблице.

Фактические значения t -статистики:

,
,
.

Если фактическое значение по абсолютной величине превышает табличное, гипотезу о несущественности параметра регрессии можно отклонить, параметр признается значимым.

Связь между F -критерием Фишера и t -критерием Стъюдента выражается равенством

.

Расчет доверительных интервалов для параметров регрессии:

Доверительный интервал для параметра a определяется как
;

доверительный интервал для коэффициента регрессии определяется как
.

При компьютерном анализе использовать в Excel Сервис/Анализ данных/Регрессия.

Интервальный прогноз на основе линейного уравнения регрессии:

Пусть – прогнозное значение факторного признака;
– точечный прогноз результативного признака. Тогда

а) средняя ошибка прогноза :

;

б) доверительный интервал прогноза

с помощью табличного редактора MS Excel

Активизация надстройки Пакет анализа

Для активизации надстройки Пакет анализа необходимо выполнить следующие действия:

1. Выбрать команду Сервис/Надстройки.

2. В появившемся диалоговом окне установить флажок Пакет анализа.

В соответствии с вариантом задания, используя статистический материал, необходимо :

2. Оценить тесноту связи зависимой переменной (результативного фактора) с объясняющей переменной с помощью показателей корреляции и детерминации.

3. Оценить с помощью F -критерия Фишера статистическую надежность моделирования.

4. Оценить статистическую значимость параметров регрессии и корреляции.

5. Определить среднюю ошибку аппроксимации.

6. Используя коэффициент эластичности, выполнить количественную оценку влияния объясняющего фактора на результат.

7. Выполнить точечный и интервальный прогноз результативного признака при увеличении объясняющего признака на 25% от его среднего значения (достоверность прогноза 95%).

8. На одной диаграмме изобразить поле корреляции исходных данных и прямую регрессии.

Пример

Имеются данные о годовой цене программы «Мастер делового администрирования» и числе слушателей в образовательном учреждении.

I. Вводим исходные данные в документ Excel .

II. Вызываем надстройку Анализ данных в меню Сервис.

III. Выбираем инструмент Регрессия .

IV. Заполняем соответствующие позиции окна Регрессия.

V. После нажатия Ок получаем протокол решения задачи.

VI. Анализируем полученный протокол.

1) Коэффициент регрессии ;

Свободный член уравнения регрессии
.

Примечание . При необходимости результаты округляются с нужной точностью. Требование по округлению можно провести изначально, задав количество знаков после запятой в меню Формат ячейки.

Уравнение парной линейной регрессии имеет вид: .

2) Коэффициент корреляции
, что свидетельствует о тесной связи признаковy и x . Коэффициент детерминации
. Полученное уравнение регрессии объясняет 53% вариации признакаy , остальные 47% изменчивости этого признака обусловлены влиянием неучтенных в модели факторов.

3) Оценим статистическую значимость (надежность моделирования) уравнения в целом. Расчетное значение критерия Фишера указано в протоколе,
. Критическое значение этого критерия можно найти с помощь статистической функцииF РАСПОБР табличного редактора Е xcel .

Входными параметрами этой функции являются:

– уровень значимости (вероятность), имеется в виду вероятность ошибки отвергнуть верную гипотезу о статистической незначимости построенного уравнения регрессии. Как правило, выбирают уровень значимости, равный 0,05 или 0,01;

– число степеней свободы 1 – совпадает с количеством параметров при переменной в уравнении регрессии, для парной линейной регрессии
это число равно единице;

– число степеней свободы 2 равно для парной линейной регрессии
, гдеn – объем исходных статистических данных.

Выполняем действия Вставка/Функция , выбираем нужное.

Поскольку расчетное значение F-критерия больше табличного, равного 4,84, нулевая гипотеза об отсутствии значимой связи признаков x и y отклоняется и делается вывод о существенности этой связи.

4) Оценим статистическую значимость параметров a и b в уравнении регрессии с помощью t - критерия Стъюдента.

Расчетные значения статистики Стъюдента
,
. Соответствующее табличное значение можно определить через статистическую функциюСТЪЮДРАСПОБР , число степеней свободы равно
.

Поскольку фактические значения по абсолютной величине превышают табличное, равное 2,2, гипотезу о несущественности параметров регрессии можно отклонить.

5) Определим среднюю ошибку аппроксимации,
. Понадобится выполнение вспомогательных расчетов, оформленных в виде таблицы.

Таким образом, средняя ошибка аппроксимации по данному уравнению регрессии составляет 12,66%, модель парной линейной регрессии можно признать удовлетворительной и пригодной для прогнозирования.

6) Выполним количественную оценку влияния фактора x на фактор y , используя коэффициент эластичности. Для парной линейной регрессии его можно найти по формуле
. Имеем

.

Следовательно, при увеличении количества слушателей на 1% годовая цена уменьшится на 0,4%.

7) Выполним расчет прогноза y при увеличении фактора x на 25% от среднего.

Прогнозное значение .

Точечный прогноз признака y : .

Средняя ошибка прогноза равна ,

где
– остаточная дисперсия,
–дисперсия фактораx .

Численное значение суммы
в протоколе обозначено как остаточноеSS.

Тогда
,
.

Самый быстрый способ получения вспомогательных характеристик – среднего значения фактораx и - дисперсии, воспользоваться инструментомОписательная статистика в пакете Анализ данных.

Протокол вывода результатов имеет вид

Доверительный интервал прогноза: , где– соответствующее табличное значение критерия Стъюдента (найдено ранее по функцииСТЪЮДРАСПОБР ,
).

Следовательно,

т.е. можно быть уверенным на 95%, что цена годового курса при 35 слушателях будет варьироваться в указанных пределах (при точечном прогнозе цены в 3,65825 тыс. долл.).

8) Для построения диаграммы выполним следующие действия:

Шаг 1 Вставка/ Диаграмма/График

Шаг 3 Ряд/Добавить/Значения/ Выделить столбец регрессионных значений фактора – .

Шаг 4 Подписи оси X / Выделить столбец значений x .

Шаг 4 Каждому из рядов присвоить имя, подписать оси координат и название диаграммы.

Примечание.

Для построения диаграммы значения фактора x должны быть отсортированы по возрастанию с сохранением соответствующего значения y . Это может быть сделано так Данные/Сортировка/ Выделить столбец, в котором необходимо сделать сортировку. Например,

Задания для самостоятельной работы

Вариант 1

x

y

Вариант 2

x – энерговооруженность на 10-ти предприятиях, кВт;

y – производительность труда, тыс. руб.

Вариант 3

x – качество земли, баллы;

y – урожайность, ц/га.

Вариант 4

x – качество земли, баллы;

y – урожайность, ц/га.

Вариант 5

x – товарооборот;

y –издержки обращения по отношению к товарообороту.

Вариант 6

x – электровооруженность на одного рабочего;

y – выпуск готовой продукции на одного рабочего.

Вариант 7

x –уровень доходов семьи;

y – расходы на продукты питания (в расчете на 100 руб. доходов).

КАТЕГОРИИ

ПОПУЛЯРНЫЕ СТАТЬИ

© 2024 «kingad.ru» — УЗИ исследование органов человека