Оценка на параметрите на линейната регресия. Регресия в Excel: уравнение, примери

Линейната регресия се свежда до намиране на уравнение от вида:

Първият израз позволява дадени стойности на фактора хизчислете теоретичните стойности на резултантната характеристика, като заместите действителните стойности на факторите в нея. В графиката (фиг. 1.2) теоретичните стойности лежат на права линия, която представлява регресионна линия.

Построяването на линейната регресия се свежда до оценка на нейните параметри - a и b. Класическият подход за оценка на параметрите на линейната регресия се основава на метода на най-малките квадрати (OLS).

Методът на най-малките квадрати ни позволява да получим такива оценки на параметрите АИ б,при което сумата от квадратите на отклоненията на действителните стойности приот теоретично y xминимум:

Ориз. 1.2.

За да се намери минимумът, е необходимо да се изчислят частните производни на сумите (1.4) за всеки от параметрите (a и ft) и да се приравнят към нула:

След трансформацията получаваме система от нормални уравнения:

В системата П- размер на извадката, сумите се изчисляват лесно от оригиналните данни. Решаване на системата за АИ б,получаваме:

Изразът (1.7) може да бъде записан в друга форма:

където cov(x, y) -ковариация на черта; су* - факторна дисперсия Х.

Параметърът b се нарича регресионен коефициент. Стойността му показва средната промяна в резултата с увеличение на коефициента с една единица. Възможността за ясна икономическа интерпретация на регресионния коефициент направи уравнението на линейната регресия по двойки доста често срещано в иконометричните изследвания.

Формално А -значение припри x = 0. Ако хняма и не може да има нулева стойност, тогава тази интерпретация на свободния термин Аняма смисъл. Параметър Анай-често няма икономическо съдържание. Опитите за икономическо тълкуване могат да доведат до абсурд, особено когато a 0. Само знакът на параметъра може да бъде интерпретиран А.Ако а > 0, тогава относителната промяна в резултата настъпва по-бавно от промяната във фактора. Нека сравним тези относителни промени:

Понякога се записва линейно уравнение на регресия по двойки за отклонения от средната стойност:

Където

В този случай свободният член е равен на нула, което е отразено в израз (1.10). Този факт следва от геометрични съображения: същата права линия (1.3) съответства на уравнението на регресията, но когато се оценява регресията в отклонения, началото на координатите се премества в точката с координати (Zc, y). В този случай в израз (1.8) и двете суми ще бъдат равни на нула, което ще доведе до равенството на свободния член на нула. Изразите (1.7) и (1.9) също са опростени.

Като пример, нека разгледаме група предприятия, произвеждащи един вид продукт, регресионната зависимост на разходите от продукцията на продукта y = a + bx+ e (Таблица 1.1).

Системата от нормални уравнения ще има формата

Решавайки го, получаваме А - -5,79, b - 36,84.

Уравнението на регресията има формата

Таблица 1.1

Входни данни за оценка на параметрите на сдвоения линеен модел

Продуктова продукция (x), хиляди единици.

Производствени разходи (y),милиона рубли

Замествайки стойностите на x в регресионното уравнение, намираме теоретичните стойности на y (последната колона на таблица 1.1).

величина Аняма икономически смисъл. Ако променливите хИ приизразено чрез отклонения от средните нива, тогава регресионната линия на графиката ще минава през началото на координатите. Оценката на коефициента на регресия няма да се промени: y" = 36,84x", където y" = y-y, x" = x-x.

Като друг пример, разгледайте функцията на потребление на формуляра:

където C е потреблението; при- доходи; К, Л -настроики.

Това уравнение на линейна регресия обикновено се използва заедно с уравнението на баланса

където / е размерът на инвестицията; Ж- спестявания.

За простота приемете, че доходите се изразходват за потребление и инвестиции. По този начин разглеждаме системата от уравнения

Наличието на балансово равенство налага ограничения върху стойността на регресионния коефициент, който не може да бъде по-голям от единица, т.е. К 1.

Да приемем, че функцията на потребление е C = 1.9 + 0.65г.

Коефициентът на регресия характеризира склонността към потребление. Това показва, че от всяка хиляда рубли доход средно 650 рубли се изразходват за потребление, а 350 рубли. е инвестирано. Ако изчислим регресията на размера на инвестицията върху дохода, т.е. I = a + от,тогава регресионното уравнение ще бъде аз= -1,9 + 0,35 г. Не е необходимо да се определя, тъй като се извлича от функцията на потреблението. Коефициентите на регресия на тези две уравнения са свързани с равенството 0,65 + 0,35 = 1. Ако коефициентът на регресия е по-голям от едно, тогава Не само доходите, но и спестяванията се изразходват за потребление.

Коефициент на регресия ДА СЕвъв функцията на потребление се използва за изчисляване на множителя:

Където T» 2,86, така че допълнителната инвестиция е 1 хил. Рубли. за дълъг период ще доведе, при равни други условия, до допълнителен доход от 2,86 хиляди рубли.

При линейната регресия коефициентът на линейна корелация действа като индикатор за близостта на връзката Ж.

Стойностите му са в границите: - 1 r 1. Ако 6>0, тогава 0 g b 0-1 g 0. Според примера изчислението на израз (1.11) дава g = 0,991, което означава много тясна зависимост на производствените разходи от обема на произведената продукция.

За да се оцени качеството на избора на линейна функция, коефициентът на определяне се изчислява като квадрат на коефициента на линейна корелация аз 2.Той характеризира дела на дисперсията на резултантната характеристика y, обяснена чрез регресия, в общата дисперсия на резултантната характеристика:

Стойност 1 - g 2характеризира дела на дисперсията y,причинени от влиянието на други фактори, които не са взети предвид в модела.

В примера g 2 = 0,982. Уравнението на регресията обяснява 98,2% от дисперсията в y, а други фактори представляват 1,8% - това е остатъчната дисперсия.

Линейната регресия се използва широко в иконометрията под формата на ясна икономическа интерпретация на нейните параметри. Линейната регресия се свежда до намиране на уравнение на формата

Или . (4.6)

Уравнение на формата позволява дадени стойности на фактора химат теоретични стойности на резултантната характеристика, замествайки действителните стойности на фактора в нея х. На графиката теоретичните стойности представляват регресионната линия (фиг. 4.2).

Ориз. 4.2. Графична оценка на параметрите на линейната регресия

Изграждането на линейната регресия се свежда до оценка на нейните параметри и .Оценките на параметрите на линейната регресия могат да бъдат намерени по различни методи. Можете да се обърнете към корелационното поле и като изберете две точки на графиката, да начертаете права линия през тях (вижте Фиг. 4.2). След това, като използвате графиката, можете да определите стойностите на параметрите. Дефинираме параметъра като точката на пресичане на регресионната линия с оста и оценяваме параметъра въз основа на наклона на регресионната линия като , където е нарастването на резултата y,факторно увеличение Х,т.е.

Класическият подход за оценка на параметрите на линейната регресия се основава на метод на най-малките квадрати(MNC).

Методът на най-малките квадрати ни позволява да получим такива оценки на параметрите и , за които сумата от квадратните отклонения на действителните стойности на получената характеристика (y)от изчисления (теоретичен) минимум:

С други думи, от целия набор от линии регресионната линия на графиката е избрана така, че сумата от квадратите на вертикалните разстояния между точките и тази линия да е минимална:

Следователно,

За да се намери минимумът на функция (4.7), е необходимо да се изчислят частните производни за всеки от параметрите АИ bи ги задайте равни на нула.

Нека означим с С, Тогава:

Преобразувайки тази система, получаваме следната система от нормални уравнения за оценка на параметрите и:

. (4.8)

Чрез решаване на системата от нормални уравнения (4.8) или чрез метода на последователно елиминиране на променливи, или чрез метода на детерминантите, намираме числените стойности на необходимите параметри и . Можете да използвате следните готови формули:

. (4.9)

Формула (4.9) се получава от първото уравнение на системата (4.8), ако всички нейни членове се разделят на П.

където е ковариацията на характеристиките;

Вариация на черта х.

Поради факта че , , получаваме следната формула за изчисляване на оценката на параметъра b:

. (4.10)

Параметърът се нарича коефициент на регресия. Стойността му показва средната промяна в резултата с промяна на коефициента с една единица. Така че, ако във функцията на разходите (y -разходи (хиляди рубли), х- брой единици продукция). Следователно, с увеличаване на обема на производството (Х)за 1 бр производствените разходи се увеличават средно с 2 хиляди рубли, т.е. допълнително увеличение на производството с 1 единица. ще изисква увеличение на разходите средно с 2 хиляди рубли.


Възможността за ясна икономическа интерпретация на регресионния коефициент направи уравнението на линейната регресия доста често срещано в иконометричните изследвания.

Формално - смисъл припри х= 0. Ако атрибут-факторът няма и не може да има нулева стойност, тогава горната интерпретация на свободния термин няма смисъл. Параметърът може да няма икономическо съдържание. Опит за икономична интерпретация на параметъра Аможе да доведе до абсурд, особено когато < 0.

100 рублибонус за първа поръчка

Изберете типа работа Дипломна работа Курсова работа Реферат Магистърска теза Доклад от практика Статия Доклад Преглед Тестова работа Монография Решаване на проблеми Бизнес план Отговори на въпроси Творческа работа Есе Рисуване Есета Превод Презентации Въвеждане на текст Друго Повишаване на уникалността на текста Магистърска теза Лабораторна работа Онлайн помощ

Разберете цената

При оценката на параметрите на регресионното уравнение се използва методът на най-малките квадрати (OLS). В този случай се правят определени предпоставки по отношение на случайния компонент e. В модела случайният компонент e е ненаблюдаема величина. След като параметрите на модела са оценени, изчисляването на разликите между действителните и теоретичните стойности на резултантната характеристика y , е възможно да се определят оценки на случайния компонент. Тъй като те не са реални произволни остатъци, те могат да се считат за някаква примерна реализация на неизвестния остатък от дадено уравнение, т.е.

При промяна на спецификацията на модела или добавяне на нови наблюдения към него, примерните оценки на остатъците ei може да се променят. Следователно задачата на регресионния анализ включва не само изграждането на самия модел, но и изследването на случайни отклонения ei, т.е. остатъчни стойности.

При използване на тестовете на Fisher и Student се правят допускания относно поведението на остатъците ei - остатъците са независими случайни променливи и тяхната средна стойност е 0; те имат една и съща (постоянна) дисперсия и следват нормално разпределение.

Статистическите тестове на регресионните параметри и корелационните индикатори се основават на неподлежащи на проверка допускания за разпределението на случайния компонент ei. Те са само предварителни. След построяване на регресионното уравнение наличието на

оценки ei (случайни остатъци) на тези свойства, които са били приети. Това се дължи на факта, че оценките на регресионните параметри трябва да отговарят на определени критерии. Те трябва да са безпристрастни, богати и ефективни. Тези свойства на оценките, получени чрез OLS, са от изключително важно практическо значение при използването на регресионни и корелационни резултати.

Неразместен оценки означава, че математическото очакване на остатъците е нула. Ако оценките са безпристрастни, тогава те могат да бъдат сравнени в различни проучвания.

Оценките се броят ефективен, ако се характеризират с най-малка дисперсия. В практическите изследвания това означава възможността за преминаване от точкова към интервална оценка.

Богатство оценките се характеризират с увеличаване на тяхната точност с увеличаване на размера на извадката. Голям практически интерес представляват тези резултати от регресията, за които доверителният интервал на очакваната стойност на параметъра на регресията bi има вероятностна граница равна на единица. С други думи, вероятността да се получи оценка на дадено разстояние от истинската стойност на параметъра е близка до единица.

Посочените критерии за оценка (безпристрастност, последователност и ефективност) задължително се вземат предвид при различните методи за оценка. Методът на най-малките квадрати конструира регресионни оценки въз основа на минимизиране на сумата от квадратите на остатъците. Следователно е много важно да се изследва поведението на регресионните остатъци ei. Условията, необходими за получаване на безпристрастни, последователни и ефективни оценки, са предпоставките за OLS, които са желателни за получаване на надеждни регресионни резултати.

Изследванията на ei остатъци включват проверка на наличието на следното пет помещения на МНП:

1. случаен характер на останките;

2. нулева средна стойност на остатъците, независимо от xi;

3. хомоскедастичност – дисперсията на всяко отклонение ei е еднаква за всички стойности на x ;

4. липса на автокорелация на остатъците – стойностите на остатъците ei се разпределят независимо една от друга;

5. остатъците следват нормално разпределение.

Ако разпределението на случайните остатъци ei не съответства на някои допускания на OLS, тогава моделът трябва да бъде коригиран.

На първо място се проверява случайният характер на остатъците ei - първата предпоставка на OLS. За тази цел се начертава графика на зависимостта на остатъците ei от теоретичните стойности на получената характеристика.

Ако на графиката се получи хоризонтална лента, тогава остатъците ei са случайни променливи и методът на най-малките квадрати е оправдан; теоретичните стойности добре приближават действителните стойности на y.

Следните случаи са възможни, ако ei зависи от Че:

1) остатъците ei не са произволни

2) остатъците ei нямат постоянна дисперсия

3) остатъците ei са систематични.

В тези случаи е необходимо или да се приложи различна функция, или да се въведе допълнителна информация и да се построи отново регресионното уравнение, докато остатъците ei станат случайни променливи.

Второто допускане на OLS относно нулеви средни остатъци означава това . Това е възможно за линейни модели и модели, които са нелинейни по отношение на включените променливи.

В същото време безпристрастността на оценките на регресионните коефициенти, получени от OLS, зависи от независимостта на случайните остатъци и стойностите на x, което също се изучава в рамките на съответствието с втората предпоставка на OLS. За целта, наред с представената графика на зависимостта на остатъците ei от теоретичните стойности на резултантния атрибут, е построена графика на зависимостта на случайните остатъци ei от факторите, включени в регресията xj.

Ако остатъците на графиката са разположени под формата на хоризонтална лента, тогава те не зависят от стойностите на xj. Ако графиката показва наличието на връзка между ei и xj, тогава моделът е неадекватен. Причините за неадекватността могат да бъдат различни. Възможно е третата предпоставка на OLS да е нарушена и дисперсията на остатъците да не е постоянна за всяка стойност на фактора xj. Спецификацията на модела може да е неправилна и трябва да бъде въведена

допълнителни условия от xj, например. Натрупването на точки в определени области на стойностите на фактора xj показва наличието на системна грешка в модела.

Допускането за нормално разпределение на остатъците позволява тестване на регресионни и корелационни параметри с помощта на F- и t-тестове. В същото време регресионните оценки, получени с помощта на OLS, имат добри свойства дори при липса на нормално разпределение на остатъците, т.е. ако се наруши петата предпоставка на МНК.

Абсолютно необходимо е да се получат последователни оценки на регресионните параметри, като се използват OLS методи, като се спазват третата и четвъртата предпоставка.

Третата предпоставка на OLS изисква дисперсията на остатъците да бъде хомоскедастичен. Това означава, че за всяка стойност на фактора xj остатъците ei имат същата дисперсия. Ако това условие за прилагане на метода на най-малките квадрати не е изпълнено, тогава хетероскедастичност. Наличието на хетероскедастичност може ясно да се види от корелационното поле:

1. Дисперсията на остатъците се увеличава с нарастване на x.

Тогава имаме следния тип хетероскедастичност: голяма дисперсия на ei за големи стойности

2. Дисперсията на остатъците достига максималната си стойност при средни стойности на x и намалява при минимални и максимални стойности.

Тогава имаме следния тип хетероскедастичност: голяма дисперсия ei за средни стойности и малка дисперсия ei за малки и големи стойности

3. Дисперсията на остатъците е максимална при малки стойности на x и дисперсията на остатъците е еднаква, когато x нараства.

Тогава имаме следния тип хетероскедастичност: голяма дисперсия ei за малки стойности, намаляваща дисперсия на остатъците ei като

При конструирането на регресионни модели е изключително важно да се спазва четвъртата предпоставка на OLS - липсата на автокорелация на остатъците, т.е. стойностите на остатъците ei се разпределят независимо една от друга.

Автокорелация на остатъците означава наличието на корелация между остатъците от текущите и предишни (последващи) наблюдения. Коефициентът на корелация между ei и ej, където ei са остатъците от текущите наблюдения, ej са остатъците от предишни наблюдения (например j=i-1), може да се дефинира като:

т.е. съгласно обичайната формула за линейния корелационен коефициент. Ако този коефициент се окаже значително различен от нула, тогава остатъците са автокорелирани и функцията на плътност на вероятността F(e) зависи от j -та точка на наблюдение и от разпределението на остатъчните стойности в други точки на наблюдение.

Липсата на автокорелация на остатъчните стойности гарантира последователността и ефективността на оценките на регресионните коефициенти. Особено важно е да се спазва тази предпоставка на OLS при конструирането на регресионни модели, базирани на времеви редове, където поради наличието на тенденция следващите нива на времевия ред, като правило, зависят от предишните си нива.

Ако основните допускания на OLS не са изпълнени, е необходимо да се коригира моделът, като се промени неговата спецификация, добавят (изключват) някои фактори, трансформират оригиналните данни, за да се получат оценки на регресионните коефициенти, които имат свойството да бъдат безпристрастни, имат по-ниска стойност на дисперсията на остатъците и следователно осигуряват по-ефективно статистическо тестване на значимостта на регресионните параметри.

За оценка на параметрите на регресионно уравнение най-често се използва методът на най-малките квадрати. (MNC).

Метод на най-малките квадрати произвежда оценки, които имат най-малката вариация в класа на всички линейни оценки, ако са изпълнени предположенията на нормален линеен регресионен модел.

LSM минимизира сумата от квадратните отклонения на наблюдаваните стойности от стойностите на модела .

Съгласно принципа на най-малките квадрати оценките се намират чрез минимизиране на сумата от квадрати

за всички възможни стойности И при зададени (наблюдавани) стойности
.

В резултат на прилагането на метода на най-малките квадрати получаваме формули за изчисляване на параметрите на сдвоения регресионен модел.

(3)

Такова решение може да съществува само ако условието е изпълнено

което е еквивалентно на разликата от нула на детерминантата на системата от нормални уравнения. Всъщност тази детерминанта е равна на

Последното условие се нарича условие за идентификациямодел на наблюдение и означава, че не всички стойности
съвпадат един с друг. Ако това условие е нарушено всичкоточки
, лежат на една и съща вертикална линия

Оценките се наричат оценки на най-малките квадрати . Нека обърнем внимание на получения израз за параметъра. Този израз включва сумите от квадрати, които преди са участвали в определянето на дисперсията на извадката

и примерна ковариация
така че в тези условия параметърът може да се получи, както следва:

=
=
=

=

Оценка на качеството на регресионното уравнение

Качеството на регресионния модел се свързва с адекватността на модела спрямо наблюдаваните (емпирични) данни. Адекватността (или съответствието) на регресионния модел с наблюдаваните данни се проверява въз основа на анализ на остатъците.

След като съставим регресионното уравнение, можем да разделим стойността Y във всяко наблюдение на два компонента - И .

остатък представлява отклонението на действителната стойност на зависимата променлива от стойността на тази променлива, получена чрез изчисление:
(
).

На практика, като правило, има известно разсейване на точките на корелационното поле спрямо теоретичната регресионна линия, т.е. отклонения на емпиричните данни от теоретичните (
). Големината на тези отклонения е основата за изчисляване на показателите за качество (адекватност) на уравнението.

При анализ на качеството на регресионен модел се използва основната позиция на дисперсионния анализ, според която общата сума на квадратите на отклоненията на зависимата променлива от средната стойност може да се разложи на два компонента - обяснени и необяснени от уравнението на дисперсионната регресия:

(4)

Където - стойности г, изчислено от модела
.

Разделяне на дясната и лявата част (4).

,

.

Коефициент на определяне се определя, както следва:

Коефициент на определяне показва съотношението на вариацията в получената характеристика, която се влияе от изследваните фактори, т.е. определя каква част от вариацията на характеристиката Y се взема предвид в модела и се дължи на влиянието на факторите върху нея.

Колкото по-близо
до 1, толкова по-високо е качеството на модела.

За да оцените качеството на регресионните модели, също е препоръчително да използвате коефициент на множествена корелация (индекс на корелация) R

Този коефициент е универсален, тъй като отразява близостта на връзката и точността на модела и може да се използва за всякакви форми на връзка между променливи.

При конструирането на еднофакторен модел той е равен на линейния корелационен коефициент
.

Очевидно е, че колкото по-малко е влиянието на неотчетените фактори, толкова по-добре моделът съответства на действителните данни.

Също така, за да се оцени качеството на регресионните модели, е препоръчително да се използва средната грешка на приближението:


Колкото по-малко е разсейването на емпиричните точки около теоретичната регресионна линия, толкова по-малка е средната апроксимационна грешка. Грешка на приближението под 7% показва добро качество на модела.

След като се построи регресионното уравнение, се проверява значимостта на построеното уравнение като цяло и на отделни параметри.

Оценяването на значимостта на регресионно уравнение означава да се установи дали математическият модел, изразяващ връзката между Y и X, съответства на действителните данни и дали обяснителните променливи X, включени в уравнението, са достатъчни, за да опишат зависимата променлива Y

Оценяването на значимостта на регресионното уравнение се прави, за да се установи дали регресионното уравнение е подходящо за практическа употреба (например за прогнозиране) или не. В този случай се излага основната хипотеза за незначимостта на уравнението като цяло, което формално се свежда до хипотезата, че регресионните параметри са равни на нула или, което е същото, че коефициентът на детерминация е равен на нула:
. Алтернативна хипотеза за значимостта на уравнението е хипотезата за неравенството на регресионните параметри на нула.

За тестване на значимостта на модела използва се регресия F тест на Фишер , изчислен като съотношението на дисперсията на оригиналната серия и безпристрастната дисперсия на остатъчния компонент. Ако изчислената стойност с  1 = k и  2 = (n - k - 1) степени на свобода, където k е броят на факторите, включени в модела, е по-голяма от табличната стойност при дадено ниво на значимост, тогава модел се счита за значим.

За сдвоен регресионен модел:

Като мерки за точност използва се безпристрастна оценка на дисперсията на остатъчния компонент, която е отношението на сумата от квадратите на нивата на остатъчния компонент към стойността (n- k -1), където k е броят на факторите, включени в модел. Корен квадратен от това количество ( ) е наречен стандартна грешка :

д За сдвоен регресионен модел

КАТЕГОРИИ

ПОПУЛЯРНИ СТАТИИ

2024 “kingad.ru” - ултразвуково изследване на човешки органи