Estimarea parametrilor de regresie liniară. Regresie în Excel: ecuație, exemple

Regresia liniară se reduce la găsirea unei ecuații de forma:

Prima expresie permite valorile factorilor date X calculați valorile teoretice ale caracteristicii rezultate prin înlocuirea valorilor reale ale factorilor în aceasta. În grafic (Fig. 1.2), valorile teoretice se află pe o linie dreaptă, care reprezintă o linie de regresie.

Construcția regresiei liniare se reduce la estimarea parametrilor ei - a și b. Abordarea clasică pentru estimarea parametrilor de regresie liniară se bazează pe metoda celor mai mici pătrate (OLS).

Metoda celor mai mici pătrate ne permite să obținem astfel de estimări ale parametrilor AȘi b, la care suma abaterilor pătrate ale valorilor reale la din teoretic y x minim:

Orez. 1.2.

Pentru a găsi minimul, este necesar să se calculeze derivatele parțiale ale sumelor (1.4) pentru fiecare dintre parametrii (a și ft) și să le echivaleze cu zero:

După transformare obținem un sistem de ecuații normale:

În sistem P- dimensiunea eșantionului, sumele sunt ușor de calculat din datele originale. Rezolvarea sistemului pt AȘi b, primim:

Expresia (1.7) poate fi scrisă sub altă formă:

unde cov(x, y) - covariarea trăsăturilor; су* - dispersia factorului X.

Parametrul b se numește coeficient de regresie. Valoarea acestuia arată modificarea medie a rezultatului cu o creștere a factorului cu o unitate. Posibilitatea unei interpretări economice clare a coeficientului de regresie a făcut ca ecuația de regresie liniară în perechi să fie destul de comună în cercetarea econometrică.

Oficial A - sens la la x = 0. Dacă X nu are și nu poate avea valoare zero, atunci această interpretare a termenului liber A nu are sens. Parametru A de cele mai multe ori nu are continut economic. Încercările de a o interpreta economic pot duce la absurd, mai ales când a 0. Numai semnul parametrului poate fi interpretat A. Dacă a > 0, atunci modificarea relativă a rezultatului are loc mai lent decât modificarea factorului. Să comparăm aceste modificări relative:

Uneori se scrie o ecuație de regresie liniară în perechi pentru abaterile de la medie:

Unde

În acest caz, termenul liber este egal cu zero, ceea ce se reflectă în expresia (1.10). Acest fapt rezultă din considerații geometrice: aceeași dreaptă (1.3) corespunde ecuației de regresie, dar la estimarea regresiei în abateri, originea coordonatelor se deplasează în punctul cu coordonatele (Zc, y). În acest caz, în expresia (1.8) ambele sume vor fi egale cu zero, ceea ce va presupune egalitatea termenului liber la zero. Expresiile (1.7) și (1.9) sunt de asemenea simplificate.

Ca exemplu, să luăm în considerare un grup de întreprinderi care produc un tip de produs, dependența de regresie a costurilor de producția de produs. y = a + bx+ e (Tabelul 1.1).

Sistemul de ecuații normale va avea forma

Rezolvând-o, obținem A - -5,79, b - 36,84.

Ecuația de regresie are forma

Tabelul 1.1

Date de intrare pentru estimarea parametrilor modelului liniar pereche

Produs produs (x), mii de unități.

Costurile productiei (y), milioane de ruble

Înlocuind valorile x în ecuația de regresie, găsim valorile teoretice ale lui y (ultima coloană a tabelului 1.1).

Magnitudinea A nu are sens economic. Dacă variabilele XȘi la exprimată în termeni de abateri de la nivelurile medii, atunci linia de regresie de pe grafic va trece prin originea coordonatelor. Estimarea coeficientului de regresie nu se va modifica: y" = 36,84x", unde y" = y-y, x" = x-x.

Ca un alt exemplu, luați în considerare funcția de consum a formei:

unde C este consumul; la- sursa de venit; K, L - Opțiuni.

Această ecuație de regresie liniară este de obicei utilizată împreună cu ecuația bilanţului

unde / este valoarea investiției; G- economii.

Pentru simplitate, presupunem că venitul este cheltuit pentru consum și investiții. Astfel, luăm în considerare sistemul de ecuații

Prezența egalității bilanțului impune restricții asupra valorii coeficientului de regresie, care nu poate fi mai mare de unu, adică. K 1.

Să presupunem că funcția de consum este C = 1,9 + 0,65 ani.

Coeficientul de regresie caracterizează înclinația spre consum. Acesta arată că din fiecare mie de ruble de venit, o medie de 650 de ruble sunt cheltuite pentru consum și 350 de ruble. investit. Dacă calculăm regresia mărimii investiției pe venit, i.e. I = a + prin, atunci ecuația de regresie va fi eu= -1,9 + 0,35y. Nu este necesar să fie determinat, deoarece este derivat din funcția de consum. Coeficienții de regresie ai acestor două ecuații sunt legați prin egalitatea 0,65 + 0,35 = 1. Dacă coeficientul de regresie este mai mare decât unu, atunci Nu doar veniturile, ci și economiile sunt cheltuite pentru consum.

Coeficientul de regresie LAîn funcția de consum este utilizat pentru a calcula multiplicatorul:

Unde T» 2,86, deci investiția suplimentară este de 1 mie de ruble. pentru o perioadă lungă de timp va duce, în egală măsură, la un venit suplimentar de 2,86 mii ruble.

În regresia liniară, coeficientul de corelație liniară acționează ca un indicator al strângerii conexiunii G.

Valorile sale sunt în limitele: - 1 r 1. Dacă 6>0, atunci 0 g b 0-1 g 0. Conform exemplului, calculul expresiei (1.11) dă g = 0,991, ceea ce înseamnă o dependență foarte strânsă a costurilor de producție de volumul producției.

Pentru a evalua calitatea selecției unei funcții liniare, coeficientul de determinare este calculat ca pătratul coeficientului de corelație liniară eu 2. Caracterizează ponderea varianței caracteristicii rezultate y, explicată prin regresie, în varianța totală a caracteristicii rezultate:

Valoarea 1 - g 2 caracterizează ponderea de varianță y, cauzate de influența altor factori neluați în considerare în model.

În exemplu g 2 = 0,982. Ecuația de regresie explică 98,2% din varianța în y, iar alți factori reprezintă 1,8% - aceasta este varianța reziduală.

Regresia liniară este utilizată pe scară largă în econometrie sub forma unei interpretări economice clare a parametrilor săi. Regresia liniară se reduce la găsirea unei ecuații de formă

Sau . (4,6)

O ecuație de formă permite valorile date ale factorului X au valori teoretice ale caracteristicii rezultante, substituind valorile reale ale factorului în ea X. Pe grafic, valorile teoretice reprezintă linia de regresie (Fig. 4.2).

Orez. 4.2. Estimarea grafică a parametrilor de regresie liniară

Construcția regresiei liniare se reduce la estimarea parametrilor acesteia și .Estimările parametrilor de regresie liniară pot fi găsite prin diferite metode. Puteți trece la câmpul de corelare și, selectând două puncte din grafic, să trasați o linie dreaptă prin ele (vezi Fig. 4.2). Apoi, folosind graficul, puteți determina valorile parametrilor. Definim parametrul ca punct de intersecție al dreptei de regresie cu axa și evaluăm parametrul pe baza pantei dreptei de regresie ca , unde este incrementul rezultatului y, un factor de creștere X, adică

Abordarea clasică a estimării parametrilor de regresie liniară se bazează pe metoda celor mai mici pătrate(MNC).

Metoda celor mai mici pătrate ne permite să obținem astfel de estimări ale parametrilor și , pentru care suma abaterilor pătrate ale valorilor reale ale caracteristicii rezultate (y) de la minimul calculat (teoretic):

Cu alte cuvinte, din întregul set de linii, linia de regresie de pe grafic este selectată astfel încât suma pătratelor distanțelor verticale dintre puncte și această dreaptă să fie minimă:

prin urmare,

Pentru a găsi minimul funcției (4.7), este necesar să se calculeze derivatele parțiale pentru fiecare dintre parametri. AȘi bși setați-le egale cu zero.

Să notăm prin S, Apoi:

Transformând acest sistem, obținem următorul sistem de ecuații normale pentru estimarea parametrilor și:

. (4.8)

Prin rezolvarea sistemului de ecuații normale (4.8) fie prin metoda eliminării secvențiale a variabilelor, fie prin metoda determinanților, găsim valorile numerice ale parametrilor solicitați și . Puteți utiliza următoarele formule gata făcute:

. (4.9)

Formula (4.9) se obține din prima ecuație a sistemului (4.8), dacă toți termenii săi sunt împărțiți la P.

unde este covarianța caracteristicilor;

Varianta unei trăsături X.

Datorită faptului că , , obținem următoarea formulă de calcul a estimarii parametrului b:

. (4.10)

Parametrul se numește coeficient de regresie. Valoarea acestuia arată modificarea medie a rezultatului cu o modificare a factorului cu o unitate. Deci, dacă în funcția de cost (y - costuri (mii de ruble), X- numărul de unităţi de producţie). Prin urmare, cu o creștere a volumului de producție (X) pentru 1 unitate costurile de producție cresc în medie cu 2 mii de ruble, adică o creștere suplimentară a producției cu 1 unitate. va necesita o creștere a costurilor cu o medie de 2 mii de ruble.


Posibilitatea unei interpretări economice clare a coeficientului de regresie a făcut ca ecuația de regresie liniară să fie destul de comună în cercetarea econometrică.

Formal - sens la la X= 0. Dacă factorul-atribut nu are și nu poate avea o valoare zero, atunci interpretarea de mai sus a termenului liber nu are sens. Este posibil ca parametrul să nu aibă conținut economic. Încercări de interpretare economică a parametrului A poate duce la absurd, mai ales când < 0.

100 RUR bonus pentru prima comandă

Selectați tipul de muncă Lucrări de diplomă Lucrări de curs Rezumat Lucrare de master Raport de practică Articol Raport Revizuire Lucrări de testare Monografie Rezolvarea problemelor Plan de afaceri Răspunsuri la întrebări Lucru de creație Eseu Desen Eseuri Traducere Prezentări Dactilografiere Altele Creșterea unicității textului Teza de master Lucrări de laborator Ajutor on-line

Aflați prețul

La estimarea parametrilor ecuației de regresie se folosește metoda celor mai mici pătrate (OLS). În acest caz, se fac anumite premise cu privire la componenta aleatorie e. În model, componenta aleatoare e este o mărime neobservabilă. După ce parametrii modelului au fost estimați, se calculează diferențele dintre valorile reale și teoretice ale caracteristicii rezultante y , este posibil să se determine estimări ale componentei aleatoare. Deoarece nu sunt resturi aleatorii reale, ele pot fi considerate o realizare a unui eșantion al restului necunoscut al unei ecuații date, adică ei.

Când se schimbă specificația modelului sau se adaugă noi observații la aceasta, estimările eșantionului ale reziduurilor ei se pot modifica. Prin urmare, sarcina analizei de regresie include nu numai construcția modelului în sine, ci și studiul abaterilor aleatoare ei, adică a valorilor reziduale.

La utilizarea testelor Fisher și Student se fac ipoteze cu privire la comportamentul reziduurilor ei - reziduurile sunt variabile aleatoare independente și valoarea lor medie este 0; au aceeași varianță (constantă) și urmează o distribuție normală.

Testele statistice ale parametrilor de regresie și ale indicatorilor de corelație se bazează pe ipoteze netestabile ale distribuției componentei aleatoare ei. Sunt doar preliminare. După construirea ecuației de regresie, prezența lui

estimări ei (reziduuri aleatoare) ale acelor proprietăți care au fost presupuse. Acest lucru se datorează faptului că estimările parametrilor de regresie trebuie să îndeplinească anumite criterii. Ei trebuie să fie imparțiali, bogați și eficienți. Aceste proprietăți ale estimărilor obținute prin MCO au o importanță practică extrem de importantă în utilizarea rezultatelor de regresie și corelare.

imparțial estimări înseamnă că așteptarea matematică a reziduurilor este zero. Dacă estimările sunt imparțiale, atunci ele pot fi comparate în diferite studii.

Notele contează efectiv, dacă sunt caracterizate de cea mai mică dispersie. În cercetarea practică, aceasta înseamnă posibilitatea de a trece de la estimarea punctuală la estimarea pe interval.

Bogatie estimările se caracterizează printr-o creștere a preciziei lor odată cu creșterea dimensiunii eșantionului. De mare interes practic sunt acele rezultate de regresie pentru care intervalul de încredere al valorii așteptate a parametrului de regresie bi are o limită de probabilitate egală cu unu. Cu alte cuvinte, probabilitatea de a obține o estimare la o anumită distanță de valoarea reală a parametrului este apropiată de unu.

Criteriile de evaluare specificate (nepărtinire, consecvență și eficiență) sunt neapărat luate în considerare în diferite metode de evaluare. Metoda celor mai mici pătrate construiește estimări de regresie bazate pe minimizarea sumei pătratelor reziduurilor. Prin urmare, este foarte important să se examineze comportamentul reziduurilor de regresie ei. Condițiile necesare pentru a obține estimări imparțiale, consecvente și eficiente sunt premisele MCO care sunt de dorit pentru a obține rezultate de regresie fiabile.

Studiile reziduurilor ei implică verificarea prezenței următoarelor cinci premise ale multinationale:

1. natura aleatorie a resturilor;

2. valoarea medie zero a reziduurilor, independent de xi;

3. homoscedasticitatea - varianța fiecărei abateri ei este aceeași pentru toate valorile lui x ;

4. absența autocorelației reziduurilor – valorile reziduurilor ei sunt distribuite independent unele de altele;

5. reziduurile urmeaza o distributie normala.

Dacă distribuția reziduurilor aleatoare ei nu corespunde unor ipoteze MCO, atunci modelul ar trebui ajustat.

În primul rând, se verifică natura aleatorie a reziduurilor ei - prima premisă a MOL. În acest scop, este trasat un grafic al dependenței reziduurilor ei de valorile teoretice ale caracteristicii rezultate.

Dacă pe grafic se obține o bară orizontală, atunci reziduurile ei sunt variabile aleatoare și se justifică metoda celor mai mici pătrate; valorile teoretice aproximează bine valorile reale ale lui y.

Următoarele cazuri sunt posibile dacă ei depinde de Acea:

1) resturile ei nu sunt aleatorii

2) reziduurile ei nu au varianță constantă

3) resturile ei sunt sistematice.

În aceste cazuri, este necesar fie să aplicați o funcție diferită, fie să introduceți informații suplimentare și să reconstruiți ecuația de regresie până când reziduurile ei sunt variabile aleatoare.

A doua ipoteză MCO privind reziduurile medii zero înseamnă că . Acest lucru este fezabil pentru modelele liniare și modelele care sunt neliniare în raport cu variabilele incluse.

În același timp, imparțialitatea estimărilor coeficienților de regresie obținuți prin MCO depinde de independența reziduurilor aleatoare și a valorilor x, care este, de asemenea, studiată în cadrul respectării celei de-a doua premise a MCO. În acest scop, împreună cu graficul prezentat al dependenței reziduurilor ei de valorile teoretice ale atributului rezultat, se construiește un grafic al dependenței reziduurilor aleatoare ei de factorii incluși în regresia xj.

Dacă reziduurile de pe grafic sunt situate sub forma unei benzi orizontale, atunci acestea sunt independente de valorile lui xj. Dacă graficul arată prezența unei relații între ei și xj, atunci modelul este inadecvat. Motivele inadecvării pot fi diferite. Este posibil ca a treia premisă a MCO să fie încălcată și dispersia reziduurilor să nu fie constantă pentru fiecare valoare a factorului xj. Specificațiile modelului pot fi incorecte și trebuie introduse

termeni suplimentari din xj, de exemplu . Acumularea de puncte în anumite zone ale valorilor factorului xj indică prezența unei erori sistematice în model.

Presupunerea distribuției normale a reziduurilor permite testarea parametrilor de regresie și corelație folosind testele F și t. În același timp, estimările de regresie găsite folosind MCO au proprietăți bune chiar și în absența unei distribuții normale a reziduurilor, i.e. dacă a cincea premisă a MNC este încălcată.

Este absolut necesar să se obțină estimări consistente ale parametrilor de regresie folosind metodele MCO prin respectarea a treia și a patra premisă.

A treia premisă a MCO necesită ca varianța reziduurilor să fie homoscedastic. Aceasta înseamnă că pentru fiecare valoare a factorului xj reziduurile ei au aceeași varianță. Dacă această condiție pentru aplicarea metodei celor mai mici pătrate nu este îndeplinită, atunci heteroschedasticitate. Prezența heteroscedasticității poate fi văzută clar din câmpul de corelație:

1. Varianta reziduurilor crește pe măsură ce x crește.

Apoi avem următorul tip de heteroschedasticitate: varianță mare a ei pentru valori mari

2. Varianța reziduurilor atinge valoarea maximă la valorile medii ale lui x și scade la valorile minime și maxime.

Apoi avem următorul tip de heteroscedasticitate: dispersie mare ei pentru valori medii și dispersie mică ei pentru valori mici și mari

3. Varianța reziduurilor este maximă la valori mici ale lui x, iar varianța reziduurilor este uniformă pe măsură ce x crește.

Apoi avem următorul tip de heteroscedasticitate: dispersie mare ei pentru valori mici, dispersie descrescătoare a reziduurilor ei ca

La construirea modelelor de regresie, este extrem de important să se respecte a patra premisă a MCO - absența autocorelației reziduurilor, adică valorile reziduurilor ei sunt distribuite independent unele de altele.

Autocorelarea reziduurilor înseamnă prezența unei corelații între reziduurile observațiilor curente și anterioare (ulterioare). Coeficientul de corelație dintre ei și ej, unde ei sunt reziduurile observațiilor curente, ej sunt reziduurile observațiilor anterioare (de exemplu, j=i-1), poate fi definit ca:

adică conform formulei uzuale pentru coeficientul de corelație liniară. Dacă acest coeficient se dovedește a fi semnificativ diferit de zero, atunci reziduurile sunt autocorelate și funcția de densitate de probabilitate F(e) depinde de j -al-lea punct de observație și din distribuția valorilor reziduale la alte puncte de observare.

Absența autocorelării valorilor reziduale asigură consistența și eficiența estimărilor coeficienților de regresie. Este deosebit de important să se respecte această premisă a MCO atunci când se construiesc modele de regresie bazate pe serii de timp, unde, datorită prezenței unei tendințe, nivelurile ulterioare ale seriei temporale, de regulă, depind de nivelurile lor anterioare.

Dacă ipotezele de bază ale MCO nu sunt îndeplinite, este necesară ajustarea modelului, modificându-i specificația, adăugând (excluzând) unii factori, transformând datele originale pentru a obține estimări ale coeficienților de regresie care au proprietatea de a fi imparțiali, au o valoare mai mică a dispersiei reziduurilor și, prin urmare, oferă o testare statistică mai eficientă a semnificației parametrilor de regresie.

Pentru a estima parametrii unei ecuații de regresie, se folosește cel mai des metoda celor mai mici pătrate. (MNC).

Metoda celor mai mici pătrate produce estimări care au cea mai mică varianță din clasa tuturor estimărilor liniare dacă sunt îndeplinite ipotezele unui model de regresie liniară normală.

LSM minimizează suma abaterilor pătrate ale valorilor observate de la valorile modelului .

Conform principiului celor mai mici pătrate, estimările se găsesc prin minimizarea sumei pătratelor

pentru toate valorile posibile Și la valori date (observate).
.

Ca urmare a aplicării metodei celor mai mici pătrate, obținem formule pentru calcularea parametrilor modelului de regresie pereche.

(3)

O astfel de soluție poate exista doar dacă condiția este îndeplinită

care este echivalentă cu diferența de la zero a determinantului sistemului de ecuații normale. Într-adevăr, acest determinant este egal cu

Ultima condiție este numită condiția de identificare model de observație și înseamnă că nu toate valorile
coincid unul cu altul. Dacă această condiție este încălcată Toate puncte
, întindeți-vă pe aceeași linie verticală

Estimările se numesc estimări cu cele mai mici pătrate . Să fim atenți la expresia rezultată pentru parametru. Această expresie include sumele pătratelor care au fost implicate anterior în determinarea varianței eșantionului

și covarianța eșantionului
deci, în acești termeni parametrul poate fi obtinut astfel:

=
=
=

=

Evaluarea calității ecuației de regresie

Calitatea unui model de regresie este asociată cu adecvarea modelului la datele observate (empirice). Adecvarea (sau corespondența) modelului de regresie cu datele observate este verificată pe baza analizei reziduurilor.

După construirea ecuației de regresie, putem împărți valoarea Y din fiecare observație în două componente - Și .

Rest reprezintă abaterea valorii reale a variabilei dependente de la valoarea acestei variabile, obținută prin calcul:
(
).

În practică, de regulă, există o oarecare împrăștiere a punctelor câmpului de corelație în raport cu linia de regresie teoretică, adică abateri ale datelor empirice de la cele teoretice (
). Mărimea acestor abateri stă la baza calculării indicatorilor de calitate (adecvare) ai ecuației.

La analiza calității unui model de regresie se folosește analiza poziției de bază a varianței, conform căreia suma totală a abaterilor pătrate ale variabilei dependente față de valoarea medie poate fi descompus în două componente - explicate și neexplicate prin ecuația de regresie a varianței:

(4)

Unde - valori y, calculat din model
.

Împărțirea părților din dreapta și din stânga (4) în

,

.

Coeficient de determinare este definită după cum urmează:

Coeficient de determinare arată proporția de variație a caracteristicii rezultate care este influențată de factorii care sunt studiati, adică determină ce proporție a variației caracteristicii Y este luată în considerare în model și se datorează influenței factorilor asupra acesteia.

Aproape
la 1, cu atât calitatea modelului este mai mare.

Pentru a evalua calitatea modelelor de regresie, este, de asemenea, recomandabil să se utilizeze coeficient de corelație multiplă (indicele de corelare) R

Acest coeficient este universal, deoarece reflectă apropierea relației și acuratețea modelului și poate fi folosit și pentru orice formă de conexiune între variabile.

Când se construiește un model cu un singur factor, acesta este egal cu coeficientul de corelație liniară
.

Evident, cu cât influența factorilor necontabiliați este mai mică, cu atât modelul se potrivește mai bine cu datele reale.

De asemenea, pentru a evalua calitatea modelelor de regresie, este recomandabil să folosiți eroarea medie de aproximare:


Cu cât împrăștierea punctelor empirice în jurul dreptei de regresie teoretică este mai mică, cu atât eroarea medie de aproximare este mai mică. O eroare de aproximare mai mică de 7% indică o calitate bună a modelului.

După ce se construiește ecuația de regresie, se verifică semnificația ecuației construite ca întreg și a parametrilor individuali.

A evalua semnificația unei ecuații de regresie înseamnă a stabili dacă modelul matematic care exprimă relația dintre Y și X corespunde datelor reale și dacă variabilele explicative X incluse în ecuație sunt suficiente pentru a descrie variabila dependentă Y

Evaluarea semnificației unei ecuații de regresie se face pentru a afla dacă ecuația de regresie este potrivită pentru utilizare practică (de exemplu, pentru prognoză) sau nu. În acest caz, se emite ipoteza principală despre nesemnificația ecuației în ansamblu, care se reduce formal la ipoteza că parametrii de regresie sunt egali cu zero sau, ceea ce este același, că coeficientul de determinare este egal cu zero:
. O ipoteză alternativă despre semnificația ecuației este ipoteza despre inegalitatea parametrilor de regresie la zero.

Pentru testarea semnificației modelului se folosește regresia Testul F al lui Fisher , calculat ca raport dintre varianța seriei inițiale și varianța imparțială a componentei reziduale. Dacă valoarea calculată cu  1 = k și  2 = (n - k - 1) grade de libertate, unde k este numărul de factori incluși în model, este mai mare decât valoarea tabelată la un anumit nivel de semnificație, atunci modelul este considerat semnificativ.

Pentru un model de regresie pereche:

La fel de măsuri de precizie se utilizează o estimare imparțială a dispersiei componentei reziduale, care este raportul dintre suma pătratelor nivelurilor componentei reziduale și valoarea (n-k -1), unde k este numărul de factori incluși în model. Rădăcina pătrată a acestei cantități ( ) se numește eroare standard :

D Pentru modelul de regresie pereche

CATEGORII

ARTICOLE POPULARE

2024 „kingad.ru” - examinarea cu ultrasunete a organelor umane