Formula coeficientului de regresie liniară. Ecuația de regresie

Analiza regresiei este o metodă de cercetare statistică care vă permite să arătați dependența unui parametru de una sau mai multe variabile independente. În era pre-computer, utilizarea sa era destul de dificilă, mai ales când era vorba de cantități mari de date. Astăzi, după ce ați învățat cum să construiți o regresie în Excel, puteți rezolva probleme statistice complexe în doar câteva minute. Mai jos sunt exemple specifice din domeniul economiei.

Tipuri de regresie

Conceptul în sine a fost introdus în matematică în 1886. Are loc regresia:

  • liniar;
  • parabolic;
  • putere;
  • exponențial;
  • hiperbolic;
  • demonstrativ;
  • logaritmică.

Exemplul 1

Luați în considerare problema determinării dependenței numărului de membri ai echipei pensionari de salariul mediu la 6 întreprinderi industriale.

O sarcină. La șase întreprinderi, am analizat salariul mediu lunar și numărul de angajați care au plecat de bunăvoie. În formă tabelară avem:

Numărul de persoane care au plecat

Salariu

30000 de ruble

35000 de ruble

40000 de ruble

45000 de ruble

50000 de ruble

55000 de ruble

60000 de ruble

Pentru problema determinării dependenței numărului de pensionari de salariul mediu la 6 întreprinderi, modelul de regresie are forma ecuației Y = a 0 + a 1 x 1 +…+a k x k , unde x i sunt variabilele de influență. , a i sunt coeficienții de regresie, a k este numărul de factori.

Pentru această sarcină, Y este indicatorul angajaților plecați, iar factorul de influență este salariul, pe care îl notăm cu X.

Utilizarea capabilităților foii de calcul „Excel”

Analiza de regresie în Excel trebuie să fie precedată de aplicarea funcțiilor încorporate la datele tabelare disponibile. Cu toate acestea, în aceste scopuri, este mai bine să utilizați programul de completare foarte util „Setul de instrumente de analiză”. Pentru a-l activa aveți nevoie de:

  • din fila „Fișier”, accesați secțiunea „Opțiuni”;
  • în fereastra care se deschide, selectați linia „Suplimente”;
  • faceți clic pe butonul „Go” situat în jos, în dreapta liniei „Management”;
  • bifați caseta de lângă numele „Pachet de analiză” și confirmați acțiunile făcând clic pe „OK”.

Dacă totul este făcut corect, butonul dorit va apărea în partea dreaptă a filei Date, situată deasupra foii de lucru Excel.

în Excel

Acum că avem la îndemână toate instrumentele virtuale necesare pentru efectuarea calculelor econometrice, putem începe să ne rezolvăm problema. Pentru asta:

  • faceți clic pe butonul „Analiza datelor”;
  • în fereastra care se deschide, faceți clic pe butonul „Regresie”;
  • în fila care apare, introduceți intervalul de valori pentru Y (numărul de angajați care au demisionat) și pentru X (salariile lor);
  • Confirmăm acțiunile noastre apăsând butonul „Ok”.

Ca rezultat, programul va completa automat o nouă foaie a foii de calcul cu date de analiză de regresie. Notă! Excel are capacitatea de a seta manual locația pe care o preferați în acest scop. De exemplu, ar putea fi aceeași foaie în care sunt valorile Y și X sau chiar un nou registru de lucru special conceput pentru a stoca astfel de date.

Analiza rezultatelor regresiei pentru R-pătrat

În Excel, datele obținute în timpul procesării datelor din exemplul considerat arată astfel:

În primul rând, ar trebui să acordați atenție valorii pătratului R. Este coeficientul de determinare. În acest exemplu, R-pătrat = 0,755 (75,5%), adică parametrii calculați ai modelului explică relația dintre parametrii considerați cu 75,5%. Cu cât valoarea coeficientului de determinare este mai mare, cu atât modelul ales este mai aplicabil pentru o anumită sarcină. Se crede că descrie corect situația reală cu o valoare R-pătrat peste 0,8. Dacă R-pătrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza raportului

Numărul 64,1428 arată care va fi valoarea lui Y dacă toate variabilele xi din modelul pe care îl luăm în considerare sunt setate la zero. Cu alte cuvinte, se poate susține că valoarea parametrului analizat este influențată și de alți factori care nu sunt descriși într-un anumit model.

Următorul coeficient -0,16285, situat în celula B18, arată ponderea influenței variabilei X asupra Y. Aceasta înseamnă că salariul mediu lunar al angajaților din cadrul modelului luat în considerare afectează numărul de renunțați cu o pondere de -0,16285, adică. gradul influenței sale deloc mic. Semnul „-” indică faptul că coeficientul are o valoare negativă. Acest lucru este evident, deoarece toată lumea știe că, cu cât salariul este mai mare la întreprindere, cu atât mai puțini oameni își exprimă dorința de a rezilia contractul de muncă sau de a renunța.

Regresie multiplă

Acest termen se referă la o ecuație de conexiune cu mai multe variabile independente de forma:

y \u003d f (x 1 + x 2 + ... x m) + ε, unde y este caracteristica efectivă (variabilă dependentă) și x 1 , x 2 , ... x m sunt factorii factori (variabile independente).

Estimarea parametrilor

Pentru regresia multiplă (MR) se efectuează folosind metoda celor mai mici pătrate (OLS). Pentru ecuațiile liniare de forma Y = a + b 1 x 1 +…+b m x m + ε, construim un sistem de ecuații normale (vezi mai jos)

Pentru a înțelege principiul metodei, luați în considerare cazul cu doi factori. Atunci avem o situație descrisă de formula

De aici obținem:

unde σ este varianța caracteristicii corespunzătoare reflectate în indice.

LSM este aplicabil ecuației MP pe o scară standardizată. În acest caz, obținem ecuația:

unde t y , t x 1, … t xm sunt variabile standardizate pentru care valorile medii sunt 0; β i sunt coeficienții de regresie standardizați, iar abaterea standard este 1.

Vă rugăm să rețineți că toate β i în acest caz sunt setate ca normalizate și centralizate, astfel încât compararea lor între ele este considerată corectă și admisibilă. În plus, se obișnuiește să se filtreze factorii, eliminând cei cu cele mai mici valori ale βi.

Problemă folosind ecuația de regresie liniară

Să presupunem că există un tabel cu dinamica prețurilor unui anumit produs N în ultimele 8 luni. Este necesar să se ia o decizie cu privire la oportunitatea de a cumpăra lotul său la un preț de 1850 de ruble/t.

numărul lunii

numele lunii

pretul articolului N

1750 de ruble pe tonă

1755 de ruble pe tonă

1767 ruble pe tonă

1760 de ruble pe tonă

1770 de ruble pe tonă

1790 de ruble pe tonă

1810 ruble pe tonă

1840 de ruble pe tonă

Pentru a rezolva această problemă în foaia de calcul Excel, trebuie să utilizați instrumentul de analiză a datelor deja cunoscut din exemplul de mai sus. Apoi, selectați secțiunea „Regresie” și setați parametrii. Trebuie reținut că în câmpul „Interval de intrare Y”, trebuie introdus un interval de valori pentru variabila dependentă (în acest caz, prețul unui produs în anumite luni ale anului), iar în „Intrare” intervalul X" - pentru variabila independentă (numărul lunii). Confirmați acțiunea făcând clic pe „Ok”. Pe o foaie nouă (dacă a fost indicat așa), obținem date pentru regresie.

Pe baza acestora, construim o ecuație liniară de forma y=ax+b, unde parametrii a și b sunt coeficienții rândului cu numele numărului lunii și coeficienții și rândul „Y-intersection” din fișă cu rezultatele analizei de regresie. Astfel, ecuația de regresie liniară (LE) pentru problema 3 se scrie astfel:

Prețul produsului N = 11,714* număr lunar + 1727,54.

sau în notație algebrică

y = 11,714 x + 1727,54

Analiza rezultatelor

Pentru a decide dacă ecuația de regresie liniară rezultată este adecvată, sunt utilizați coeficienți de corelație multipli (MCC) și coeficienți de determinare, precum și testul Fisher și testul Student. În tabelul Excel cu rezultatele de regresie, acestea apar sub numele de mai multe R, R-pătrat, F-statistic și, respectiv, t-statistic.

KMC R face posibilă evaluarea strângerii relației probabilistice dintre variabilele independente și dependente. Valoarea sa ridicată indică o relație destul de puternică între variabilele „Numărul lunii” și „Prețul mărfurilor N în ruble pe 1 tonă”. Cu toate acestea, natura acestei relații rămâne necunoscută.

Pătratul coeficientului de determinare R 2 (RI) este o caracteristică numerică a ponderii dispersiei totale și arată dispersia căreia parte a datelor experimentale, adică. valorile variabilei dependente corespund ecuației de regresie liniară. În problema luată în considerare, această valoare este egală cu 84,8%, adică datele statistice sunt descrise cu un grad ridicat de acuratețe de către SD-ul obținut.

F-statistica, numită și testul lui Fisher, este folosită pentru a evalua semnificația unei relații liniare, infirmând sau confirmând ipoteza existenței acesteia.

(Criteriul studentului) ajută la evaluarea semnificației coeficientului cu termen necunoscut sau liber al unei relații liniare. Dacă valoarea criteriului t > t cr, atunci se respinge ipoteza nesemnificației termenului liber al ecuației liniare.

În problema luată în considerare pentru membrul liber, folosind instrumentele Excel, s-a obținut că t = 169,20903 și p = 2,89E-12, adică avem o probabilitate zero ca ipoteza corectă despre nesemnificația membrului liber să fie respins. Pentru coeficientul la necunoscut t=5,79405 și p=0,001158. Cu alte cuvinte, probabilitatea ca ipoteza corectă despre nesemnificația coeficientului pentru necunoscut să fie respinsă este de 0,12%.

Astfel, se poate susține că ecuația de regresie liniară rezultată este adecvată.

Problema oportunității cumpărării unui bloc de acțiuni

Regresia multiplă în Excel este efectuată folosind același instrument de analiză a datelor. Luați în considerare o problemă aplicată specifică.

Conducerea NNN trebuie să ia o decizie cu privire la oportunitatea achiziționării unui pachet de 20% din MMM SA. Costul pachetului (JV) este de 70 de milioane de dolari SUA. Specialiștii NNN au colectat date despre tranzacții similare. S-a decis evaluarea valorii blocului de acțiuni în funcție de astfel de parametri, exprimați în milioane de dolari SUA, astfel:

  • conturi de plătit (VK);
  • cifra de afaceri anuala (VO);
  • conturi de încasat (VD);
  • costul mijloacelor fixe (SOF).

În plus, se utilizează parametrul restanțe de salarii ale întreprinderii (V3 P) în mii de dolari SUA.

Soluție folosind foaia de calcul Excel

În primul rând, trebuie să creați un tabel de date inițiale. Arata cam asa:

  • apelați fereastra „Analiza datelor”;
  • selectați secțiunea „Regresie”;
  • în caseta „Interval de intrare Y” introduceți intervalul de valori ale variabilelor dependente din coloana G;
  • faceți clic pe pictograma cu o săgeată roșie din dreapta ferestrei „Interval de introducere X” și selectați intervalul tuturor valorilor din coloanele B, C, D, F de pe foaie.

Selectați „Foaie de lucru nouă” și faceți clic pe „Ok”.

Obțineți analiza de regresie pentru problema dată.

Examinarea rezultatelor și concluziilor

„Colectăm” din datele rotunjite prezentate mai sus pe foaia de calcul Excel, ecuația de regresie:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Într-o formă matematică mai familiară, poate fi scrisă astfel:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Datele pentru JSC „MMM” sunt prezentate în tabel:

Înlocuindu-le în ecuația de regresie, ei obțin o cifră de 64,72 milioane de dolari SUA. Aceasta înseamnă că acțiunile JSC MMM nu ar trebui cumpărate, deoarece valoarea lor de 70 de milioane de dolari SUA este mai degrabă supraevaluată.

După cum puteți vedea, utilizarea foii de calcul Excel și a ecuației de regresie au făcut posibilă luarea unei decizii informate cu privire la fezabilitatea unei tranzacții foarte specifice.

Acum știi ce este regresia. Exemplele în Excel discutate mai sus vă vor ajuta să rezolvați probleme practice din domeniul econometriei.

În notele anterioare, accentul a fost adesea pus pe o singură variabilă numerică, cum ar fi randamentul fondurilor mutuale, timpul de încărcare a paginii web sau consumul de băuturi răcoritoare. În aceasta și următoarele note, vom lua în considerare metode de predicție a valorilor unei variabile numerice în funcție de valorile uneia sau mai multor alte variabile numerice.

Materialul va fi ilustrat printr-un exemplu. Estimarea volumului vânzărilor într-un magazin de îmbrăcăminte. Lanțul de magazine de îmbrăcăminte cu discount Sunflowers se extinde constant de 25 de ani. Cu toate acestea, compania nu are în prezent o abordare sistematică pentru selectarea de noi puncte de vânzare. Locația în care compania intenționează să deschidă un nou magazin este determinată pe baza unor considerente subiective. Criteriile de selecție sunt condițiile de închiriere favorabile sau ideea managerului despre locația ideală a magazinului. Imaginează-ți că ești șeful Departamentului Proiecte Speciale și Planificare. Ai fost însărcinat cu elaborarea unui plan strategic pentru deschiderea de noi magazine. Acest plan ar trebui să conțină o prognoză a vânzărilor anuale în magazinele nou deschise. Considerați că vânzarea spațiului este direct legată de venituri și doriți să luați în considerare acest fapt în procesul de luare a deciziilor. Cum dezvoltați un model statistic care prezice vânzările anuale pe baza dimensiunii noii magazin?

De obicei, analiza de regresie este utilizată pentru a prezice valorile unei variabile. Scopul său este de a dezvolta un model statistic care prezice valorile variabilei dependente, sau răspunsul, din valorile a cel puțin unei variabile independente sau explicative. În această notă, vom lua în considerare o regresie liniară simplă - o metodă statistică care vă permite să preziceți valorile variabilei dependente Y prin valorile variabilei independente X. Următoarele note vor descrie un model de regresie multiplă conceput pentru a prezice valorile variabilei independente Y prin valorile mai multor variabile dependente ( X 1 , X 2 , …, X k).

Descărcați nota în sau format, exemple în format

Tipuri de modele de regresie

Unde ρ 1 este coeficientul de autocorelare; dacă ρ 1 = 0 (fără autocorelare), D≈ 2; dacă ρ 1 ≈ 1 (autocorelație pozitivă), D≈ 0; dacă ρ 1 = -1 (autocorelație negativă), D ≈ 4.

În practică, aplicarea criteriului Durbin-Watson se bazează pe o comparație a valorii D cu valori teoretice critice d Lși d U pentru un număr dat de observații n, numărul de variabile independente ale modelului k(pentru regresie liniară simplă k= 1) și nivelul de semnificație α. În cazul în care un D< d L , se respinge ipoteza independenței abaterilor aleatoare (deci, există o autocorelație pozitivă); dacă D > d U, ipoteza nu este respinsă (adică nu există autocorelație); dacă d L< D < d U nu există suficiente motive pentru a lua o decizie. Când valoarea calculată D depășește 2, atunci d Lși d U nu coeficientul în sine este comparat D, iar expresia (4 – D).

Pentru a calcula statisticile Durbin-Watson în Excel, ne întoarcem la tabelul de jos din Fig. paisprezece Retragerea soldului. Numătorul din expresia (10) este calculat folosind funcția = SUMMQDIFF(array1, array2) și numitorul = SUMMQ(array) (Fig. 16).

Orez. 16. Formule pentru calcularea statisticilor Durbin-Watson

În exemplul nostru D= 0,883. Întrebarea principală este: ce valoare a statisticii Durbin-Watson ar trebui considerată suficient de mică pentru a concluziona că există o autocorelație pozitivă? Este necesar să se coreleze valoarea lui D cu valorile critice ( d Lși d U) în funcţie de numărul de observaţii nși nivelul de semnificație α (Fig. 17).

Orez. 17. Valorile critice ale statisticilor Durbin-Watson (fragment de tabel)

Astfel, în problema volumului vânzărilor într-un magazin care livrează mărfuri la domiciliu, există o variabilă independentă ( k= 1), 15 observații ( n= 15) și nivelul de semnificație α = 0,05. Prin urmare, d L= 1,08 și dU= 1,36. Pentru că D = 0,883 < d L= 1,08, există o autocorelație pozitivă între reziduuri, metoda celor mai mici pătrate nu poate fi aplicată.

Testarea ipotezelor despre panta și coeficientul de corelație

Regresia de mai sus a fost aplicată numai pentru prognoză. Pentru a determina coeficienții de regresie și pentru a prezice valoarea unei variabile Y pentru o anumită valoare variabilă X s-a folosit metoda celor mai mici pătrate. În plus, am luat în considerare eroarea standard a estimării și coeficientul de corelație mixtă. Dacă analiza reziduală confirmă că nu sunt încălcate condițiile de aplicabilitate ale metodei celor mai mici pătrate, iar modelul de regresie liniară simplă este adecvat, pe baza datelor eșantionate, se poate argumenta că există o relație liniară între variabilele din populație.

Aplicațiet -criterii pentru panta. Verificând dacă panta populației β 1 este egală cu zero, se poate determina dacă există o relație semnificativă statistic între variabile Xși Y. Dacă această ipoteză este respinsă, se poate argumenta că între variabile Xși Y există o relație liniară. Ipotezele nule și alternative sunt formulate astfel: H 0: β 1 = 0 (fără relație liniară), H1: β 1 ≠ 0 (există o relație liniară). Prin definitie t-statistica este egală cu diferența dintre panta eșantionului și panta ipotetică a populației, împărțită la eroarea standard a estimării pantei:

(11) t = (b 1 β 1 ) / Sb 1

Unde b 1 este panta regresiei directe pe baza datelor eșantionului, β1 este panta ipotetică a populației generale directe, , și statistici de testare t Are t- distributie cu n - 2 grade de libertate.

Să verificăm dacă există o relație semnificativă statistic între dimensiunea magazinului și vânzările anuale la α = 0,05. t-criteriile sunt afișate împreună cu alți parametri când se utilizează Pachet de analize(opțiune Regresia). Rezultatele complete ale pachetului de analiză sunt prezentate în Fig. 4, un fragment legat de t-statistica - în fig. optsprezece.

Orez. 18. Rezultatele aplicării t

Deoarece numărul de magazine n= 14 (vezi Fig. 3), valoare critică t-statisticile la un nivel de semnificație α = 0,05 pot fi găsite prin formula: t L=STUDENT.INV(0,025;12) = -2,1788 unde 0,025 este jumătate din nivelul de semnificație și 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Pentru că t-statistica = 10,64 > t U= 2,1788 (Fig. 19), ipoteză nulă H 0 este respins. Pe de altă parte, R-valoare pentru X\u003d 10,6411, calculat prin formula \u003d 1-STUDENT.DIST (D3, 12, TRUE), este aproximativ egal cu zero, deci ipoteza H 0 este respins din nou. Faptul că R-valoarea este aproape zero, ceea ce înseamnă că dacă nu ar exista o relație liniară reală între dimensiunea magazinului și vânzările anuale, ar fi aproape imposibil să o găsim folosind regresia liniară. Prin urmare, există o relație liniară semnificativă statistic între vânzările medii anuale ale magazinului și dimensiunea magazinului.

Orez. 19. Testarea ipotezei despre panta populației generale la un nivel de semnificație de 0,05 și 12 grade de libertate

AplicațieF -criterii pentru panta. O abordare alternativă pentru testarea ipotezelor despre panta unei regresii liniare simple este de a utiliza F-criterii. Amintește-ți asta F-criteriul este folosit pentru a testa relația dintre două varianțe (vezi detalii). Când se testează ipoteza pantei, măsura erorilor aleatoare este varianța erorii (suma erorilor pătrate împărțită la numărul de grade de libertate), deci F-testul folosește raportul varianței explicat prin regresie (adică, valorile SSRîmpărțit la numărul de variabile independente k), la variația erorii ( MSE=SYX 2 ).

Prin definitie F-statistica este egală cu abaterile pătratice medii datorate regresiei (MSR) împărțite la varianța erorii (MSE): F = MSR/ MSE, Unde MSR=SSR / k, MSE =SSE/(n– k – 1), k este numărul de variabile independente din modelul de regresie. Test statistici F Are F- distributie cu kși n– k – 1 grade de libertate.

Pentru un nivel de semnificaţie dat α, regula de decizie se formulează astfel: dacă F > FU, se respinge ipoteza nulă; în caz contrar, nu este respins. Rezultatele, prezentate sub forma unui tabel rezumativ al analizei varianței, sunt prezentate în fig. douăzeci.

Orez. 20. Tabel de analiză a varianței pentru testarea ipotezei semnificației statistice a coeficientului de regresie

În mod similar t-criteriu F-criteriile sunt afișate în tabel când se utilizează Pachet de analize(opțiune Regresia). Rezultatele complete ale lucrării Pachet de analize prezentată în fig. 4, fragment legat de F-statistica - in fig. 21.

Orez. 21. Rezultatele aplicării F- Criterii obținute folosind Excel Analysis ToolPack

F-statistica este 113,23 și R-valoare apropiată de zero (celula SemnificaţieF). Dacă nivelul de semnificație α este 0,05, determinați valoarea critică F-din formula se pot obtine distributii cu unu si 12 grade de libertate F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Fig. 22). Pentru că F = 113,23 > F U= 4,7472 și R-valoare apropiată de 0< 0,05, нулевая гипотеза H 0 deviază, adică Mărimea unui magazin este strâns legată de volumul său anual de vânzări.

Orez. 22. Testarea ipotezei despre panta populației generale la un nivel de semnificație de 0,05, cu unu și 12 grade de libertate

Interval de încredere conţinând panta β 1 ​​. Pentru a testa ipoteza existenței unei relații liniare între variabile, puteți construi un interval de încredere care conține panta β 1 ​​și vă asigurați că valoarea ipotetică β 1 = 0 aparține acestui interval. Centrul intervalului de încredere care conține panta β 1 ​​este panta eșantionului b 1 , iar limitele sale sunt cantitățile b 1 ±t n –2 Sb 1

După cum se arată în fig. optsprezece, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Prin urmare, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 sau + 1,328 ≤ β 1 ≤ +2,012. Astfel, panta populației cu o probabilitate de 0,95 se află în intervalul de la +1,328 la +2,012 (adică de la 1.328.000 USD la 2.012.000 USD). Deoarece aceste valori sunt mai mari decât zero, există o relație liniară semnificativă statistic între vânzările anuale și suprafața magazinului. Dacă intervalul de încredere ar conține zero, nu ar exista nicio relație între variabile. În plus, intervalul de încredere înseamnă că la fiecare 1.000 mp. picioare are ca rezultat o creștere a vânzărilor medii de la 1.328.000 USD la 2.012.000 USD.

Utilizaret -criterii pentru coeficientul de corelare. a fost introdus coeficientul de corelare r, care este o măsură a relației dintre două variabile numerice. Poate fi folosit pentru a determina dacă există o relație semnificativă statistic între două variabile. Să notăm coeficientul de corelație dintre populațiile ambelor variabile prin simbolul ρ. Ipotezele nule și alternative sunt formulate după cum urmează: H 0: ρ = 0 (fără corelație), H 1: ρ ≠ 0 (există o corelație). Verificarea existenței unei corelații:

Unde r = + , dacă b 1 > 0, r = – , dacă b 1 < 0. Тестовая статистика t Are t- distributie cu n - 2 grade de libertate.

În problema lanțului de magazine Floarea soarelui r2= 0,904 și b 1- +1,670 (vezi Fig. 4). Pentru că b 1> 0, coeficientul de corelație dintre vânzările anuale și dimensiunea magazinului este r= +√0,904 = +0,951. Să testăm ipoteza nulă că nu există nicio corelație între aceste variabile folosind t- statistici:

La un nivel de semnificație de α = 0,05, ipoteza nulă ar trebui respinsă deoarece t= 10,64 > 2,1788. Astfel, se poate susține că există o relație semnificativă statistic între vânzările anuale și dimensiunea magazinului.

Când discutăm inferențe despre pantele populației, intervalele de încredere și criteriile pentru testarea ipotezelor sunt instrumente interschimbabile. Totuși, calculul intervalului de încredere care conține coeficientul de corelație se dovedește a fi mai dificil, deoarece forma distribuției de eșantionare a statisticii r depinde de coeficientul de corelație adevărat.

Estimarea așteptărilor matematice și predicția valorilor individuale

Această secțiune discută metode de estimare a răspunsului așteptat Yși predicții ale valorilor individuale Y pentru valorile date ale variabilei X.

Construirea unui interval de încredere.În exemplul 2 (vezi secțiunea de mai sus Metoda celor mai mici pătrate) ecuația de regresie a făcut posibilă prezicerea valorii variabilei Y X. În problema alegerii unei locații pentru un punct de vânzare cu amănuntul, vânzările medii anuale într-un magazin cu o suprafață de 4000 mp. picioare a fost egală cu 7,644 milioane de dolari.Totuși, această estimare a așteptărilor matematice a populației generale este un punct. pentru estimarea așteptării matematice a populației generale s-a propus conceptul de interval de încredere. În mod similar, se poate introduce conceptul interval de încredere pentru așteptarea matematică a răspunsului pentru o valoare dată a unei variabile X:

Unde , = b 0 + b 1 X i– variabilă de valoare prezisă Y la X = X i, S YX este eroarea pătratică medie, n este dimensiunea eșantionului, Xi- valoarea dată a variabilei X, µ Y|X = Xi– așteptarea matematică a unei variabile Y la X = Х i,SSX=

Analiza formulei (13) arată că lățimea intervalului de încredere depinde de mai mulți factori. La un anumit nivel de semnificație, o creștere a amplitudinii fluctuațiilor în jurul dreptei de regresie, măsurată folosind eroarea pătratică medie, duce la o creștere a lățimii intervalului. Pe de altă parte, așa cum era de așteptat, o creștere a dimensiunii eșantionului este însoțită de o îngustare a intervalului. În plus, lățimea intervalului se modifică în funcție de valori Xi. Dacă valoarea variabilei Y prezis pentru cantităţi X, aproape de valoarea medie , intervalul de încredere se dovedește a fi mai îngust decât atunci când se prezică răspunsul pentru valori departe de medie.

Să presupunem că atunci când alegem o locație pentru un magazin, dorim să construim un interval de încredere de 95% pentru vânzările medii anuale în toate magazinele cu o suprafață de 4000 de metri pătrați. picioare:

Prin urmare, volumul mediu anual de vânzări în toate magazinele cu o suprafață de 4.000 de metri pătrați. picioare, cu o probabilitate de 95% se află în intervalul de la 6,971 la 8,317 milioane de dolari.

Calculați intervalul de încredere pentru valoarea prezisă. Pe lângă intervalul de încredere pentru așteptarea matematică a răspunsului pentru o valoare dată a variabilei X, este adesea necesar să se cunoască intervalul de încredere pentru valoarea prezisă. Deși formula pentru calcularea unui astfel de interval de încredere este foarte asemănătoare cu formula (13), acest interval conține o valoare prezisă și nu o estimare a parametrului. Interval pentru răspunsul prezis YX = Xi pentru o anumită valoare a variabilei Xi este determinată de formula:

Să presupunem că atunci când alegem o locație pentru un punct de vânzare cu amănuntul, dorim să construim un interval de încredere de 95% pentru volumul anual de vânzări estimat într-un magazin cu o suprafață de 4000 de metri pătrați. picioare:

Prin urmare, volumul anual de vânzări estimat pentru o suprafață de 4.000 mp. picioare, cu o probabilitate de 95% se află în intervalul de la 5,433 la 9,854 milioane de dolari. După cum puteți vedea, intervalul de încredere pentru valoarea răspunsului prezis este mult mai larg decât intervalul de încredere pentru așteptarea sa matematică. Acest lucru se datorează faptului că variabilitatea în prezicerea valorilor individuale este mult mai mare decât în ​​estimarea valorii așteptate.

Capcane și probleme etice asociate cu utilizarea regresiei

Dificultăți asociate cu analiza de regresie:

  • Ignorarea condițiilor de aplicabilitate a metodei celor mai mici pătrate.
  • O estimare eronată a condițiilor de aplicabilitate a metodei celor mai mici pătrate.
  • Alegerea greșită a metodelor alternative cu încălcarea condițiilor de aplicabilitate a metodei celor mai mici pătrate.
  • Aplicarea analizei de regresie fără cunoaștere aprofundată a subiectului de studiu.
  • Extrapolarea regresiei dincolo de intervalul variabilei explicative.
  • Confuzia între relațiile statistice și cauzale.

Utilizarea pe scară largă a foilor de calcul și a software-ului statistic a eliminat problemele de calcul care au împiedicat utilizarea analizei de regresie. Cu toate acestea, acest lucru a condus la faptul că analiza de regresie a început să fie utilizată de utilizatori care nu au suficiente calificări și cunoștințe. Cum știu utilizatorii despre metodele alternative dacă mulți dintre ei nu au nicio idee despre condițiile de aplicabilitate a metodei celor mai mici pătrate și nu știu cum să le verifice implementarea?

Cercetătorul nu trebuie să se lase dus de măcinarea numerelor - calculând deplasarea, panta și coeficientul de corelație mixt. Are nevoie de cunoștințe mai profunde. Să ilustrăm acest lucru cu un exemplu clasic luat din manuale. Anscombe a arătat că toate cele patru seturi de date prezentate în Fig. 23 au aceiași parametri de regresie (Fig. 24).

Orez. 23. Patru seturi de date artificiale

Orez. 24. Analiza de regresie a patru seturi de date artificiale; am terminat-o cu Pachet de analize(click pe imagine pentru a mari imaginea)

Deci, din punctul de vedere al analizei de regresie, toate aceste seturi de date sunt complet identice. Dacă analiza s-ar termina acolo, am pierde o mulțime de informații utile. Acest lucru este evidențiat de diagramele de dispersie (Fig. 25) și diagramele reziduale (Fig. 26) construite pentru aceste seturi de date.

Orez. 25. Diagrame de dispersie pentru patru seturi de date

Diagramele de dispersie și diagramele reziduale arată că aceste date sunt diferite unele de altele. Singura multime distribuita de-a lungul unei linii drepte este multimea A. Graficul reziduurilor calculate din multimea A nu are un model. Nu același lucru se poate spune și pentru mulțimile B, C și D. Graficul de dispersie reprezentat pentru setul B arată un model pătratic pronunțat. Această concluzie este confirmată de graficul reziduurilor, care are o formă parabolică. Graficul de dispersie și graficul rezidual arată că setul de date B conține un valori abere. În această situație, este necesar să excludeți valorile aberante din setul de date și să repetați analiza. Tehnica de detectare și eliminare a valorii aberante din observații se numește analiză de influență. După eliminarea valorii aberante, rezultatul reevaluării modelului poate fi complet diferit. Un grafic de dispersie reprezentat din setul de date D ilustrează o situație neobișnuită în care modelul empiric este foarte dependent de un singur răspuns ( X 8 = 19, Y 8 = 12,5). Astfel de modele de regresie trebuie calculate cu deosebită atenție. Deci, diagramele de dispersie și graficele reziduale sunt un instrument esențial pentru analiza regresiei și ar trebui să fie o parte integrantă a acesteia. Fără ele, analiza de regresie nu este credibilă.

Orez. 26. Grafice de reziduuri pentru patru seturi de date

Cum să evitați capcanele în analiza de regresie:

  • Analiza relației posibile dintre variabile Xși Yîncepe întotdeauna cu un grafic de dispersie.
  • Înainte de a interpreta rezultatele unei analize de regresie, verificați condițiile de aplicabilitate a acesteia.
  • Reprezentați grafic reziduurile față de variabila independentă. Acest lucru va permite să se determine modul în care modelul empiric corespunde rezultatelor observației și să se detecteze încălcarea constanței varianței.
  • Utilizați histograme, diagrame cu tulpini și frunze, diagrame cu case și diagrame de distribuție normală pentru a testa ipoteza unei distribuții normale a erorilor.
  • Dacă nu sunt îndeplinite condițiile de aplicabilitate ale metodei celor mai mici pătrate, utilizați metode alternative (de exemplu, modele de regresie pătratică sau multiplă).
  • Dacă sunt îndeplinite condițiile de aplicabilitate ale metodei celor mai mici pătrate, este necesar să se testeze ipoteza despre semnificația statistică a coeficienților de regresie și să se construiască intervale de încredere care să conțină așteptarea matematică și valoarea răspunsului prezis.
  • Evitați prezicerea valorilor variabilei dependente în afara intervalului variabilei independente.
  • Rețineți că dependențele statistice nu sunt întotdeauna cauzale. Amintiți-vă că corelația dintre variabile nu înseamnă că există o relație cauzală între ele.

Rezumat. După cum se arată în diagrama bloc (Fig. 27), nota descrie un model de regresie liniară simplu, condițiile de aplicabilitate a acestuia și modalitățile de testare a acestor condiții. Considerat t-criteriul de testare a semnificaţiei statistice a pantei regresiei. A fost utilizat un model de regresie pentru a prezice valorile variabilei dependente. Se consideră un exemplu legat de alegerea unui loc pentru un punct de vânzare cu amănuntul, în care se studiază dependența volumului anual de vânzări de suprafața magazinului. Informațiile obținute vă permit să selectați mai precis o locație pentru magazin și să preziceți vânzările anuale ale acestuia. În notele următoare, discuția despre analiza regresiei va continua, precum și modelele de regresie multiple.

Orez. 27. Schema bloc a unei note

Sunt folosite materiale din cartea Levin et al. Statistici pentru manageri. - M.: Williams, 2004. - p. 792–872

Dacă variabila dependentă este categorică, trebuie aplicată regresia logistică.

Folosind metoda grafică.
Această metodă este utilizată pentru vizualizarea formei de comunicare între indicatorii economici studiați. Pentru a face acest lucru, un grafic este trasat într-un sistem de coordonate dreptunghiular, valorile individuale ale atributului rezultat Y sunt reprezentate de-a lungul axei ordonatelor, iar valorile individuale ale atributului factorului X sunt reprezentate de-a lungul axei absciselor.
Se numește setul de puncte al semnelor efective și factorilor câmpul de corelare.
Pe baza câmpului de corelație, se poate emite ipoteza (pentru populația generală) că relația dintre toate valorile posibile ale lui X și Y este liniară.

Ecuația de regresie liniară are forma y = bx + a + ε
Aici ε este o eroare aleatorie (abatere, perturbare).
Motive pentru existența unei erori aleatorii:
1. Neincluderea variabilelor explicative semnificative în modelul de regresie;
2. Agregarea variabilelor. De exemplu, funcția de consum total este o încercare de exprimare generală a totalității deciziilor individuale de cheltuieli ale indivizilor. Aceasta este doar o aproximare a relațiilor individuale care au parametri diferiți.
3. Descrierea incorectă a structurii modelului;
4. Specificație funcțională greșită;
5. Erori de măsurare.
Deoarece abaterile ε i pentru fiecare observație particulară i sunt aleatoare și valorile lor în eșantion sunt necunoscute, atunci:
1) conform observațiilor x i și y i se pot obține doar estimări ale parametrilor α și β
2) Estimările parametrilor α și β ai modelului de regresie sunt, respectiv, valorile a și b, care sunt de natură aleatorie, deoarece corespund unui eșantion aleatoriu;
Apoi, ecuația de regresie estimată (construită din datele eșantionului) va arăta ca y = bx + a + ε, unde e i sunt valorile observate (estimări) ale erorilor ε i și, respectiv, b, estimările parametrii α și β ai modelului de regresie care ar trebui găsiți.
Pentru a estima parametrii α și β - utilizați LSM (cel mai mici pătrate).
Sistem de ecuații normale.

Pentru datele noastre, sistemul de ecuații are forma:

10a + 356b = 49
356a + 2135b = 9485

Exprimați a din prima ecuație și înlocuiți-l în a doua ecuație
Obținem b = 68,16, a = 11,17

Ecuația de regresie:
y = 68,16 x - 11,17

1. Parametrii ecuației de regresie.
Eșantion înseamnă.



Variante de eșantion.


deviație standard

1.1. Coeficient de corelație
Calculăm indicatorul de apropiere a comunicării. Un astfel de indicator este un coeficient de corelație liniară selectivă, care este calculat prin formula:

Coeficientul de corelație liniară ia valori de la –1 la +1.
Relațiile dintre caracteristici pot fi slabe sau puternice (strânse). Criteriile lor sunt punctate pe Scala Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
În exemplul nostru, relația dintre caracteristica Y factorul X este foarte mare și directă.

1.2. Ecuația de regresie(evaluarea ecuației de regresie).

Ecuația de regresie liniară este y = 68,16 x -11,17
Coeficienților unei ecuații de regresie liniară li se poate da sens economic. Coeficientul ecuației de regresie arată câte unități rezultatul se va schimba atunci când factorul se schimbă cu 1 unitate.
Coeficientul b = 68,16 arată modificarea medie a indicatorului efectiv (în unități de y) cu o creștere sau scădere a valorii factorului x pe unitatea de măsură a acestuia. În acest exemplu, cu o creștere de 1 unitate, y crește cu o medie de 68,16.
Coeficientul a = -11,17 arată în mod formal nivelul prezis al lui y, dar numai dacă x=0 este aproape de valorile eșantionului.
Dar dacă x=0 este departe de valorile eșantionului x, atunci o interpretare literală poate duce la rezultate incorecte și chiar dacă linia de regresie descrie cu acuratețe valorile eșantionului observat, nu există nicio garanție că aceasta va fi, de asemenea, cazul extrapolării la stânga sau la dreapta.
Prin înlocuirea valorilor corespunzătoare ale lui x în ecuația de regresie, este posibil să se determine valorile aliniate (prevăzute) ale indicatorului efectiv y(x) pentru fiecare observație.
Relația dintre y și x determină semnul coeficientului de regresie b (dacă > 0 - relație directă, în caz contrar - inversă). În exemplul nostru, conexiunea este directă.

1.3. coeficient de elasticitate.
Nu este de dorit să se utilizeze coeficienți de regresie (în exemplul b) pentru o evaluare directă a influenței factorilor asupra atributului efectiv în cazul în care există o diferență între unitățile de măsură ale indicatorului efectiv y și atributul factorului x.
În aceste scopuri, se calculează coeficienții de elasticitate și coeficienții beta. Coeficientul de elasticitate se gaseste prin formula:


Arată câte procente se modifică în medie atributul efectiv y atunci când atributul factorului x se modifică cu 1%. Nu ține cont de gradul de fluctuație al factorilor.
În exemplul nostru, coeficientul de elasticitate este mai mare decât 1. Prin urmare, dacă X se modifică cu 1%, Y se va modifica cu mai mult de 1%. Cu alte cuvinte, X îl afectează semnificativ pe Y.
Coeficientul beta arată cu ce parte a valorii abaterii sale standard se va modifica în medie valoarea atributului efectiv atunci când atributul factorului se modifică cu valoarea abaterii sale standard cu valoarea variabilelor independente rămase fixată la un nivel constant:

Acestea. o creștere a x cu valoarea abaterii standard a acestui indicator va duce la o creștere a mediei Y cu 0,9796 a abaterii standard a acestui indicator.

1.4. Eroare de aproximare.
Să evaluăm calitatea ecuației de regresie folosind eroarea de aproximare absolută.


Deoarece eroarea este mai mare de 15%, această ecuație nu este de dorit să fie utilizată ca regresie.

1.6. Coeficient de determinare.
Pătratul coeficientului de corelație (multiplu) se numește coeficient de determinare, care arată proporția variației atributului rezultat explicată de variația atributului factorului.
Cel mai adesea, dând o interpretare a coeficientului de determinare, acesta este exprimat ca procent.
R2 = 0,982 = 0,9596
acestea. în 95,96% din cazuri, modificările în x conduc la o schimbare în y. Cu alte cuvinte, acuratețea selecției ecuației de regresie este mare. Variația rămasă de 4,04% în Y se datorează unor factori care nu au fost luați în considerare în model.

X y x2 y2 X y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Estimarea parametrilor ecuației de regresie.
2.1. Semnificația coeficientului de corelație.

Conform tabelului Student cu nivel de semnificație α=0,05 și grade de libertate k=7 găsim t crit:
t crit = (7;0,05) = 1,895
unde m = 1 este numărul de variabile explicative.
Dacă t obs > t este critic, atunci valoarea obținută a coeficientului de corelație este recunoscută ca semnificativă (se respinge ipoteza nulă care afirmă că coeficientul de corelație este egal cu zero).
Deoarece t obl > t crit, respingem ipoteza că coeficientul de corelație este egal cu 0. Cu alte cuvinte, coeficientul de corelație este semnificativ statistic
Într-o regresie liniară pereche, t 2 r = t 2 b, iar apoi testarea ipotezelor despre semnificația coeficienților de regresie și corelație este echivalentă cu testarea ipotezei despre semnificația ecuației de regresie liniară.

2.3. Analiza acurateței determinării estimărilor coeficienților de regresie.
Estimarea imparțială a varianței perturbațiilor este valoarea:


S 2 y = 94,6484 - varianță inexplicabilă (o măsură a dispersiei variabilei dependente în jurul liniei de regresie).
S y = 9,7287 - eroarea standard a estimării (eroarea standard a regresiei).
S a - abaterea standard a unei variabile aleatoare a.


S b - abaterea standard a variabilei aleatoare b.

2.4. Intervale de încredere pentru variabila dependentă.
Prognoza economică bazată pe modelul construit presupune că relațiile preexistente ale variabilelor sunt păstrate și pentru perioada de plumb.
Pentru a prezice variabila dependentă a atributului rezultat, este necesar să se cunoască valorile predictive ale tuturor factorilor incluși în model.
Valorile predictive ale factorilor sunt substituite în model și se obțin estimări predictive punctuale ale indicatorului studiat. (a + bx p ± ε)
Unde

Să calculăm limitele intervalului în care 95% din valorile posibile ale lui Y vor fi concentrate cu un număr nelimitat de observații și X p = 1 (-11,17 + 68,16*1 ± 6,4554)
(50.53;63.44)

Intervalele individuale de încredere pentruYla o valoare datăX.
(a + bx i ± ε)
Unde

x i y = -11,17 + 68,16x i ε i ymin ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

Cu o probabilitate de 95%, se poate garanta că valoarea lui Y cu un număr nelimitat de observații nu va depăși limitele intervalelor găsite.

2.5. Testarea ipotezelor privind coeficienții ecuației de regresie liniară.
1) t-statistici. Criteriul elevului.
Să testăm ipoteza H 0 despre egalitatea coeficienților individuali de regresie la zero (cu alternativa H 1 nu este egală) la nivelul de semnificație α=0,05.
t crit = (7;0,05) = 1,895


Deoarece 12,8866 > 1,895 se confirmă semnificația statistică a coeficientului de regresie b (respingem ipoteza că acest coeficient este egal cu zero).


Deoarece 2,0914 > 1,895 se confirmă semnificația statistică a coeficientului de regresie a (respingem ipoteza că acest coeficient este egal cu zero).

Interval de încredere pentru coeficienții ecuației de regresie.
Să determinăm intervalele de încredere ale coeficienților de regresie, care, cu o fiabilitate de 95%, vor fi după cum urmează:
(b - t crit S b; b + t crit S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
Cu o probabilitate de 95%, se poate argumenta că valoarea acestui parametru se va afla în intervalul găsit.
(la un)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
Cu o probabilitate de 95%, se poate argumenta că valoarea acestui parametru se va afla în intervalul găsit.

2) F-statistici. criteriul lui Fisher.
Semnificația modelului de regresie este verificată cu ajutorul testului F Fisher, a cărui valoare calculată se găsește ca raport dintre varianța seriei inițiale de observații a indicatorului studiat și estimarea nepărtinitoare a varianței secvenței reziduale pentru acest model.
Dacă valoarea calculată cu lang=EN-US>n-m-1) grade de libertate este mai mare decât valoarea tabelată la un anumit nivel de semnificație, atunci modelul este considerat semnificativ.

unde m este numărul de factori din model.
Evaluarea semnificației statistice a regresiei liniare perechi se efectuează conform următorului algoritm:
1. Se propune o ipoteză nulă conform căreia ecuația în ansamblu este nesemnificativă statistic: H 0: R 2 =0 la nivelul de semnificație α.
2. Apoi, determinați valoarea reală a criteriului F:


unde m=1 pentru regresia pe perechi.
3. Valoarea tabelului este determinată din tabelele de distribuție Fisher pentru un anumit nivel de semnificație, ținând cont de faptul că numărul de grade de libertate pentru suma totală a pătratelor (varianță mai mare) este 1 și numărul de grade de libertate pentru suma reziduală a pătrate (varianță mai mică) în regresia liniară este n-2 .
4. Dacă valoarea reală a criteriului F este mai mică decât valoarea tabelului, atunci ei spun că nu există niciun motiv pentru a respinge ipoteza nulă.
În caz contrar, ipoteza nulă este respinsă și ipoteza alternativă despre semnificația statistică a ecuației în ansamblu este acceptată cu probabilitate (1-α).
Valoarea tabelului criteriului cu grade de libertate k1=1 și k2=7, Fkp = 5,59
Deoarece valoarea reală a lui F > Fkp, coeficientul de determinare este semnificativ statistic (estimarea găsită a ecuației de regresie este fiabilă statistic).

Verificați autocorelarea reziduurilor.
O condiție prealabilă importantă pentru construirea unui model de regresie calitativă folosind LSM este independența valorilor abaterilor aleatoare față de valorile abaterilor din toate celelalte observații. Acest lucru asigură că nu există nicio corelație între orice abateri și, în special, între abaterile adiacente.
Autocorelație (corelație în serie) definită ca corelația dintre măsurile observate ordonate în timp (seri de timp) sau spațiu (seri încrucișate). Autocorelarea reziduurilor (outliers) este frecvent întâlnită în analiza de regresie atunci când se utilizează date de serie de timp și foarte rar când se utilizează date transversale.
În sarcinile economice, este mult mai frecvent autocorelație pozitivă decât autocorelație negativă. În cele mai multe cazuri, autocorelația pozitivă este cauzată de o influență constantă direcțională a unor factori neluați în considerare în model.
Autocorelație negativăînseamnă de fapt că o abatere pozitivă este urmată de una negativă și invers. O astfel de situație poate avea loc dacă se consideră aceeași relație între cererea de băuturi răcoritoare și venituri în funcție de datele sezoniere (iarna-vara).
Printre cauzele principale care determină autocorelarea, se pot distinge următoarele:
1. Erori de specificație. Eșecul de a lua în considerare vreo variabilă explicativă importantă în model sau alegerea greșită a formei de dependență duce de obicei la abateri sistemice ale punctelor de observație de la linia de regresie, ceea ce poate duce la autocorelare.
2. Inerție. Mulți indicatori economici (inflație, șomaj, PNB etc.) au o anumită ciclicitate asociată cu ondulația activității afacerilor. Prin urmare, modificarea indicatorilor nu are loc instantaneu, ci are o anumită inerție.
3. Efect web. În multe domenii industriale și de altă natură, indicatorii economici reacționează la schimbările condițiilor economice cu întârziere (decalaj de timp).
4. Netezirea datelor. Adesea, datele pentru o anumită perioadă lungă de timp sunt obținute prin mediarea datelor pe intervalele lor constitutive. Acest lucru poate duce la o anumită netezire a fluctuațiilor care au existat în perioada luată în considerare, care, la rândul său, poate provoca autocorelare.
Consecințele autocorelației sunt similare cu cele ale heteroscedasticității: concluziile privind statisticile t și F care determină semnificația coeficientului de regresie și a coeficientului de determinare pot fi incorecte.

Detectarea autocorelației

1. Metoda grafică
Există o serie de opțiuni pentru definirea grafică a autocorelației. Una dintre ele raportează abaterile e i de momentele primirii lor i. În același timp, fie timpul de obținere a datelor statistice, fie numărul de serie al observației este reprezentat de-a lungul axei absciselor, iar deviațiile e i (sau estimările abaterilor) sunt reprezentate de-a lungul axei ordonatelor.
Este firesc să presupunem că, dacă există o anumită relație între abateri, atunci are loc autocorelația. Absența dependenței va indica cel mai probabil absența autocorelației.
Autocorelația devine mai clară dacă trasați e i față de e i-1 .

Testul Durbin-Watson.
Acest criteriu este cel mai cunoscut pentru detectarea autocorelației.
În timpul analizei statistice a ecuațiilor de regresie, în stadiul inițial, se verifică adesea fezabilitatea unei premise: condițiile de independență statistică a abaterilor unele de altele. În acest caz, se verifică necorelarea valorilor învecinate e i.

y y(x) e i = y-y(x) e 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Pentru a analiza corelația abaterilor, se folosesc statisticile Durbin-Watson:

Valorile critice d 1 și d 2 sunt determinate pe baza unor tabele speciale pentru nivelul de semnificație necesar α, numărul de observații n = 9 și numărul de variabile explicative m=1.
Nu există autocorelare dacă următoarea condiție este adevărată:
d1< DW и d 2 < DW < 4 - d 2 .
Fără a ne referi la tabele, putem folosi regula aproximativă și putem presupune că nu există o autocorelare a reziduurilor dacă 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

Calculul coeficienților ecuației de regresie

Sistemul de ecuații (7.8) nu poate fi rezolvat în mod unic pe baza DE existent, deoarece numărul de necunoscute este întotdeauna mai mare decât numărul de ecuații. Sunt necesare ipoteze suplimentare pentru a depăși această problemă. Bunul simț sugerează că este de dorit să se aleagă coeficienții polinomului în așa fel încât să se asigure o eroare minimă în aproximarea ED. Se pot aplica diverse măsuri pentru a evalua erorile de aproximare. Ca o astfel de măsură, eroarea pătratică medie și-a găsit o aplicare largă. Pe baza acesteia, a fost dezvoltată o metodă specială de estimare a coeficienților ecuațiilor de regresie, metoda celor mai mici pătrate (LSM). Această metodă vă permite să obțineți estimări de probabilitate maximă ale coeficienților necunoscuți ai ecuației de regresie cu o distribuție normală a variantei, dar poate fi aplicată oricărei alte distribuții a factorilor.

MNC se bazează pe următoarele prevederi:

· valorile valorilor și factorilor de eroare sunt independente și, prin urmare, necorelate, adică se presupune că mecanismele de generare a zgomotului nu sunt legate de mecanismul de formare a valorilor factorilor;

așteptarea matematică a erorii ε trebuie să fie egală cu zero (componenta constantă este inclusă în coeficient un 0), cu alte cuvinte, eroarea este o mărime centrată;

· Estimarea eșantionului a variației erorii ar trebui să fie minimă.

Luați în considerare aplicarea celor mai mici pătrate în raport cu regresia liniară a valorilor standardizate. Pentru cantități centrate u j coeficient un 0 este zero, atunci ecuațiile de regresie liniară

. (7.9)

Aici se introduce un semn special „^”, care denotă valorile indicatorului calculate prin ecuația de regresie, în contrast cu valorile obținute din rezultatele observațiilor.

Conform celor mai mici pătrate, se determină astfel de valori ale coeficienților ecuației de regresie care oferă un minim necondiționat pentru expresie

Minimul se găsește egalând cu zero toate derivatele parțiale ale expresiei (7.10), luate în raport cu coeficienții necunoscuți și rezolvând sistemul de ecuații

(7.11)

După efectuarea succesivă a transformărilor și folosind estimările introduse anterior ale coeficienților de corelație

. (7.12)

Așa primit t–1 ecuații liniare, care vă permite să calculați în mod unic valorile a 2 , a 3 , …, a t.

Dacă modelul liniar este inexact sau parametrii sunt măsurați inexact, atunci în acest caz LSM permite găsirea unor astfel de valori ale coeficienților pentru care modelul liniar descrie cel mai bine obiectul real în sensul criteriului de abatere standard ales.

Când există un singur parametru, ecuația de regresie liniară devine

Coeficient a 2 se găsește din ecuație

Atunci, având în vedere că r 2.2= 1, coeficientul dorit

A 2 = r y ,2 . (7.13)

Relația (7.13) confirmă afirmația menționată anterior că coeficientul de corelație este o măsură a relației liniare a doi parametri standardizați.

Înlocuind valoarea găsită a coeficientului a 2în expresia pentru w, ținând cont de proprietățile mărimilor centrate și normalizate, obținem valoarea minimă a acestei funcții egală cu 1– r2y,2 . Valoarea 1– r2y,2 se numește varianța reziduală a variabilei aleatoare y relativ la variabila aleatoare tu 2. Caracterizează eroarea care se obține prin înlocuirea indicatorului cu o funcție a parametrului υ= a 2 u 2. Doar când | r y,2| = 1, varianța reziduală este zero și, prin urmare, nu apare nicio eroare atunci când indicatorul este aproximat printr-o funcție liniară.

Trecerea de la valorile centrate și normalizate ale indicatorului și parametrului

pot fi obţinute pentru valorile iniţiale

Această ecuație este, de asemenea, liniară în raport cu coeficientul de corelație. Este ușor de observat că centrarea și normalizarea pentru regresia liniară permite reducerea cu una a dimensiunii sistemului de ecuații, i.e. pentru a simplifica rezolvarea problemei determinării coeficienților și pentru a da coeficienților înșiși un sens clar.

Utilizarea LSM pentru funcții neliniare practic nu diferă de schema considerată (doar coeficientul a0 din ecuația originală nu este egal cu zero).

De exemplu, să fie necesar să se determine coeficienții de regresie parabolic

Varianta de eroare de probă

Pe baza lui, se poate obține următorul sistem de ecuații

După transformări, sistemul de ecuații ia forma

Ținând cont de proprietățile momentelor mărimilor standardizate, scriem

Determinarea coeficienților de regresie neliniară se bazează pe soluția unui sistem de ecuații liniare. Pentru a face acest lucru, puteți utiliza pachete universale de metode numerice sau pachete specializate pentru prelucrarea datelor statistice.

Pe măsură ce crește gradul ecuației de regresie, crește și gradul momentelor de distribuție a parametrilor utilizați pentru determinarea coeficienților. Deci, pentru determinarea coeficienților ecuației de regresie de gradul doi se folosesc momentele de distribuție a parametrilor până la gradul al patrulea inclusiv. Se știe că acuratețea și fiabilitatea estimării momentelor dintr-un eșantion limitat de DE-uri scade brusc odată cu creșterea ordinii. Utilizarea polinoamelor de grad mai mare decât al doilea în ecuațiile de regresie nu este recomandabilă.

Calitatea ecuației de regresie rezultată este evaluată prin gradul de apropiere dintre rezultatele observațiilor indicatorului și valorile prezise de ecuația de regresie în anumite puncte din spațiul parametrilor. Dacă rezultatele sunt apropiate, atunci problema analizei regresiei poate fi considerată rezolvată. În caz contrar, ar trebui să modificați ecuația de regresie (alegeți un alt grad al polinomului sau un alt tip de ecuație cu totul) și să repetați calculele pentru a estima parametrii.

Dacă există mai mulți indicatori, problema analizei regresiei este rezolvată independent pentru fiecare dintre ei.

Analizând esența ecuației de regresie, trebuie reținute următoarele prevederi. Abordarea luată în considerare nu oferă o evaluare separată (independentă) a coeficienților - o modificare a valorii unui coeficient implică o modificare a valorilor altora. Coeficienții obținuți nu trebuie considerați ca contribuția parametrului corespunzător la valoarea indicatorului. Ecuația de regresie este doar o descriere analitică bună a ED disponibilă și nu o lege care descrie relația dintre parametri și un indicator. Această ecuație este utilizată pentru a calcula valorile indicatorului într-un interval dat de modificări ale parametrilor. Este de utilizare limitată pentru calcule în afara acestui interval, de exemplu. poate fi folosit pentru rezolvarea problemelor de interpolare și, într-o măsură limitată, pentru extrapolare.



Motivul principal al inexactității prognozei este nu atât incertitudinea extrapolării dreptei de regresie, cât o variație semnificativă a indicatorului din cauza unor factori neluați în considerare în model. Limitarea posibilității de prognozare este condiția de stabilitate a parametrilor neluați în considerare în model și natura influenței factorilor luați în considerare în model. Dacă mediul extern se schimbă dramatic, atunci ecuația de regresie întocmită își va pierde sensul. Este imposibil să se substituie în ecuația de regresie astfel de valori ale factorilor care diferă semnificativ de cele prezentate în ED. Se recomandă să nu depășiți o treime din intervalul de variație a parametrilor atât pentru valorile maxime, cât și pentru cele minime ale factorului.

Prognoza obținută prin înlocuirea valorii așteptate a parametrului în ecuația de regresie este o prognoză punctuală. Probabilitatea ca o astfel de prognoză să devină realitate este neglijabilă. Este recomandabil să se determine intervalul de încredere al prognozei. Pentru valorile individuale ale indicatorului, intervalul ar trebui să ia în considerare erorile în poziția liniei de regresie și abaterile valorilor individuale de la această linie. Eroarea medie de prognoză a indicatorului y pentru factorul x va fi

Unde este eroarea medie în poziția dreptei de regresie în populația generală la X = x k;

– estimarea varianței abaterii indicatorului de la linia de regresie în populația generală;

x k este valoarea așteptată a factorului.

Limitele de încredere ale prognozei, de exemplu, pentru ecuația de regresie (7.14), sunt determinate de expresia

Valoare de interceptare negativă un 0în ecuația de regresie pentru variabilele originale înseamnă că zona de existență a indicatorului nu include valori zero ale parametrilor. Dacă și 0 > 0, atunci zona de existență a indicatorului include valori zero ale parametrilor, iar coeficientul însuși caracterizează valoarea medie a indicatorului în absența influențelor parametrilor.

Problema 7.2. Construiți o ecuație de regresie pentru capacitatea canalului pentru eșantionul specificat în tabel. 7.1.

Soluţie. În raport cu eșantionul specificat, construcția dependenței analitice în partea sa principală a fost realizată în cadrul analizei de corelație: debitul depinde doar de parametrul „raport semnal-zgomot”. Rămâne de substituit în expresia (7.14) valorile calculate anterior ale parametrilor. Ecuația pentru debit va lua forma

ŷ = 26,47– 0,93×41,68×5,39/6,04+0,93×5,39/6,03× X = – 8,121+0,830X.

Rezultatele calculului sunt prezentate în tabel. 7.5.

Tabelul 7.5

N pp Capacitatea canalului Raportul semnal-zgomot Valoarea funcției Eroare
Y X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

Studiul dependențelor de corelație se bazează pe studiul unor astfel de relații între variabile, în care valorile unei variabile, aceasta poate fi luată ca variabilă dependentă, „în medie” se modifică în funcție de ce valori ia o altă variabilă, considerată ca o cauză în raport cu variabila dependentă. Acțiunea acestei cauze se desfășoară într-o interacțiune complexă a diverșilor factori, în urma căreia manifestarea unui model este ascunsă de influența șanselor. Calculând valorile medii ale atributului rezultat pentru un anumit grup de valori ale factorului-atribut, influența șanselor este parțial eliminată. Calculând parametrii liniei teoretice de comunicare, aceștia sunt eliminati în continuare și se obține o modificare neechivocă (în formă) „y” cu o modificare a factorului „x”.

Pentru a studia relațiile stocastice, sunt utilizate pe scară largă metoda de comparare a două serii paralele, metoda grupărilor analitice, analiza corelației, analiza regresiei și unele metode neparametrice. În general, sarcina statisticii în domeniul studierii relațiilor este nu numai de a cuantifica prezența acestora, direcția și puterea relației, ci și de a determina forma (expresia analitică) a influenței caracteristicilor factorilor asupra celei rezultate. Pentru rezolvarea acesteia se folosesc metode de analiză de corelare și regresie.

CAPITOLUL 1. ECUAȚIA REGRESIEI: FUNDAMENTE TEORETICE

1.1. Ecuația de regresie: esența și tipurile de funcții

Regresia (lat. regressio - mișcare inversă, trecerea de la formele de dezvoltare mai complexe la cele mai puțin complexe) este unul dintre conceptele de bază în teoria probabilității și statistica matematică, exprimând dependența valorii medii a unei variabile aleatoare de valori a unei alte variabile aleatoare sau a mai multor variabile aleatoare. Acest concept a fost introdus de Francis Galton în 1886.

Linia de regresie teoretică este linia în jurul căreia sunt grupate punctele câmpului de corelație și care indică direcția principală, tendința principală a conexiunii.

Linia de regresie teoretică ar trebui să reflecte modificarea valorilor medii ale atributului efectiv „y” pe măsură ce valorile atributului factorului „x” se schimbă, cu condiția ca toate celelalte - aleatorii în raport cu factorul „x” - cauzele se anulează reciproc. Prin urmare, această linie trebuie trasă în așa fel încât suma abaterilor punctelor câmpului de corelație de la punctele corespunzătoare ale dreptei de regresie teoretică să fie egală cu zero, iar suma pătratelor acestor abateri să fie minimă. valoare.

y=f(x) - ecuația de regresie este o formulă pentru o relație statistică între variabile.

O dreaptă pe un plan (într-un spațiu de două dimensiuni) este dată de ecuația y=a+b*x. Mai detaliat: variabila y poate fi exprimată în termeni de o constantă (a) și o pantă (b) înmulțită cu variabila x. Constanta este uneori numită și intercept, iar panta este numită și regresie sau factor B.

Un pas important în analiza regresiei este determinarea tipului de funcție, care caracterizează relația dintre caracteristici. Baza principală ar trebui să fie o analiză semnificativă a naturii dependenței studiate, mecanismul acesteia. În același timp, este departe de a fi întotdeauna posibilă fundamentarea teoretică a formei de legătură a fiecăruia dintre factori cu indicatorul de performanță, întrucât fenomenele socio-economice studiate sunt foarte complexe, iar factorii care formează nivelul lor sunt strâns întrepătrunși și interacționează. unul cu altul. Prin urmare, pe baza analizei teoretice, se pot trage adesea cele mai generale concluzii cu privire la direcția relației, posibilitatea schimbării acesteia în populația studiată, legitimitatea utilizării unei relații liniare, posibila prezență a unor valori extreme etc. . O completare necesară la aceste ipoteze ar trebui să fie analiza datelor concrete specifice.

O idee aproximativă a liniei de legătură poate fi obținută pe baza liniei de regresie empirică. Linia de regresie empirică este de obicei o linie întreruptă, are o întrerupere mai mult sau mai puțin semnificativă. Acest lucru se explică prin faptul că influența altor factori necontabiliați care afectează variația atributului efectiv nu este pe deplin compensată în medie, din cauza unui număr insuficient de mare de observații, prin urmare, linia empirică de comunicare poate fi folosită pentru selectați și justificați tipul de curbă teoretică, cu condiția ca numărul de observații să fie suficient de mare.

Unul dintre elementele studiilor specifice este compararea diferitelor ecuații de dependență pe baza utilizării criteriilor de calitate pentru aproximarea datelor empirice prin modele concurente.Următoarele tipuri de funcții sunt cel mai adesea folosite pentru a caracteriza relațiile indicatorilor economici:

1. Linear:

2. Hiperbolice:

3. Demonstrativ:

4. Parabolic:

5. Putere:

6. Logaritmic:

7. Logistică:

Un model cu o variabilă explicativă și o variabilă explicativă este un model de regresie pereche. Dacă sunt utilizate două sau mai multe variabile explicative (factoriale), atunci se vorbește despre utilizarea unui model de regresie multiplă. În acest caz, pot fi alese ca opțiuni funcții liniare, exponențiale, hiperbolice, exponențiale și alte tipuri de funcții care conectează aceste variabile.

Pentru a găsi parametrii a și b, ecuațiile de regresie folosesc metoda celor mai mici pătrate. Când se folosește metoda celor mai mici pătrate pentru a găsi o astfel de funcție care se potrivește cel mai bine cu datele empirice, se crede că pachetul de abateri la pătrat ale punctelor empirice de la linia de regresie teoretică ar trebui să fie valoarea minimă.

Criteriul metodei celor mai mici pătrate poate fi scris după cum urmează:

Prin urmare, aplicarea metodei celor mai mici pătrate pentru a determina parametrii a și b ai dreptei care se potrivește cel mai bine cu datele empirice se reduce la o problemă extremum.

În ceea ce privește ratingurile, se pot trage următoarele concluzii:

1. Estimările celor mai mici pătrate sunt funcții de eșantionare, ceea ce le face ușor de calculat.

2. Estimările celor mai mici pătrate sunt estimări punctuale ale coeficienților de regresie teoretică.

3. Linia empirică de regresie trece în mod necesar prin punctul x, y.

4. Ecuația de regresie empirică este construită în așa fel încât suma abaterilor

.

O reprezentare grafică a liniei de comunicare empirică și teoretică este prezentată în Figura 1.


Parametrul b din ecuație este coeficientul de regresie. Dacă există o corelație directă, coeficientul de regresie are o valoare pozitivă, iar în cazul unei relații inverse, coeficientul de regresie este negativ. Coeficientul de regresie arată cât de mult se modifică valoarea atributului efectiv „y” în medie atunci când atributul factorului „x” se modifică cu unu. Geometric, coeficientul de regresie este panta dreptei care descrie ecuația de corelație în raport cu axa x (pentru ecuație

).

Ramura analizei statistice multivariate dedicată recuperării dependențelor se numește analiză de regresie. Termenul „analiza de regresie liniară” este folosit atunci când funcția luată în considerare depinde liniar de parametrii estimați (dependența de variabile independente poate fi arbitrară). Teoria evaluării

parametrii necunoscuți este bine dezvoltat tocmai în cazul analizei regresiei liniare. Dacă nu există liniaritate și este imposibil să treceți la o problemă liniară, atunci, de regulă, nu trebuie să vă așteptați proprietăți bune de la estimări. Să demonstrăm abordări în cazul dependențelor de diferite tipuri. Dacă dependența are forma unui polinom (polinom). Dacă calculul corelației caracterizează puterea relației dintre două variabile, atunci analiza de regresie servește la determinarea tipului acestei relații și face posibilă prezicerea valorii unei variabile (dependente) pe baza valorii altei variabile (independente). Pentru a efectua o analiză de regresie liniară, variabila dependentă trebuie să aibă o scară de interval (sau ordinală). În același timp, regresia logistică binară relevă dependența unei variabile dihotomice de o altă variabilă legată de orice scară. Aceleași condiții de aplicare sunt valabile pentru analiza probit. Dacă variabila dependentă este categorică, dar are mai mult de două categorii, atunci regresia logistică multinomială va fi o metodă adecvată aici și pot fi analizate relațiile neliniare dintre variabilele care aparțin scalei intervalului. Pentru aceasta este destinată metoda regresiei neliniare.

CATEGORII

ARTICOLE POPULARE

2022 "kingad.ru" - examinarea cu ultrasunete a organelor umane