Dependență regresivă. Analiza regresiei

În modelarea statistică, analiza de regresie este un studiu utilizat pentru a evalua relația dintre variabile. Această metodă matematică include multe alte metode de modelare și analiză a mai multor variabile unde accentul este pus pe relația dintre o variabilă dependentă și una sau mai multe variabile independente. Mai precis, analiza de regresie ne ajută să înțelegem cum se modifică valoarea tipică a unei variabile dependente dacă una dintre variabilele independente se modifică în timp ce celelalte variabile independente rămân fixe.

În toate cazurile, estimarea țintă este o funcție a variabilelor independente și se numește funcție de regresie. În analiza de regresie, este, de asemenea, interesant să se caracterizeze modificarea variabilei dependente în funcție de regresie, care poate fi descrisă folosind o distribuție de probabilitate.

Probleme de analiză de regresie

Această metodă de cercetare statistică este utilizată pe scară largă pentru prognoză, unde utilizarea ei are un avantaj semnificativ, dar uneori poate duce la iluzii sau relații false, de aceea este recomandat să o folosiți cu atenție în materia menționată, întrucât, de exemplu, corelarea nu înseamnă cauzalitate.

Au fost dezvoltate un număr mare de metode pentru efectuarea analizei de regresie, cum ar fi regresia liniară și cea obișnuită cu cele mai mici pătrate, care sunt parametrice. Esența lor este că funcția de regresie este definită în termenii unui număr finit de parametri necunoscuți care sunt estimați din date. Regresia neparametrică permite ca funcția sa să se afle într-un anumit set de funcții, care pot fi infinit-dimensionale.

Ca metodă de cercetare statistică, analiza regresiei în practică depinde de forma procesului de generare a datelor și de modul în care acesta se raportează la abordarea regresiei. Deoarece adevărata formă a procesului de generare a datelor este de obicei un număr necunoscut, analiza regresiei datelor depinde adesea într-o oarecare măsură de ipotezele despre proces. Aceste ipoteze sunt uneori testabile dacă există suficiente date disponibile. Modelele de regresie sunt adesea utile chiar și atunci când ipotezele sunt încălcate moderat, deși s-ar putea să nu aibă rezultate optime.

Într-un sens mai restrâns, regresia se poate referi în mod specific la estimarea variabilelor de răspuns continuu, spre deosebire de variabilele de răspuns discret utilizate în clasificare. Cazul variabilei de ieșire continuă se mai numește și regresie metrică pentru a o distinge de problemele conexe.

Poveste

Cea mai veche formă de regresie este binecunoscuta metodă a celor mai mici pătrate. A fost publicată de Legendre în 1805 și Gauss în 1809. Legendre și Gauss au aplicat metoda la problema determinării din observațiile astronomice a orbitelor corpurilor în jurul Soarelui (în principal comete, dar mai târziu și planete minore nou descoperite). Gauss a publicat o dezvoltare ulterioară a teoriei celor mai mici pătrate în 1821, inclusiv o versiune a teoremei Gauss-Markov.

Termenul „regresie” a fost inventat de Francis Galton în secolul al XIX-lea pentru a descrie un fenomen biologic. Ideea a fost că înălțimea descendenților față de cea a strămoșilor lor tinde să regreseze în jos spre media normală. Pentru Galton, regresia avea doar acest sens biologic, dar mai târziu munca sa a fost continuată de Udney Yoley și Karl Pearson și adusă într-un context statistic mai general. În lucrarea lui Yule și Pearson, distribuția comună a răspunsului și a variabilelor explicative se presupune a fi gaussiană. Această presupunere a fost respinsă de Fischer în lucrările din 1922 și 1925. Fisher a sugerat că distribuția condiționată a variabilei răspuns este Gauss, dar distribuția comună nu trebuie să fie. În acest sens, propunerea lui Fischer este mai apropiată de formularea lui Gauss din 1821. Înainte de 1970, uneori era nevoie de până la 24 de ore pentru a obține rezultatul unei analize de regresie.

Metodele de analiză de regresie continuă să fie un domeniu de cercetare activă. În ultimele decenii, au fost dezvoltate noi metode pentru regresie robustă; regresii care implică răspunsuri corelate; metode de regresie care găzduiesc diferite tipuri de date lipsă; regresie neparametrică; metode de regresie bayesiană; regresii în care variabilele predictoare sunt măsurate cu eroare; regresie cu mai mulți predictori decât observații și inferență cauza-efect cu regresie.

Modele de regresie

Modelele de analiză de regresie includ următoarele variabile:

  • Parametri necunoscuți, desemnați beta, care pot fi un scalar sau un vector.
  • Variabile independente, X.
  • Variabile dependente, Y.

Diferite domenii ale științei în care este utilizată analiza de regresie folosesc termeni diferiți în locul variabilelor dependente și independente, dar în toate cazurile modelul de regresie raportează Y la o funcție a lui X și β.

Aproximația este de obicei scrisă ca E(Y | X) = F(X, β). Pentru a efectua o analiză de regresie, trebuie determinat tipul funcției f. Mai rar, se bazează pe cunoștințele despre relația dintre Y și X, care nu se bazează pe date. Dacă astfel de cunoștințe nu sunt disponibile, atunci se alege forma flexibilă sau convenabilă F.

Variabila dependentă Y

Să presupunem acum că vectorul parametrilor necunoscuți β are lungimea k. Pentru a efectua analiza de regresie, utilizatorul trebuie să furnizeze informații despre variabila dependentă Y:

  • Dacă se observă N puncte de date de forma (Y, X), unde N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Dacă se observă exact N = K și funcția F este liniară, atunci ecuația Y = F(X, β) poate fi rezolvată mai exact decât aproximativ. Aceasta înseamnă rezolvarea unui set de N-ecuații cu N-necunoscute (elementele β) care are o soluție unică atâta timp cât X este independent liniar. Dacă F este neliniară, este posibil să nu existe o soluție sau pot exista multe soluții.
  • Cea mai frecventă situație este cea în care sunt observate N > puncte de date. În acest caz, există suficiente informații în date pentru a estima o valoare unică pentru β care se potrivește cel mai bine datelor și un model de regresie în care aplicarea datelor poate fi privită ca un sistem supradeterminat în β.

În acest din urmă caz, analiza de regresie oferă instrumente pentru:

  • Găsirea unei soluții pentru parametrii necunoscuți β, care, de exemplu, va minimiza distanța dintre valoarea măsurată și cea prezisă a lui Y.
  • În anumite ipoteze statistice, analiza de regresie folosește excesul de informații pentru a furniza informații statistice despre parametrii necunoscuți β și valorile prezise ale variabilei dependente Y.

Numărul necesar de măsurători independente

Considerăm un model de regresie care are trei parametri necunoscuți: β 0 , β 1 și β 2 . Să presupunem că experimentatorul face 10 măsurători pe aceeași valoare a vectorului variabil independent X. În acest caz, analiza de regresie nu produce un set unic de valori. Cel mai bun lucru pe care îl puteți face este să estimați media și abaterea standard a variabilei dependente Y. În mod similar, măsurând două valori diferite ale lui X, puteți obține date suficiente pentru regresie cu două necunoscute, dar nu cu trei sau mai multe necunoscute.

Dacă măsurătorile experimentatorului au fost făcute la trei valori diferite ale vectorului variabil independent X, atunci analiza de regresie va oferi un set unic de estimări pentru cei trei parametri necunoscuți în β.

În cazul regresiei liniare generale, afirmația de mai sus este echivalentă cu cerința ca matricea X T X să fie inversabilă.

Ipoteze statistice

Când numărul de măsurători N este mai mare decât numărul de parametri necunoscuți k și erorile de măsurare ε i , atunci, de regulă, excesul de informații conținute în măsurători este apoi diseminat și utilizat pentru predicții statistice privind parametrii necunoscuți. Această informație în exces se numește grad de libertate de regresie.

Ipoteze fundamentale

Ipotezele clasice pentru analiza de regresie includ:

  • Eșantionarea este reprezentativă pentru predicția prin inferență.
  • Termenul de eroare este o variabilă aleatorie cu o medie de zero, care este condiționată de variabilele explicative.
  • Variabilele independente sunt măsurate fără erori.
  • Ca variabile independente (predictori), ele sunt liniar independente, adică nu este posibil să se exprime niciun predictor ca o combinație liniară a celorlalți.
  • Erorile sunt necorelate, adică matricea de covarianță a erorilor a diagonalelor și fiecare element diferit de zero este varianța erorii.
  • Varianța erorii este constantă între observații (homoscedasticitate). Dacă nu, atunci pot fi utilizate cele mai mici pătrate ponderate sau alte metode.

Aceste condiții suficiente pentru estimarea celor mai mici pătrate au proprietățile necesare, în special aceste ipoteze înseamnă că estimările parametrilor vor fi obiective, consecvente și eficiente, mai ales atunci când sunt luate în considerare în clasa estimatorilor liniari. Este important de menționat că dovezile rareori îndeplinesc condițiile. Adică, metoda este folosită chiar dacă ipotezele nu sunt corecte. Variația față de ipoteze poate fi uneori utilizată ca o măsură a cât de util este modelul. Multe dintre aceste ipoteze pot fi relaxate prin metode mai avansate. Rapoartele de analiză statistică includ în mod obișnuit analiza testelor pe datele eșantionului și metodologia pentru utilitatea modelului.

În plus, variabilele în unele cazuri se referă la valori măsurate în locații punct. Pot exista tendințe spațiale și autocorelații spațiale în variabile care încalcă ipotezele statistice. Regresia ponderată geografică este singura metodă care se ocupă de astfel de date.

O caracteristică a regresiei liniare este că variabila dependentă, care este Yi, este o combinație liniară de parametri. De exemplu, regresia liniară simplă utilizează o variabilă independentă, x i , și doi parametri, β 0 și β 1 , pentru a modela n-puncte.

În regresia liniară multiplă, există mai multe variabile independente sau funcții ale acestora.

Atunci când un eșantion aleatoriu este luat dintr-o populație, parametrii acestuia permit obținerea unui model de regresie liniară eșantion.

Sub acest aspect, cea mai populară este metoda celor mai mici pătrate. Este folosit pentru a obține estimări ale parametrilor care minimizează suma reziduurilor pătrate. Acest tip de minimizare (care este tipică regresiei liniare) a acestei funcții conduce la un set de ecuații normale și un set de ecuații liniare cu parametri, care sunt rezolvate pentru a obține estimări ale parametrilor.

Sub ipoteza suplimentară că eroarea populației este în general propagată, un cercetător poate folosi aceste estimări ale erorilor standard pentru a crea intervale de încredere și pentru a efectua teste de ipoteză cu privire la parametrii săi.

Analiza regresiei neliniare

Un exemplu în care funcția nu este liniară în raport cu parametrii indică faptul că suma pătratelor ar trebui redusă la minimum folosind o procedură iterativă. Acest lucru introduce multe complicații care definesc diferențele dintre metodele liniare și neliniare ale celor mai mici pătrate. În consecință, rezultatele analizei de regresie atunci când se utilizează o metodă neliniară sunt uneori imprevizibile.

Calculul puterii și al mărimii eșantionului

În general, nu există metode consistente în ceea ce privește numărul de observații versus numărul de variabile independente din model. Prima regulă a fost propusă de Dobra și Hardin și arată ca N = t^n, unde N este dimensiunea eșantionului, n este numărul de variabile independente și t este numărul de observații necesare pentru a obține acuratețea dorită dacă modelul avea doar o variabilă independentă. De exemplu, un cercetător construiește un model de regresie liniară folosind un set de date care conține 1000 de pacienți (N). Dacă cercetătorul decide că sunt necesare cinci observații pentru a defini cu precizie linia (m), atunci numărul maxim de variabile independente pe care modelul le poate suporta este 4.

Alte metode

Deși parametrii modelului de regresie sunt de obicei estimați folosind metoda celor mai mici pătrate, există alte metode care sunt utilizate mult mai rar. De exemplu, acestea sunt următoarele metode:

  • Metode bayesiene (de exemplu, regresie liniară bayesiană).
  • Regresia procentuală, utilizată pentru situațiile în care reducerea erorilor procentuale este considerată mai adecvată.
  • Cele mai mici abateri absolute, care este mai robustă în prezența valorilor aberante care conduc la regresie cuantilă.
  • Regresia neparametrică, care necesită un număr mare de observații și calcule.
  • O măsurătoare de învățare la distanță care este învățată să găsească o măsurătoare de distanță semnificativă într-un spațiu de intrare dat.

Software

Toate pachetele majore de software statistic efectuează analize de regresie cu cele mai mici pătrate. Regresia liniară simplă și analiza regresiei multiplă pot fi utilizate în unele aplicații pentru foi de calcul, precum și în unele calculatoare. Deși multe pachete software statistice pot efectua diverse tipuri de regresie neparametrică și robustă, aceste metode sunt mai puțin standardizate; diferite pachete software implementează diferite metode. Software-ul specializat de regresie a fost dezvoltat pentru utilizare în domenii precum analiza de examinare și neuroimagistică.

În timpul studiilor, studenții întâlnesc foarte des o varietate de ecuații. Una dintre ele - ecuația de regresie - este discutată în acest articol. Acest tip de ecuație este utilizat în mod specific pentru a descrie caracteristicile relației dintre parametrii matematici. Acest tip de egalitate este folosit în statistică și econometrie.

Definiţia regresion

În matematică, regresia înseamnă o anumită cantitate care descrie dependența valorii medii a unui set de date de valorile unei alte mărimi. Ecuația de regresie arată, în funcție de o anumită caracteristică, valoarea medie a unei alte caracteristici. Funcția de regresie are forma unei ecuații simple y = x, în care y acționează ca o variabilă dependentă, iar x ca o variabilă independentă (factor-trăsătură). De fapt, regresia este exprimată ca y = f (x).

Care sunt tipurile de relații dintre variabile?

În general, există două tipuri opuse de relații: corelație și regresie.

Prima se caracterizează prin egalitatea variabilelor condiționale. În acest caz, nu se știe în mod fiabil care variabilă depinde de cealaltă.

Dacă nu există egalitate între variabile și condițiile spun care variabilă este explicativă și care este dependentă, atunci putem vorbi despre prezența unei conexiuni de al doilea tip. Pentru a construi o ecuație de regresie liniară va fi necesar să aflăm ce tip de relație se observă.

Tipuri de regresii

Astăzi, există 7 tipuri diferite de regresie: hiperbolic, liniar, multiplu, neliniar, perechi, invers, liniar logaritmic.

Hiperbolice, liniară și logaritmică

Ecuația de regresie liniară este utilizată în statistică pentru a explica în mod clar parametrii ecuației. Se pare că y = c+t*x+E. O ecuație hiperbolică are forma unei hiperbole regulate y = c + m / x + E. O ecuație liniară logaritmică exprimă relația folosind o funcție logaritmică: In y = In c + m * In x + In E.

Multiplu și neliniar

Cele două tipuri mai complexe de regresie sunt multiple și neliniare. Ecuația de regresie multiplă este exprimată prin funcția y = f(x 1, x 2 ... x c) + E. În această situație, y acționează ca o variabilă dependentă, iar x acționează ca o variabilă explicativă. Variabila E este stocastică; include influența altor factori în ecuație. Ecuația de regresie neliniară este puțin controversată. Pe de o parte, în raport cu indicatorii luați în considerare, nu este liniară, dar pe de altă parte, în rolul de evaluare a indicatorilor, este liniară.

Tipuri inverse și perechi de regresii

O inversă este un tip de funcție care trebuie convertită într-o formă liniară. În cele mai tradiționale programe de aplicație, are forma unei funcții y = 1/c + m*x+E. O ecuație de regresie perechi arată relația dintre date în funcție de y = f (x) + E. La fel ca în alte ecuații, y depinde de x, iar E este un parametru stocastic.

Conceptul de corelare

Acesta este un indicator care demonstrează existența unei relații între două fenomene sau procese. Puterea relației este exprimată ca un coeficient de corelație. Valoarea sa fluctuează în intervalul [-1;+1]. Un indicator negativ indică prezența feedback-ului, un indicator pozitiv indică feedback direct. Dacă coeficientul ia o valoare egală cu 0, atunci nu există nicio relație. Cu cât valoarea este mai aproape de 1, cu atât este mai puternică relația dintre parametri; cu cât este mai aproape de 0, cu atât este mai slabă.

Metode

Metodele parametrice de corelare pot evalua puterea relației. Ele sunt utilizate pe baza estimării distribuției pentru a studia parametrii care se supun legii distribuției normale.

Parametrii ecuației de regresie liniară sunt necesari pentru a identifica tipul de dependență, funcția ecuației de regresie și pentru a evalua indicatorii formulei de relație selectate. Câmpul de corelare este utilizat ca metodă de identificare a conexiunii. Pentru a face acest lucru, toate datele existente trebuie să fie reprezentate grafic. Toate datele cunoscute trebuie reprezentate într-un sistem de coordonate dreptunghiular bidimensional. Așa se formează un câmp de corelație. Valorile factorului de descriere sunt marcate de-a lungul axei absciselor, în timp ce valorile factorului dependent sunt marcate de-a lungul axei ordonatelor. Dacă există o relație funcțională între parametri, aceștia sunt aliniați sub forma unei linii.

Dacă coeficientul de corelație al unor astfel de date este mai mic de 30%, putem vorbi de o absență aproape completă a conexiunii. Dacă este între 30% și 70%, atunci aceasta indică prezența unor conexiuni mediu-strânse. Un indicator 100% este dovada unei conexiuni funcționale.

O ecuație de regresie neliniară, la fel ca una liniară, trebuie completată cu un indice de corelație (R).

Corelație pentru regresia multiplă

Coeficientul de determinare este un indicator al pătratului corelației multiple. El vorbește despre relația strânsă a setului de indicatori prezentat cu caracteristica studiată. Se poate vorbi și despre natura influenței parametrilor asupra rezultatului. Ecuația de regresie multiplă este estimată folosind acest indicator.

Pentru a calcula indicatorul de corelație multiplă este necesar să se calculeze indicele acestuia.

Metoda celor mai mici pătrate

Această metodă este o modalitate de a estima factorii de regresie. Esența sa este de a minimiza suma abaterilor pătrate obținute ca urmare a dependenței factorului de funcție.

O ecuație de regresie liniară pe perechi poate fi estimată folosind o astfel de metodă. Acest tip de ecuații este utilizat atunci când este detectată o relație liniară pereche între indicatori.

Parametrii ecuației

Fiecare parametru al funcției de regresie liniară are o semnificație specifică. Ecuația de regresie liniară pereche conține doi parametri: c și m. Parametrul m demonstrează modificarea medie a indicatorului final al funcției y, cu condiția ca variabila x să descrește (crește) cu o unitate convențională. Dacă variabila x este zero, atunci funcția este egală cu parametrul c. Dacă variabila x nu este zero, atunci factorul c nu are sens economic. Singura influență asupra funcției este semnul din fața factorului c. Dacă există un minus, atunci putem spune că schimbarea rezultatului este lentă în comparație cu factorul. Dacă există un plus, atunci acesta indică o schimbare accelerată a rezultatului.

Fiecare parametru care modifică valoarea ecuației de regresie poate fi exprimat printr-o ecuație. De exemplu, factorul c are forma c = y - mx.

Date grupate

Există condiții de sarcină în care toate informațiile sunt grupate după atributul x, dar pentru un anumit grup sunt indicate valorile medii corespunzătoare ale indicatorului dependent. În acest caz, valorile medii caracterizează modul în care se modifică indicatorul în funcție de x. Astfel, informațiile grupate ajută la găsirea ecuației de regresie. Este folosit ca o analiză a relațiilor. Cu toate acestea, această metodă are dezavantajele sale. Din păcate, indicatorii medii sunt adesea supuși fluctuațiilor externe. Aceste fluctuații nu reflectă modelul relației, ci doar maschează „zgomotul” acesteia. Mediile arată modele de relație mult mai proaste decât o ecuație de regresie liniară. Cu toate acestea, ele pot fi folosite ca bază pentru găsirea unei ecuații. Înmulțind numărul unei populații individuale cu media corespunzătoare, se poate obține suma y în cadrul grupului. Apoi, trebuie să însumați toate sumele primite și să găsiți indicatorul final y. Este puțin mai dificil să faci calcule cu indicatorul de sumă xy. Dacă intervalele sunt mici, putem considera condițional indicatorul x pentru toate unitățile (din cadrul grupului) ca fiind același. Ar trebui să o înmulțiți cu suma lui y pentru a afla suma produselor lui x și y. Apoi, se adună toate cantitățile și se obține cantitatea totală xy.

Ecuație de regresie perechi multiple: evaluarea importanței unei relații

După cum sa discutat mai devreme, regresia multiplă are o funcție de forma y = f (x 1,x 2,…,x m)+E. Cel mai adesea, o astfel de ecuație este utilizată pentru a rezolva problema cererii și ofertei pentru un produs, a veniturilor din dobânzi la acțiunile răscumpărate și pentru a studia cauzele și tipul funcției de cost de producție. De asemenea, este utilizată în mod activ într-o mare varietate de studii și calcule macroeconomice, dar la nivel de microeconomie această ecuație este folosită puțin mai rar.

Sarcina principală a regresiei multiple este de a construi un model de date care să conțină o cantitate imensă de informații pentru a determina în continuare ce influență are fiecare dintre factorii individual și în totalitatea lor asupra indicatorului care trebuie modelat și a coeficienților acestuia. Ecuația de regresie poate lua o mare varietate de valori. În acest caz, pentru a evalua relația, se folosesc de obicei două tipuri de funcții: liniare și neliniare.

Funcția liniară este reprezentată sub forma următoarei relații: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. În acest caz, a2, a m sunt considerați coeficienți de regresie „puri”. Sunt necesare pentru a caracteriza modificarea medie a parametrului y cu o modificare (scădere sau creștere) a fiecărui parametru x corespunzător cu o unitate, cu condiția valorilor stabile ale altor indicatori.

Ecuațiile neliniare au, de exemplu, forma unei funcții de putere y=ax 1 b1 x 2 b2 ...x m bm. În acest caz, indicatorii b 1, b 2 ..... b m se numesc coeficienți de elasticitate, ei demonstrează modul în care rezultatul se va schimba (cu cât %) cu o creștere (scădere) a indicatorului corespunzător x cu 1% și cu un indicator stabil al altor factori.

Ce factori trebuie să fie luați în considerare la construirea regresiei multiple

Pentru a construi corect regresia multiplă, este necesar să aflăm căror factori ar trebui să li se acorde o atenție deosebită.

Este necesar să avem o anumită înțelegere a naturii relațiilor dintre factorii economici și ceea ce este modelat. Factorii care vor trebui incluși trebuie să îndeplinească următoarele criterii:

  • Trebuie să fie supus măsurării cantitative. Pentru a utiliza un factor care descrie calitatea unui obiect, în orice caz ar trebui să i se dea o formă cantitativă.
  • Nu ar trebui să existe intercorelații de factori sau relații funcționale. Astfel de acțiuni conduc cel mai adesea la consecințe ireversibile - sistemul de ecuații obișnuite devine necondiționat, iar acest lucru implică nefiabilitatea și estimările sale neclare.
  • În cazul unui indicator de corelație uriaș, nu există nicio modalitate de a afla influența izolată a factorilor asupra rezultatului final al indicatorului, prin urmare, coeficienții devin neinterpretabili.

Metode de construcție

Există un număr mare de metode și moduri de a explica cum puteți alege factorii pentru ecuație. Cu toate acestea, toate aceste metode se bazează pe selecția coeficienților folosind indicele de corelație. Printre acestea se numără:

  • Metoda de eliminare.
  • Metoda de comutare.
  • Analiza de regresie în trepte.

Prima metodă implică filtrarea tuturor coeficienților din setul total. A doua metodă presupune introducerea multor factori suplimentari. Ei bine, a treia este eliminarea factorilor care au fost utilizați anterior pentru ecuație. Fiecare dintre aceste metode are dreptul de a exista. Au avantajele și dezavantajele lor, dar toți pot rezolva problema eliminării indicatorilor inutile în felul lor. De regulă, rezultatele obținute prin fiecare metodă individuală sunt destul de apropiate.

Metode de analiză multivariată

Astfel de metode pentru determinarea factorilor se bazează pe luarea în considerare a combinațiilor individuale de caracteristici interdependente. Acestea includ analiza discriminantă, recunoașterea formei, analiza componentelor principale și analiza clusterului. În plus, există și analiza factorială, dar a apărut datorită dezvoltării metodei componentelor. Toate acestea se aplică în anumite circumstanțe, sub rezerva anumitor condiții și factori.

Scopul analizei de regresie este de a măsura relația dintre o variabilă dependentă și una (analiza de regresie în perechi) sau mai multe (multiple) variabile independente. Variabilele independente mai sunt numite și variabile factori, explicative, determinante, regresoare și predictoare.

Variabila dependentă este uneori numită variabilă determinată, explicată sau „răspuns”. Utilizarea extrem de răspândită a analizei de regresie în cercetarea empirică nu se datorează doar faptului că este un instrument convenabil pentru testarea ipotezelor. Regresia, în special regresia multiplă, este o metodă eficientă de modelare și prognoză.

Să începem să explicăm principiile de lucru cu analiza de regresie cu una mai simplă - metoda perechii.

Analiza de regresie pereche

Primii pași atunci când se utilizează analiza de regresie vor fi aproape identici cu cei pe care i-am făcut în calcularea coeficientului de corelație. Cele trei condiții principale pentru eficacitatea analizei corelației folosind metoda Pearson - distribuția normală a variabilelor, măsurarea pe intervale a variabilelor, relația liniară între variabile - sunt de asemenea relevante pentru regresia multiplă. În consecință, în prima etapă, se construiesc diagrame de dispersie, se efectuează o analiză statistică și descriptivă a variabilelor și se calculează o linie de regresie. Ca și în cadrul analizei de corelație, liniile de regresie sunt construite folosind metoda celor mai mici pătrate.

Pentru a ilustra mai clar diferențele dintre cele două metode de analiză a datelor, să ne întoarcem la exemplul deja discutat cu variabilele „sprijin SPS” și „cota populației rurale”. Datele sursă sunt identice. Diferența dintre diagramele de dispersie va fi că în analiza de regresie este corect să se traseze variabila dependentă - în cazul nostru, „suport SPS” pe axa Y, în timp ce în analiza corelației acest lucru nu contează. După curățarea valorilor aberante, diagrama de dispersie arată astfel:

Ideea fundamentală a analizei de regresie este că, având o tendință generală pentru variabile - sub forma unei linii de regresie - este posibil să se prezică valoarea variabilei dependente, având în vedere valorile celei independente.

Să ne imaginăm o funcție liniară matematică obișnuită. Orice linie dreaptă din spațiul euclidian poate fi descrisă prin formula:

unde a este o constantă care specifică deplasarea de-a lungul axei ordonatelor; b este un coeficient care determină unghiul de înclinare al dreptei.

Cunoscând panta și constanta, puteți calcula (prevaza) valoarea lui y pentru orice x.

Această funcție cea mai simplă a stat la baza modelului de analiză de regresie cu avertismentul că nu vom prezice valoarea lui y exact, ci într-un anumit interval de încredere, i.e. aproximativ.

Constanta este punctul de intersecție al dreptei de regresie și a axei y (intersecția F, denumită de obicei „interceptor” în pachetele statistice). În exemplul nostru cu votul pentru Uniunea Forțelor Dreapte, valoarea sa rotunjită va fi 10,55. Coeficientul unghiular b va fi de aproximativ -0,1 (ca și în analiza corelației, semnul arată tipul de conexiune - directă sau inversă). Astfel, modelul rezultat va avea forma SP C = -0,1 x Sel. S.U.A. + 10,55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Diferența dintre valorile inițiale și cele prezise se numește rest (am întâlnit deja acest termen, care este fundamental pentru statistică, atunci când analizăm tabelele de contingență). Deci, pentru cazul „Republicii Adygea” restul va fi egal cu 3,92 - 5,63 = -1,71. Cu cât valoarea modulară a restului este mai mare, cu atât valoarea prezisă este mai puțin reușită.

Calculăm valorile și reziduurile prezise pentru toate cazurile:
Se întâmplă S-a așezat. S.U.A. MERSI

(original)

MERSI

(prevăzut)

Resturi
Republica Adygea 47 3,92 5,63 -1,71 -
Republica Altai 76 5,4 2,59 2,81
Republica Bashkortostan 36 6,04 6,78 -0,74
Republica Buriatia 41 8,36 6,25 2,11
Republica Daghestan 59 1,22 4,37 -3,15
Republica Inguşetia 59 0,38 4,37 3,99
etc.

Analiza raportului dintre valorile inițiale și cele prezise servește la evaluarea calității modelului rezultat și a capacității sale de predicție. Unul dintre principalii indicatori ai statisticilor de regresie este coeficientul de corelație multiplă R - coeficientul de corelație dintre valorile inițiale și cele prezise ale variabilei dependente. În analiza de regresie pereche, este egal cu coeficientul obișnuit de corelație Pearson între variabilele dependente și independente, în cazul nostru - 0,63. Pentru a interpreta în mod semnificativ mai mulți R, acesta trebuie convertit într-un coeficient de determinare. Acest lucru se face în același mod ca în analiza corelației - prin pătrare. Coeficientul de determinare R-pătrat (R 2) arată proporția de variație a variabilei dependente care este explicată de variabila(e) independentă(e).

În cazul nostru, R2 = 0,39 (0,63 2); aceasta înseamnă că variabila „cota populației rurale” explică aproximativ 40% din variația variabilei „sprijin SPS”. Cu cât coeficientul de determinare este mai mare, cu atât calitatea modelului este mai mare.

Un alt indicator al calității modelului este eroarea standard de estimare. Aceasta este o măsură a cât de larg sunt „împrăștiate” punctele în jurul liniei de regresie. Măsura împrăștierii pentru variabilele de interval este abaterea standard. În consecință, eroarea standard a estimării este abaterea standard a distribuției reziduurilor. Cu cât valoarea sa este mai mare, cu atât este mai mare împrăștierea și modelul este mai rău. În cazul nostru, eroarea standard este 2.18. Cu această sumă, modelul nostru va „greșa în medie” atunci când prezice valoarea variabilei „suport SPS”.

Statisticile de regresie includ și analiza varianței. Cu ajutorul ei aflăm: 1) ce proporţie din variaţia (dispersia) variabilei dependente este explicată de variabila independentă; 2) ce proporție din varianța variabilei dependente este contabilizată de reziduuri (partea neexplicată); 3) care este raportul dintre aceste două cantități (/"-raport). Statisticile de dispersie sunt deosebit de importante pentru studiile prin eșantion - arată cât de probabil este să existe o relație între variabilele independente și dependente în populație. Cu toate acestea, pentru studii continue (ca în exemplul nostru) rezultatele studiului analizei varianței nu sunt utile. În acest caz, ele verifică dacă modelul statistic identificat este cauzat de o combinație de circumstanțe aleatorii, cât de caracteristic este pentru complexul de condiții în care populația examinată este localizată, adică se stabilește că rezultatul obținut nu este adevărat pentru un agregat general mai larg, ci gradul de regularitate al acestuia, lipsa de influențe aleatorii.

În cazul nostru, statisticile ANOVA sunt după cum urmează:

SS df DOMNIȘOARĂ F sens
Regres. 258,77 1,00 258,77 54,29 0.000000001
Rest 395,59 83,00 L,11
Total 654,36

Raportul F de 54,29 este semnificativ la nivelul 0,0000000001. În consecință, putem respinge cu încredere ipoteza nulă (că relația pe care am descoperit-o se datorează întâmplării).

Criteriul t îndeplinește o funcție similară, dar în raport cu coeficienții de regresie (unghiular și F-intersecție). Utilizând criteriul /, testăm ipoteza că în populația generală coeficienții de regresie sunt egali cu zero. În cazul nostru, putem respinge din nou cu încredere ipoteza nulă.

Analiza de regresie multiplă

Modelul de regresie multiplă este aproape identic cu modelul de regresie pereche; singura diferență este că mai multe variabile independente sunt incluse secvențial în funcția liniară:

Y = b1X1 + b2X2 + …+ bpXp + a.

Dacă există mai mult de două variabile independente, nu ne putem face o idee vizuală a relației lor; în acest sens, regresia multiplă este mai puțin „vizuală” decât regresia perechi. Când aveți două variabile independente, poate fi util să afișați datele într-un grafic de dispersie 3D. În pachetele software profesionale de statistică (de exemplu, Statistica) există o opțiune de a roti o diagramă tridimensională, care vă permite să reprezentați vizual bine structura datelor.

Când se lucrează cu regresia multiplă, spre deosebire de regresia perechi, este necesar să se determine algoritmul de analiză. Algoritmul standard include toți predictorii disponibili în modelul de regresie final. Algoritmul pas cu pas implică includerea (excluderea) secvențială a variabilelor independente pe baza „greutății” lor explicative. Metoda în trepte este bună când există multe variabile independente; „curăță” modelul predictorilor sincer slabi, făcându-l mai compact și mai concis.

O condiție suplimentară pentru corectitudinea regresiei multiple (împreună cu intervalul, normalitatea și liniaritatea) este absența multicolinearității - prezența unor corelații puternice între variabilele independente.

Interpretarea statisticilor de regresie multiplă include toate elementele pe care le-am luat în considerare pentru cazul regresiei pe perechi. În plus, există și alte componente importante ale statisticilor analizei de regresie multiplă.

Vom ilustra munca cu regresie multiplă folosind exemplul de testare a ipotezelor care explică diferențele de nivel de activitate electorală în regiunile rusești. Studiile empirice specifice au sugerat că nivelul prezenței la vot este influențat de:

Factorul național (variabila „populație rusă”; operaționalizată ca pondere a populației ruse în entitățile constitutive ale Federației Ruse). Se presupune că o creștere a ponderii populației ruse duce la o scădere a prezenței la vot;

Factorul de urbanizare (variabila „populație urbană”; operaționalizat ca pondere a populației urbane în entitățile constitutive ale Federației Ruse; am lucrat deja cu acest factor ca parte a analizei de corelație). Se presupune că o creștere a ponderii populației urbane duce și la o scădere a prezenței la vot.

Variabila dependentă - „intensitatea activității electorale” („activă”) este operaționalizată prin datele privind prezența medie la vot pe regiune la alegerile federale din 1995 până în 2003. Tabelul de date inițial pentru două variabile independente și una dependentă va fi următorul:

Se întâmplă Variabile
Active. Gor. S.U.A. Rus. S.U.A.
Republica Adygea 64,92 53 68
Republica Altai 68,60 24 60
Republica Buriatia 60,75 59 70
Republica Daghestan 79,92 41 9
Republica Inguşetia 75,05 41 23
Republica Kalmykia 68,52 39 37
Republica Karachay-Cerkess 66,68 44 42
Republica Karelia 61,70 73 73
Republica Komi 59,60 74 57
Republica Mari El 65,19 62 47

etc. (după curățarea emisiilor, rămân 83 din 88 de cazuri)

Statistici care descriu calitatea modelului:

1. Multiplu R = 0,62; L-pătrat = 0,38. În consecință, factorul național și factorul de urbanizare explică împreună aproximativ 38% din variația variabilei „activitate electorală”.

2. Eroarea medie este 3,38. Acesta este exact cât de „greșit în medie” este modelul construit atunci când prezice nivelul prezenței la vot.

3. Raportul /l al variației explicate și inexplicabile este de 25,2 la nivelul 0,000000003. Ipoteza nulă despre caracterul aleatoriu al relațiilor identificate este respinsă.

4. Criteriul / pentru coeficienții constanti și de regresie ai variabilelor „populație urbană” și „populație rusă” este semnificativ la nivelul de 0,0000001; 0,00005 și respectiv 0,007. Ipoteza nulă conform căreia coeficienții sunt aleatori este respinsă.

Statistici suplimentare utile în analiza relației dintre valorile inițiale și cele prezise ale variabilei dependente sunt distanța Mahalanobis și distanța lui Cook. Prima este o măsură a unicității cazului (arată cât de mult se abate combinația de valori ale tuturor variabilelor independente pentru un caz dat de la valoarea medie pentru toate variabilele independente simultan). Al doilea este o măsură a influenței cazului. Diferite observații au efecte diferite asupra pantei dreptei de regresie, iar distanța lui Cook poate fi folosită pentru a le compara pe acest indicator. Acest lucru poate fi util atunci când curățați valorile aberante (un lucru aberant poate fi considerat un caz prea influent).

În exemplul nostru, cazurile unice și influente includ Daghestan.

Se întâmplă Original

valorile

Predska

valorile

Resturi Distanţă

Mahalanobis

Distanţă
Adygea 64,92 66,33 -1,40 0,69 0,00
Republica Altai 68,60 69.91 -1,31 6,80 0,01
Republica Buriatia 60,75 65,56 -4,81 0,23 0,01
Republica Daghestan 79,92 71,01 8,91 10,57 0,44
Republica Inguşetia 75,05 70,21 4,84 6,73 0,08
Republica Kalmykia 68,52 69,59 -1,07 4,20 0,00

Modelul de regresie în sine are următorii parametri: Y-intersection (constant) = 75,99; b (orizontal) = -0,1; Kommersant (nas. rus.) = -0,06. Formula finală.

În postările anterioare, analiza s-a concentrat adesea pe o singură variabilă numerică, cum ar fi randamentele fondurilor mutuale, timpii de încărcare a paginilor web sau consumul de băuturi răcoritoare. În aceasta și în notele ulterioare, ne vom uita la metode de predicție a valorilor unei variabile numerice în funcție de valorile uneia sau mai multor alte variabile numerice.

Materialul va fi ilustrat cu un exemplu transversal. Estimarea volumului vânzărilor într-un magazin de îmbrăcăminte. Lanțul de magazine de îmbrăcăminte cu discount Sunflowers se extinde constant de 25 de ani. Cu toate acestea, compania nu are în prezent o abordare sistematică pentru selectarea de noi puncte de vânzare. Locația în care o companie intenționează să deschidă un nou magazin este determinată pe baza unor considerente subiective. Criteriile de selecție sunt condițiile de închiriere favorabile sau ideea managerului despre locația ideală a magazinului. Imaginează-ți că ești șeful departamentului de proiecte speciale și planificare. Ai fost însărcinat cu elaborarea unui plan strategic pentru deschiderea de noi magazine. Acest plan ar trebui să includă o prognoză a vânzărilor anuale pentru magazinele nou deschise. Considerați că spațiul comercial este direct legat de venituri și doriți să luați în considerare acest lucru în procesul de luare a deciziilor. Cum dezvoltați un model statistic pentru a estima vânzările anuale în funcție de dimensiunea unui nou magazin?

De obicei, analiza de regresie este utilizată pentru a prezice valorile unei variabile. Scopul său este de a dezvolta un model statistic care poate prezice valorile unei variabile dependente, sau răspuns, din valorile a cel puțin unei variabile independente sau explicative. În această notă, ne vom uita la regresia liniară simplă - o metodă statistică care vă permite să preziceți valorile unei variabile dependente Y prin valori ale variabilelor independente X. Notele ulterioare vor descrie un model de regresie multiplă conceput pentru a prezice valorile unei variabile independente Y pe baza valorilor mai multor variabile dependente ( X 1, X 2, …, X k).

Descărcați nota în sau format, exemple în format

Tipuri de modele de regresie

Unde ρ 1 – coeficient de autocorelare; Dacă ρ 1 = 0 (fără autocorelare), D≈ 2; Dacă ρ 1 ≈ 1 (autocorelație pozitivă), D≈ 0; Dacă ρ 1 = -1 (autocorelație negativă), D ≈ 4.

În practică, aplicarea criteriului Durbin-Watson se bazează pe compararea valorii D cu valori teoretice critice dLȘi dU pentru un număr dat de observații n, numărul de variabile independente ale modelului k(pentru regresie liniară simplă k= 1) și nivelul de semnificație α. Dacă D< d L , ipoteza despre independența abaterilor aleatoare este respinsă (deci, există o autocorelație pozitivă); Dacă D>dU, ipoteza nu este respinsă (adică nu există autocorelație); Dacă d L< D < d U , nu există motive suficiente pentru a lua o decizie. Când valoarea calculată D depaseste 2, apoi cu dLȘi dU Nu coeficientul în sine este comparat D, iar expresia (4 – D).

Pentru a calcula statisticile Durbin-Watson în Excel, să ne întoarcem la tabelul de jos din Fig. 14 Retragerea soldului. Numătorul din expresia (10) este calculat folosind funcția =SUMMAR(array1;array2) și numitorul =SUMMAR(array) (Fig. 16).

Orez. 16. Formule pentru calcularea statisticilor Durbin-Watson

În exemplul nostru D= 0,883. Întrebarea principală este: ce valoare a statisticii Durbin-Watson ar trebui considerată suficient de mică pentru a concluziona că există o autocorelație pozitivă? Este necesar să se coreleze valoarea lui D cu valorile critice ( dLȘi d U), în funcție de numărul de observații nși nivelul de semnificație α (Fig. 17).

Orez. 17. Valorile critice ale statisticilor Durbin-Watson (fragment de tabel)

Astfel, în problema volumului vânzărilor într-un magazin care livrează mărfuri la domiciliu, există o variabilă independentă ( k= 1), 15 observații ( n= 15) și nivelul de semnificație α = 0,05. Prin urmare, dL= 1,08 și dU= 1,36. Deoarece D = 0,883 < dL= 1,08, există o autocorelare pozitivă între reziduuri, metoda celor mai mici pătrate nu poate fi utilizată.

Testarea ipotezelor despre panta și coeficientul de corelație

Mai sus, regresia a fost folosită numai pentru prognoză. Pentru a determina coeficienții de regresie și pentru a prezice valoarea unei variabile Y pentru o anumită valoare variabilă X S-a folosit metoda celor mai mici pătrate. În plus, am examinat eroarea pătratică medie a estimării și coeficientul de corelație mixt. Dacă analiza reziduurilor confirmă că nu sunt încălcate condițiile de aplicabilitate ale metodei celor mai mici pătrate, iar modelul de regresie liniară simplă este adecvat, pe baza datelor eșantionate, se poate argumenta că există o relație liniară între variabilele din populatie.

Aplicațiet -criterii pentru panta. Testând dacă panta populației β 1 este egală cu zero, puteți determina dacă există o relație semnificativă statistic între variabile XȘi Y. Dacă această ipoteză este respinsă, se poate argumenta că între variabile XȘi Y există o relație liniară. Ipotezele nule și alternative sunt formulate astfel: H 0: β 1 = 0 (nu există dependență liniară), H1: β 1 ≠ 0 (există o dependență liniară). A-prioriu t-statistică este egală cu diferența dintre panta eșantionului și valoarea ipotetică a pantei populației, împărțită la rădăcina medie a erorii pătratice a estimării pantei:

(11) t = (b 1 β 1 ) / Sb 1

Unde b 1 – panta regresiei directe pe datele eșantionului, β1 – panta ipotetică a populației directe, , și statistici de testare t Are t-distributie cu n – 2 grade de libertate.

Să verificăm dacă există o relație semnificativă statistic între dimensiunea magazinului și vânzările anuale la α = 0,05. t-criteriul este afișat împreună cu alți parametri atunci când este utilizat Pachet de analize(opțiune Regresia). Rezultatele complete ale pachetului de analiză sunt prezentate în Fig. 4, fragment legat de t-statistica - în Fig. 18.

Orez. 18. Rezultatele aplicării t

Deoarece numărul de magazine n= 14 (vezi Fig. 3), valoare critică t-statisticile la un nivel de semnificație de α = 0,05 pot fi găsite folosind formula: tL=STUDENT.ARV(0,025,12) = –2,1788, unde 0,025 este jumătate din nivelul de semnificație și 12 = n – 2; tU\u003d STUDENT.INR (0,975, 12) \u003d +2,1788.

Deoarece t-statistica = 10,64 > tU= 2,1788 (Fig. 19), ipoteză nulă H 0 respins. Pe de alta parte, R-valoare pentru X= 10,6411, calculat prin formula =1-STUDENT.DIST(D3,12,TRUE), este aproximativ egal cu zero, deci ipoteza H 0 este respins din nou. Faptul că R-valoarea aproape zero înseamnă că, dacă nu ar exista o relație liniară adevărată între dimensiunile magazinului și vânzările anuale, ar fi practic imposibil să o detectăm folosind regresia liniară. Prin urmare, există o relație liniară semnificativă statistic între vânzările medii anuale ale magazinului și dimensiunea magazinului.

Orez. 19. Testarea ipotezei despre panta populației la un nivel de semnificație de 0,05 și 12 grade de libertate

AplicațieF -criterii pentru panta. O abordare alternativă pentru testarea ipotezelor despre panta regresiei liniare simple este de a utiliza F-criterii. Să vă reamintim că F-test este folosit pentru a testa relația dintre două varianțe (pentru mai multe detalii, vezi). Când se testează ipoteza pantei, măsura erorilor aleatoare este varianța erorii (suma erorilor pătrate împărțită la numărul de grade de libertate), deci F-criteriul folosește raportul varianței explicat prin regresie (adică valoarea SSR, împărțit la numărul de variabile independente k), la variația erorii ( MSE = S YX 2 ).

A-prioriu F-statistic este egal cu pătratul mediu al regresiei (MSR) împărțit la varianța erorii (MSE): F = MSR/ MSE, Unde MSR=SSR / k, MSE =SSE/(n– k – 1), k– numărul de variabile independente în modelul de regresie. Test statistici F Are F-distributie cu kȘi n– k – 1 grade de libertate.

Pentru un nivel de semnificaţie dat α, regula de decizie se formulează astfel: dacă F>FU, se respinge ipoteza nulă; altfel nu se respinge. Rezultatele, prezentate sub forma unui tabel rezumat al analizei varianței, sunt prezentate în Fig. 20.

Orez. 20. Tabel de analiză a varianței pentru testarea ipotezei despre semnificația statistică a coeficientului de regresie

De asemenea t-criteriu F-criteriul este afișat în tabel atunci când este utilizat Pachet de analize(opțiune Regresia). Rezultatele complete ale lucrării Pachet de analize sunt prezentate în Fig. 4, fragment legat de F-statistica - in fig. 21.

Orez. 21. Rezultatele aplicării F-criterii obtinute cu ajutorul pachetului de analiza Excel

Statistica F este 113,23 și R-valoare apropiată de zero (celula SemnificaţieF). Dacă nivelul de semnificație α este 0,05, determinați valoarea critică F-distributii cu unu si 12 grade de libertate pot fi obtinute folosind formula F U=F.OBR(1-0,05;1;12) = 4,7472 (Fig. 22). Deoarece F = 113,23 > F U= 4,7472 și R-valoare apropiată de 0< 0,05, нулевая гипотеза H 0 este respinsă, adică Mărimea unui magazin este strâns legată de vânzările sale anuale.

Orez. 22. Testarea ipotezei pantei populației la un nivel de semnificație de 0,05 cu unu și 12 grade de libertate

Interval de încredere conţinând panta β 1 ​​. Pentru a testa ipoteza că există o relație liniară între variabile, puteți construi un interval de încredere care conține panta β 1 ​​și puteți verifica dacă valoarea ipotetică β 1 = 0 aparține acestui interval. Centrul intervalului de încredere care conține panta β 1 ​​este panta eșantionului b 1 , iar limitele sale sunt cantitățile b 1 ±tn –2 Sb 1

După cum se arată în Fig. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =STUDENT.ARV(0,975,12) = 2,1788. Prin urmare, b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 sau + 1,328 ≤ β 1 ≤ +2,012. Astfel, există o probabilitate de 0,95 ca panta populației să se afle între +1,328 și +2,012 (adică, de la 1.328.000 USD la 2.012.000 USD). Deoarece aceste valori sunt mai mari decât zero, există o relație liniară semnificativă statistic între vânzările anuale și suprafața magazinului. Dacă intervalul de încredere ar conține zero, nu ar exista nicio relație între variabile. În plus, intervalul de încredere înseamnă că fiecare creștere a suprafeței magazinului cu 1.000 mp. ft. duce la o creștere a volumului mediu de vânzări între 1.328.000 USD și 2.012.000 USD.

Utilizaret -criterii pentru coeficientul de corelare. a fost introdus coeficientul de corelare r, care este o măsură a relației dintre două variabile numerice. Poate fi folosit pentru a determina dacă există o relație semnificativă statistic între două variabile. Să notăm coeficientul de corelație dintre populațiile ambelor variabile prin simbolul ρ. Ipotezele nule și alternative sunt formulate după cum urmează: H 0: ρ = 0 (fără corelație), H 1: ρ ≠ 0 (există o corelație). Verificarea existenței unei corelații:

Unde r = + , Dacă b 1 > 0, r = – , Dacă b 1 < 0. Тестовая статистика t Are t-distributie cu n – 2 grade de libertate.

În problema despre lanțul de magazine Sunflowers r 2= 0,904, a b 1- +1,670 (vezi Fig. 4). Deoarece b 1> 0, coeficientul de corelație dintre vânzările anuale și dimensiunea magazinului este r= +√0,904 = +0,951. Să testăm ipoteza nulă că nu există nicio corelație între aceste variabile folosind t-statistici:

La un nivel de semnificație de α = 0,05, ipoteza nulă ar trebui respinsă deoarece t= 10,64 > 2,1788. Astfel, se poate susține că există o relație semnificativă statistic între vânzările anuale și dimensiunea magazinului.

Când se discută inferențe cu privire la panta populației, intervalele de încredere și testele de ipoteză sunt folosite în mod interschimbabil. Totuși, calcularea intervalului de încredere care conține coeficientul de corelație se dovedește a fi mai dificilă, deoarece tipul de distribuție prin eșantionare a statisticii r depinde de coeficientul de corelație adevărat.

Estimarea așteptărilor matematice și predicția valorilor individuale

Această secțiune discută metode de estimare a așteptărilor matematice ale unui răspuns Yși predicții ale valorilor individuale Y pentru valorile date ale variabilei X.

Construirea unui interval de încredere.În exemplul 2 (vezi secțiunea de mai sus Metoda celor mai mici pătrate) ecuația de regresie a făcut posibilă prezicerea valorii variabilei Y X. În problema alegerii unei locații pentru un punct de vânzare cu amănuntul, volumul mediu anual de vânzări într-un magazin cu o suprafață de 4000 mp. picioare a fost egală cu 7,644 milioane de dolari.Totuși, această estimare a așteptărilor matematice a populației generale este punctual. Pentru estimarea așteptării matematice a populației a fost propus conceptul de interval de încredere. În mod similar, putem introduce conceptul interval de încredere pentru așteptarea matematică a răspunsului pentru o anumită valoare variabilă X:

Unde , = b 0 + b 1 X i– valoarea prezisă este variabilă Y la X = X i, S YX– eroarea pătratică medie, n- marime de mostra, Xi- valoarea specificată a variabilei X, µ Y|X = Xi– așteptarea matematică a variabilei Y la X = X i, SSX =

Analiza formulei (13) arată că lățimea intervalului de încredere depinde de mai mulți factori. La un anumit nivel de semnificație, o creștere a amplitudinii fluctuațiilor în jurul dreptei de regresie, măsurată folosind eroarea pătratică medie, duce la o creștere a lățimii intervalului. Pe de altă parte, așa cum ar fi de așteptat, o creștere a dimensiunii eșantionului este însoțită de o îngustare a intervalului. În plus, lățimea intervalului se modifică în funcție de valori Xi. Dacă valoarea variabilei Y prezis pentru cantităţi X, aproape de valoarea medie , intervalul de încredere se dovedește a fi mai îngust decât atunci când se prezică răspunsul pentru valori departe de medie.

Să presupunem că atunci când alegem locația unui magazin, dorim să construim un interval de încredere de 95% pentru vânzările medii anuale ale tuturor magazinelor a căror suprafață este de 4000 de metri pătrați. picioare:

Prin urmare, volumul mediu anual de vânzări în toate magazinele cu o suprafață de 4.000 mp. picioare, cu 95% probabilitate se află în intervalul de la 6,971 la 8,317 milioane de dolari.

Calculați intervalul de încredere pentru valoarea prezisă. Pe lângă intervalul de încredere pentru așteptarea matematică a răspunsului pentru o valoare dată a variabilei X, este adesea necesar să se cunoască intervalul de încredere pentru valoarea prezisă. Deși formula pentru calcularea unui astfel de interval de încredere este foarte asemănătoare cu formula (13), acest interval conține mai degrabă valoarea prezisă decât estimarea parametrului. Interval pentru răspunsul prezis YX = Xi pentru o anumită valoare variabilă Xi determinat de formula:

Să presupunem că, atunci când alegem o locație pentru un punct de vânzare cu amănuntul, dorim să construim un interval de încredere de 95% pentru volumul anual de vânzări estimat pentru un magazin a cărui suprafață este de 4000 de metri pătrați. picioare:

Prin urmare, volumul anual de vânzări estimat pentru un magazin cu o suprafață de 4000 mp. picioare, cu o probabilitate de 95% se află în intervalul de la 5,433 la 9,854 milioane de dolari.După cum putem vedea, intervalul de încredere pentru valoarea răspunsului prezis este mult mai larg decât intervalul de încredere pentru așteptarea sa matematică. Acest lucru se datorează faptului că variabilitatea în prezicerea valorilor individuale este mult mai mare decât în ​​estimarea așteptărilor matematice.

Capcane și probleme etice asociate cu utilizarea regresiei

Dificultăți asociate cu analiza de regresie:

  • Ignorarea condițiilor de aplicabilitate a metodei celor mai mici pătrate.
  • Evaluarea eronată a condițiilor de aplicabilitate a metodei celor mai mici pătrate.
  • Alegerea incorectă a metodelor alternative atunci când sunt încălcate condițiile de aplicabilitate ale metodei celor mai mici pătrate.
  • Aplicarea analizei de regresie fără cunoaștere profundă a subiectului de cercetare.
  • Extrapolarea unei regresii dincolo de intervalul variabilei explicative.
  • Confuzia între relațiile statistice și cauzale.

Utilizarea pe scară largă a foilor de calcul și a software-ului statistic a eliminat problemele de calcul care împiedicaseră utilizarea analizei de regresie. Cu toate acestea, acest lucru a condus la faptul că analiza de regresie a fost utilizată de utilizatori care nu aveau suficiente calificări și cunoștințe. Cum pot ști utilizatorii despre metodele alternative dacă mulți dintre ei nu au nicio idee despre condițiile de aplicabilitate a metodei celor mai mici pătrate și nu știu cum să le verifice implementarea?

Cercetătorul nu ar trebui să se lase dus de numere strânse - calculând deplasarea, panta și coeficientul de corelație mixt. Are nevoie de cunoștințe mai profunde. Să ilustrăm acest lucru cu un exemplu clasic luat din manuale. Anscombe a arătat că toate cele patru seturi de date prezentate în Fig. 23, au aceiași parametri de regresie (Fig. 24).

Orez. 23. Patru seturi de date artificiale

Orez. 24. Analiza de regresie a patru seturi de date artificiale; am terminat-o cu Pachet de analize(click pe poza pentru a mari imaginea)

Deci, din punctul de vedere al analizei de regresie, toate aceste seturi de date sunt complet identice. Dacă analiza s-ar termina acolo, am pierde o mulțime de informații utile. Acest lucru este evidențiat de diagramele de dispersie (Figura 25) și diagramele reziduale (Figura 26) construite pentru aceste seturi de date.

Orez. 25. Diagrame de dispersie pentru patru seturi de date

Diagramele de dispersie și diagramele reziduale indică faptul că aceste date diferă unele de altele. Singura multime distribuita de-a lungul unei linii drepte este multimea A. Graficul reziduurilor calculate din multimea A nu are nici un model. Acest lucru nu se poate spune despre mulțimile B, C și D. Graficul de dispersie reprezentat pentru setul B arată un model pătratic pronunțat. Această concluzie este confirmată de diagrama reziduală, care are o formă parabolică. Graficul de dispersie și graficul rezidual arată că setul de date B conține un valori abere. În această situație, este necesar să excludeți valorile aberante din setul de date și să repetați analiza. O metodă pentru detectarea și eliminarea valorii aberante din observații se numește analiza influenței. După eliminarea valorii aberante, rezultatul reestimării modelului poate fi complet diferit. Graficul de dispersie reprezentat din datele din setul G ilustrează o situație neobișnuită în care modelul empiric depinde în mod semnificativ de un răspuns individual ( X 8 = 19, Y 8 = 12,5). Astfel de modele de regresie trebuie calculate cu deosebită atenție. Deci, diagramele de dispersie și graficele reziduale sunt un instrument esențial pentru analiza regresiei și ar trebui să fie o parte integrantă a acesteia. Fără ele, analiza de regresie nu este credibilă.

Orez. 26. Grafice reziduale pentru patru seturi de date

Cum să evitați capcanele în analiza de regresie:

  • Analiza posibilelor relații dintre variabile XȘi Yîncepe întotdeauna prin desenarea unui grafic de dispersie.
  • Înainte de a interpreta rezultatele analizei de regresie, verificați condițiile de aplicabilitate a acesteia.
  • Reprezentați grafic reziduurile față de variabila independentă. Acest lucru va face posibil să se determine cât de bine modelul empiric se potrivește cu rezultatele observaționale și să se detecteze o încălcare a constantei varianței.
  • Utilizați histograme, diagrame cu tulpini și frunze, diagrame cu case și diagrame de distribuție normală pentru a testa ipoteza unei distribuții normale a erorilor.
  • Dacă nu sunt îndeplinite condițiile de aplicabilitate a metodei celor mai mici pătrate, utilizați metode alternative (de exemplu, modele de regresie pătratică sau multiplă).
  • Dacă sunt îndeplinite condițiile de aplicabilitate a metodei celor mai mici pătrate, este necesar să se testeze ipoteza despre semnificația statistică a coeficienților de regresie și să se construiască intervale de încredere care să conțină așteptarea matematică și valoarea răspunsului prezis.
  • Evitați prezicerea valorilor variabilei dependente în afara intervalului variabilei independente.
  • Rețineți că relațiile statistice nu sunt întotdeauna cauza-efect. Amintiți-vă că corelația dintre variabile nu înseamnă că există o relație cauză-efect între ele.

Rezumat. După cum se arată în diagrama bloc (Figura 27), nota descrie modelul de regresie liniară simplă, condițiile de aplicabilitate a acestuia și modul de testare a acestor condiții. Considerat t-criteriul de testare a semnificaţiei statistice a pantei de regresie. A fost utilizat un model de regresie pentru a prezice valorile variabilei dependente. Un exemplu este considerat legat de alegerea locației pentru un punct de vânzare cu amănuntul, în care se examinează dependența volumului anual de vânzări de suprafața magazinului. Informațiile obținute vă permit să selectați mai precis o locație pentru un magazin și să preziceți volumul anual de vânzări al acestuia. Următoarele note vor continua discuția despre analiza regresiei și vor analiza, de asemenea, modelele de regresie multiple.

Orez. 27. Observați diagrama structurii

Sunt folosite materiale din cartea Levin et al. Statistics for Managers. – M.: Williams, 2004. – p. 792–872

Dacă variabila dependentă este categorică, trebuie utilizată regresia logistică.

CONCLUZIA REZULTATELOR

Tabelul 8.3a. Statistici de regresie
Statistici de regresie
Plural R 0,998364
R-pătrat 0,99673
R-pătrat normalizat 0,996321
Eroare standard 0,42405
Observatii 10

Mai întâi, să ne uităm la partea de sus a calculelor, prezentată în tabelul 8.3a - statistici de regresie.

Valoarea R-pătrat, numită și măsură a certitudinii, caracterizează calitatea dreptei de regresie rezultată. Această calitate este exprimată prin gradul de corespondență dintre datele sursă și modelul de regresie (date calculate). Măsura certitudinii este întotdeauna în interval.

În cele mai multe cazuri, valoarea R-pătratului se încadrează între aceste valori, numite valori extreme, i.e. intre zero si unu.

Dacă valoarea R-pătratului este aproape de unu, aceasta înseamnă că modelul construit explică aproape toată variabilitatea variabilelor relevante. În schimb, o valoare R-pătrat apropiată de zero înseamnă că calitatea modelului construit este slabă.

În exemplul nostru, măsura certitudinii este 0,99673, ceea ce indică o potrivire foarte bună a liniei de regresie la datele originale.

Plural R- coeficientul de corelație multiplă R - exprimă gradul de dependență al variabilelor independente (X) și al variabilei dependente (Y).

Multiplu R este egal cu rădăcina pătrată a coeficientului de determinare; această cantitate ia valori în intervalul de la zero la unu.

Într-o analiză de regresie liniară simplă, multiplu R este egal cu coeficientul de corelație Pearson. Într-adevăr, multiplu R în cazul nostru este egal cu coeficientul de corelație Pearson din exemplul anterior (0,998364).

Tabelul 8.3b. Coeficienți de regresie
Cote Eroare standard t-statistică
Intersecția în Y 2,694545455 0,33176878 8,121757129
Variabila X 1 2,305454545 0,04668634 49,38177965
* Este furnizată o versiune trunchiată a calculelor

Acum luați în considerare partea de mijloc a calculelor, prezentată în tabelul 8.3b. Aici sunt date coeficientul de regresie b (2,305454545) și deplasarea de-a lungul axei ordonatelor, i.e. constanta a (2,694545455).

Pe baza calculelor, putem scrie ecuația de regresie după cum urmează:

Y= x*2,305454545+2,694545455

Direcția relației dintre variabile este determinată pe baza semnelor (negative sau pozitive) coeficienții de regresie(coeficientul b).

Dacă semnul la coeficient de regresie- pozitivă, relația dintre variabila dependentă și variabila independentă va fi pozitivă. În cazul nostru, semnul coeficientului de regresie este pozitiv, prin urmare, relația este și ea pozitivă.

Dacă semnul la coeficient de regresie- negativă, relația dintre variabila dependentă și variabila independentă este negativă (inversa).

În tabelul 8.3c. Sunt prezentate rezultatele determinării reziduurilor. Pentru ca aceste rezultate să apară în raport, trebuie să activați caseta de selectare „Reziduuri” atunci când rulați instrumentul „Regresie”.

RETRAGERE A RESTULUI

Tabelul 8.3c. Resturi
Observare A prezis Y Resturi Solduri standard
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Folosind această parte a raportului, putem vedea abaterile fiecărui punct de la linia de regresie construită. Cea mai mare valoare absolută

CATEGORII

ARTICOLE POPULARE

2023 „kingad.ru” - examinarea cu ultrasunete a organelor umane