Ce este o funcție de regresie. Analiza regresiei - o metodă statistică pentru studierea dependenței unei variabile aleatoare de variabile

Analiza regresiei este o metodă de stabilire a unei expresii analitice a unei relații stocastice între caracteristicile studiate. Ecuația de regresie arată cum se modifică, în medie la la schimbarea vreunuia dintre X i , si arata ca:

Unde y - variabilă dependentă (este întotdeauna una);

X i - variabile independente (factori) (pot fi mai mulți dintre ei).

Dacă există o singură variabilă independentă, aceasta este o simplă analiză de regresie. Dacă sunt mai multe P 2), atunci o astfel de analiză se numește multivariată.

În cursul analizei de regresie, sunt rezolvate două sarcini principale:

    construcția ecuației de regresie, i.e. găsirea tipului de relaţie dintre indicatorul de rezultat şi factorii independenţi X 1 , X 2 , …, X n .

    evaluarea semnificației ecuației rezultate, i.e. determinarea cât de mult explică caracteristicile factorilor selectate variația caracteristicii y.

Analiza de regresie este utilizată în principal pentru planificare, precum și pentru dezvoltarea unui cadru de reglementare.

Spre deosebire de analiza corelației, care răspunde doar la întrebarea dacă există o relație între trăsăturile analizate, analiza de regresie își dă și expresia formalizată. În plus, dacă analiza corelației studiază orice relație de factori, atunci analiza de regresie studiază dependența unilaterală, adică. o conexiune care arată modul în care o modificare a semnelor factorilor afectează semnul rezultat.

Analiza regresiei este una dintre cele mai dezvoltate metode de statistică matematică. Strict vorbind, implementarea analizei de regresie necesită îndeplinirea unui număr de cerințe speciale (în special, X l ,X 2 ,...,X n ;y trebuie să fie variabile aleatoare independente, distribuite normal, cu varianțe constante). În viața reală, respectarea strictă a cerințelor de regresie și analiză de corelație este foarte rară, dar ambele metode sunt foarte frecvente în cercetarea economică. Dependențele din economie pot fi nu numai directe, ci și inverse și neliniare. Un model de regresie poate fi construit în prezența oricărei dependențe, cu toate acestea, în analiza multivariată, sunt utilizate numai modele liniare ale formei:

Construcția ecuației de regresie se realizează, de regulă, prin metoda celor mai mici pătrate, a cărei esență este de a minimiza suma abaterilor pătrate a valorilor reale ale atributului rezultat din valorile lui calculate, adică:

Unde t - numărul de observații;

j =a+b 1 X 1 j +b 2 X 2 j + ... + b n X n j - valoarea calculată a factorului rezultat.

Se recomandă determinarea coeficienților de regresie folosind pachete analitice pentru un computer personal sau un calculator financiar special. În cel mai simplu caz, coeficienții de regresie ai unei ecuații de regresie liniară cu un singur factor de forma y = a + bx poate fi găsit folosind formulele:

analiza grupului

Analiza cluster este una dintre metodele de analiză multivariată, concepută pentru gruparea (clustering) unei populații, ale cărei elemente sunt caracterizate de multe caracteristici. Valorile fiecăreia dintre caracteristici servesc drept coordonate ale fiecărei unități a populației studiate în spațiul multidimensional al caracteristicilor. Fiecare observație, caracterizată prin valorile mai multor indicatori, poate fi reprezentată ca un punct în spațiul acestor indicatori, ale căror valori sunt considerate coordonate într-un spațiu multidimensional. Distanța dintre puncte Rși q Cu k coordonatele sunt definite ca:

Principalul criteriu de grupare este ca diferențele dintre clustere să fie mai semnificative decât între observațiile atribuite aceluiași cluster, de exemplu. într-un spațiu multidimensional trebuie observată inegalitatea:

Unde r 1, 2 - distanța dintre clusterele 1 și 2.

La fel ca și procedurile de analiză de regresie, procedura de clustering este destul de laborioasă, este indicat să o faci pe computer.

În lucrările sale datează din 1908. El a descris-o folosind exemplul muncii unui agent care vinde bunuri imobiliare. În notele sale, specialistul în vânzări de locuințe a ținut o evidență a unei game largi de date de intrare pentru fiecare clădire specifică. Pe baza rezultatelor licitației s-a determinat care factor a avut cel mai mare impact asupra prețului tranzacției.

Analiza unui număr mare de tranzacții a dat rezultate interesante. Mulți factori au influențat prețul final, conducând uneori la concluzii paradoxale și chiar la „outliers” definitive atunci când o casă cu potențial inițial ridicat a fost vândută la un indicator de preț mai mic.

Al doilea exemplu de aplicare a unei astfel de analize este munca căreia i-a fost încredințată determinarea remunerației angajaților. Complexitatea sarcinii era că se cerea să nu se distribuie o sumă fixă ​​tuturor, ci să se potrivească strict valoarea acesteia cu munca specifică efectuată. Apariția multor probleme cu soluții practic similare a necesitat un studiu mai detaliat al acestora la nivel matematic.

Un loc semnificativ a fost acordat secțiunii „analiza regresiei”, aceasta a combinat metodele practice folosite pentru studierea dependențelor care se încadrează sub conceptul de regresie. Aceste relații se observă între datele obținute în cursul studiilor statistice.

Printre numeroasele sarcini de rezolvat, el își propune trei obiective principale: definirea unei ecuații de regresie de formă generală; construirea de estimări ale parametrilor necunoscuți, care fac parte din ecuația de regresie; testarea ipotezelor de regresie statistică. În cursul studierii relației care ia naștere între o pereche de mărimi obținute în urma unor observații experimentale și care constituie o serie (mulțime) de tipul (x1, y1), ..., (xn, yn), acestea se bazează pe prevederile teoriei regresiei și să presupunem că pentru o cantitate Y se observă o anumită distribuție de probabilitate, în timp ce cealaltă X rămâne fixă.

Rezultatul Y depinde de valoarea variabilei X, această dependență putând fi determinată de diverse tipare, în timp ce acuratețea rezultatelor obținute este influențată de natura observațiilor și de scopul analizei. Modelul experimental se bazează pe anumite ipoteze care sunt simpliste, dar plauzibile. Condiția principală este ca parametrul X să fie o valoare controlată. Valorile sale sunt stabilite înainte de începerea experimentului.

Dacă în timpul experimentului se utilizează o pereche de valori XY necontrolate, atunci analiza de regresie se efectuează în același mod, dar pentru interpretarea rezultatelor, în care se studiază relația dintre variabilele aleatoare studiate, se folosesc metode. Metodele statisticii matematice nu sunt un subiect abstract. Își găsesc aplicarea în viață în diverse domenii ale activității umane.

În literatura științifică, termenul de analiză de regresie liniară a găsit o utilizare largă pentru a defini metoda de mai sus. Pentru variabila X se folosește termenul regresor sau predictor, iar variabilele Y dependente se mai numesc și variabile criteriu. Această terminologie reflectă doar dependența matematică a variabilelor, dar nu și relațiile cauzal-cauzoală.

Analiza de regresie este cea mai comună metodă utilizată în procesarea rezultatelor unei game largi de observații. Prin această metodă se studiază dependențele fizice și biologice, ea fiind implementată atât în ​​economie, cât și în tehnologie. O serie de alte domenii utilizează modele de analiză de regresie. Analiza varianței, analiza statistică multivariată lucrează îndeaproape cu această metodă de studiu.

Analiza de regresie și corelație - metode de cercetare statistică. Acestea sunt cele mai comune moduri de a arăta dependența unui parametru de una sau mai multe variabile independente.

Mai jos, folosind exemple practice concrete, vom lua în considerare aceste două analize foarte populare în rândul economiștilor. Vom da, de asemenea, un exemplu de obținere a rezultatelor atunci când acestea sunt combinate.

Analiza de regresie în Excel

Arată influența unor valori (independente, independente) asupra variabilei dependente. De exemplu, modul în care numărul populației active din punct de vedere economic depinde de numărul de întreprinderi, salarii și alți parametri. Sau: cum afectează investițiile străine, prețurile la energie etc. nivelul PIB-ului.

Rezultatul analizei vă permite să stabiliți priorități. Și pe baza factorilor principali, să prezice, să planifice dezvoltarea zonelor prioritare, să ia decizii de management.

Are loc regresia:

  • liniară (y = a + bx);
  • parabolic (y = a + bx + cx 2);
  • exponențial (y = a * exp(bx));
  • putere (y = a*x^b);
  • hiperbolic (y = b/x + a);
  • logaritmică (y = b * 1n(x) + a);
  • exponențial (y = a * b^x).

Luați în considerare exemplul construirii unui model de regresie în Excel și interpretarea rezultatelor. Să luăm un tip liniar de regresie.

O sarcină. La 6 întreprinderi s-a analizat salariul mediu lunar și numărul de angajați plecați. Este necesar să se determine dependența numărului de salariați pensionari de salariul mediu.

Modelul de regresie liniară are următoarea formă:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Unde a sunt coeficienții de regresie, x sunt variabilele de influență și k este numărul de factori.

În exemplul nostru, Y este indicatorul lucrătorilor renunțați. Factorul de influență este salariul (x).

Excel are funcții încorporate care pot fi utilizate pentru a calcula parametrii unui model de regresie liniară. Dar programul de completare Analysis ToolPak o va face mai rapid.

Activați un instrument analitic puternic:

Odată activat, suplimentul va fi disponibil în fila Date.

Acum ne vom ocupa direct de analiza de regresie.



În primul rând, acordăm atenție pătratului R și coeficienților.

R-pătratul este coeficientul de determinare. În exemplul nostru, este 0,755 sau 75,5%. Aceasta înseamnă că parametrii calculați ai modelului explică relația dintre parametrii studiați cu 75,5%. Cu cât coeficientul de determinare este mai mare, cu atât modelul este mai bun. Bun - peste 0,8. Slab - mai puțin de 0,5 (o astfel de analiză nu poate fi considerată rezonabilă). În exemplul nostru - „nu e rău”.

Coeficientul 64,1428 arată ce va fi Y dacă toate variabilele din modelul luat în considerare sunt egale cu 0. Adică alți factori care nu sunt descriși în model afectează și valoarea parametrului analizat.

Coeficientul -0,16285 arată ponderea variabilei X pe Y. Adică salariul mediu lunar în cadrul acestui model afectează numărul de renunțați cu o pondere de -0,16285 (acesta este un grad mic de influență). Semnul „-” indică un impact negativ: cu cât salariul este mai mare, cu atât mai puține renunțe. Ceea ce este corect.



Analiza corelației în Excel

Analiza corelației ajută la stabilirea dacă există o relație între indicatorii din unul sau două eșantioane. De exemplu, între timpul de funcționare al mașinii și costul reparațiilor, prețul echipamentului și durata de funcționare, înălțimea și greutatea copiilor etc.

Dacă există o relație, atunci dacă o creștere a unui parametru duce la o creștere (corelație pozitivă) sau o scădere (negativă) a celuilalt. Analiza corelației ajută analistul să determine dacă valoarea unui indicator poate prezice valoarea posibilă a altuia.

Coeficientul de corelație se notează cu r. Variază de la +1 la -1. Clasificarea corelațiilor pentru diferite zone va fi diferită. Când valoarea coeficientului este 0, nu există o relație liniară între eșantioane.

Luați în considerare cum să utilizați Excel pentru a găsi coeficientul de corelație.

Funcția CORREL este utilizată pentru a găsi coeficienții perechi.

Sarcină: Determinați dacă există o relație între timpul de funcționare al unui strung și costul întreținerii acestuia.

Puneți cursorul în orice celulă și apăsați butonul fx.

  1. În categoria „Statistică”, selectați funcția CORREL.
  2. Argumentul „Matrice 1” - primul interval de valori - ora mașinii: A2: A14.
  3. Argumentul „Matrice 2” - al doilea interval de valori - costul reparațiilor: B2:B14. Faceți clic pe OK.

Pentru a determina tipul de conexiune, trebuie să vă uitați la numărul absolut al coeficientului (fiecare domeniu de activitate are propria sa scară).

Pentru analiza corelației mai multor parametri (mai mult de 2), este mai convenabil să utilizați „Analiza datelor” („Pachet de analiză”). În listă, trebuie să selectați o corelație și să desemnați o matrice. Toate.

Coeficienții rezultați vor fi afișați în matricea de corelație. Ca acesta:

Analiza corelației-regresiune

În practică, aceste două tehnici sunt adesea folosite împreună.

Exemplu:


Acum datele analizei de regresie sunt vizibile.

Scopul analizei de regresie este de a măsura relația dintre o variabilă dependentă și una (analiza de regresie în perechi) sau mai multe (multiple) variabile independente. Variabilele independente mai sunt numite factoriale, explicative, determinante, regresoare și predictoare.

Variabila dependentă este uneori denumită variabila definită, explicată sau „răspuns”. Utilizarea extrem de răspândită a analizei de regresie în cercetarea empirică nu se datorează doar faptului că este un instrument convenabil pentru testarea ipotezelor. Regresia, în special regresia multiplă, este o tehnică eficientă de modelare și prognoză.

Să începem să explicăm principiile de lucru cu analiza de regresie cu una mai simplă - metoda perechii.

Analiză de regresie pe perechi

Primii pași la utilizarea analizei de regresie vor fi aproape identici cu cei pe care i-am luat în cadrul calculării coeficientului de corelație. Cele trei condiții principale pentru eficacitatea analizei corelației folosind metoda Pearson - distribuția normală a variabilelor, măsurarea pe intervale a variabilelor, relația liniară dintre variabile - sunt de asemenea relevante pentru regresia multiplă. În consecință, în prima etapă, se construiesc diagrame de dispersie, se efectuează o analiză statistică și descriptivă a variabilelor și se calculează o linie de regresie. Ca și în cadrul analizei de corelație, liniile de regresie sunt construite folosind metoda celor mai mici pătrate.

Pentru a ilustra mai clar diferențele dintre cele două metode de analiză a datelor, să ne întoarcem la exemplul deja luat în considerare cu variabilele „sprijin SPS” și „cota populației rurale”. Datele originale sunt identice. Diferența în graficele de dispersie va fi că în analiza de regresie este corect să se traseze variabila dependentă - în cazul nostru, „suport SPS” de-a lungul axei Y, în timp ce în analiza corelației nu contează. După curățarea valorii aberante, diagrama de dispersie arată astfel:

Ideea fundamentală a analizei de regresie este că, având o tendință generală pentru variabile - sub forma unei linii de regresie - puteți prezice valoarea variabilei dependente, având valorile independentei.

Să ne imaginăm o funcție liniară matematică obișnuită. Orice linie din spațiul euclidian poate fi descrisă prin formula:

unde a este o constantă care specifică decalajul de-a lungul axei y; b - coeficient care determină unghiul dreptei.

Cunoscând panta și constanta, puteți calcula (preva) valoarea lui y pentru orice x.

Această funcție cea mai simplă a stat la baza modelului de analiză de regresie cu avertismentul că vom prezice valoarea lui y nu exact, ci într-un anumit interval de încredere, i.e. aproximativ.

Constanta este punctul de intersecție al dreptei de regresie și a axei y (interceptarea F, denumită de obicei „interceptor” în pachetele statistice). În exemplul nostru de vot pentru SPS, valoarea sa rotunjită va fi 10,55. Coeficientul de pantă b va fi egal cu aproximativ -0,1 (ca și în analiza corelației, semnul arată tipul de relație - directă sau inversă). Astfel, modelul rezultat va arăta ca SP C = -0,1 x Sel. ne. + 10,55.

ATP \u003d -0,10 x 47 + 10,55 \u003d 5,63.

Diferența dintre valorile inițiale și cele prezise se numește rezidual (am întâlnit deja acest termen - fundamental pentru statistică - atunci când analizăm tabelele de contingență). Deci, pentru cazul Republicii Adygea, restul va fi 3,92 - 5,63 = -1,71. Cu cât valoarea modulo a restului este mai mare, cu atât valoarea este mai puțin bine prezisă.

Calculăm valorile și reziduurile prezise pentru toate cazurile:
Se întâmplă sat. ne. THX

(original)

THX

(prevăzut)

Rămășițe
Republica Adygea 47 3,92 5,63 -1,71 -
Republica Altai 76 5,4 2,59 2,81
Republica Bashkortostan 36 6,04 6,78 -0,74
Republica Buriatia 41 8,36 6,25 2,11
Republica Daghestan 59 1,22 4,37 -3,15
Republica Inguşetia 59 0,38 4,37 3,99
etc.

Analiza raportului dintre valorile inițiale și cele prezise servește la evaluarea calității modelului rezultat, a capacității sale de predicție. Unul dintre principalii indicatori ai statisticilor de regresie este coeficientul de corelație multiplă R - coeficientul de corelație dintre valorile inițiale și cele prezise ale variabilei dependente. În analiza de regresie pereche, este egal cu coeficientul obișnuit de corelație Pearson între variabila dependentă și cea independentă, în cazul nostru - 0,63. Pentru a interpreta în mod semnificativ multiplu R, acesta trebuie convertit într-un coeficient de determinare. Acest lucru se face în același mod ca în analiza corelației - pătrat. Coeficientul de determinare R-pătrat (R 2) arată proporția de variație a variabilei dependente explicată de variabilele independente (independente).

În cazul nostru, R2 = 0,39 (0,63 2); aceasta înseamnă că variabila „proporția populației rurale” explică aproximativ 40% din variația variabilei „sprijin pentru CPS”. Cu cât valoarea coeficientului de determinare este mai mare, cu atât calitatea modelului este mai mare.

O altă măsură a calității modelului este eroarea standard de estimare. Aceasta este o măsură a cât de mult sunt „împrăștiate” punctele în jurul dreptei de regresie. Măsura dispersiei pentru variabilele de interval este abaterea standard. În consecință, eroarea standard a estimării este abaterea standard a distribuției reziduurilor. Cu cât valoarea sa este mai mare, cu atât este mai mare răspândirea și modelul este mai rău. În cazul nostru, eroarea standard este 2.18. Cu această sumă modelul nostru va „greșa în medie” atunci când prezice valoarea variabilei „Suport SPS”.

Statisticile de regresie includ și analiza varianței. Cu ajutorul ei aflăm: 1) ce proporţie din variaţia (dispersia) variabilei dependente este explicată de variabila independentă; 2) ce proporție din varianța variabilei dependente este contabilizată de reziduuri (partea neexplicată); 3) care este raportul dintre aceste două valori (/ "-raportul). Statistica de dispersie este deosebit de importantă pentru studiile pe eșantion - arată cât de probabil este să existe o relație între variabilele independente și dependente în populația generală. Cu toate acestea , pentru studiile continue (ca în exemplul nostru), studiul În acest caz, se verifică dacă modelul statistic revelat este cauzat de o coincidență a unor circumstanțe aleatorii, cât de caracteristic este pentru complexul de condiții în care se află populația chestionată. , adică se stabilește că rezultatul obținut nu este adevărat pentru un agregat general mai extins, ci gradul de regularitate al acestuia, libertatea de influențe aleatorii.

În cazul nostru, analiza statisticilor de varianță este următoarea:

SS df DOMNIȘOARĂ F sens
Regres. 258,77 1,00 258,77 54,29 0.000000001
Rămas 395,59 83,00 L,11
Total 654,36

Raportul F de 54,29 este semnificativ la nivelul 0,0000000001. În consecință, putem respinge în siguranță ipoteza nulă (că relația pe care am găsit-o este aleatorie).

O funcție similară este îndeplinită de criteriul t, dar cu privire la coeficienții de regresie (încrucișări unghiulare și F). Utilizând criteriul /, testăm ipoteza că coeficienții de regresie în populația generală sunt egali cu zero. În cazul nostru, putem respinge din nou cu încredere ipoteza nulă.

Analiza de regresie multiplă

Modelul de regresie multiplă este aproape identic cu modelul de regresie perechi; singura diferență este că mai multe variabile independente sunt incluse secvențial în funcția liniară:

Y = b1X1 + b2X2 + …+ bpXp + a.

Dacă există mai mult de două variabile independente, nu putem obține o reprezentare vizuală a relației lor; în acest sens, regresia multiplă este mai puțin „vizibilă” decât regresia în pereche. Când există două variabile independente, poate fi util să afișați datele într-un grafic de dispersie 3D. În pachetele software profesionale de statistică (de exemplu, Statistica) există o opțiune de a roti o diagramă tridimensională, ceea ce permite o bună reprezentare vizuală a structurii datelor.

Când se lucrează cu regresie multiplă, spre deosebire de regresia perechi, este necesar să se determine algoritmul de analiză. Algoritmul standard include toți predictorii disponibili în modelul de regresie final. Algoritmul pas cu pas presupune includerea (excluderea) secvențială a variabilelor independente, pe baza „greutății” lor explicative. Metoda în trepte este bună când există multe variabile independente; „curăță” modelul de predictori sincer slabi, făcându-l mai compact și mai concis.

O condiție suplimentară pentru corectitudinea regresiei multiple (împreună cu intervalul, normalitatea și liniaritatea) este absența multicolinearității - prezența unor corelații puternice între variabilele independente.

Interpretarea statisticilor de regresie multiplă include toate elementele pe care le-am luat în considerare pentru cazul regresiei pe perechi. În plus, există și alte componente importante în statisticile analizei de regresie multiplă.

Vom ilustra lucrarea cu regresie multiplă pe exemplul de testare a ipotezelor care explică diferențele de nivel de activitate electorală din regiunile Rusiei. Studiile empirice specifice au sugerat că prezența la vot este afectată de:

Factorul național (variabilă „populația rusă”; operaționalizată ca pondere a populației ruse în entitățile constitutive ale Federației Ruse). Se presupune că o creștere a proporției populației ruse duce la o scădere a prezenței la vot;

Factorul de urbanizare (variabilă „populație urbană”; operaționalizată ca pondere a populației urbane în entitățile constitutive ale Federației Ruse, am lucrat deja cu acest factor ca parte a analizei de corelație). Se presupune că o creștere a ponderii populației urbane duce și la o scădere a prezenței la vot.

Variabila dependentă - „intensitatea activității electorale” („activă”) este operaționalizată prin datele medii privind prezența la vot pentru regiunile la alegerile federale din 1995 până în 2003. Tabelul de date inițial pentru două variabile independente și una dependentă va avea următoarea formă :

Se întâmplă Variabile
Active. Gor. ne. Rus. ne.
Republica Adygea 64,92 53 68
Republica Altai 68,60 24 60
Republica Buriatia 60,75 59 70
Republica Daghestan 79,92 41 9
Republica Inguşetia 75,05 41 23
Republica Kalmykia 68,52 39 37
Republica Karachay-Cerkess 66,68 44 42
Republica Karelia 61,70 73 73
Republica Komi 59,60 74 57
Republica Mari El 65,19 62 47

etc. (după curățarea emisiilor, rămân 83 de cazuri din 88)

Statistici care descriu calitatea modelului:

1. Multiplu R = 0,62; L-pătrat = 0,38. Prin urmare, factorul național și factorul de urbanizare explică împreună aproximativ 38% din variația variabilei „activitate electorală”.

2. Eroarea medie este 3,38. Acesta este modul în care „în medie” modelul construit este greșit atunci când prezice nivelul prezenței la vot.

3. /l-raportul variației explicate și inexplicabile este de 25,2 la nivelul de 0,000000003. Ipoteza nulă despre caracterul aleatoriu al relațiilor relevate este respinsă.

4. Criteriul / pentru coeficienții constanti și de regresie ai variabilelor „populație urbană” și „populație rusă” este semnificativ la nivelul de 0,0000001; 0,00005 și respectiv 0,007. Ipoteza nulă despre aleatoritatea coeficienților este respinsă.

Statistici suplimentare utile în analiza raportului dintre valorile inițiale și cele prezise ale variabilei dependente sunt distanța Mahalanobis și distanța lui Cook. Prima este o măsură a unicității cazului (arată cât de mult se abate combinația de valori ale tuturor variabilelor independente pentru un caz dat de la valoarea medie pentru toate variabilele independente în același timp). Al doilea este o măsură a influenței cazului. Diferite observații afectează panta dreptei de regresie în moduri diferite și, folosind distanța lui Cook, le puteți compara în funcție de acest indicator. Acest lucru este util atunci când curățați valorile aberante (un lucru aberant poate fi considerat un caz prea influent).

În exemplul nostru, Daghestanul este unul dintre cazurile unice și influente.

Se întâmplă Iniţială

valorile

Predska

valorile

Rămășițe Distanţă

Mahalanobis

Distanţă
Adygea 64,92 66,33 -1,40 0,69 0,00
Republica Altai 68,60 69.91 -1,31 6,80 0,01
Republica Buriatia 60,75 65,56 -4,81 0,23 0,01
Republica Daghestan 79,92 71,01 8,91 10,57 0,44
Republica Inguşetia 75,05 70,21 4,84 6,73 0,08
Republica Kalmykia 68,52 69,59 -1,07 4,20 0,00

Modelul de regresie real are următorii parametri: Y-intercept (constant) = 75,99; b (Hor. sat.) \u003d -0,1; b (Rus. nas.) = -0,06. Formula finală.

Analiza regresiei este una dintre cele mai populare metode de cercetare statistică. Poate fi folosit pentru a determina gradul de influență al variabilelor independente asupra variabilei dependente. Funcționalitatea Microsoft Excel are instrumente concepute pentru a efectua acest tip de analiză. Să aruncăm o privire la ce sunt și cum să le folosim.

Dar, pentru a utiliza funcția care vă permite să efectuați o analiză de regresie, în primul rând, trebuie să activați Pachetul de analiză. Abia atunci instrumentele necesare pentru această procedură vor apărea pe panglica Excel.


Acum, când mergem la filă "Date", pe panglica din cutia de instrumente "Analiză" vom vedea un buton nou - "Analiza datelor".

Tipuri de analiză de regresie

Există mai multe tipuri de regresii:

  • parabolic;
  • putere;
  • logaritmică;
  • exponențial;
  • demonstrație;
  • hiperbolic;
  • regresie liniara.

Vom vorbi mai detaliat despre implementarea ultimului tip de analiză de regresie în Excel mai târziu.

Regresia liniară în Excel

Mai jos, ca exemplu, este un tabel care arată temperatura medie zilnică a aerului pe stradă și numărul de clienți ai magazinului pentru ziua lucrătoare corespunzătoare. Să aflăm cu ajutorul analizei de regresie exact cum condițiile meteorologice sub forma temperaturii aerului pot afecta prezența unei unități de vânzare cu amănuntul.

Ecuația generală de regresie liniară arată astfel: Y = a0 + a1x1 + ... + axk. În această formulă Yînseamnă variabila a cărei influență încercăm să o studiem. În cazul nostru, acesta este numărul de cumpărători. Sens X sunt diferiții factori care afectează variabila. Opțiuni A sunt coeficienții de regresie. Adică, ele determină semnificația unui anumit factor. Index k denotă numărul total al acelorași factori.


Analiza rezultatelor analizei

Rezultatele analizei de regresie sunt afișate sub formă de tabel în locul specificat în setări.

Unul dintre principalii indicatori este R-pătrat. Indică calitatea modelului. În cazul nostru, acest coeficient este de 0,705 sau aproximativ 70,5%. Acesta este un nivel acceptabil de calitate. O relație mai mică de 0,5 este proastă.

Un alt indicator important este situat în celula de la intersecția liniei „Intersecția în Y” si coloana „Coeficienți”. Aici este indicată ce valoare va avea Y, iar în cazul nostru, acesta este numărul de cumpărători, cu toți ceilalți factori egali cu zero. În acest tabel, această valoare este 58,04.

Valoare la intersecția graficului „Variabila X1”și „Coeficienți” arată nivelul de dependență al lui Y față de X. În cazul nostru, acesta este nivelul de dependență a numărului de clienți din magazin de temperatură. Un coeficient de 1,31 este considerat un indicator de influență destul de ridicat.

După cum puteți vedea, este destul de ușor să creați un tabel de analiză de regresie folosind Microsoft Excel. Dar, doar o persoană instruită poate lucra cu datele obținute la ieșire și poate înțelege esența acestora.

CATEGORII

ARTICOLE POPULARE

2022 "kingad.ru" - examinarea cu ultrasunete a organelor umane