Ce este o funcție de regresie. Analiza regresiei este o metodă statistică pentru studierea dependenței unei variabile aleatoare de variabile

Analiza regresiei este o metodă de stabilire a unei expresii analitice a dependenței stocastice dintre caracteristicile studiate. Ecuația de regresie arată cum se modifică media la la schimbarea vreunuia dintre X i , si are forma:

Unde y - variabila dependenta (este intotdeauna aceeasi);

X i - variabile independente (factori) (pot fi mai mulți dintre ei).

Dacă există o singură variabilă independentă, aceasta este o simplă analiză de regresie. Dacă sunt mai multe dintre ele ( P 2), atunci o astfel de analiză se numește multifactorială.

Analiza regresiei rezolvă două probleme principale:

    construirea unei ecuații de regresie, adică găsirea tipului de relaţie dintre indicatorul de rezultat şi factorii independenţi X 1 , X 2 , …, X n .

    evaluarea semnificației ecuației rezultate, i.e. determinarea cât de mult caracteristicile factorilor selectați explică variația unei trăsături u.

Analiza de regresie este utilizată în principal pentru planificare, precum și pentru dezvoltarea unui cadru de reglementare.

Spre deosebire de analiza corelației, care răspunde doar la întrebarea dacă există o relație între caracteristicile analizate, analiza de regresie oferă și expresia sa formalizată. În plus, dacă analiza corelației studiază orice relație între factori, atunci analiza de regresie studiază dependența unilaterală, de exemplu. o relație care arată modul în care o modificare a caracteristicilor factorilor afectează caracteristica efectivă.

Analiza regresiei este una dintre cele mai dezvoltate metode de statistică matematică. Strict vorbind, pentru a implementa analiza de regresie este necesar să se îndeplinească o serie de cerințe speciale (în special, X l ,X 2 ,...,X n ;y trebuie să fie variabile aleatoare independente, distribuite normal, cu varianțe constante). În viața reală, respectarea strictă a cerințelor analizei de regresie și corelație este foarte rară, dar ambele metode sunt foarte frecvente în cercetarea economică. Dependențe în economie pot fi nu numai directe, ci și inverse și neliniare. Un model de regresie poate fi construit în prezența oricărei dependențe, totuși, în analiza multivariată sunt utilizate doar modele liniare de formă:

Ecuația de regresie este construită, de regulă, folosind metoda celor mai mici pătrate, a cărei esență este de a minimiza suma abaterilor pătrate a valorilor reale ale caracteristicii rezultate din valorile ei calculate, adică:

Unde T - numărul de observații;

j =a+b 1 X 1 j +b 2 X 2 j + ... + b n X n j - valoarea calculată a factorului rezultat.

Se recomandă determinarea coeficienților de regresie folosind pachete analitice pentru un computer personal sau un calculator financiar special. În cel mai simplu caz, coeficienții de regresie ai unei ecuații de regresie liniară cu un singur factor de forma y = a + bx poate fi găsit folosind formulele:

Analiza grupului

Analiza cluster este una dintre metodele de analiză multidimensională destinată grupării (clusteringului) unei populații ale cărei elemente sunt caracterizate de multe caracteristici. Valorile fiecărei caracteristici servesc drept coordonate ale fiecărei unități a populației studiate în spațiul multidimensional al caracteristicilor. Fiecare observație, caracterizată prin valorile mai multor indicatori, poate fi reprezentată ca un punct în spațiul acestor indicatori, ale căror valori sunt considerate coordonate într-un spațiu multidimensional. Distanța dintre puncte RȘi q Cu k coordonatele sunt definite ca:

Principalul criteriu de grupare este ca diferențele dintre clustere să fie mai semnificative decât între observațiile atribuite aceluiași cluster, de exemplu. într-un spațiu multidimensional trebuie respectată următoarea inegalitate:

Unde r 1, 2 - distanța dintre clusterele 1 și 2.

La fel ca procedurile de analiză de regresie, procedura de grupare este destul de laborioasă; este recomandabil să o efectuați pe un computer.

În lucrările sale datând din 1908. El a descris-o folosind exemplul muncii unui agent care vinde bunuri imobiliare. În evidențele sale, specialistul în vânzări de case a ținut evidența unei game largi de date de intrare pentru fiecare clădire specifică. Pe baza rezultatelor licitației s-a determinat care factor a avut cea mai mare influență asupra prețului tranzacției.

Analiza unui număr mare de tranzacții a dat rezultate interesante. Prețul final a fost influențat de mulți factori, conducând uneori la concluzii paradoxale și chiar la „outliers” evidente atunci când o casă cu potențial inițial ridicat a fost vândută la preț redus.

Al doilea exemplu de aplicare a unei astfel de analize este munca căreia i s-a încredințat stabilirea remunerației angajaților. Complexitatea sarcinii constă în faptul că nu necesita distribuirea unei sume fixe către toată lumea, ci corespondența strictă a acesteia cu munca specifică efectuată. Apariția multor probleme cu soluții practic similare a necesitat un studiu mai detaliat al acestora la nivel matematic.

Un loc semnificativ a fost alocat secțiunii „analiza regresiei”, care a combinat metode practice utilizate pentru studierea dependențelor care intră sub conceptul de regresie. Aceste relații sunt observate între datele obținute din studii statistice.

Dintre numeroasele sarcini de rezolvat, principalele obiective sunt trei: determinarea unei ecuaţii generale de regresie; construirea de estimări ale parametrilor care sunt necunoscuți care fac parte din ecuația de regresie; testarea ipotezelor de regresie statistică. În cursul studierii relației care ia naștere între o pereche de mărimi obținute în urma unor observații experimentale și care constituie o serie (mulțime) de tipul (x1, y1), ..., (xn, yn), acestea se bazează pe prevederile teoriei regresiei și să presupunem că pentru o cantitate Y există o anumită distribuție de probabilitate, în timp ce cealaltă X rămâne fixă.

Rezultatul Y depinde de valoarea variabilei X; această dependență poate fi determinată de diverse modele, în timp ce acuratețea rezultatelor obținute este influențată de natura observațiilor și de scopul analizei. Modelul experimental se bazează pe anumite ipoteze care sunt simplificate, dar plauzibile. Condiția principală este ca parametrul X să fie o cantitate controlată. Valorile sale sunt stabilite înainte de începerea experimentului.

Dacă în timpul unui experiment se utilizează o pereche de variabile necontrolate XY, atunci analiza de regresie se efectuează în același mod, dar se folosesc metode de interpretare a rezultatelor, timp în care se studiază relația dintre variabilele aleatoare studiate.Metode de statistică matematică nu sunt un subiect abstract. Ei își găsesc aplicație în viață în diverse sfere ale activității umane.

În literatura științifică, termenul de analiză de regresie liniară este utilizat pe scară largă pentru a defini metoda de mai sus. Pentru variabila X se folosește termenul regresor sau predictor, iar variabilele dependente Y sunt numite și variabile criteriu. Această terminologie reflectă doar dependența matematică a variabilelor, dar nu și relația cauză-efect.

Analiza de regresie este cea mai comună metodă utilizată în procesarea rezultatelor unei game largi de observații. Dependențe fizice și biologice sunt studiate prin această metodă, este implementată atât în ​​economie, cât și în tehnologie. Multe alte domenii folosesc modele de analiză de regresie. Analiza varianței și analiza statistică multivariată lucrează îndeaproape cu această metodă de studiu.

Analiza de regresie și corelație sunt metode de cercetare statistică. Acestea sunt cele mai comune moduri de a arăta dependența unui parametru de una sau mai multe variabile independente.

Mai jos, folosind exemple practice specifice, vom lua în considerare aceste două analize foarte populare în rândul economiștilor. Vom da, de asemenea, un exemplu de obținere a rezultatelor atunci când le combinăm.

Analiza de regresie în Excel

Arată influența unor valori (independente, independente) asupra variabilei dependente. De exemplu, cum depinde numărul populației active din punct de vedere economic de numărul de întreprinderi, salarii și alți parametri. Sau: cum afectează investițiile străine, prețurile la energie etc. nivelul PIB-ului.

Rezultatul analizei vă permite să evidențiați prioritățile. Și pe baza factorilor principali, anticipați, planificați dezvoltarea zonelor prioritare și luați decizii de management.

Are loc regresia:

  • liniară (y = a + bx);
  • parabolic (y = a + bx + cx 2);
  • exponențial (y = a * exp(bx));
  • putere (y = a*x^b);
  • hiperbolic (y = b/x + a);
  • logaritmică (y = b * 1n(x) + a);
  • exponențial (y = a * b^x).

Să ne uităm la un exemplu de construire a unui model de regresie în Excel și de interpretare a rezultatelor. Să luăm tipul liniar de regresie.

Sarcină. La 6 întreprinderi au fost analizate salariul mediu lunar și numărul de angajați care au demisionat. Este necesar să se determine dependența numărului de angajați care renunță la salariul mediu.

Modelul de regresie liniară arată astfel:

Y = a 0 + a 1 x 1 +…+a k x k.

Unde a sunt coeficienți de regresie, x sunt variabile de influență, k este numărul de factori.

În exemplul nostru, Y este indicatorul renunțării angajaților. Factorul de influență este salariul (x).

Excel are funcții încorporate care vă pot ajuta să calculați parametrii unui model de regresie liniară. Dar suplimentul „Pachet de analiză” va face acest lucru mai repede.

Activăm un instrument analitic puternic:

Odată activat, suplimentul va fi disponibil în fila Date.

Acum să facem însăși analiza de regresie.



În primul rând, acordăm atenție R-pătratului și coeficienților.

R-pătrat este coeficientul de determinare. În exemplul nostru – 0,755 sau 75,5%. Aceasta înseamnă că parametrii calculați ai modelului explică 75,5% din relația dintre parametrii studiați. Cu cât coeficientul de determinare este mai mare, cu atât modelul este mai bun. Bun - peste 0,8. Rău – mai puțin de 0,5 (o astfel de analiză poate fi considerată cu greu rezonabilă). În exemplul nostru – „nu e rău”.

Coeficientul 64,1428 arată ce va fi Y dacă toate variabilele din modelul luat în considerare sunt egale cu 0. Adică valoarea parametrului analizat este influențată și de alți factori nedescriși în model.

Coeficientul -0,16285 arată ponderea variabilei X pe Y. Adică salariul mediu lunar în cadrul acestui model afectează numărul de renunțați cu o pondere de -0,16285 (acesta este un grad mic de influență). Semnul „-” indică un impact negativ: cu cât salariul este mai mare, cu atât mai puține persoane renunță. Ceea ce este corect.



Analiza corelației în Excel

Analiza corelației ajută la determinarea dacă există o relație între indicatorii din unul sau două eșantioane. De exemplu, între timpul de funcționare al unei mașini și costul reparațiilor, prețul echipamentului și durata de funcționare, înălțimea și greutatea copiilor etc.

Dacă există o conexiune, atunci o creștere a unui parametru duce la o creștere (corelație pozitivă) sau o scădere (negativă) a celuilalt. Analiza corelației ajută analistul să determine dacă valoarea unui indicator poate fi utilizată pentru a prezice valoarea posibilă a altuia.

Coeficientul de corelație se notează cu r. Variază de la +1 la -1. Clasificarea corelațiilor pentru diferite zone va fi diferită. Când coeficientul este 0, nu există o relație liniară între probe.

Să vedem cum să găsim coeficientul de corelație folosind Excel.

Pentru a găsi coeficienți perechi, este utilizată funcția CORREL.

Obiectiv: Determinați dacă există o relație între timpul de funcționare al unui strung și costul întreținerii acestuia.

Plasați cursorul în orice celulă și apăsați butonul fx.

  1. În categoria „Statistică”, selectați funcția CORREL.
  2. Argumentul „Matrice 1” - primul interval de valori – timpul de funcționare al mașinii: A2:A14.
  3. Argumentul „Matrice 2” - al doilea interval de valori – costul reparației: B2:B14. Faceți clic pe OK.

Pentru a determina tipul de conexiune, trebuie să vă uitați la numărul absolut al coeficientului (fiecare domeniu de activitate are propria sa scară).

Pentru analiza corelației mai multor parametri (mai mult de 2), este mai convenabil să utilizați „Analiza datelor” (suplimentul „Pachet de analiză”). Trebuie să selectați corelația din listă și să desemnați matricea. Toate.

Coeficienții rezultați vor fi afișați în matricea de corelație. Ca aceasta:

Analiza corelației și regresiei

În practică, aceste două tehnici sunt adesea folosite împreună.

Exemplu:


Acum datele analizei de regresie au devenit vizibile.

Scopul analizei de regresie este de a măsura relația dintre o variabilă dependentă și una (analiza de regresie în perechi) sau mai multe (multiple) variabile independente. Variabilele independente mai sunt numite și variabile factori, explicative, determinante, regresoare și predictoare.

Variabila dependentă este uneori numită variabilă determinată, explicată sau „răspuns”. Utilizarea extrem de răspândită a analizei de regresie în cercetarea empirică nu se datorează doar faptului că este un instrument convenabil pentru testarea ipotezelor. Regresia, în special regresia multiplă, este o metodă eficientă de modelare și prognoză.

Să începem să explicăm principiile de lucru cu analiza de regresie cu una mai simplă - metoda perechii.

Analiza de regresie pereche

Primii pași atunci când se utilizează analiza de regresie vor fi aproape identici cu cei pe care i-am făcut în calcularea coeficientului de corelație. Cele trei condiții principale pentru eficacitatea analizei corelației folosind metoda Pearson - distribuția normală a variabilelor, măsurarea pe intervale a variabilelor, relația liniară între variabile - sunt de asemenea relevante pentru regresia multiplă. În consecință, în prima etapă, se construiesc diagrame de dispersie, se efectuează o analiză statistică și descriptivă a variabilelor și se calculează o linie de regresie. Ca și în cadrul analizei de corelație, liniile de regresie sunt construite folosind metoda celor mai mici pătrate.

Pentru a ilustra mai clar diferențele dintre cele două metode de analiză a datelor, să ne întoarcem la exemplul deja discutat cu variabilele „sprijin SPS” și „cota populației rurale”. Datele sursă sunt identice. Diferența dintre diagramele de dispersie va fi că în analiza de regresie este corect să se traseze variabila dependentă - în cazul nostru, „suport SPS” pe axa Y, în timp ce în analiza corelației acest lucru nu contează. După curățarea valorilor aberante, diagrama de dispersie arată astfel:

Ideea fundamentală a analizei de regresie este că, având o tendință generală pentru variabile - sub forma unei linii de regresie - este posibil să se prezică valoarea variabilei dependente, având în vedere valorile celei independente.

Să ne imaginăm o funcție liniară matematică obișnuită. Orice linie dreaptă din spațiul euclidian poate fi descrisă prin formula:

unde a este o constantă care specifică deplasarea de-a lungul axei ordonatelor; b este un coeficient care determină unghiul de înclinare al dreptei.

Cunoscând panta și constanta, puteți calcula (prevaza) valoarea lui y pentru orice x.

Această funcție cea mai simplă a stat la baza modelului de analiză de regresie cu avertismentul că nu vom prezice valoarea lui y exact, ci într-un anumit interval de încredere, i.e. aproximativ.

Constanta este punctul de intersecție al dreptei de regresie și a axei y (intersecția F, denumită de obicei „interceptor” în pachetele statistice). În exemplul nostru cu votul pentru Uniunea Forțelor Dreapte, valoarea sa rotunjită va fi 10,55. Coeficientul unghiular b va fi de aproximativ -0,1 (ca și în analiza corelației, semnul arată tipul de conexiune - directă sau inversă). Astfel, modelul rezultat va avea forma SP C = -0,1 x Sel. S.U.A. + 10,55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Diferența dintre valorile inițiale și cele prezise se numește rest (am întâlnit deja acest termen, care este fundamental pentru statistică, atunci când analizăm tabelele de contingență). Deci, pentru cazul „Republicii Adygea” restul va fi egal cu 3,92 - 5,63 = -1,71. Cu cât valoarea modulară a restului este mai mare, cu atât valoarea prezisă este mai puțin reușită.

Calculăm valorile și reziduurile prezise pentru toate cazurile:
Se întâmplă S-a așezat. S.U.A. MERSI

(original)

MERSI

(prevăzut)

Resturi
Republica Adygea 47 3,92 5,63 -1,71 -
Republica Altai 76 5,4 2,59 2,81
Republica Bashkortostan 36 6,04 6,78 -0,74
Republica Buriatia 41 8,36 6,25 2,11
Republica Daghestan 59 1,22 4,37 -3,15
Republica Inguşetia 59 0,38 4,37 3,99
etc.

Analiza raportului dintre valorile inițiale și cele prezise servește la evaluarea calității modelului rezultat și a capacității sale de predicție. Unul dintre principalii indicatori ai statisticilor de regresie este coeficientul de corelație multiplă R - coeficientul de corelație dintre valorile inițiale și cele prezise ale variabilei dependente. În analiza de regresie pereche, este egal cu coeficientul obișnuit de corelație Pearson între variabilele dependente și independente, în cazul nostru - 0,63. Pentru a interpreta în mod semnificativ mai mulți R, acesta trebuie convertit într-un coeficient de determinare. Acest lucru se face în același mod ca în analiza corelației - prin pătrare. Coeficientul de determinare R-pătrat (R 2) arată proporția de variație a variabilei dependente care este explicată de variabila(e) independentă(e).

În cazul nostru, R2 = 0,39 (0,63 2); aceasta înseamnă că variabila „cota populației rurale” explică aproximativ 40% din variația variabilei „sprijin SPS”. Cu cât coeficientul de determinare este mai mare, cu atât calitatea modelului este mai mare.

Un alt indicator al calității modelului este eroarea standard de estimare. Aceasta este o măsură a cât de larg sunt „împrăștiate” punctele în jurul liniei de regresie. Măsura împrăștierii pentru variabilele de interval este abaterea standard. În consecință, eroarea standard a estimării este abaterea standard a distribuției reziduurilor. Cu cât valoarea sa este mai mare, cu atât este mai mare împrăștierea și modelul este mai rău. În cazul nostru, eroarea standard este 2.18. Cu această sumă, modelul nostru va „greșa în medie” atunci când prezice valoarea variabilei „suport SPS”.

Statisticile de regresie includ și analiza varianței. Cu ajutorul ei aflăm: 1) ce proporţie din variaţia (dispersia) variabilei dependente este explicată de variabila independentă; 2) ce proporție din varianța variabilei dependente este contabilizată de reziduuri (partea neexplicată); 3) care este raportul dintre aceste două cantități (/"-raport). Statisticile de dispersie sunt deosebit de importante pentru studiile prin eșantion - arată cât de probabil este să existe o relație între variabilele independente și dependente în populație. Cu toate acestea, pentru studii continue (ca în exemplul nostru) rezultatele studiului analizei varianței nu sunt utile. În acest caz, ele verifică dacă modelul statistic identificat este cauzat de o combinație de circumstanțe aleatorii, cât de caracteristic este pentru complexul de condiții în care populația examinată este localizată, adică se stabilește că rezultatul obținut nu este adevărat pentru un agregat general mai larg, ci gradul de regularitate al acestuia, lipsa de influențe aleatorii.

În cazul nostru, statisticile ANOVA sunt după cum urmează:

SS df DOMNIȘOARĂ F sens
Regres. 258,77 1,00 258,77 54,29 0.000000001
Rest 395,59 83,00 L,11
Total 654,36

Raportul F de 54,29 este semnificativ la nivelul 0,0000000001. În consecință, putem respinge cu încredere ipoteza nulă (că relația pe care am descoperit-o se datorează întâmplării).

Criteriul t îndeplinește o funcție similară, dar în raport cu coeficienții de regresie (unghiular și F-intersecție). Utilizând criteriul /, testăm ipoteza că în populația generală coeficienții de regresie sunt egali cu zero. În cazul nostru, putem respinge din nou cu încredere ipoteza nulă.

Analiza de regresie multiplă

Modelul de regresie multiplă este aproape identic cu modelul de regresie pereche; singura diferență este că mai multe variabile independente sunt incluse secvențial în funcția liniară:

Y = b1X1 + b2X2 + …+ bpXp + a.

Dacă există mai mult de două variabile independente, nu ne putem face o idee vizuală a relației lor; în acest sens, regresia multiplă este mai puțin „vizuală” decât regresia perechi. Când aveți două variabile independente, poate fi util să afișați datele într-un grafic de dispersie 3D. În pachetele software profesionale de statistică (de exemplu, Statistica) există o opțiune de a roti o diagramă tridimensională, care vă permite să reprezentați vizual bine structura datelor.

Când se lucrează cu regresia multiplă, spre deosebire de regresia perechi, este necesar să se determine algoritmul de analiză. Algoritmul standard include toți predictorii disponibili în modelul de regresie final. Algoritmul pas cu pas implică includerea (excluderea) secvențială a variabilelor independente pe baza „greutății” lor explicative. Metoda în trepte este bună când există multe variabile independente; „curăță” modelul predictorilor sincer slabi, făcându-l mai compact și mai concis.

O condiție suplimentară pentru corectitudinea regresiei multiple (împreună cu intervalul, normalitatea și liniaritatea) este absența multicolinearității - prezența unor corelații puternice între variabilele independente.

Interpretarea statisticilor de regresie multiplă include toate elementele pe care le-am luat în considerare pentru cazul regresiei pe perechi. În plus, există și alte componente importante ale statisticilor analizei de regresie multiplă.

Vom ilustra munca cu regresie multiplă folosind exemplul de testare a ipotezelor care explică diferențele de nivel de activitate electorală în regiunile rusești. Studiile empirice specifice au sugerat că nivelul prezenței la vot este influențat de:

Factorul național (variabila „populație rusă”; operaționalizată ca pondere a populației ruse în entitățile constitutive ale Federației Ruse). Se presupune că o creștere a ponderii populației ruse duce la o scădere a prezenței la vot;

Factorul de urbanizare (variabila „populație urbană”; operaționalizat ca pondere a populației urbane în entitățile constitutive ale Federației Ruse; am lucrat deja cu acest factor ca parte a analizei de corelație). Se presupune că o creștere a ponderii populației urbane duce și la o scădere a prezenței la vot.

Variabila dependentă - „intensitatea activității electorale” („activă”) este operaționalizată prin datele privind prezența medie la vot pe regiune la alegerile federale din 1995 până în 2003. Tabelul de date inițial pentru două variabile independente și una dependentă va fi următorul:

Se întâmplă Variabile
Active. Gor. S.U.A. Rus. S.U.A.
Republica Adygea 64,92 53 68
Republica Altai 68,60 24 60
Republica Buriatia 60,75 59 70
Republica Daghestan 79,92 41 9
Republica Inguşetia 75,05 41 23
Republica Kalmykia 68,52 39 37
Republica Karachay-Cerkess 66,68 44 42
Republica Karelia 61,70 73 73
Republica Komi 59,60 74 57
Republica Mari El 65,19 62 47

etc. (după curățarea emisiilor, rămân 83 de cazuri din 88)

Statistici care descriu calitatea modelului:

1. Multiplu R = 0,62; L-pătrat = 0,38. În consecință, factorul național și factorul de urbanizare explică împreună aproximativ 38% din variația variabilei „activitate electorală”.

2. Eroarea medie este 3,38. Acesta este exact cât de „greșit în medie” este modelul construit atunci când prezice nivelul prezenței la vot.

3. Raportul /l al variației explicate și inexplicabile este de 25,2 la nivelul 0,000000003. Ipoteza nulă despre caracterul aleatoriu al relațiilor identificate este respinsă.

4. Criteriul / pentru coeficienții constanti și de regresie ai variabilelor „populație urbană” și „populație rusă” este semnificativ la nivelul de 0,0000001; 0,00005 și respectiv 0,007. Ipoteza nulă conform căreia coeficienții sunt aleatori este respinsă.

Statistici suplimentare utile în analiza relației dintre valorile inițiale și cele prezise ale variabilei dependente sunt distanța Mahalanobis și distanța lui Cook. Prima este o măsură a unicității cazului (arată cât de mult se abate combinația de valori ale tuturor variabilelor independente pentru un caz dat de la valoarea medie pentru toate variabilele independente simultan). Al doilea este o măsură a influenței cazului. Diferite observații au efecte diferite asupra pantei dreptei de regresie, iar distanța lui Cook poate fi folosită pentru a le compara pe acest indicator. Acest lucru poate fi util atunci când curățați valorile aberante (un lucru aberant poate fi considerat un caz prea influent).

În exemplul nostru, cazurile unice și influente includ Daghestan.

Se întâmplă Original

valorile

Predska

valorile

Resturi Distanţă

Mahalanobis

Distanţă
Adygea 64,92 66,33 -1,40 0,69 0,00
Republica Altai 68,60 69.91 -1,31 6,80 0,01
Republica Buriatia 60,75 65,56 -4,81 0,23 0,01
Republica Daghestan 79,92 71,01 8,91 10,57 0,44
Republica Inguşetia 75,05 70,21 4,84 6,73 0,08
Republica Kalmykia 68,52 69,59 -1,07 4,20 0,00

Modelul de regresie în sine are următorii parametri: Y-intersection (constant) = 75,99; b (orizontal) = -0,1; Kommersant (nas. rus.) = -0,06. Formula finală.

Analiza regresiei este una dintre cele mai populare metode de cercetare statistică. Poate fi folosit pentru a stabili gradul de influență al variabilelor independente asupra variabilei dependente. Microsoft Excel are instrumente concepute pentru a efectua acest tip de analiză. Să vedem ce sunt și cum să le folosim.

Dar, pentru a utiliza funcția care vă permite să efectuați o analiză de regresie, trebuie mai întâi să activați Pachetul de analiză. Abia atunci instrumentele necesare pentru această procedură vor apărea pe panglica Excel.


Acum, când mergem la filă "Date", pe panglica din cutia de instrumente "Analiză" vom vedea un buton nou - "Analiza datelor".

Tipuri de analiză de regresie

Există mai multe tipuri de regresii:

  • parabolic;
  • potolit;
  • logaritmică;
  • exponențial;
  • demonstrativ;
  • hiperbolic;
  • regresie liniara.

Vom vorbi mai detaliat despre efectuarea ultimului tip de analiză de regresie în Excel mai târziu.

Regresia liniară în Excel

Mai jos, de exemplu, este un tabel care arată temperatura medie zilnică a aerului exterior și numărul de clienți ai magazinului pentru ziua lucrătoare corespunzătoare. Să aflăm folosind analiza de regresie exact cum condițiile meteorologice sub forma temperaturii aerului pot afecta prezența unei unități de vânzare cu amănuntul.

Ecuația generală de regresie liniară este următoarea: Y = a0 + a1x1 +…+ akhk. În această formulă Yînseamnă o variabilă, influența factorilor asupra cărora încercăm să studiem. În cazul nostru, acesta este numărul de cumpărători. Sens X sunt diferiții factori care influențează o variabilă. Opțiuni A sunt coeficienți de regresie. Adică ei sunt cei care determină semnificația unui anumit factor. Index k denotă numărul total al acelorași factori.


Analiza rezultatelor analizei

Rezultatele analizei de regresie sunt afișate sub formă de tabel în locul specificat în setări.

Unul dintre principalii indicatori este R-pătrat. Indică calitatea modelului. În cazul nostru, acest coeficient este de 0,705 sau aproximativ 70,5%. Acesta este un nivel acceptabil de calitate. Dependența mai mică de 0,5 este rea.

Un alt indicator important este situat în celula de la intersecția liniei „Intersecția în Y” si coloana "Cote". Aceasta indică ce valoare va avea Y și, în cazul nostru, acesta este numărul de cumpărători, cu toți ceilalți factori egali cu zero. În acest tabel, această valoare este 58,04.

Valoare la intersecția graficului „Variabila X1”Și "Cote" arată nivelul de dependență al lui Y față de X. În cazul nostru, acesta este nivelul de dependență a numărului de clienți din magazin de temperatură. Un coeficient de 1,31 este considerat un indicator de influență destul de ridicat.

După cum puteți vedea, folosind Microsoft Excel este destul de ușor să creați un tabel de analiză de regresie. Dar numai o persoană instruită poate lucra cu datele de ieșire și poate înțelege esența acestora.

CATEGORII

ARTICOLE POPULARE

2023 „kingad.ru” - examinarea cu ultrasunete a organelor umane