Construiți o matrice de coeficienți de corelație perechi. Verificați multicoliniaritatea

Datele economice sunt caracteristici cantitative ale oricăror obiecte sau procese economice. Ele se formează sub influența multor factori, nu toți fiind disponibili controlului extern. Factorii necontrolați pot prelua valori aleatorii dintr-un set de valori și, prin urmare, pot cauza aleatoritatea datelor pe care le determină. Una dintre sarcinile principale în cercetarea economică este analiza dependenţelor dintre variabile.

Având în vedere dependențele dintre caracteristici, este necesar să se distingă în primul rând două tipuri de relații:

  • functional - sunt caracterizate prin corespondență deplină între modificarea atributului factorului și modificarea valorii rezultate: fiecare valoare a factorului-atribut corespunde unor valori bine definite ale atributului efectiv. Acest tip de relație este exprimat ca o relație formulă. O dependență funcțională poate lega o trăsătură rezultată de una sau mai multe trăsături factori. Astfel, valoarea salariilor pentru salariile pe timp depinde de numărul de ore lucrate;
  • corelație- nu există o corespondență completă între schimbarea a două semne, influența factorilor individuali se manifestă doar în medie, cu observarea în masă a datelor reale. Impactul simultan asupra trăsăturii studiate a unui număr mare de diverși factori duce la faptul că aceeași valoare a factorului-atribut corespunde întregii distribuții a valorilor atributului rezultat, deoarece în fiecare caz specific, alte semne factori pot schimba puterea și direcția impactului lor.

Trebuie avut în vedere că, dacă există o relație funcțională între semne, este posibil, cunoscând valoarea semnului factor, să se determine cu exactitate valoarea rezultatului. Numai în prezența unei dependențe de corelare tendința de schimbare a caracteristicii efective la modificarea valorii semnului factorului.

Studiind relația dintre semne, acestea sunt clasificate în funcție de direcția, forma, numărul de factori:

  • către conexiunile sunt împărțite în DreptȘi verso. Cu o conexiune directă, direcția schimbării în atributul efectiv coincide cu direcția schimbării în factorul semn. Cu feedback, direcția schimbării în caracteristica efectivă este opusă direcției schimbării în factorul caracteristică. De exemplu, cu cât este mai mare calificarea unui muncitor, cu atât este mai mare nivelul de productivitate al muncii sale (relație directă). Cu cât productivitatea muncii este mai mare, cu atât costul unitar de producție (feedback) este mai mic;
  • informa(tip de funcție) conexiunile sunt împărțite în liniar(rectilinii) și neliniară(curbiliniu). O relație liniară este afișată ca o linie dreaptă, o relație neliniară - ca o curbă (parabolă, hiperbolă etc.). Cu o relație liniară cu o creștere a valorii atributului factorului, are loc o creștere (scădere) uniformă a valorii atributului rezultat;
  • prin numărul de factori care acționează asupra semnului efectiv, comunicaţiile sunt împărţite în cu un singur factor(pereche) și multifactorială.

Studiul dependenței variației unui semn de condițiile înconjurătoare este conținutul teoriei corelației.

Atunci când se efectuează o analiză de corelație, întregul set de date este considerat ca un set de variabile (factori), fiecare dintre ele conține P observatii.

Când se studiază relația dintre doi factori, aceștia sunt de obicei notați X=(x p x 2,...,x p)Și Y= (y ( , y 2 ,..., y și).

Covarianta - este statistic măsura interacțiunii două variabile. De exemplu, o valoare pozitivă pentru covarianța randamentelor a două titluri indică faptul că randamentele respectivelor titluri tind să se miște în aceeași direcție.

Covarianța între două variabile XȘi Y calculat după cum urmează:

unde sunt valorile reale ale variabilelor

XȘi G;

Dacă variabile aleatorii Hee Y sunt independente, covarianța teoretică este zero.

Covarianța depinde de unitățile în care sunt măsurate variabilele Hee Y, este o cantitate nenormalizată. Prin urmare, la măsură forţelor de comunicareîntre două variabile se folosește o altă statistică, numită coeficient de corelație.

Pentru două variabile XȘi Coeficientul de corelație al perechii Y

este definită după cum urmează:

Unde Ssy- estimări ale varianței Hee Y. Aceste estimări caracterizează gradul de dispersie valorile x ( , x 2 , ..., x n (y 1 , y 2 , y n)în jurul mediei dvs X y respectiv), sau variabilitate(variabilitatea) acestor variabile pe un set de observații.

Dispersia(estimarea varianței) este determinată de formula

În cazul general, pentru a obține o estimare imparțială a varianței, suma pătratelor trebuie împărțită la numărul de grade de libertate ale estimării (etc), Unde P - marime de mostra, R - numărul de legături impuse eşantionului. Deoarece eșantionul a fost deja folosit o dată pentru a determina media X, atunci numărul de legături suprapuse în acest caz este egal cu unul (p = 1), iar numărul de grade de libertate al estimării (adică numărul de elemente independente ale eșantionului) este egal cu (P - 1).

Este mai firesc să măsori gradul de răspândire a valorilor variabilelor în aceleași unități în care este măsurată variabila în sine. Această problemă este rezolvată de un indicator numit deviație standard (deviație standard) sau eroare standard variabil X(variabil Y)și determinat de relație

Termenii din numărătorul formulei (3.2.1) exprimă interacțiunea a două variabile și determină semnul corelației (pozitiv sau negativ). Dacă, de exemplu, există o relație puternică pozitivă între variabile (creșterea unei variabile când crește cealaltă), fiecare termen va fi un număr pozitiv. În mod similar, dacă există o relație negativă puternică între variabile, toți termenii din numărător vor fi numere negative, rezultând o valoare de corelație negativă.

Numitorul expresiei pentru coeficientul de corelație de pereche [vezi. formula (3.2.2)] normalizează pur și simplu numărătorul în așa fel încât coeficientul de corelație se dovedește a fi un număr ușor de interpretat, care nu are dimensiune și ia valori de la -1 la +1.

Numărătorul expresiei pentru coeficientul de corelație, care este greu de interpretat din cauza unităților neobișnuite, este covarianța XY.În ciuda faptului că este folosit uneori ca o caracteristică independentă (de exemplu, în teoria finanțelor pentru a descrie modificarea comună a prețurilor acțiunilor pe două burse), este mai convenabil să se utilizeze coeficientul de corelație. Corelația și covarianța reprezintă în esență aceeași informație, dar corelația prezintă această informație într-o formă mai convenabilă.

Pentru o evaluare calitativă a coeficientului de corelație se folosesc diverse scale, cel mai adesea scala Chaddock. În funcție de valoarea coeficientului de corelație, relația poate avea una dintre următoarele estimări:

  • 0,1-0,3 - slab;
  • 0,3-0,5 - vizibil;
  • 0,5-0,7 - moderată;
  • 0,7-0,9 - mare;
  • 0,9-1,0 - foarte mare.

Evaluarea gradului de apropiere a conexiunii folosind coeficientul de corelare se realizează, de regulă, pe baza unor informații mai mult sau mai puțin limitate despre fenomenul studiat. În acest sens, este necesar să se evalueze semnificația coeficientului de corelație liniară, care face posibilă extinderea concluziilor bazate pe rezultatele eșantionului la populația generală.

Evaluarea semnificației coeficientului de corelație pentru dimensiuni mici ale eșantionului se realizează folosind testul Student 7. În acest caz, valoarea reală (observată) a acestui criteriu este determinată de formulă

Valoarea / obs calculată folosind această formulă este comparată cu valoarea critică a criteriului θ, care este preluată din tabelul de valori al /-testului Student (vezi Anexa 2), ținând cont de nivelul de semnificație dat σ și numărul de grade de libertate (P - 2).

Dacă 7 obs > 7 tab, atunci valoarea obținută a coeficientului de corelație este recunoscută ca semnificativă (adică ipoteza nulă care afirmă că coeficientul de corelație este egal cu zero este respinsă). Și astfel se ajunge la concluzia că există o relație statistică strânsă între variabilele studiate.

Dacă valoarea y x aproape de zero, relația dintre variabile este slabă. Dacă corelația dintre variabile aleatoare:

  • este pozitivă, apoi pe măsură ce o variabilă aleatoare crește, cealaltă tinde să crească în medie;
  • este negativă, apoi pe măsură ce o variabilă aleatoare crește, cealaltă tinde să scadă în medie. Un instrument grafic convenabil pentru analiza datelor asociate este diagramă de dispersie, care reprezintă fiecare observație într-un spațiu de două dimensiuni corespunzătoare a doi factori. Un grafic de dispersie, care descrie un set de valori a două caracteristici, este de asemenea numit câmpul de corelare. Fiecare punct al acestei diagrame are x coordonate (. și y g Pe măsură ce puterea relației liniare crește, punctele de pe grafic se vor afla mai aproape de o linie dreaptă, iar magnitudinea G va fi mai aproape de unitate.

Coeficienții de corelație de pereche sunt utilizați pentru a măsura puterea relațiilor liniare dintre diferite perechi de caracteristici din setul lor. Pentru un set de caracteristici, obțineți matricea coeficienților de corelație de pereche.

Lăsați întregul set de date să fie format dintr-o variabilă Y==(la r y 2 , ..., y p)Și T variabile (factori) X, fiecare dintre ele conţine P observatii. Valori variabile YȘi X, cuprinse în populația observată sunt înregistrate în tabel (Tabelul 3.2.1).

Tabelul 3.2.1

Variabil

Număr

observatii

X t3

Х tp

Pe baza datelor din acest tabel, calculați matricea coeficienților de corelație de pereche R, este simetric față de diagonala principală:


Analiza matricei coeficienților de corelație de perechi este utilizată în construcția modelelor de regresie multiplă.

O matrice de corelație nu poate descrie pe deplin dependențele dintre cantități. În acest sens, în analiza corelației multivariate sunt luate în considerare două probleme:

  • 1. Determinarea strângerii relației unei variabile aleatoare cu totalitatea altor variabile incluse în analiză.
  • 2. Determinarea strângerii relației dintre două mărimi fixând sau excluzând influența altor mărimi.

Aceste probleme sunt rezolvate, respectiv, cu ajutorul coeficienților de corelație multipli și parțial.

Rezolvarea primei probleme (determinarea etanșeității conexiunii unei variabile aleatoare cu setul de alte variabile incluse în analiză) se realizează folosind eșantionează coeficientul de corelație multiplă conform formulei

Unde R- R[cm. formula (3.2.6)]; Rjj- complement algebric al unui element din aceeași matrice R.

Pătratul coeficientului de corelație multiplă SCHj2 j _j J+l m numit coeficient multiplu selectiv de determinare; arată ce proporție a variației (împrăștierea aleatorie) a cantității studiate Xj explică variația altor variabile aleatoare X ( , X 2 ,..., X t.

Coeficienții de corelare multiplă și de determinare sunt valori pozitive, luând valori în intervalul de la 0 la 1. Când coeficientul se apropie R 2 la unitate, putem concluziona că relația variabilelor aleatoare este apropiată, dar nu despre direcția acesteia. Coeficientul de corelație multiplă poate crește numai dacă variabilele suplimentare sunt incluse în model și nu va crește dacă oricare dintre caracteristicile disponibile sunt excluse.

Verificarea semnificației coeficientului de determinare se realizează prin compararea valorii calculate a criteriului /'-Fisher

cu tabelar F rabl. Valoarea tabelară a criteriului (vezi Anexa 1) este determinată de nivelul dat de semnificație a și gradele de libertate v l \u003d mnv 2 \u003d n-m-l. Coeficient R2 este semnificativ diferit de zero dacă inegalitatea

Dacă variabilele aleatoare considerate se corelează între ele atunci valoarea coeficientului de corelație de pereche este parțial afectată de influența altor mărimi. În acest sens, este necesar să se studieze corelația parțială dintre variabile, excluzând influența altor variabile aleatoare (una sau mai multe).

Eșantion de coeficient de corelație parțială este determinat de formula

Unde RJk , Rjj, Rkk - adunări algebrice la elementele matricei corespunzătoare R[cm. formula (3.2.6)].

Coeficientul de corelație parțială, precum și coeficientul de corelație pe perechi, variază de la -1 la +1.

Expresia (3.2.9) sub condiția t = 3 va arăta ca

Se numește coeficientul r 12(3). coeficient de corelație între x (Și x 2 pentru fix x y Este simetric în raport cu indicii primari 1, 2. Indicele său secundar 3 se referă la o variabilă fixă.

Exemplul 3.2.1. Calculul coeficienților de pereche,

corelație multiplă și parțială.

În tabel. 3.2.2 furnizează informații despre volumele vânzărilor și costurile de publicitate ale unei companii, precum și indicele cheltuielilor consumatorilor pentru un număr de ani în curs.

  • 1. Construiți un scatterplot (câmp de corelație) pentru variabilele „volumul vânzărilor” și „indicele cheltuielilor consumatorului”.
  • 2. Determinați gradul de influență a indicelui de cheltuieli ale consumatorilor asupra volumului vânzărilor (calculați coeficientul de corelație de pereche).
  • 3. Evaluați semnificația coeficientului de corelație de pereche calculat.
  • 4. Construiți o matrice de coeficienți de corelație perechi pentru trei variabile.
  • 5. Găsiți o estimare a coeficientului de corelație multiplă.
  • 6. Găsiți estimări ale coeficienților de corelație parțială.

1. În exemplul nostru, diagrama de dispersie are forma prezentată în fig. 3.2.1. Alungirea norului de puncte în graficul de dispersie de-a lungul unei linii drepte înclinate ne permite să presupunem că există o tendință obiectivă pentru o relație liniară directă între valorile variabilelor X 2 Y(volumul vânzărilor).

Orez. 3.2.1.

2. Calcule intermediare la calculul coeficientului de corelație între variabile X 2(indicele cheltuielilor consumatorilor) și Y(volumul vânzărilor) sunt date în tabel. 3.2.3.

Medii variabile aleatoare X 2Și Y, care sunt cei mai simpli indicatori care caracterizează secvențele jCj, x 2,..., x 16 și y v y 2 ,..., y 16 , calculăm prin următoarele formule:


Volumul vânzărilor Y, mii de ruble

Index

a consuma

Telsky

cheltuieli

Volumul vânzărilor Y, mii de ruble

Index

a consuma

Telsky

cheltuieli

Tabelul 3.2.3

l:, - X

(ȘI - Y)(x, - x)

(x, - x) 2

(y, - - y) 2

Dispersia caracterizează gradul de răspândire a valorilor x v x 2 , x :

Luați în considerare acum soluția la Exemplul 3.2.1 în Excel.

Pentru a calcula corelația folosind Excel, puteți utiliza funcția =correl(), specificând adresele a două coloane de numere, așa cum se arată în fig. 3.2.2. Răspunsul este plasat în D8 și este egal cu 0,816.

Orez. 3.2.2.

(Notă: argumentele funcției corelele trebuie să fie numere sau nume, matrice sau referințe care conțin numere. Dacă argumentul, care este o matrice sau o legătură, conține text, boolean sau celule goale, atunci acele valori sunt ignorate; cu toate acestea, celulele care conțin valori nule sunt numărate.

Dacă o matrice! și array2 au un număr diferit de puncte de date, apoi funcția correl returnează valoarea de eroare #n/a.

Dacă array1 sau array2 este goală sau dacă o (deviația standard) a valorilor lor este zero, atunci funcția corel returnează valoarea de eroare #div/0 !.)

Valoarea critică a statisticii /-Student poate fi obținută și folosind funcția steudrasprobr 1 pachet Excel. Ca argumente ale funcției, trebuie să specificați numărul de grade de libertate, egal cu P- 2 (în exemplul nostru 16 - 2= 14) și nivelul de semnificație a (în exemplul nostru a = 0,1) (Fig. 3.2.3). Dacă valoarea reală/-statistici, luate modulo, mai mult critic, atunci cu probabilitatea (1 - a) coeficientul de corelare este semnificativ diferit de zero.


Orez. 3.2.3. Valoarea critică a statisticii / este 1,7613

Excel include un set de instrumente de analiză a datelor (așa-numitul pachet de analiză) concepute pentru a rezolva diverse probleme statistice. Pentru a calcula matricea coeficienților de corelație de pereche R utilizați instrumentul de corelare (Fig. 3.2.4) și setați parametrii de analiză în caseta de dialog corespunzătoare. Răspunsul va fi plasat pe o nouă foaie de lucru (Fig. 3.2.5).

1 În Excel 2010, numele funcției steudrasprobr schimbat în steu-

DENT.ORD.2X.

Orez. 3.2.4.


Orez. 3.2.5.

  • Statisticienii englezi F. Galton (1822-1911) și K. Pearson (1857-1936) sunt considerați a fi fondatorii teoriei corelației. Termenul „corelație” a fost împrumutat din știința naturii și înseamnă „corelație, corespondență”. Conceptul de corelație ca interdependență între variabile aleatoare stă la baza teoriei matematico-statistice a corelației.

Sarcina 2

1. Construiți o matrice de coeficienți de corelație perechi. Verificați multicoliniaritatea. Justificați selecția factorilor din model.

2. Construiți o ecuație de regresie multiplă în formă liniară cu factorii selectați.

3. Evaluați semnificația statistică a ecuației de regresie și a parametrilor acesteia folosind testele Fisher și Student.

4. Construiți o ecuație de regresie cu factori semnificativi statistic. Evaluați calitatea ecuației de regresie folosind coeficientul de determinare R 2 . Evaluați acuratețea modelului construit.

5. Estimați prognoza pentru volumul producției, dacă valorile prognozate ale factorilor sunt de 75% din valorile maxime ale acestora.

Condiții de activitate (opțiunea 21)

Conform datelor prezentate în Tabelul 1 (n = 17), studiem dependența volumului producției Y (milioane de ruble) de următorii factori (variabile):

X 1 - numărul personalului industrial și de producție, oameni.

X 2 - costul mediu anual al mijloacelor fixe, milioane de ruble.

X 3 - amortizarea mijloacelor fixe,%

X 4 - putere electrică, kWh.

X 5 - echipament tehnic al unui muncitor, milioane de ruble.

X 6 - producția de produse comercializabile per muncitor, frecare.

Tabelul 1. Date de producție

Y x1 x2 x3 x4 x5 x6
39,5 4,9 3,2
46,4 60,5 20,4
43,7 24,9 9,5
35,7 50,4 34,7
41,8 5,1 17,9
49,8 35,9 12,1
44,1 48,1 18,9
48,1 69,5 12,2
47,6 31,9 8,1
58,6 139,4 29,7
70,4 16,9 5,3
37,5 17,8 5,6
62,0 27,6 12,3
34,4 13,9 3,2
35,4 37,3 19,0
40,8 55,3 19,3
48,1 35,1 12,4


Construiți o matrice de coeficienți de corelație perechi. Verificați multicoliniaritatea. Justificați selecția factorilor din model

Tabelul 2 prezintă matricea coeficientului de corelație de pereche pentru toate variabilele implicate în considerare. Matrice obținută cu ajutorul instrumentului Corelație din pachet Analiza datelor V Excela.

Tabelul 2. Matricea coeficienților de corelație perechi

Y X1 X2 X3 X4 X5 X6
Y
X1 0,995634
X2 0,996949 0,994947
X3 -0,25446 -0,27074 -0,26264
X4 0,12291 0,07251 0,107572 0,248622
X5 0,222946 0,166919 0,219914 -0,07573 0,671386
X6 0,067685 -0,00273 0,041955 -0,28755 0,366382 0,600899

Analiza vizuală a matricei vă permite să stabiliți:

1) La are corelații destul de mari în perechi cu variabilele X1, X2 (>0,5) și scăzut cu variabile X3, X4, X5, X6 (<0,5);

2) Variabilele de analiză X1, X2 demonstrează corelații perechi destul de mari, ceea ce necesită verificarea factorilor pentru prezența multicoliniarității între ele. Mai mult, una dintre condițiile modelului clasic de regresie este ipoteza independenței variabilelor explicative.

Pentru a identifica multicoliniaritatea factorilor, procedăm Testul Farrar-Glouber de factorii X1, X2, X3,X4,X5,X6.

Verificarea testului Farrar-Glouber pentru multicoliniaritatea factorilor include mai multe etape.

1) Verificarea multicoliniarității întregii matrice de variabile .

Una dintre condițiile modelului clasic de regresie este presupunerea că variabilele explicative sunt independente. Pentru a identifica multicoliniaritatea între factori, matricea corelațiilor interfactoriale R este calculată utilizând Pachetul de analiză a datelor (Tabelul 3).

Tabelul 3. Matricea de corelație a interfactorilor R

X1 X2 X3 X4 X5 X6
X1 0,994947 -0,27074 0,07251 0,166919 -0,00273
X2 0,994947 -0,26264 0,107572 0,219914 0,041955
X3 -0,27074 -0,26264 0,248622 -0,07573 -0,28755
X4 0,07251 0,107572 0,248622 0,671386 0,366382
X5 0,166919 0,219914 -0,07573 0,671386 0,600899
X6 -0,00273 0,041955 -0,28755 0,366382 0,600899

Există o relație puternică între factorii X1 și X2, X5 și X4, X6 și X5 (>0,5).

Determinantul det (R) = 0,001488 este calculat folosind funcția MOPRED. Determinantul matricei R tinde spre zero, ceea ce ne permite să facem o ipoteză despre multicoliniaritatea generală a factorilor.

2) Verificarea multicoliniarității fiecărei variabile cu alte variabile:

Calculați matricea inversă R -1 utilizând funcția Excel MINF (Tabelul 4):

Tabelul 4. Matricea inversă R -1

X1 X2 X3 X4 X5 X6
X1 150,1209 -149,95 3,415228 -1,70527 6,775768 4,236465
X2 -149,95 150,9583 -3,00988 1,591549 -7,10952 -3,91954
X3 3,415228 -3,00988 1,541199 -0,76909 0,325241 0,665121
X4 -1,70527 1,591549 -0,76909 2,218969 -1,4854 -0,213
X5 6,775768 -7,10952 0,325241 -1,4854 2,943718 -0,81434
X6 4,236465 -3,91954 0,665121 -0,213 -0,81434 1,934647

· Calculul criteriilor F , unde sunt elementele diagonale ale matricei , n=17, k = 6 (Tabelul 5).

Tabelul 5. Valorile criteriilor F

F1 (Х1) F2 (Х2) F3 (X3) F4 (X4) F5 (X5) F6 (X6)
89,29396 89,79536 0,324071 0,729921 1,163903 0,559669

Valorile reale ale criteriilor F sunt comparate cu valoarea tabelului Tabelul F = 3,21(FDISP(0,05;6;10)) cu n1= 6 și n2 = n - k – 1=17-6-1=10 grade de libertate și nivelul de semnificație α=0,05, unde k este numărul de factori.

· Valorile criteriilor F pentru factorii X1 și X2 sunt mai mari decât valoarea tabelului, ceea ce indică prezența multicolinearității între acești factori. Factorul X3 are cel mai mic efect asupra multicoliniarității generale a factorilor.

3) Verificarea multicoliniarității pentru fiecare pereche de variabile

Calculați coeficienții de corelație parțială folosind formula , unde sunt elementele matricei (Tabelul 6)

Tabelul 6. Matricea coeficienților corelațiilor parțiale

X1 X2 X3 X4 X5 X6
X1
X2 0,996086
X3 -0,22453 0,197329
X4 0,093432 -0,08696 0,415882
X5 -0,32232 0,337259 -0,1527 0,581191
X6 -0,24859 0,229354 -0,38519 0,102801 0,341239

· Calcul t- criterii conform formulei (tabelul 7)

n - numărul de date = 17

K - numărul de factori = 6

Tabelul 7.t-teste pentru coeficienții de corelație parțială

X1 X2 X3 X4 X5 X6
X1
X2 35,6355
X3 -0,72862 0,636526
X4 0,296756 -0,27604 1,446126
X5 -1,07674 1,13288 -0,4886 2,258495
X6 -0,81158 0,745143 -1,31991 0,326817 1,147999

tabel t \u003d STUDRIVE (0,05; 10) \u003d 2,23

Valorile reale ale criteriilor t sunt comparate cu valoarea tabelului la grade de libertate n-k-1 = 17-6-1=10 și nivelul de semnificație α=0,05;

t21 > ttable

t54 > ttable

Tabelele 6 și 7 arată că două perechi de factori X1 și X2, X4 și X5 au o corelație parțială semnificativă statistic ridicată, adică sunt multicoliniari. Pentru a scăpa de multicolinearitate, una dintre variabilele perechii coliniare poate fi eliminată. Într-o pereche de X1 și X2 lăsăm X2, într-o pereche de X4 și X5 părăsim X5.

Astfel, ca urmare a verificării testului Farrar-Glouber, rămân următorii factori: X2, X3, X5, X6.

Terminând procedurile de analiză a corelației, este recomandabil să se analizeze corelațiile parțiale ale factorilor selectați cu rezultatul Y.

Să construim o matrice de coeficienți de corelație perechi pe baza datelor din tabelul 8.

Tabelul 8. Date de ieșire cu factorii selectați X2, X3, X5, X6.

Nr de observatie Y x2 x3 x5 x6
39,5 3,2
46,4 20,4
43,7 9,5
35,7 34,7
41,8 17,9
49,8 12,1
44,1 18,9
48,1 12,2
47,6 8,1
58,6 29,7
70,4 5,3
37,5 5,6
12,3
34,4 3,2
35,4
40,8 19,3
48,1 12,4

Ultima coloană a tabelului 9 arată valorile testului t pentru coloana Y.

Tabelul 9. Matricea coeficienților de corelație parțială cu rezultatul Y

Y X2 X3 X5 X6 criteriul t (fila t (0,05; 11) = 2,200985
Y 0,996949 -0,25446 0,222946 0,067685
X2 0,996949 -0,26264 0,219914 0,041955 44,31676
X3 -0,25446 -0,26264 -0,07573 -0,28755 0,916144
X5 0,222946 0,219914 -0,07573 0,600899 -0,88721
X6 0,067685 0,041955 -0,28755 0,600899 1,645749

Tabelul 9 arată că variabila Y are o corelație parțială ridicată și în același timp semnificativă statistic cu factor X2.


Y X 1 X 2 X 3 X 4 X 5 X 6
Y
X 1 0,519
X 2 -0,273 0,030
X 3 0,610 0,813 -0,116
X 4 -0,572 -0,013 -0,022 -0,091
X 5 0,297 0,043 -0,461 0,120 -0,359
X 6 0,118 -0,366 -0,061 -0,329 -0,100 -0,290

Analiză interfactorială(între „xe”!) a coeficienților de corelație arată că valoarea de 0,8 depășește în valoare absolută doar coeficientul de corelaţie între o pereche de factori X 1 –X 3 (evidențiat cu aldine). Factori X 1 –X 3 sunt astfel recunoscute ca fiind coliniare.

2. După cum se arată în paragraful 1, factorii X 1 –X 3 sunt coliniare, ceea ce înseamnă că sunt efectiv duplicate unul față de celălalt, iar includerea lor în model în același timp va interpreta greșit coeficienții de regresie respectivi. Se poate observa că factorul X 3 are o mai mare modulo coeficientul de corelare cu rezultatul Y decât factorul X 1: r y , X 1 =0,519; r y , X 3=0,610; (cm. fila. 1). Aceasta indică o influență mai puternică a factorului X 3 a schimba Y. Factor X 1 este astfel exclus din luare în considerare.

Pentru a construi ecuația de regresie, valorile variabilelor utilizate ( Y,X 2 , X 3 , X 4 , X 5 , X 6) copiați într-o foaie de lucru goală ( adj. 3). Construim ecuația de regresie folosind suplimentul " Analiza datelor... Regresie" (meniul " Serviciu"® « Analiza datelor…» ® « Regresia"). Panoul de analiză de regresie cu câmpuri completate este afișat în orez. 2.

Rezultatele analizei de regresie sunt date în adj. 4și transferat la fila. 2. Ecuația de regresie are forma (vezi " Cote» V fila. 2):

Ecuația de regresie este recunoscută ca fiind semnificativă din punct de vedere statistic, deoarece probabilitatea formării sale aleatoare în forma în care a fost obținută este de 8,80 × 10 -6 (vezi Fig. „F semnificație” V fila. 2), care este semnificativ mai mic decât nivelul de semnificație acceptat a=0,05.

X 3 , X 4 , X 6 sub nivelul de semnificație acceptat a=0,05 (vezi „ Valoarea P" V fila. 2), care indică semnificația statistică a coeficienților și impactul semnificativ al acestor factori asupra modificării profitului anual Y.

Probabilitatea formării aleatorii a coeficienților la factori X 2 și X 5 depășește nivelul de semnificație acceptat a=0,05 (vezi „ Valoarea P" V fila. 2), iar acești coeficienți nu sunt considerați semnificativi statistic.

orez. 2. Panou de analiză de regresie model Y(X 2 , X 3 , X 4 , X 5 , X 6)

masa 2

Y(X 2 , X 3 , X 4 , X 5 , X 6)

Statistici de regresie
Multiplu R 0,868
R-pătrat 0,753
R-pătrat normalizat 0,694
eroare standard 242,3
Observatii
Analiza variatiei
df SS DOMNIȘOARĂ F Semnificația F
Regresia 3749838,2 749967,6 12,78 8.80E-06
Rest 1232466,8 58688,9
Total 4982305,0
Ecuația de regresie
Cote eroare standard t-statistică Valoarea P
Intersecția în Y 487,5 641,4 0,760 0,456
X2 -0,0456 0,0373 -1,224 0,235
X3 0,1043 0,0194 5,375 0,00002
X4 -0,0965 0,0263 -3,674 0,001
X5 2,528 6,323 0,400 0,693
X6 248,2 113,0 2,197 0,039

3. Pe baza rezultatelor verificării semnificației statistice a coeficienților ecuației de regresie, efectuată în paragraful anterior, construim un nou model de regresie care conține doar factori informativi, care includ:

factori ai căror coeficienți sunt semnificativi statistic;

factori ai căror coeficienţi t‑statistica modulo depășește unu (cu alte cuvinte, valoarea absolută a coeficientului este mai mare decât eroarea sa standard).

Primul grup include factori X 3 , X 4 , X 6, la al doilea factor X 2. Factor X 5 este exclus din considerație ca neinformativă, iar modelul final de regresie va conține factorii X 2 , X 3 , X 4 , X 6 .

Pentru a construi o ecuație de regresie, copiați valorile variabilelor utilizate într-o foaie de lucru goală ( adj. 5)și efectuați o analiză de regresie ( orez. 3). Rezultatele sale sunt date în adj. 6și transferat la fila. 3. Ecuația de regresie arată astfel:

(cm. " Cote» V fila. 3).

orez. 3. Analiza de regresie panel a modelului Y(X 2 , X 3 , X 4 , X 6)

Tabelul 3

Rezultatele analizei de regresie model Y(X 2 , X 3 , X 4 , X 6)

Statistici de regresie
Multiplu R 0,866
R-pătrat 0,751
R-pătrat normalizat 0,705
eroare standard 237,6
Observatii
Analiza variatiei
df SS DOMNIȘOARĂ F Semnificația F
Regresia 3740456,2 935114,1 16,57 2.14E-06
Rest 1241848,7 56447,7
Total 4982305,0
Ecuația de regresie
Cote eroare standard t-statistică Valoarea P
Intersecția în Y 712,2 303,0 2,351 0,028
X2 -0,0541 0,0300 -1,806 0,085
X3 0,1032 0,0188 5,476 0,00002
X4 -0,1017 0,0223 -4,560 0,00015
X6 227,5 98,5 2,310 0,031

Ecuația de regresie este semnificativă statistic: probabilitatea formării sale aleatoare este sub nivelul de semnificație acceptabil a=0,05 (vezi „ Semnificația F" V fila. 3).

Semnificativi statistic sunt și coeficienții factorilor X 3 , X 4 , X 6: probabilitatea formării lor aleatoare este sub nivelul de semnificație acceptabil a=0,05 (vezi " Valoarea P" V fila. 3). Acest lucru indică un impact semnificativ al mărimii anuale a taxelor de asigurare. X 3 , plăți anuale de asigurare X 4 și formele de proprietate X 6 pe modificarea profitului anual Y.

Coeficient la factor X 2 (valoarea anuală a rezervelor de asigurare) nu este semnificativă statistic. Cu toate acestea, acest factor poate fi considerat încă informativ, deoarece t-statistica raportului său depășește modulo unitate, deși concluzii suplimentare cu privire la factor X 2 trebuie tratat cu o oarecare prudență.

4. Evaluăm calitatea și acuratețea ultimei ecuații de regresie folosind unele caracteristici statistice obținute în timpul analizei de regresie (vezi . « statistici de regresie„V fila. 3):

coeficient multiplu de determinare

arată că modelul de regresie explică 75,1% din variația anuală a profitului Y, iar această variație se datorează unei modificări a factorilor incluși în modelul de regresie X 2 , X 3 , X 4 și X 6 ;

eroare standard de regresie

mii de ruble.

arată că valorile profitului anual prezise de ecuația de regresie Y diferă de valorile reale cu o medie de 237,6 mii de ruble.

Eroarea medie de aproximare relativă este determinată de formula aproximativă:

Unde mii de ruble. - valoarea medie a profitului anual (determinată folosind funcția încorporată " IN MEDIE»; adj. 1).

E rel arată că valorile profitului anual prezise de ecuația de regresie Y diferă de valorile reale cu o medie de 26,7%. Modelul are o precizie nesatisfăcătoare (la - acuratețea modelului este mare, la - bun cu - satisfăcător, la - nesatisfăcător).

5. Pentru interpretarea economică a coeficienților ecuației de regresie, tabelăm valorile medii și abaterile standard ale variabilelor din datele inițiale ( fila. 4) . Valorile medii au fost determinate folosind funcția încorporată " IN MEDIE”, abateri standard - folosind funcția încorporată „ STDEV" (cm. adj. 1).

Pentru teritoriile Districtului Federal de Sud al Federației Ruse, sunt date date pentru 2011

Teritoriile districtului federal

Produsul regional brut, miliarde de ruble, Y

Investiții în capital fix, miliarde de ruble, X1

1. Rep. Adygea

2. Rep. Daghestan

3. Rep. Inguşetia

4. Republica Kabardino-Balkariană

5. Rep. Kalmykia

6. Republica Karachay-Cerkess

7. Rep. Osetia de Nord Alania

8. Regiunea Krasnodar)

9. Teritoriul Stavropol

10. Regiunea Astrahan

11. Regiunea Volgograd

12. Regiunea Rostov

  • 1. Calculați matricea coeficienților de corelație perechi; evaluează semnificația statistică a coeficienților de corelație.
  • 2. Construiți câmpul de corelare al caracteristicii rezultate și al factorului cel mai strâns legat.
  • 3. Calculați parametrii regresiei perechi liniare pentru fiecare factor X..
  • 4. Evaluați calitatea fiecărui model prin coeficientul de determinare, eroarea medie de aproximare și testul F Fisher. Alege cel mai bun model.

va fi de 80% din valoarea sa maximă. Prezentați grafic: valori reale și de model, puncte de prognoză.

  • 6. Folosind regresia multiplă în trepte (metoda de excludere sau metoda de includere), construiți un model de formare a prețului apartamentelor din cauza unor factori semnificativi. Oferiți o interpretare economică a coeficienților modelului de regresie.
  • 7. Evaluați calitatea modelului construit. S-a îmbunătățit calitatea modelului în comparație cu modelul cu un singur factor? Oferiți o evaluare a influenței factorilor semnificativi asupra rezultatului folosind coeficienții de elasticitate, în - și -? coeficienți.

Când rezolvăm această problemă, vom efectua calcule și grafice și diagrame folosind setările Excel Analiza datelor.

1. Calculați matricea coeficienților de corelație perechi și evaluați semnificația statistică a coeficienților de corelație

În caseta de dialog Corelație, în câmpul Interval de intrare, introduceți intervalul de celule care conțin datele sursă. Deoarece am selectat și titlurile coloanelor, bifăm caseta de selectare Etichete din primul rând.

Am obtinut urmatoarele rezultate:

Tabelul 1.1 Matricea coeficienților de corelație perechi

O analiză a matricei coeficienților de corelație perechi arată că variabila dependentă Y, adică produsul regional brut, are o relație mai strânsă cu X1 (investiția în active fixe). Coeficientul de corelație este 0,936. Aceasta înseamnă că variabila dependentă Y (produsul regional brut) este dependentă în proporție de 93,6% de X1 (investiția în active fixe).

Semnificația statistică a coeficienților de corelație va fi determinată cu ajutorul testului t Student. Valoarea tabelului este comparată cu valorile calculate.

Să calculăm valoarea tabelului folosind funcția STUDRIST.

tabelul t = 0,129 cu un nivel de încredere egal cu 0,9 și un grad de libertate (n-2).

Factorul X1 este semnificativ statistic.

2. Să construim domeniul de corelare a caracteristicii efective (produsul regional brut) și factorul cel mai strâns legat (investiția în capital fix)

Pentru a face acest lucru, vom folosi instrumentul pentru construirea unui grafic de dispersie în Excel.

Ca urmare, obținem domeniul de corelare a prețului produsului regional brut, miliarde de ruble. și investiții în capital fix, miliarde de ruble. (Figura 1.1.).

Figura 1.1

3. Calculați parametrii regresiei perechi liniare pentru fiecare factor X

Pentru a calcula parametrii unei regresii liniare pe perechi, vom folosi instrumentul de regresie inclus în setarea Analiza datelor.

În caseta de dialog Regresie, în câmpul Interval de intrare Y, introduceți adresa intervalului de celule care reprezintă variabila dependentă. În câmp

Intervalul de introducere X introducem adresa intervalului care conține valorile variabilelor independente. Să calculăm parametrii de regresie perechi pentru factorul X.

Pentru X1 s-au obținut următoarele date, prezentate în Tabelul 1.2:

Tabelul 1.2

Ecuația de regresie pentru dependența prețului produsului regional brut de investiția în capital fix are forma:

4. Să evaluăm calitatea fiecărui model prin coeficientul de determinare, eroarea medie de aproximare și criteriul F al lui Fisher. Să aflăm care model este cel mai bun.

Coeficientul de determinare, eroarea medie de aproximare, am obținut în urma calculelor efectuate la paragraful 3. Datele obținute sunt prezentate în următoarele tabele:

Date pentru X1:

Tabelul 1.3a

Tabelul 1.4b

A) Coeficientul de determinare determină ce proporție din variația atributului Y este luată în considerare în model și se datorează influenței factorului X asupra acestuia. Cu cât valoarea coeficientului de determinare este mai mare, cu atât relația este mai strânsă. între atributele din modelul matematic construit.

În Excel, R-pătrat este notat.

Pe baza acestui criteriu, modelul ecuației de regresie pentru dependența prețului produsului regional brut de investiția în active fixe (X1) este cel mai adecvat.

B) Calculați eroarea medie de aproximare folosind formula:

unde numărătorul este suma abaterilor pătrate ale valorilor calculate față de cele reale. În tabele, se află în coloana SS, rândul Reziduuri.

Calculăm valoarea medie a prețului unui apartament în Excel folosind funcția MEDIE. = 24,18182 miliarde de ruble

La efectuarea calculelor economice, modelul este considerat suficient de precis dacă eroarea medie de aproximare este mai mică de 5%, modelul este considerat acceptabil dacă eroarea medie de aproximare este mai mică de 15%.

Conform acestui criteriu, cel mai adecvat este modelul matematic pentru ecuația de regresie a dependenței prețului produsului regional brut de investiția în active fixe (X1).

C) Un test F este utilizat pentru a testa semnificația modelului de regresie. Pentru aceasta, se face și o comparație a valorilor critice (tabelare) ale testului F Fisher.

Valorile calculate sunt date în tabelele 1.4b (indicate prin litera F).

Valoarea tabelului testului F Fisher este calculată în Excel utilizând funcția FDISP. Luăm probabilitatea egală cu 0,05. Primit: = 4,75

Valorile calculate ale testului F Fisher pentru fiecare factor sunt comparabile cu valoarea tabelului:

71,02 > = 4,75 modelul este adecvat conform acestui criteriu.

După analizarea datelor pentru toate cele trei criterii, putem concluziona că cel mai bun este modelul matematic construit pentru factorul produs regional brut, care este descris de ecuația liniară

5. Pentru modelul ales al dependenţei preţului produsului regional brut

vom prezice valoarea medie a indicatorului la nivel de semnificație dacă valoarea prezisă a factorului este de 80% din valoarea sa maximă. Să reprezentăm grafic: valorile reale și de model, punctele de prognoză.

Calculați valoarea estimată a lui X, conform condiției, aceasta va fi de 80% din valoarea maximă.

Calculați X max în Excel folosind funcția MAX.

0,8 *52,8 = 42,24

Pentru a obține estimări predictive ale variabilei dependente, înlocuim valoarea obținută a variabilei independente în ecuația liniară:

5,07 + 2,14 * 42,24 \u003d 304,55 miliarde de ruble.

Să determinăm intervalul de încredere al prognozei, care va avea următoarele limite:

Pentru a calcula intervalul de încredere pentru valoarea prezisă, calculăm abaterea de la linia de regresie.

Pentru un model de regresie pereche, valoarea abaterii este calculată:

acestea. valoarea erorii standard din tabelul 1.5a.

(Deoarece numărul de grade de libertate este unul, numitorul va fi egal cu n-2). predicție de regresie perechi de corelație

Pentru a calcula coeficientul, vom folosi funcția Excel STUDRASP, probabilitatea va fi luată egală cu 0,1, numărul de grade de libertate este 38.

Calculăm valoarea folosind Excel, obținem 12294.


Să definim limitele superioare și inferioare ale intervalului.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

Astfel, valoarea prognozată = 304,55 mii dolari se va situa între limita inferioară, egală cu 277,078 mii dolari. și o limită superioară egală cu 332,022 miliarde de ruble. Freca.

Valorile reale și de model, punctele de prognoză sunt prezentate grafic în Figura 1.2.


Figura 1.2

6. Folosind regresia multiplă în trepte (metoda excluderii), vom construi un model de formare a prețului produsului regional brut din cauza unor factori semnificativi

Pentru a construi o regresie multiplă, vom folosi funcția Excel Regression, incluzând toți factorii din aceasta. Ca rezultat, obținem tabele cu rezultate, din care avem nevoie de testul t al lui Student.

Tabelul 1.8a

Tabelul 1.8b

Tabelul 1.8c.

Obținem modelul de vizualizare:

Deoarece< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Să alegem cea mai mică valoare modulo a testului t al lui Student, este egală cu 8,427, o comparăm cu valoarea tabelară pe care o calculăm în Excel, luăm nivelul de semnificație egal cu 0,10, numărul de grade de libertate n-m-1=12- 4=8: =1,8595

Deoarece 8.427>1.8595 modelul ar trebui să fie recunoscut ca fiind adecvat.

7. Pentru a evalua factorul semnificativ al modelului matematic obținut, se calculează coeficienții de elasticitate, iar - coeficienții

Coeficientul de elasticitate arată câte procente se va schimba semnul rezultat atunci când semnul factorului se schimbă cu 1%:

E X4 \u003d 2,137 * (10,69 / 24,182) \u003d 0,94%

Adică, cu o creștere a investiției în capital fix cu 1%, costul crește în medie cu 0,94%.

Coeficientul arată în ce parte a valorii abaterii standard se modifică valoarea medie a variabilei dependente cu o modificare a variabilei independente cu o abatere standard.

2,137* (14.736/33,632) = 0,936.

Datele despre abaterea standard sunt preluate din tabele obținute cu ajutorul instrumentului Statistică descriptivă.

Tabelul 1.11 Statistici descriptive (Y)

Tabelul 1.12 Statistici descriptive (X4)

Coeficientul determină ponderea influenței factorului în influența totală a tuturor factorilor:

Pentru a calcula coeficienții de corelație de pereche, calculăm matricea de coeficienți de corelație de pereche în Excel folosind instrumentul de corelare al setărilor Analiza datelor.

Tabelul 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Concluzie: Pe baza calculelor obținute, putem concluziona că atributul efectiv Y (produsul regional brut) este foarte dependent de factorul X1 (investiția în capital fix) (cu 100%).

Bibliografie

  • 1. Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Econometrie. Curs inițial. Tutorial. a 2-a ed. - M.: Delo, 1998. - p. 69 - 74.
  • 2. Atelier de econometrie: Manual / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko și alții 2002. - p. 49 - 105.
  • 3. Dougerty K. Introducere în econometrie: Per. din engleza. - M.: INFRA-M, 1999. - XIV, p. 262 - 285.
  • 4. Aivyzyan S.A., Mikhtiryan V.S. Matematică aplicată și fundamente ale econometriei. -1998., p. 115-147.
  • 5. Kremer N.Sh., Putko B.A. Econometrie. -2007. de la 175-251.
y X (1) X (2) X (3) X (4) X (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
X (1) 0.43 1.00 0.85 0.98 0.11 0.34
X (2) 0.37 0.85 1.00 0.88 0.03 0.46
X (3) 0.40 0.98 0.88 1.00 0.03 0.28
X (4) 0.58 0.11 0.03 0.03 1.00 0.57
X (5) 0.33 0.34 0.46 0.28 0.57 1.00

O analiză a matricei coeficienților de corelație pereche arată că indicatorul de performanță este cel mai strâns legat de indicator X(4) - cantitatea de îngrășăminte utilizată la 1 ha ().

În același timp, relația dintre trăsături-argumente este destul de strânsă. Deci, există practic o relație funcțională între numărul de tractoare cu roți ( X(1)) și numărul de instrumente de prelucrare a solului de suprafață .

Prezența multicoliniarității este evidențiată și de coeficienții de corelație și . Având în vedere relația strânsă a indicatorilor X (1) , X(2) și X(3) , doar unul dintre ei poate intra în modelul de regresie a randamentului.

Pentru a demonstra impactul negativ al multicolinearității, luați în considerare un model de regresie a randamentului care include toate intrările:

Fobs = 121.

În paranteză sunt valorile estimărilor corectate ale abaterilor standard ale estimărilor coeficienților ecuației .

Sub ecuația de regresie sunt prezentați următorii parametri de adecvare: coeficientul de determinare multiplu; estimarea corectată a varianței reziduale, eroarea medie de aproximare relativă și valoarea calculată a criteriului Fobs = 121.

Ecuația de regresie este semnificativă deoarece F obl = 121 > F kp = 2,85 găsit din tabel F- distributii la a=0,05; n 1 =6 și n 2 =14.

De aici rezultă că Q¹0, adică și cel puțin unul dintre coeficienții ecuației q j (j= 0, 1, 2, ..., 5) nu este egal cu zero.

Pentru a testa ipoteza despre semnificația coeficienților individuali de regresie H0: q j =0, unde j=1,2,3,4,5, comparați valoarea critică t kp = 2,14, găsit din tabel t-distribuţii la nivelul de semnificaţie a=2 Q=0,05 și numărul de grade de libertate n=14, cu valoarea calculată . Din ecuație rezultă că coeficientul de regresie este semnificativ statistic numai atunci când X(4) din ½ t 4½=2,90 > t kp=2,14.



Semnele negative ale coeficienților de regresie la X(1) și X(5) . Din valorile negative ale coeficienților rezultă că o creștere a saturației agriculturii cu tractoare cu roți ( X(1)) și produse fitosanitare ( X(5)) afectează negativ randamentul. Astfel, ecuația de regresie rezultată este inacceptabilă.

Pentru a obține o ecuație de regresie cu coeficienți semnificativi, folosim un algoritm de analiză de regresie pas cu pas. Inițial, folosim un algoritm pas cu pas cu eliminarea variabilelor.

Excludeți o variabilă din model X(1) , care corespunde valorii minime absolute de ½ t 1½=0,01. Pentru variabilele rămase, vom construi din nou ecuația de regresie:

Ecuația rezultată este semnificativă, deoarece F obs = 155 > F kp = 2,90, găsit la un nivel de semnificație a=0,05 și numere de grade de libertate n 1 =5 și n 2 =15 conform tabelului F-distributii, i.e. vector q¹0. Cu toate acestea, doar coeficientul de regresie este semnificativ în ecuația la X(4) . Valori calculate ½ t j ½ pentru alți coeficienți mai mici decât t kr = 2,131 găsite în tabel t-distribuţii pentru a=2 Q=0,05 și n=15.

Excluderea unei variabile din model X(3) , care corespunde valorii minime t 3 =0,35 și obțineți ecuația de regresie:

(2.9)

În ecuația rezultată, nu este semnificativă statistic și nu putem interpreta economic coeficientul la X(5) . Excluzând X(5) obținem ecuația de regresie:

(2.10)

Am obținut o ecuație de regresie semnificativă cu coeficienți semnificativi și interpretabili.

Cu toate acestea, ecuația rezultată nu este singurul model de randament „bun” sau „cel mai bun” din exemplul nostru.

Să arătăm asta în condiţia multicolinearităţii, algoritmul pas cu pas cu includerea variabilelor este mai eficient. Primul pas în modelul de randament y include o variabilă X(4) , care are cel mai mare coeficient de corelație cu y, explicat prin variabila - r(y,X(4))=0,58. În a doua etapă, inclusiv ecuația împreună cu X(4) variabile X(1) sau X(3) , vom obține modele superioare (2.10) din motive economice și caracteristici statistice:

(2.11)

(2.12)

Includerea oricăreia dintre cele trei variabile rămase în ecuație își înrăutățește proprietățile. Vezi, de exemplu, ecuația (2.9).

Astfel, avem trei modele de randament „bun”, dintre care unul trebuie ales din motive economice și statistice.

Conform criteriilor statistice, modelul (2.11) este cel mai adecvat. Ea corespunde valorilor minime ale varianței reziduale = 2,26 și erorii relative medii de aproximare și celor mai mari valori și Fobs = 273.

Modelul (2.12) are indicatori de adecvare ceva mai răi, iar apoi modelul (2.10).

Vom alege acum cel mai bun dintre modele (2.11) și (2.12). Aceste modele diferă unele de altele în variabile X(1) și X(3) . Cu toate acestea, în modelele de randament, variabila X(1) (număr de tractoare cu roți la 100 ha) este de preferat variabilă X(3) (număr de instrumente de prelucrare a solului la 100 ha), care este oarecum secundar (sau derivat din X (1)).

În acest sens, din motive economice, ar trebui să se acorde preferință modelului (2.12). Astfel, după implementarea algoritmului de analiză a regresiei în etape cu includerea variabilelor și ținând cont de faptul că doar una dintre cele trei variabile aferente ar trebui să intre în ecuație ( X (1) , X(2) sau X(3)) alegeți ecuația finală de regresie:

Ecuația este semnificativă la a=0,05, deoarece F obl = 266 > F kp = 3,20 găsit din tabel F-distribuţii pentru a= Q=0,05; n 1 =3 și n 2 =17. Toți coeficienții de regresie sunt, de asemenea, semnificativi în ecuația ½ t j½> t kp (a=2 Q=0,05; n=17)=2,11. Coeficientul de regresie q 1 ar trebui recunoscut ca fiind semnificativ (q 1 ¹0) din motive economice, în timp ce t 1 = 2,09 doar puțin mai puțin t kp = 2,11.

Din ecuația de regresie rezultă că o creștere pe unitate a numărului de tractoare la 100 de hectare de teren arabil (cu o valoare fixă X(4)) conduce la o creștere a randamentelor de cereale cu o medie de 0,345 c/ha.

Un calcul aproximativ al coeficienților de elasticitate e 1 „0,068 și e 2” 0,161 arată că cu o creștere a indicatorilor X(1) și X(4) cu 1%, randamentul cerealelor crește în medie cu 0,068%, respectiv 0,161%.

Coeficientul multiplu de determinare indică faptul că doar 46,9% din variația randamentului este explicată de indicatorii incluși în model ( X(1) și X(4)), adică saturarea producției vegetale cu tractoare și îngrășăminte. Restul variației se datorează acțiunii unor factori necontabiliați ( X (2) , X (3) , X(5), condițiile meteorologice etc.). Eroarea medie de aproximare relativă caracterizează adecvarea modelului, precum și valoarea varianței reziduale. La interpretarea ecuației de regresie, sunt de interes valorile erorilor relative de aproximare . Reamintim că - valoarea modelului indicatorului efectiv caracterizează valoarea medie a productivității pentru totalitatea zonelor luate în considerare, cu condiția ca valorile variabilelor explicative X(1) și X(4) fixat la același nivel și anume X (1) = x i(1) și X (4) = x i(4) . Apoi, pentru valorile lui d i randamentele pot fi comparate. Zone care corespund valorilor d i>0, au un randament peste medie și d i<0 - ниже среднего.

În exemplul nostru, producția de culturi este cea mai eficientă în zona corespunzătoare lui d 7 \u003d 28%, unde randamentul este cu 28% mai mare decât media pentru regiune și cel mai puțin eficient - în zona cu d 20 =-27,3%.


Sarcini și exerciții

2.1. Din populația generală ( y, X (1) , ..., X(p)), unde y are o lege de distribuție normală cu așteptări matematice condiționate și varianță s 2 , un eșantion aleatoriu de volum n, lăsați-l să plece ( y eu, x i (1) , ..., x i(p)) - rezultat i a-a observație ( i=1, 2, ..., n). Determinați: a) așteptarea matematică a estimării celor mai mici pătrate ale vectorului q; b) matricea de covarianță a estimării celor mai mici pătrate ale vectorului q; c) așteptarea matematică a devizului.

2.2. Conform condiției problemei 2.1, găsiți așteptarea matematică a sumei abaterilor pătrate datorate regresiei, i.e. EQ R, Unde

.

2.3. Conform condiției problemei 2.1, se determină așteptarea matematică a sumei abaterilor pătrate datorate variației reziduale în raport cu dreptele de regresie, i.e. EQ ost unde

2.4. Demonstrați că sub ipoteza Н 0: q=0 statisticile

are o distribuție F cu grade de libertate n 1 =p+1 și n 2 =n-p-1.

2.5. Demonstrați că atunci când ipoteza H 0: q j =0 este îndeplinită, statistica are o distribuție t cu numărul de grade de libertate n=n-p-1.

2.6. Pe baza datelor (Tabelul 2.3) privind dependența de contracția pâinii furajere ( y) cu privire la durata depozitării ( X) găsiți o estimare punctuală a așteptării matematice condiționate în ipoteza că ecuația de regresie generală este liniară.

Tabelul 2.3.

Este necesar: a) să se găsească estimări și varianță reziduală s 2 sub ipoteza că ecuația de regresie generală are forma ; b) verificați pentru a=0,05 semnificația ecuației de regresie, i.e. ipoteza H 0: q=0; c) cu fiabilitate g=0,9 se determină estimările de interval ale parametrilor q 0 , q 1 ; d) cu fiabilitatea g=0,95 se determină intervalul estimat al așteptării matematice condiționate pentru X 0=6; e) determinați la g=0,95 intervalul de încredere al predicției la punctul X=12.

2.7. Pe baza datelor privind dinamica ritmului de creștere a prețului acțiunilor pe 5 luni, prezentate în tabel. 2.4.

Tabelul 2.4.

luni ( X)
y (%)

iar în ipoteza că ecuaţia de regresie generală are forma , se cere: a) să se determine estimările şi parametrii ecuaţiei de regresie şi varianţa reziduală s 2 ; b) se verifică la a=0,01 semnificația coeficientului de regresie, i.e. ipotezele H 0: q 1 =0;

c) cu fiabilitatea g=0,95 găsiți estimări de interval ale parametrilor q 0 și q 1 ; d) cu fiabilitatea g = 0,9, stabiliți o estimare pe intervale a așteptărilor matematice condiționate pentru X 0=4; e) determinați la g=0,9 intervalul de încredere al predicției la punctul X=5.

2.8. Rezultatele studiului dinamicii creșterii în greutate la animalele tinere sunt prezentate în Tabelul 2.5.

Tabelul 2.5.

Presupunând că ecuația generală de regresie este liniară, se cere: a) să se determine estimări și parametri ai ecuației de regresie și a varianței reziduale s 2 ; b) verificați pentru a=0,05 semnificația ecuației de regresie, i.e. ipotezele H 0: q=0;

c) cu fiabilitatea g=0,8 găsiți estimări de interval ale parametrilor q 0 și q 1 ; d) cu fiabilitate g=0,98 determinați și comparați estimările de interval ale așteptării matematice condiționate pentru X 0 =3 și X 1 =6;

e) determinați la g=0,98 intervalul de încredere al predicției la punctul X=8.

2.9. Pretul ( y) un exemplar al cărții, în funcție de tiraj ( X) (mii de exemplare) se caracterizează prin datele culese de editură (Tabelul 2.6). Determinați estimările celor mai mici pătrate și parametrii ecuației de regresie hiperbolice , cu fiabilitatea g=0,9 construiți intervale de încredere pentru parametrii q 0 și q 1 , precum și așteptările matematice condiționate la X=10.

Tabelul 2.6.

Determinați estimări și parametri ai ecuației de regresie a tipului X=20.

2.11. În tabel. 2,8 au raportat rate de creștere (%) ale următorilor indicatori macroeconomici n\u003d 10 țări dezvoltate ale lumii pentru 1992: PNB - X(1) , producție industrială - X(2) , indicele prețurilor - X (3) .

Tabelul 2.8.

Țări x și parametrii ecuației de regresie, estimarea varianței reziduale; b) se verifică la a=0,05 semnificația coeficientului de regresie, adică. H0: q1 =0; c) cu fiabilitatea g=0,9 găsiți estimările de interval q 0 și q 1 ; d) găsiți la g=0,95 intervalul de încredere pentru la punctul X 0 =x i, Unde i=5; e) comparați caracteristicile statistice ale ecuațiilor de regresie: 1, 2 și 3.

2.12. Rezolvați problema 2.11, luând în considerare valoarea de explicat ( la) index X(1) , iar pentru motive explicative ( X) variabil X (3) .

1. Ayvazyan S.A., Mkhitaryan V.S. Statistica Aplicată și Fundamentele Econometriei: Manual. M., UNITI, 1998 (ediția a II-a 2001);

2. Ayvazyan S.A., Mkhitaryan V.S. Statistica aplicată în probleme și exerciții: manual. M. UNITATE - DANA, 2001;

3. Aivazyan S.A., Enyukov I.S., Meshalkin L.D. Statistici aplicate. Cercetarea dependenței. M., Finanţe şi statistică, 1985, 487p.;

4. Aivazyan S.A., Buchstaber V.M., Enyukov I.S., Meshalkin L.D. Statistici aplicate. Clasificare și reducerea dimensionalității. M., Finanţe şi statistică, 1989, 607p.;

5. Johnston J. Econometric Methods, Moscova: Statistică, 1980, 446 p.;

6. Dubrov A.V., Mkhitaryan V.S., Troshin L.I. Metode statistice multivariate. M., Finanţe şi statistică, 2000;

7. Mkhitaryan V.S., Troshin L.I. Cercetarea dependențelor prin metode de corelare și regresie. M., MESI, 1995, 120 p.;

8. Mkhitaryan V.S., Dubrov A.M., Troshin L.I. Metode statistice multidimensionale în economie. M., MESI, 1995, 149p.;

9. Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Statistici matematice pentru oameni de afaceri și manageri. M., MESI, 2000, 140s.;

10. Lukashin Yu.I. Metode de regresie și previziune adaptivă: Manual, M., MESI, 1997.

11. Lukashin Yu.I. Metode adaptative de prognoză pe termen scurt. - M., Statistică, 1979.


APLICAȚII


Anexa 1. Opțiuni pentru sarcini pentru cercetare independentă pe computer.

CATEGORII

ARTICOLE POPULARE

2023 "kingad.ru" - examinarea cu ultrasunete a organelor umane