Construiți o matrice de coeficienți de corelație de pereche. Verificați multicoliniaritatea

Datele economice reprezintă caracteristicile cantitative ale oricăror obiecte sau procese economice. Ele se formează sub influența multor factori, nu toți fiind accesibili controlului extern. Factorii necontrolați pot prelua valori aleatorii dintr-un set de valori și, prin urmare, pot face ca datele pe care le definesc să fie aleatorii. Una dintre sarcinile principale în cercetarea economică este analiza dependenţelor dintre variabile.

Când luăm în considerare dependențele dintre caracteristici, este necesar să distingem, în primul rând, două tipuri de conexiuni:

  • functional - sunt caracterizate prin corespondența completă între modificarea caracteristicii factorului și modificarea valorii rezultate: Fiecare valoare a unei caracteristici de factor corespunde unor valori foarte specifice ale caracteristicii rezultate. Acest tip de relație este exprimat ca o relație formulă. Dependența funcțională poate conecta o caracteristică eficientă cu una sau mai multe caracteristici factoriale. Astfel, valoarea salariilor pentru salariile bazate pe timp depinde de numărul de ore lucrate;
  • corelațională- nu există o corespondență completă între modificarea a două semne; impactul factorilor individuali se manifestă doar în medie, cu observarea în masă a datelor reale. Impactul simultan asupra trăsăturii studiate a unui număr mare de factori diferiți duce la faptul că una și aceeași valoare a unei caracteristici a factorului corespunde unei întregi distribuții a valorilor caracteristicii rezultate, deoarece în fiecare caz specific alte caracteristici ale factorilor pot schimba puterea și direcția impactului lor.

Trebuie avut în vedere că, dacă există o relație funcțională între caracteristici, este posibil, cunoscând valoarea caracteristicii factorului, să se determine cu exactitate valoarea semnului rezultant. Numai în prezența unei dependențe de corelare tendința de modificare a caracteristicii rezultate când se modifică valoarea caracteristicii factorului.

Când se studiază relațiile dintre semne, acestea sunt clasificate în funcție de direcție, formă, număr de factori:

  • către conexiunile sunt împărțite în DreptȘi verso. Cu o conexiune directă, direcția de schimbare a caracteristicii rezultate coincide cu direcția de schimbare a caracteristicii factorului. Cu feedback, direcția de schimbare a caracteristicii rezultate este opusă direcției de schimbare a caracteristicii factorului. De exemplu, cu cât sunt mai mari calificările muncitorului, cu atât este mai mare nivelul de productivitate al muncii acestuia (relație directă). Cu cât productivitatea muncii este mai mare, cu atât costul pe unitatea de producție este mai mic (feedback);
  • după formă(tip de funcție) conexiunile sunt împărțite în liniar(linie dreaptă) și neliniară(curbiliniu). O relație liniară este reprezentată printr-o linie dreaptă, o relație neliniară printr-o curbă (parabolă, hiperbolă etc.). Într-o relație liniară, cu creșterea valorii unei caracteristici factoriale, are loc o creștere (scădere) uniformă a valorii caracteristicii rezultate;
  • prin numărul de factori care acționează asupra caracteristicii efective, conexiunile sunt împărțite în cu un singur factor(pereche) și multifactorială.

Studiul dependenței variației trăsăturilor de condițiile de mediu este conținutul teoriei corelației.

Atunci când se efectuează analiza corelației, întregul set de date este considerat ca un set de variabile (factori), fiecare dintre ele conține P observatii.

Când se studiază relația dintre doi factori, aceștia sunt de obicei desemnați X=(x p x 2,...,x n)Și Y= (y ( , y 2 ,..., y și).

Covarianta - asta este statistic măsura interacțiunii două variabile. De exemplu, o valoare pozitivă pentru covarianța randamentelor a două titluri indică faptul că randamentele acestor titluri tind să se miște într-o direcție.

Covarianța între două variabile XȘi Y calculat după cum urmează:

unde sunt valorile reale ale variabilelor

XȘi G;

Dacă variabile aleatorii Chi Y independent, covarianța teoretică este zero.

Covarianța depinde de unitățile în care sunt măsurate variabilele Hee Y, este o cantitate nestandardizată. Prin urmare, la măsură puterea conexiunii o altă statistică numită coeficient de corelație este utilizată între două variabile.

Pentru două variabile XȘi Coeficientul de corelație al perechii Y

este definită după cum urmează:

Unde Ssy- estimări ale variațiilor cantităților Hee Y. Aceste estimări caracterizează gradul de împrăștiere valorile x (, x 2, ..., x n (y 1, y 2, y n)în jurul mediei dvs X y respectiv), sau variabilitate(variabilitatea) acestor variabile pe un set de observații.

Dispersia(estimarea varianței) este determinată de formula

În general, pentru a obține o estimare imparțială a varianței, suma pătratelor trebuie împărțită la numărul de grade de libertate ale estimării. (etc), Unde P - marime de mostra, R - numărul de conexiuni suprapuse pe eșantion. Deoarece eșantionul a fost deja folosit o dată pentru a determina media X, atunci numărul conexiunilor suprapuse în acest caz este egal cu unul (p = 1), iar numărul de grade de libertate al estimării (adică numărul de elemente independente ale eșantionului) este egal cu (P - 1).

Este mai natural să se măsoare gradul de dispersie a valorilor variabilelor în aceleași unități în care este măsurată variabila în sine. Această problemă este rezolvată de un indicator numit deviație standard (deviație standard) sau eroare standard variabil X(variabil Y)și determinat de relație

Termenii din numărătorul formulei (3.2.1) exprimă interacțiunea a două variabile și determină semnul corelației (pozitiv sau negativ). Dacă, de exemplu, există o relație puternică pozitivă între variabile (o creștere a unei variabile în timp ce cealaltă crește), fiecare termen va fi un număr pozitiv. De asemenea, dacă există o relație negativă puternică între variabile, toți termenii din numărător vor fi numere negative, rezultând o valoare de corelație negativă.

Numitorul expresiei pentru coeficientul de corelație perechi [vezi formula (3.2.2)] pur și simplu normalizează numărătorul în așa fel încât coeficientul de corelație se dovedește a fi un număr ușor de interpretat fără dimensiune și ia valori de la -1 la +1.

Numătorul expresiei pentru coeficientul de corelație, care este greu de interpretat din cauza unităților de măsură neobișnuite, este covarianta HiU.În ciuda faptului că uneori este folosită ca o caracteristică independentă (de exemplu, în teoria finanțelor pentru a descrie modificarea comună a prețurilor acțiunilor pe două burse), este mai convenabil să se utilizeze coeficientul de corelație. Corelația și covarianța reprezintă în esență aceeași informație, dar corelația reprezintă această informație într-o formă mai utilă.

Pentru evaluarea calitativă a coeficientului de corelație se folosesc diverse scale, cel mai adesea scala Chaddock. În funcție de valoarea coeficientului de corelație, relația poate avea una dintre următoarele evaluări:

  • 0,1-0,3 - slab;
  • 0,3-0,5 - vizibil;
  • 0,5-0,7 - moderată;
  • 0,7-0,9 - mare;
  • 0,9-1,0 - foarte mare.

Evaluarea gradului de apropiere a unei conexiuni folosind coeficientul de corelare se realizează, de regulă, pe baza unor informații mai mult sau mai puțin limitate despre fenomenul studiat. În acest sens, este necesar să se evalueze semnificația coeficientului de corelație liniară, care face posibilă extinderea concluziilor bazate pe rezultatele eșantionului la populația generală.

Evaluarea semnificației coeficientului de corelație pentru dimensiunile mici ale eșantionului se realizează folosind testul Student 7. În acest caz, valoarea reală (observată) a acestui criteriu este determinată de formulă

Valoarea / obs calculată folosind această formulă este comparată cu valoarea critică a criteriului 7, care este preluată din tabelul cu valorile /-testului Student (vezi Anexa 2) ținând cont de nivelul de semnificație dat oc și numărul de grade de libertate (P - 2).

Dacă 7 obs > 7 tab-uri, atunci valoarea rezultată a coeficientului de corelație este considerată semnificativă (adică ipoteza nulă care afirmă că coeficientul de corelație este egal cu zero este respinsă). Și astfel se ajunge la concluzia că există o relație statistică strânsă între variabilele studiate.

Dacă valoarea g y x aproape de zero, relația dintre variabile este slabă. Dacă corelația dintre variabile aleatoare:

  • pozitiv, apoi pe măsură ce o variabilă aleatoare crește, cealaltă tinde să crească în medie;
  • negativ, apoi pe măsură ce o variabilă aleatoare crește, cealaltă tinde să scadă în medie. Un instrument grafic convenabil pentru analiza datelor asociate este diagramă de dispersie, care reprezintă fiecare observație într-un spațiu de două dimensiuni corespunzătoare a doi factori. Se mai numește un grafic de dispersie, care descrie un set de valori a două caracteristici câmpul de corelare. Fiecare punct din această diagramă are coordonatele x (. și y g Pe măsură ce puterea relației liniare crește, punctele de pe grafic se vor afla mai aproape de linia dreaptă și de mărimea G va fi mai aproape de unitate.

Coeficienții de corelație perechi sunt utilizați pentru a măsura puterea relațiilor liniare dintre diferite perechi de caracteristici dintr-un set de ele. Pentru multe caracteristici se obține matricea coeficienților de corelație de pereche.

Fie ca întregul set de date să fie format dintr-o variabilă Y = =(y p y 2, ..., y p)Și T variabile (factori) X, fiecare dintre ele conţine P observatii. Valori variabile YȘi X, cuprinse în populația observată sunt înregistrate într-un tabel (Tabelul 3.2.1).

Tabelul 3.2.1

Variabil

Număr

observatii

X TZ

X tp

Pe baza datelor din acest tabel, calculați matricea coeficienților de corelație de pereche R, este simetric față de diagonala principală:


Analiza matricei coeficienților de corelație de perechi este utilizată la construirea modelelor de regresie multiple.

O matrice de corelație nu poate descrie complet dependențele dintre cantități. În acest sens, analiza corelației multivariate are în vedere două sarcini:

  • 1. Determinarea relației strânse a unei variabile aleatoare cu totalitatea altor variabile incluse în analiză.
  • 2. Determinarea gradului de apropiere a legăturii dintre două mărimi cu fixarea sau excluderea influenței altor mărimi.

Aceste probleme sunt rezolvate folosind coeficienți de corelație multipli și, respectiv, parțial.

Rezolvarea primei probleme (determinarea relației strânse a unei variabile aleatoare cu totalitatea celorlalte variabile incluse în analiză) se realizează folosind eșantionează coeficientul de corelație multiplă conform formulei

Unde R- R[cm. formula (3.2.6)]; Rjj- complement algebric al unui element din aceeași matrice R.

Coeficient de corelație multiplă pătrat SCHj 2 j _j J+l m numit de obicei coeficient multiplu de determinare a probei; arată ce proporție a variației (distribuirea aleatorie) a valorii studiate Xj explică variația variabilelor aleatoare rămase X ( , X 2 ,..., X t.

Coeficienții de corelare și determinare multiplă sunt cantități pozitive, luând valori în intervalul de la 0 la 1. La aproximarea coeficientului R 2 la unitate, putem concluziona că relația dintre variabilele aleatoare este apropiată, dar nu despre direcția acesteia. Coeficientul de corelație multiplă poate crește doar dacă sunt incluse variabile suplimentare în model și nu va crește dacă oricare dintre caracteristicile existente este exclusă.

Verificarea semnificației coeficientului de determinare se realizează prin compararea valorii calculate a criteriului /' al lui Fisher

cu tabelar F rabl. Valoarea tabelară a criteriului (vezi Anexa 1) este determinată de nivelul de semnificație dat a și gradele de libertate v l = mnv 2 = n-m-l. Coeficient R 2 este semnificativ diferit de zero dacă inegalitatea este valabilă

Dacă variabilele aleatoare luate în considerare se corelează între ele atunci valoarea coeficientului de corelație de pereche este parțial afectată de influența altor mărimi. În acest sens, este necesar să se studieze corelația parțială dintre cantități excluzând influența altor variabile aleatoare (una sau mai multe).

Eșantion de coeficient de corelație parțială determinat de formula

Unde R Jk , Rjj, R kk - adunări algebrice la elementele matricei corespunzătoare R[cm. formula (3.2.6)].

Coeficientul de corelație parțială, precum și coeficientul de corelație de pereche, variază de la -1 la +1.

Expresia (3.2.9) supusă t = 3 va arăta ca

Se numește coeficientul r 12(3). coeficient de corelație între x (Și x 2 pentru fix x y Este simetric față de indicii primari 1, 2. Indicele său secundar 3 se referă la o variabilă fixă.

Exemplul 3.2.1. Calculul coeficienților de pereche,

corelație multiplă și parțială.

În tabel 3.2.2 furnizează informații despre volumele vânzărilor și costurile de publicitate ale unei companii, precum și indicele cheltuielilor consumatorilor pentru un număr de ani în curs.

  • 1. Construiți o diagramă de dispersie (câmp de corelare) pentru variabilele „volumul vânzărilor” și „indicele cheltuielilor consumatorului”.
  • 2. Determinați gradul de influență a indicelui de cheltuieli ale consumatorilor asupra volumului vânzărilor (calculați coeficientul de corelație de pereche).
  • 3. Evaluați semnificația coeficientului de corelație de pereche calculat.
  • 4. Construiți o matrice de coeficienți de corelație perechi pentru trei variabile.
  • 5. Găsiți o estimare a coeficientului de corelație multiplă.
  • 6. Găsiți estimări ale coeficienților de corelație parțială.

1. În exemplul nostru, diagrama de dispersie are forma prezentată în Fig. 3.2.1. Alungirea norului de puncte de pe diagrama de împrăștiere de-a lungul liniei înclinate ne permite să presupunem că există o tendință obiectivă pentru o relație liniară directă între valorile variabilelor X 2 Y(volumul vânzărilor).

Orez. 3.2.1.

2. Calcule intermediare la calculul coeficientului de corelație între variabile X 2(Indicele cheltuielilor de consum) și Y(volumul vânzărilor) sunt date în tabel. 3.2.3.

Valori medii variabile aleatoare X 2Și Y, care sunt cei mai simpli indicatori care caracterizează secvențele jCj, x 2,..., x 16 și y v y 2 ,..., y 16, se calculează folosind următoarele formule:


Volumul vânzărilor Y, mii de ruble.

Index

a consuma

telsky

cheltuieli

Volumul vânzărilor Y, mii de ruble.

Index

a consuma

telsky

cheltuieli

Tabelul 3.2.3

l:, - X

(ȘI - U)(x, - x)

(x, - x) 2

(y, - - y) 2

Dispersia caracterizează gradul de răspândire a valorilor x v x 2,x:

Să luăm acum în considerare soluția exemplului 3.2.1 în Excel.

Pentru a calcula corelația folosind Excel, puteți utiliza funcția =correl(), specificând adresele a două coloane de numere, așa cum se arată în Fig. 3.2.2. Răspunsul este plasat în D8 și este egal cu 0,816.

Orez. 3.2.2.

(Notă: argumentele funcției corelele trebuie să fie numere sau nume, matrice sau referințe care conțin numere. Dacă argumentul, care este o matrice sau o referință, conține text, valori booleene sau celule goale, atunci astfel de valori sunt ignorate; cu toate acestea, celulele care conțin valori zero sunt numărate.

Dacă matrice! și array2 au un număr diferit de puncte de date, apoi funcția correl returnează valoarea de eroare #n/a.

Dacă array1 sau array2 este goală sau dacă o (deviația standard) a valorilor lor este zero, atunci funcția corel returnează valoarea de eroare #div/0!.)

Valoarea critică a statisticii t a lui Student poate fi obținută și folosind funcția studistribuție a 1 pachet Excel. Ca argumente ale funcției, trebuie să specificați numărul de grade de libertate egal cu P- 2 (în exemplul nostru 16 - 2= 14) și nivelul de semnificație a (în exemplul nostru a = 0,1) (Fig. 3.2.3). Dacă valoarea reală/-statisticile luate modulo este mai mare critic, atunci cu probabilitatea (1 - a) coeficientul de corelare este semnificativ diferit de zero.


Orez. 3.2.3. Valoarea critică a statisticii / este 1,7613

Excel include un set de instrumente de analiză a datelor (așa-numitul pachet de analiză) concepute pentru a rezolva diverse probleme statistice. Pentru a calcula matricea coeficienților de corelație de pereche R ar trebui să utilizați instrumentul de corelare (Fig. 3.2.4) și să setați parametrii de analiză în caseta de dialog corespunzătoare. Răspunsul va fi plasat pe o nouă foaie de lucru (Fig. 3.2.5).

1 În Excel 2010, numele funcției studrasprobr schimbat în stu-

DENT.OBR.2X.

Orez. 3.2.4.


Orez. 3.2.5.

  • Fondatorii teoriei corelației sunt considerați a fi statisticienii englezi F. Galton (1822-1911) și K. Pearson (1857-1936). Termenul „corelație” a fost împrumutat din știința naturii și înseamnă „corelație, corespondență”. Ideea corelației ca interdependență între variabile aleatoare stă la baza teoriei matematico-statistice a corelației.

Sarcina 2

1. Construiți o matrice de coeficienți de corelație de perechi. Verificați multicoliniaritatea. Justificați selecția factorilor din model.

2. Construiți o ecuație de regresie multiplă în formă liniară cu factori selectați.

3. Evaluați semnificația statistică a ecuației de regresie și a parametrilor acesteia folosind testele Fisher și Student.

4. Construiți o ecuație de regresie cu factori semnificativi statistic. Evaluați calitatea ecuației de regresie folosind coeficientul de determinare R2. Evaluați acuratețea modelului construit.

5. Evaluați prognoza volumului producției dacă valorile prognozate ale factorilor sunt de 75% din valorile maxime ale acestora.

Condiții de problemă (opțiunea 21)

Conform datelor prezentate în Tabelul 1 (n = 17), se studiază dependența volumului producției Y (milioane de ruble) de următorii factori (variabile):

X 1 – număr personal de producție industrială, persoane.

X 2 – costul mediu anual al mijloacelor fixe, milioane de ruble.

X 3 – amortizarea mijloacelor fixe, %

X 4 – alimentare, kWh.

X 5 – echipament tehnic al unui muncitor, milion de ruble.

X 6 – producția de produse comercializabile per muncitor, frec.

Tabel 1. Date despre lansarea produsului

Y X 1 X 2 X 3 X 4 X 5 X 6
39,5 4,9 3,2
46,4 60,5 20,4
43,7 24,9 9,5
35,7 50,4 34,7
41,8 5,1 17,9
49,8 35,9 12,1
44,1 48,1 18,9
48,1 69,5 12,2
47,6 31,9 8,1
58,6 139,4 29,7
70,4 16,9 5,3
37,5 17,8 5,6
62,0 27,6 12,3
34,4 13,9 3,2
35,4 37,3 19,0
40,8 55,3 19,3
48,1 35,1 12,4


Construiți o matrice de coeficienți de corelație de pereche. Verificați multicoliniaritatea. Justificați selecția factorilor din model

Tabelul 2 arată matricea coeficientului de corelație de pereche pentru toate variabilele implicate în considerare. Matricea a fost obținută cu ajutorul instrumentului Corelație din pachet Analiza datelor V Excela.

Tabelul 2. Matricea coeficienților de corelație perechi

Y X1 X2 X3 X4 X5 X6
Y
X1 0,995634
X2 0,996949 0,994947
X3 -0,25446 -0,27074 -0,26264
X4 0,12291 0,07251 0,107572 0,248622
X5 0,222946 0,166919 0,219914 -0,07573 0,671386
X6 0,067685 -0,00273 0,041955 -0,28755 0,366382 0,600899

Analiza vizuală a matricei vă permite să stabiliți:

1) U are corelații în perechi destul de mari cu variabilele X1, X2 (>0,5) și scăzut cu variabile X3,X4,X5,X6 (<0,5);

2) Variabilele de analiză X1, X2 demonstrează corelații perechi destul de mari, ceea ce necesită verificarea factorilor pentru prezența multicoliniarității între ele. Mai mult, una dintre condițiile modelului clasic de regresie este ipoteza independenței variabilelor explicative.

Pentru a identifica multicoliniaritatea factorilor, efectuăm Testul Farrar-Glouber de factorii X1, X2, X3,X4,X5,X6.

Verificarea testului Farrar-Glouber pentru multicoliniaritatea factorilor include mai multe etape.

1) Verificarea multicoliniarității întregii matrice de variabile .

Una dintre condiţiile modelului clasic de regresie este ipoteza independenţei variabilelor explicative. Pentru a identifica multicoliniaritatea între factori, matricea corelațiilor interfactorilor R este calculată utilizând pachetul de analiză a datelor (Tabelul 3).

Tabelul 3. Matricea corelațiilor interfactorilor R

X1 X2 X3 X4 X5 X6
X1 0,994947 -0,27074 0,07251 0,166919 -0,00273
X2 0,994947 -0,26264 0,107572 0,219914 0,041955
X3 -0,27074 -0,26264 0,248622 -0,07573 -0,28755
X4 0,07251 0,107572 0,248622 0,671386 0,366382
X5 0,166919 0,219914 -0,07573 0,671386 0,600899
X6 -0,00273 0,041955 -0,28755 0,366382 0,600899

Există o dependență puternică (>0,5) între factorii X1 și X2, X5 și X4, X6 și X5.

Determinantul det (R) = 0,001488 este calculat folosind funcția MOPRED. Determinantul matricei R tinde spre zero, ceea ce ne permite să facem o ipoteză despre multicoliniaritatea generală a factorilor.

2) Verificarea multicoliniarității fiecărei variabile cu alte variabile:

· Să calculăm matricea inversă R -1 folosind funcția Excel MOBR (Tabelul 4):

Tabelul 4. Matricea inversă R -1

X1 X2 X3 X4 X5 X6
X1 150,1209 -149,95 3,415228 -1,70527 6,775768 4,236465
X2 -149,95 150,9583 -3,00988 1,591549 -7,10952 -3,91954
X3 3,415228 -3,00988 1,541199 -0,76909 0,325241 0,665121
X4 -1,70527 1,591549 -0,76909 2,218969 -1,4854 -0,213
X5 6,775768 -7,10952 0,325241 -1,4854 2,943718 -0,81434
X6 4,236465 -3,91954 0,665121 -0,213 -0,81434 1,934647

· Calculul criteriilor F, unde sunt elementele diagonale ale matricei, n=17, k = 6 (Tabelul 5).

Tabelul 5. Valori F-test

F1 (X1) F2 (X2) F3 (X3) F4 (X4) F5 (X5) F6 (X6)
89,29396 89,79536 0,324071 0,729921 1,163903 0,559669

· Valorile reale ale testului F sunt comparate cu valoarea tabelului Tabelul F = 3,21(FDIST(0,05;6;10)) cu n1= 6 și n2 = n - k – 1=17-6-1=10 grade de libertate și nivelul de semnificație α=0,05, unde k este numărul de factori.

· Valorile criteriilor F pentru factorii X1 și X2 sunt mai mari decât cele tabulate, ceea ce indică prezența multicoliniarității între acești factori. Factorul X3 are cel mai mic efect asupra multicoliniarității generale a factorilor.

3) Verificarea multicoliniarității fiecărei perechi de variabile

· Să calculăm coeficienții de corelație parțială folosind formula , unde sunt elementele matricei (Tabelul 6)

Tabelul 6. Matricea coeficienților de corelație parțială

X1 X2 X3 X4 X5 X6
X1
X2 0,996086
X3 -0,22453 0,197329
X4 0,093432 -0,08696 0,415882
X5 -0,32232 0,337259 -0,1527 0,581191
X6 -0,24859 0,229354 -0,38519 0,102801 0,341239

· Calcul t-criterii conform formulei (Tabelul 7)

n - numărul de date = 17

K - numărul de factori = 6

Tabelul 7.t-teste pentru coeficienții de corelație parțială

X1 X2 X3 X4 X5 X6
X1
X2 35,6355
X3 -0,72862 0,636526
X4 0,296756 -0,27604 1,446126
X5 -1,07674 1,13288 -0,4886 2,258495
X6 -0,81158 0,745143 -1,31991 0,326817 1,147999

t tabel = STUDARSOBR(0,05,10) = 2,23

Valorile reale ale testelor t sunt comparate cu valoarea tabelului cu grade de libertate n-k-1 = 17-6-1=10 și nivelul de semnificație α=0,05;

t21 > ttable

t54 > ttable

Din tabelele 6 și 7 reiese clar că două perechi de factori X1 și X2, X4 și X5 au o corelație parțială semnificativă statistic ridicată, adică sunt multicoliniari. Pentru a scăpa de multicoliniaritate, puteți exclude una dintre variabilele perechii coliniare. În perechea X1 și X2 lăsăm X2, în perechea X4 și X5 lăsăm X5.

Astfel, ca urmare a verificării testului Farrar-Glouber, rămân următorii factori: X2, X3, X5, X6.

La finalizarea procedurilor de analiză a corelației, este recomandabil să se analizeze corelațiile parțiale ale factorilor selectați cu rezultatul Y.

Să construim o matrice de coeficienți de corelație perechi pe baza datelor din tabelul 8.

Tabelul 8. Date de ieșire a produsului cu factori selectați X2, X3, X5, X6.

Observația nr. Y X 2 X 3 X 5 X 6
39,5 3,2
46,4 20,4
43,7 9,5
35,7 34,7
41,8 17,9
49,8 12,1
44,1 18,9
48,1 12,2
47,6 8,1
58,6 29,7
70,4 5,3
37,5 5,6
12,3
34,4 3,2
35,4
40,8 19,3
48,1 12,4

Ultima coloană a tabelului 9 prezintă valorile testului t pentru coloana Y.

Tabelul 9. Matricea coeficienților de corelație parțială cu rezultatul Y

Y X2 X3 X5 X6 criteriul t (tabelul t (0,05;11)= 2,200985
Y 0,996949 -0,25446 0,222946 0,067685
X2 0,996949 -0,26264 0,219914 0,041955 44,31676
X3 -0,25446 -0,26264 -0,07573 -0,28755 0,916144
X5 0,222946 0,219914 -0,07573 0,600899 -0,88721
X6 0,067685 0,041955 -0,28755 0,600899 1,645749

Din Tabelul 9 este clar că variabila Y are o corelație parțială ridicată și în același timp semnificativă statistic cu factorul X2.


Y X 1 X 2 X 3 X 4 X 5 X 6
Y
X 1 0,519
X 2 -0,273 0,030
X 3 0,610 0,813 -0,116
X 4 -0,572 -0,013 -0,022 -0,091
X 5 0,297 0,043 -0,461 0,120 -0,359
X 6 0,118 -0,366 -0,061 -0,329 -0,100 -0,290

Analiză interfactorială(între „X”!) coeficienții de corelație arată că valoarea de 0,8 depășește în valoare absolută doar coeficientul de corelaţie între o pereche de factori X 1 –X 3 (îngroșat). Factori X 1 –X 3 sunt astfel recunoscute ca fiind coliniare.

2. După cum se arată în paragraful 1, factorii X 1 –X 3 sunt coliniare, ceea ce înseamnă că sunt efectiv duplicate unul față de celălalt, iar includerea lor simultană în model va duce la interpretarea incorectă a coeficienților de regresie corespunzători. Este clar că factorul X 3 are o mai mare modulo coeficientul de corelare cu rezultatul Y decât factorul X 1: r y , X 1 =0,519; r y , X 3 = 0,610; (cm. masa 1). Aceasta indică o influență mai puternică a factorului X 3 pe schimbare Y. Factor X 1 este deci exclus din luare în considerare.

Pentru a construi o ecuație de regresie, valorile variabilelor utilizate ( Y,X 2 , X 3 , X 4 , X 5 , X 6) copiați într-o foaie de lucru goală ( adj. 3). Construim ecuația de regresie folosind programul de completare „ Analiza datelor... Regresie" (meniul " Serviciu"® « Analiza datelor…» ® « Regresia"). Panoul de analiză de regresie cu câmpuri completate este afișat în orez. 2.

Rezultatele analizei de regresie sunt date în adj. 4și s-a mutat la masa 2. Ecuația de regresie are forma (vezi „ Cote" V masa 2):

Ecuația de regresie este considerată semnificativă din punct de vedere statistic, deoarece probabilitatea formării ei aleatoare în forma în care a fost obținută este de 8,80 × 10 -6 (vezi. „Semnificație F” V masa 2), care este semnificativ mai mic decât nivelul de semnificație acceptat de a=0,05.

X 3 , X 4 , X 6 sub nivelul de semnificație acceptat a=0,05 (vezi „ Valoarea P" V masa 2), care indică semnificația statistică a coeficienților și influența semnificativă a acestor factori asupra modificării profitului anual Y.

Probabilitatea formării aleatorii a coeficienților pentru factori X 2 și X 5 depășește nivelul de semnificație acceptat a=0,05 (vezi „ Valoarea P" V masa 2), iar acești coeficienți nu sunt considerați semnificativi statistic.

orez. 2. Panou de analiză de regresie model Y(X 2 , X 3 , X 4 , X 5 , X 6)

masa 2

Y(X 2 , X 3 , X 4 , X 5 , X 6)

Statistici de regresie
Plural R 0,868
R-pătrat 0,753
R-pătrat normalizat 0,694
Eroare standard 242,3
Observatii
Analiza variatiei
df SS DOMNIȘOARĂ F Semnificația F
Regresia 3749838,2 749967,6 12,78 8.80E-06
Rest 1232466,8 58688,9
Total 4982305,0
Ecuația de regresie
Cote Eroare standard t-statistică Valoarea P
Intersecția în Y 487,5 641,4 0,760 0,456
X2 -0,0456 0,0373 -1,224 0,235
X3 0,1043 0,0194 5,375 0,00002
X4 -0,0965 0,0263 -3,674 0,001
X5 2,528 6,323 0,400 0,693
X6 248,2 113,0 2,197 0,039

3. Pe baza rezultatelor verificării semnificației statistice a coeficienților ecuației de regresie efectuată în paragraful anterior, construim un nou model de regresie care conține doar factori informativi, care includ:

· factori ai căror coeficienți sunt semnificativi statistic;

factori ai căror coeficienţi t-statistica depășește unul în valoare absolută (cu alte cuvinte, valoarea absolută a coeficientului este mai mare decât eroarea sa standard).

Primul grup include factori X 3 , X 4 , X 6, la al doilea - factor X 2. Factor X 5 este exclus din considerație ca neinformativă, iar modelul final de regresie va conține factori X 2 , X 3 , X 4 , X 6 .

Pentru a construi o ecuație de regresie, copiați valorile variabilelor utilizate într-o foaie de lucru goală ( adj. 5)și efectuați o analiză de regresie ( orez. 3). Rezultatele sale sunt date în adj. 6și s-a mutat la masa 3. Ecuația de regresie este:

(cm. " Cote" V masa 3).

orez. 3. Panou de analiză de regresie model Y(X 2 , X 3 , X 4 , X 6)

Tabelul 3

Rezultatele analizei de regresie a modelului Y(X 2 , X 3 , X 4 , X 6)

Statistici de regresie
Plural R 0,866
R-pătrat 0,751
R-pătrat normalizat 0,705
Eroare standard 237,6
Observatii
Analiza variatiei
df SS DOMNIȘOARĂ F Semnificația F
Regresia 3740456,2 935114,1 16,57 2.14E-06
Rest 1241848,7 56447,7
Total 4982305,0
Ecuația de regresie
Cote Eroare standard t-statistică Valoarea P
Intersecția în Y 712,2 303,0 2,351 0,028
X2 -0,0541 0,0300 -1,806 0,085
X3 0,1032 0,0188 5,476 0,00002
X4 -0,1017 0,0223 -4,560 0,00015
X6 227,5 98,5 2,310 0,031

Ecuația de regresie este semnificativă statistic: probabilitatea formării sale aleatoare este sub nivelul de semnificație acceptabil de a=0,05 (vezi „ Semnificația F" V masa 3).

Coeficienții factorilor sunt, de asemenea, considerați semnificativi statistic X 3 , X 4 , X 6: probabilitatea formării lor aleatoare este sub nivelul de semnificație acceptabil a=0,05 (vezi „ Valoarea P" V masa 3). Acest lucru indică un impact semnificativ al primelor anuale de asigurare X 3, suma anuală a plăților de asigurare X 4 și formele de proprietate X 6 pe modificarea profitului anual Y.

Coeficientul factorului X 2 (mărimea anuală a rezervelor de asigurare) nu este semnificativă statistic. Cu toate acestea, acest factor poate fi considerat încă informativ, deoarece t-statistica coeficientului său depăşeşte modulo unitate, deși concluzii suplimentare cu privire la factor X 2 trebuie tratat cu o oarecare prudență.

4. Să evaluăm calitatea și acuratețea ultimei ecuații de regresie folosind unele caracteristici statistice obținute în timpul analizei de regresie (vezi . « Statistici de regresie„V masa 3):

coeficient multiplu de determinare

arată că modelul de regresie explică 75,1% din variația profitului anual Y, iar această variație se datorează modificărilor factorilor incluși în modelul de regresie X 2 , X 3 , X 4 și X 6 ;

eroare standard de regresie

mii de ruble.

arată că valorile profitului anual prezise de ecuația de regresie Y diferă de valorile reale cu o medie de 237,6 mii de ruble.

Eroarea medie de aproximare relativă este determinată de formula aproximativă:

Unde mii de ruble. - profitul mediu anual (determinat folosind funcția încorporată „ IN MEDIE»; adj. 1).

E rel arată că valorile profitului anual prezise de ecuația de regresie Y diferă de valorile reale cu o medie de 26,7%. Modelul are o precizie nesatisfăcătoare (la - acuratețea modelului este mare, la - bun cu - satisfăcător, cu - nesatisfăcător).

5. Pentru interpretarea economică a coeficienților ecuației de regresie, tabelăm valorile medii și abaterile standard ale variabilelor din datele sursă ( masa 4) . Valorile medii au fost determinate folosind funcția încorporată " IN MEDIE", abateri standard - folosind funcția încorporată " DEVIAȚIE STANDARD" (cm. adj. 1).

Datele pentru 2011 sunt furnizate pentru teritoriile Districtului Federal de Sud al Federației Ruse

Teritoriile Districtului Federal

Produsul regional brut, miliarde de ruble, Y

Investiții în active fixe, miliarde de ruble, X1

1. Rep. Adygea

2. Rep. Daghestan

3. Rep. Inguşetia

4. Republica Kabardino-Balkariană

5. Rep. Kalmykia

6. Republica Karachay-Cerkess

7. Rep. Osetia de Nord Alania

8. Regiunea Krasnodar)

9. Regiunea Stavropol

10. Regiunea Astrahan.

11. Regiunea Volgograd.

12. Regiunea Rostov.

  • 1. Calculați matricea coeficienților de corelație perechi; evaluează semnificația statistică a coeficienților de corelație.
  • 2. Construiți un câmp de corelație între caracteristica efectivă și factorul cel mai strâns legat de aceasta.
  • 3. Calculați parametrii regresiei perechi liniare pentru fiecare factor X..
  • 4. Evaluați calitatea fiecărui model prin coeficientul de determinare, eroarea medie de aproximare și testul F Fisher. Alege cel mai bun model.

va fi de 80% din valoarea sa maximă. Prezentați grafic: valori reale și de model, puncte de prognoză.

  • 6. Folosind regresia multiplă pas cu pas (metoda de excludere sau metoda de includere), construiți un model de formare a prețului apartamentelor din cauza unor factori semnificativi. Oferiți o interpretare economică a coeficienților modelului de regresie.
  • 7. Evaluați calitatea modelului construit. S-a îmbunătățit calitatea modelului în comparație cu modelul cu un singur factor? Evaluați influența factorilor semnificativi asupra rezultatului folosind coeficienții de elasticitate, în - și -? coeficienți

Când rezolvăm această problemă, vom efectua calcule și vom construi grafice și diagrame folosind setările Excel Data Analysis.

1. Calculați matricea coeficienților de corelație perechi și evaluați semnificația statistică a coeficienților de corelație

În caseta de dialog Corelație, în câmpul Interval de intrare, introduceți intervalul de celule care conțin datele sursă. Deoarece am selectat și titlurile coloanelor, bifăm caseta de selectare Etichete din primul rând.

Am obtinut urmatoarele rezultate:

Tabelul 1.1 Matricea coeficienților de corelație perechi

Analiza matricei coeficienților de corelație perechi arată că variabila dependentă Y, adică produsul regional brut, are o relație mai strânsă cu X1 (investiția în capital fix). Coeficientul de corelație este 0,936. Aceasta înseamnă că 93,6% din variabila dependentă Y (produsul regional brut) depinde de indicatorul X1 (investiția în capital fix).

Vom determina semnificația statistică a coeficienților de corelație folosind testul t Student. Comparăm valoarea tabelului cu valorile calculate.

Să calculăm valoarea tabelului folosind funcția STUDISCOVER.

tabelul t = 0,129 cu un nivel de încredere de 0,9 și grade de libertate (n-2).

Factorul X1 este semnificativ statistic.

2. Să construim un câmp de corelație între atributul efectiv (produsul regional brut) și factorul cel mai strâns legat de acesta (investiția în capital fix)

Pentru a face acest lucru, vom folosi instrumentul Excel scatter plot.

Ca urmare, obținem un câmp de corelație pentru prețul produsului regional brut, miliarde de ruble. și investiții în active fixe, miliarde de ruble. (Figura 1.1.).

Figura 1.1

3. Calculați parametrii regresiei perechi liniare pentru fiecare factor X

Pentru a calcula parametrii regresiei liniare pe perechi, vom folosi instrumentul de regresie inclus în setarea Analiza datelor.

În caseta de dialog Regresie, în câmpul Interval de intrare Y, introduceți adresa intervalului de celule pe care o reprezintă variabila dependentă. În câmp

Intervalul de introducere X introducem adresa intervalului care conține valorile variabilelor independente. Să calculăm parametrii regresiei perechi pentru factorul X.

Pentru X1 am primit următoarele date prezentate în Tabelul 1.2:

Tabelul 1.2

Ecuația de regresie pentru dependența prețului produsului regional brut de investiția în capital fix are forma:

4. Să evaluăm calitatea fiecărui model prin coeficientul de determinare, eroarea medie de aproximare și testul F Fisher. Să stabilim care model este cel mai bun.

Am obținut coeficientul de determinare, eroarea medie de aproximare, ca urmare a calculelor efectuate la paragraful 3. Datele obținute sunt prezentate în următoarele tabele:

Date X1:

Tabelul 1.3a

Tabelul 1.4b

A) Coeficientul de determinare determină ce proporție din variația trăsăturii Y este luată în considerare în model și se datorează influenței factorului X asupra acestuia. Cu cât valoarea coeficientului de determinare este mai mare, cu atât este mai strânsă legătura dintre caracteristici în modelul matematic construit.

Excel se referă la R-pătrat.

Pe baza acestui criteriu, modelul cel mai adecvat este ecuația de regresie a dependenței prețului produsului regional brut de investiția în capital fix (X1).

B) Calculăm eroarea medie de aproximare folosind formula:

unde numărătorul este suma pătratelor abaterii valorilor calculate de la cele reale. În tabele se află în coloana SS, linia Remaining.

Calculăm prețul mediu al unui apartament în Excel folosind funcția MEDIE. = 24,18182 miliarde de ruble.

La efectuarea calculelor economice, un model este considerat suficient de precis dacă eroarea medie de aproximare este mai mică de 5%; modelul este considerat acceptabil dacă eroarea medie de aproximare este mai mică de 15%.

Conform acestui criteriu, cel mai adecvat este modelul matematic pentru ecuația de regresie a dependenței prețului produsului regional brut de investiția în capital fix (X1).

C) Testul F este utilizat pentru a testa semnificația modelului de regresie. Pentru a face acest lucru, se face și o comparație a valorilor critice (tabulare) ale testului Fisher F.

Valorile calculate sunt date în tabelele 1.4b (indicate prin litera F).

Vom calcula valoarea tabelară a testului F Fisher în Excel folosind funcția FDIST. Să luăm probabilitatea egală cu 0,05. Primit: = 4,75

Valorile calculate ale testului Fisher F pentru fiecare factor sunt comparabile cu valoarea tabelului:

71,02 > = 4,75 modelul este adecvat conform acestui criteriu.

După ce am analizat datele conform tuturor celor trei criterii, putem concluziona că cel mai bun model matematic este construit pentru factorul produs regional brut, care este descris de ecuația liniară

5. Pentru modelul selectat de dependență a prețului produsului regional brut

Vom prezice valoarea medie a indicatorului la un nivel de semnificație dacă valoarea prezisă a factorului este de 80% din valoarea sa maximă. Să o prezentăm grafic: valori reale și de model, puncte de prognoză.

Să calculăm valoarea prezisă a lui X; conform condiției, aceasta va fi de 80% din valoarea maximă.

Să calculăm X max în Excel folosind funcția MAX.

0,8 *52,8 = 42,24

Pentru a obține estimări predictive ale variabilei dependente, înlocuim valoarea obținută a variabilei independente în ecuația liniară:

5,07+2,14*42,24 = 304,55 miliarde de ruble.

Să determinăm intervalul de încredere al prognozei, care va avea următoarele limite:

Pentru a calcula intervalul de încredere pentru valoarea prezisă, calculăm abaterea de la linia de regresie.

Pentru un model de regresie pereche, valoarea abaterii este calculată:

acestea. valoarea erorii standard din tabelul 1.5a.

(Deoarece numărul de grade de libertate este egal cu unu, numitorul va fi egal cu n-2). prognoza regresiei perechilor de corelație

Pentru a calcula coeficientul, vom folosi funcția Excel STUDISCOVER, luăm probabilitatea egală cu 0,1, iar numărul de grade de libertate 38.

Calculăm valoarea folosind Excel și obținem 12294.


Să determinăm limitele superioare și inferioare ale intervalului.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

Astfel, valoarea prognozată = 304,55 mii dolari se va situa între limita inferioară egală cu 277,078 mii dolari. și o limită superioară egală cu 332,022 miliarde. Freca.

Valorile reale și de model, punctele de prognoză sunt prezentate grafic în Figura 1.2.


Figura 1.2

6. Folosind regresia multiplă pas cu pas (metoda eliminării), vom construi un model de formare a prețului produsului regional brut datorită unor factori semnificativi

Pentru a construi regresia multiplă, vom folosi funcția de regresie din Excel, incluzând toți factorii. Ca rezultat, obținem tabelele cu rezultate, din care avem nevoie de testul t al Studentului.

Tabelul 1.8a

Tabelul 1.8b

Tabelul 1.8c.

Primim un model ca:

Deoarece< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Să alegem cea mai mică valoare absolută a testului t al lui Student, este egală cu 8,427, o comparăm cu valoarea tabelului, pe care o calculăm în Excel, luăm nivelul de semnificație egal cu 0,10, numărul de grade de libertate n-m-1= 12-4=8: =1,8595

Deoarece 8.427>1.8595 modelul ar trebui considerat adecvat.

7. Pentru a evalua factorul semnificativ al modelului matematic rezultat, calculăm coeficienții de elasticitate și - coeficienții

Coeficientul de elasticitate arată cu ce procent se va modifica atributul efectiv atunci când atributul factorului se modifică cu 1%:

E X4 = 2,137 * (10,69/24,182) = 0,94%

Adică, cu o creștere a investiției în capital fix de 1%, costul crește în medie cu 0,94%.

Coeficientul arată în ce parte a abaterii standard se modifică valoarea medie a variabilei dependente cu o modificare a variabilei independente cu o abatere standard.

2,137* (14.736/33,632) = 0,936.

Datele despre abaterea standard sunt preluate din tabele obținute cu ajutorul instrumentului Statistică descriptivă.

Tabelul 1.11 Statistici descriptive (Y)

Tabelul 1.12 Statistici descriptive (X4)

Coeficientul determină ponderea influenței factorului în influența totală a tuturor factorilor:

Pentru a calcula coeficienții de corelație de perechi, calculăm matricea coeficienților de corelație de perechi în Excel utilizând instrumentul de corelare din setările Analiza datelor.

Tabelul 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Concluzie: Din calculele obținute, putem concluziona că atributul efectiv Y (produsul regional brut) are o dependență mare de factorul X1 (investiția în capital fix) (cu 100%).

Bibliografie

  • 1. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Econometrie. Curs pentru incepatori. Tutorial. a 2-a ed. - M.: Delo, 1998. - p. 69 - 74.
  • 2. Atelier de econometrie: Manual / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko și colab.2002. - p. 49 - 105.
  • 3. Dougherty K. Introducere în econometrie: Trad. din engleza - M.: INFRA-M, 1999. - XIV, p. 262 - 285.
  • 4. Ayvyzyan S.A., Mikhtiryan V.S. Matematică aplicată și fundamente ale econometriei. -1998., p. 115-147.
  • 5. Kremer N.Sh., Putko B.A. Econometrie. -2007. de la 175-251.
y X (1) X (2) X (3) X (4) X (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
X (1) 0.43 1.00 0.85 0.98 0.11 0.34
X (2) 0.37 0.85 1.00 0.88 0.03 0.46
X (3) 0.40 0.98 0.88 1.00 0.03 0.28
X (4) 0.58 0.11 0.03 0.03 1.00 0.57
X (5) 0.33 0.34 0.46 0.28 0.57 1.00

Analiza matricei coeficienților de corelație pereche arată că indicatorul efectiv este cel mai strâns legat de indicator X(4) - cantitatea de îngrășământ consumată la 1 hectar ().

În același timp, legătura dintre atribute-argumente este destul de strânsă. Astfel, există o relație practic funcțională între numărul de tractoare cu roți ( X(1)) și numărul de instrumente de prelucrare a solului de suprafață .

Prezența multicoliniarității este indicată și de coeficienții de corelație și . Având în vedere relația strânsă dintre indicatori X (1) , X(2) și X(3), doar unul dintre ele poate fi inclus în modelul de regresie a randamentului.

Pentru a demonstra impactul negativ al multicolinearității, luați în considerare un model de regresie al randamentului, incluzând toți indicatorii de intrare:

F obs = 121.

Valorile estimărilor corectate ale abaterilor standard ale estimărilor coeficienților ecuației sunt indicate în paranteze .

În ecuația de regresie sunt prezentați următorii parametri de adecvare: coeficientul de determinare multiplu; estimarea corectată a varianței reziduale, eroarea relativă medie de aproximare și valoarea calculată a criteriului F obs = 121.

Ecuația de regresie este semnificativă deoarece F obs = 121 > F kp = 2,85 găsit din tabel F-distribuţii la a=0,05; n 1 =6 și n 2 =14.

De aici rezultă că Q¹0, adică și cel puțin unul dintre coeficienții ecuației q j (j= 0, 1, 2, ..., 5) nu este zero.

Pentru a testa ipoteza despre semnificația coeficienților individuali de regresie H0: q j =0, unde j=1,2,3,4,5, comparați valoarea critică t kp = 2,14, găsit din tabel t-distribuţii la nivelul de semnificaţie a=2 Q=0,05 și numărul de grade de libertate n=14, cu valoarea calculată . Din ecuație rezultă că coeficientul de regresie este semnificativ statistic numai atunci când X(4) din ½ t 4 ½=2,90 > t kp = 2,14.



Semnele negative ale coeficienților de regresie nu se pretează la interpretare economică când X(1) și X(5) . Din valorile negative ale coeficienților rezultă că creșterea saturației agriculturii cu tractoare cu roți ( X(1)) și produse fitosanitare ( X(5)) are un efect negativ asupra randamentului. Prin urmare, ecuația de regresie rezultată este inacceptabilă.

Pentru a obține o ecuație de regresie cu coeficienți semnificativi, folosim un algoritm de analiză de regresie pas cu pas. Inițial, folosim un algoritm pas cu pas cu eliminarea variabilelor.

Să excludem variabila din model X(1) , care corespunde valorii minime absolute de ½ t 1 ½=0,01. Pentru variabilele rămase, construim din nou ecuația de regresie:

Ecuația rezultată este semnificativă deoarece F observat = 155 > F kp = 2,90, găsit la nivelul de semnificație a=0,05 și numerele de grade de libertate n 1 =5 și n 2 =15 conform tabelului F-distributie, i.e. vector q¹0. Cu toate acestea, doar coeficientul de regresie la X(4) . Valori estimate ½ t j ½ pentru alți coeficienți este mai mic t kr = 2,131, găsit din tabel t-distributii la a=2 Q=0,05 și n=15.

Prin excluderea variabilei din model X(3) , care corespunde valorii minime t 3 = 0,35 și obținem ecuația de regresie:

(2.9)

În ecuația rezultată, coeficientul at X(5) . Prin excludere X(5) obținem ecuația de regresie:

(2.10)

Am obținut o ecuație de regresie semnificativă cu coeficienți semnificativi și interpretabili.

Cu toate acestea, ecuația rezultată nu este singurul model de randament „bun” și nu „cel mai bun” din exemplul nostru.

Să arătăm asta în condiția de multicoliniaritate, un algoritm treptat cu includerea variabilelor este mai eficient. Primul pas în modelul de randament y variabila inclusa X(4) , care are cel mai mare coeficient de corelație cu y, explicat prin variabila - r(y,X(4))=0,58. În a doua etapă, inclusiv ecuația împreună cu X(4) variabile X(1) sau X(3), vom obține modele care, din motive economice și caracteristici statistice, depășesc (2.10):

(2.11)

(2.12)

Includerea oricăreia dintre cele trei variabile rămase în ecuație îi înrăutățește proprietățile. Vezi, de exemplu, ecuația (2.9).

Astfel, avem trei modele de randament „bun”, dintre care trebuie să alegem unul din motive economice și statistice.

Conform criteriilor statistice, modelul (2.11) este cel mai adecvat. Ea corespunde valorilor minime ale varianței reziduale = 2,26 și erorii relative medii de aproximare și celor mai mari valori și Fob = 273.

Modelul (2.12) are indicatori de adecvare puțin mai slabi, urmat de modelul (2.10).

Vom alege acum cel mai bun dintre modele (2.11) și (2.12). Aceste modele diferă unele de altele în ceea ce privește variabilele X(1) și X(3) . Cu toate acestea, în modelele de randament variabila X(1) (numărul de tractoare cu roți la 100 ha) este mai de preferat decât variabil X(3) (numărul de instrumente de prelucrare a solului la 100 ha), care este într-o oarecare măsură secundar (sau derivat din X (1)).

În acest sens, din motive economice, ar trebui să se acorde preferință modelului (2.12). Astfel, după implementarea algoritmului de analiză a regresiei în etape cu includerea variabilelor și ținând cont de faptul că doar una dintre cele trei variabile aferente ar trebui să intre în ecuație ( X (1) , X(2) sau X(3)) alegeți ecuația finală de regresie:

Ecuația este semnificativă la a=0,05, deoarece F obs = 266 > F kp = 3,20, găsit din tabel F-distribuţii la a= Q=0,05; n 1 =3 și n 2 =17. Toți coeficienții de regresie din ecuația ½ sunt de asemenea semnificativi t j½> t kp(a=2 Q=0,05; n=17)=2,11. Coeficientul de regresie q 1 ar trebui considerat semnificativ (q 1 ¹0) din motive economice, în timp ce t 1 = 2,09 doar puțin mai puțin t kp = 2,11.

Din ecuația de regresie rezultă că o creștere cu unu a numărului de tractoare la 100 de hectare de teren arabil (la o valoare fixă X(4)) conduce la o creștere a randamentelor de cereale cu o medie de 0,345 c/ha.

Un calcul aproximativ al coeficienților de elasticitate e 1 »0,068 și e 2 »0,161 arată că odată cu creșterea indicatorilor X(1) și X(4) cu 1%, randamentul cerealelor crește în medie cu 0,068% și, respectiv, 0,161%.

Coeficientul multiplu de determinare indică faptul că doar 46,9% din variația randamentului este explicată de indicatorii incluși în model ( X(1) și X(4)), adică saturarea producției vegetale cu tractoare și îngrășăminte. Restul variației se datorează acțiunii unor factori necontabiliați ( X (2) , X (3) , X(5), condițiile meteorologice etc.). Eroarea relativă medie de aproximare caracterizează adecvarea modelului, precum și valoarea varianței reziduale. La interpretarea ecuației de regresie sunt de interes valorile erorilor relative de aproximare . Să reamintim că - valoarea modelului indicatorului efectiv caracterizează valoarea medie a randamentului pentru totalitatea regiunilor luate în considerare, cu condiția ca valorile variabilelor explicative X(1) și X(4) sunt fixate la același nivel și anume X (1) = x i(1) și X (4) = x i(4) . Apoi, conform valorilor lui d i Puteți compara regiunile după randament. Zone cărora le corespund valorile d i>0, au un randament peste medie și d i<0 - ниже среднего.

În exemplul nostru, în ceea ce privește randamentul, producția de culturi este cea mai eficientă în zona corespunzătoare lui d 7 =28%, unde randamentul este cu 28% mai mare decât media regională, iar cel mai puțin eficient este în zona cu d 20 =-27,3%.


Sarcini și exerciții

2.1. Din populația generală ( y, X (1) , ..., X(p)), unde y are o lege de distribuție normală cu așteptare matematică condiționată și varianță s 2, un eșantion aleatoriu de n, lăsați-l să plece ( y eu, x i (1) , ..., x i(p)) - rezultat i a-a observație ( i=1, 2, ..., n). Determinați: a) așteptarea matematică a estimării celor mai mici pătrate ale vectorului q; b) matricea de covarianță a estimării celor mai mici pătrate ale vectorului q; c) așteptarea matematică a evaluării.

2.2. Conform condițiilor problemei 2.1, găsiți așteptarea matematică a sumei abaterilor pătrate datorate regresiei, i.e. EQ R, Unde

.

2.3. Conform condițiilor problemei 2.1, se determină așteptarea matematică a sumei abaterilor pătrate cauzate de variația reziduală relativă la liniile de regresie, i.e. EQ ost, unde

2.4. Demonstrați că atunci când ipoteza H 0 este îndeplinită: q=0 statistică

are o distribuție F cu grade de libertate n 1 =p+1 și n 2 =n-p-1.

2.5. Demonstrați că atunci când ipoteza H 0: q j =0 este îndeplinită, statistica are o distribuție t cu numărul de grade de libertate n=n-p-1.

2.6. Pe baza datelor (Tabelul 2.3) cu privire la dependența de contracție a pâinii furajere ( y) privind durata de stocare ( X) găsiți o estimare punctuală a așteptării condiționate în ipoteza că ecuația de regresie generală este liniară.

Tabelul 2.3.

Necesar: a) găsiți estimări ale varianței reziduale s 2 sub ipoteza că ecuația de regresie generală are forma ; b) verificați la a=0,05 semnificația ecuației de regresie, i.e. ipoteza H 0: q=0; c) cu fiabilitatea g=0,9, se determină estimări de interval ale parametrilor q 0, q 1; d) cu fiabilitatea g=0,95, determinați intervalul estimat al așteptării matematice condiționate la X 0 =6; e) determinați la g=0,95 intervalul de încredere al predicției la punctul X=12.

2.7. Pe baza datelor privind dinamica ritmului de creștere a prețurilor acțiunilor pe 5 luni, prezentate în tabel. 2.4.

Tabelul 2.4.

luni ( X)
y (%)

iar în ipoteza că ecuația generală de regresie are forma , se cere: a) să se determine estimări atât ale parametrilor ecuației de regresie cât și ale varianței reziduale s 2 ; b) se verifică la a=0,01 semnificația coeficientului de regresie, i.e. ipotezele H 0: q 1 =0;

c) cu fiabilitatea g=0,95, găsiți estimări de interval ale parametrilor q 0 și q 1; d) cu fiabilitatea g=0,9, stabiliți o estimare pe intervale a așteptării matematice condiționate la X 0 =4; e) determinați la g=0,9 intervalul de încredere al predicției la punctul X=5.

2.8. Rezultatele studiului dinamicii creșterii în greutate a animalelor tinere sunt prezentate în Tabelul 2.5.

Tabelul 2.5.

Presupunând că ecuația generală de regresie este liniară, se cere: a) să se determine estimări atât ale parametrilor ecuației de regresie, cât și ale varianței reziduale s 2 ; b) verificați la a=0,05 semnificația ecuației de regresie, i.e. ipotezele H 0: q=0;

c) cu fiabilitatea g=0,8, găsiți estimări de interval ale parametrilor q 0 și q 1; d) cu fiabilitatea g=0,98, determinați și comparați estimările de interval ale așteptărilor matematice condiționate la X 0 =3 și X 1 =6;

e) determinați la g=0,98 intervalul de încredere al predicției la punctul X=8.

2.9. Cost ( y) un exemplar al cărții în funcție de tiraj ( X) (mii de exemplare) se caracterizează prin datele culese de editură (Tabelul 2.6). Determinați estimările celor mai mici pătrate și parametrii unei ecuații de regresie hiperbolice, cu fiabilitate g=0,9, construiți intervale de încredere pentru parametrii q 0 și q 1, precum și așteptarea condiționată la X=10.

Tabelul 2.6.

Determinați estimările și parametrii ecuației de regresie de forma , testați ipoteza H 0 la a = 0,05: q 1 = 0 și construiți intervale de încredere cu fiabilitatea g = 0,9 pentru parametrii q 0 și q 1 și așteptarea matematică condiționată la X=20.

2.11. În tabel 2.8 au prezentat date privind ratele de creștere (%) ale următorilor indicatori macroeconomici n=10 țări dezvoltate ale lumii pentru 1992: PNB - X(1) , producție industrială - X(2) , indicele prețurilor - X (3) .

Tabelul 2.8.

Țări x și parametrii ecuației de regresie, estimarea varianței reziduale; b) se verifică la a=0,05 semnificația coeficientului de regresie, adică. H0: q1 =0; c) cu fiabilitatea g=0,9, găsiți estimările de interval q 0 și q 1; d) găsiți la g=0,95 intervalul de încredere pentru la punctul X 0 =x i, Unde i=5; e) comparați caracteristicile statistice ale ecuațiilor de regresie: 1, 2 și 3.

2.12. Rezolvați problema 2.11 luând ( la) index X(1) , iar pentru motive explicative ( X) variabil X (3) .

1. Ayvazyan S.A., Mkhitaryan V.S. Statistica aplicată și fundamentele econometriei: manual. M., UNITATEA, 1998 (ediția a II-a 2001);

2. Ayvazyan S.A., Mkhitaryan V.S. Statistica aplicata in probleme si exercitii: Manual. M. UNITATE - DANA, 2001;

3. Ayvazyan S.A., Enyukov I.S., Meshalkin L.D. Statistici aplicate. Cercetarea dependenței. M., Finanţe şi Statistică, 1985, 487 p.;

4. Ayvazyan S.A., Bukhstaber V.M., Enyukov I.S., Meshalkin L.D. Statistici aplicate. Clasificare și reducerea dimensiunilor. M., Finanţe şi Statistică, 1989, 607 p.;

5. Johnston J. Econometric methods, M.: Statistics, 1980, 446 p.;

6. Dubrov A.V., Mkhitaryan V.S., Troshin L.I. Metode statistice multivariate. M., Finanţe şi Statistică, 2000;

7. Mkhitaryan V.S., Troshin L.I. Studiul dependențelor folosind metode de corelare și regresie. M., MESI, 1995, 120 p.;

8. Mkhitaryan V.S., Dubrov A.M., Troshin L.I. Metode statistice multivariate în economie. M., MESI, 1995, 149 p.;

9. Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Statistici matematice pentru oameni de afaceri și manageri. M., MESI, 2000, 140 p.;

10. Lukashin Yu.I. Metode de regresie și previziune adaptivă: Manual, M., MESI, 1997.

11. Lukashin Yu.I. Metode adaptative de prognoză pe termen scurt. - M., Statistică, 1979.


APLICAȚII


Anexa 1. Opțiuni pentru sarcini pentru cercetare independentă pe computer.

CATEGORII

ARTICOLE POPULARE

2023 „kingad.ru” - examinarea cu ultrasunete a organelor umane