Praktični primjeri jednostavne linearne regresije. Procjena parametara linearne regresije

Kao što je gore spomenuto, u slučaju linearnog odnosa, regresijska jednadžba je jednadžba ravne linije.

razlikovati

Y = a u/x + b u/x x

X = a x/y + b x/y Y

Ovdje A I b– koeficijenti, odnosno parametri, koji se određuju formulama. Vrijednost koeficijenta b proračunati

Iz formula je jasno da koeficijenti regresije b u/x I b x/y imaju isti predznak kao koeficijent korelacije, dimenzija jednaka omjeru dimenzija pokazatelja koji se proučavaju x I U, a povezani su relacijom:

Za izračunavanje koeficijenta A dovoljno je zamijeniti prosječne vrijednosti koreliranih varijabli u regresijske jednadžbe



Grafikon teoretskih regresijskih linija (slika 17) izgleda ovako:

Slika 17. Teorijske regresijske linije

Iz gornjih formula lako je dokazati da su nagibi regresijskih linija jednaki


Jer
, To
. To znači da regresijska linija Y na x ima manji nagib prema x-osi od regresijske linije x na Y.

Bliže na jedinicu, manji je kut između regresijskih linija. Ove se linije spajaju samo kada
.

Na
izravne regresije opisane su jednadžbama
,
.

Dakle, regresijske jednadžbe omogućuju:

    odrediti koliko se jedna veličina mijenja u odnosu na drugu;

    predvidjeti rezultate.

2. Metodika izvođenja računsko-grafičkog rada br.2

Računsko-grafički rad sadrži 4 dijela.

U prvom dijelu:

    Tema je formulirana;

    Formulirana je svrha rada.

U drugom dijelu:

    Uvjet problema je formuliran;

    Popunjava se tablica podataka o početnom uzorku.

U trećem dijelu:

    Rezultati mjerenja prikazani su u obliku niza varijacija;

    Dan je grafički prikaz niza varijacija.

    Formuliran je zaključak.

U četvrtom odjeljku:

    Izračunavaju se glavne statističke karakteristike niza mjerenja;

    Na temelju rezultata izračuna formulira se zaključak.

Oblik rada:

    Rad se radi u posebnoj bilježnici ili na izreznim listovima.

    Naslovnica se popunjava prema uzorku.

Rusko državno sveučilište

fizička kultura, sport, mladi i turizam

Odjel za prirodne znanosti

Korelacijska i regresijska analiza

Računsko-grafički rad br.2

na tečaju matematike

Izvršio: učenik 1 k. 1 lonac. 1g.

Ivanov S.M.

Učitelj, nastavnik, profesor:

Izv. odjela UNM i IT

Moskva – 2012

(Primjer dizajna naslovne stranice)

Primjer izvođenja računskog i grafičkog rada br.2.

Tema rada: Korelacijska i regresijska analiza.

Cilj rada: Odredite odnos između pokazatelja dva uzorka.

Napredak rada:

    Dođite do dva uzorka iz vašeg sporta iste veličine n.

    Nacrtajte korelacijsko polje i izvedite preliminarni zaključak.

    Odrediti pouzdanost koeficijenta korelacije i donijeti konačan zaključak.

    Konstruirajte teorijske regresijske linije na korelacijskom polju i pokažite njihovu sjecišnu točku.

1. Stanje problema: Skupini atletičara utvrđeni su rezultati u utrci na 100 metara s preponama x ja(c) i skok u dalj Y ja(m) (tablica). Provjeriti postoji li korelacija između ispitivanih karakteristika i utvrditi pouzdanost koeficijenta korelacije.

Tablica uzorka izvornih podataka: Rezultati su prikazani u tablici početnih podataka.

Tablica 6

Rezultati trčanja i skakanja

p/p

x ja, sa

Y ja , m

p/p

x ja, sa

Y ja, m

Riješenje:

2 . Konstruirajmo korelacijsko polje (dijagram raspršenosti) i izvedimo preliminarni zaključak o odnosu između proučavanih karakteristika.

Slika 18. Korelacijsko polje

Preliminarni zaključak:

Odnos između pokazatelja uspješnosti na 100m prepone x ja(c) i skok u dalj Y ja(cm):

    linearni;

    negativan;

3 . Izračunajmo upareni linearni Bravais-Pearsonov koeficijent korelacije, nakon što smo prethodno izračunali glavne statističke pokazatelje dva uzorka. Za njihov izračun sastavit ćemo tablicu u kojoj su pretposljednji i zadnji stupac potrebni za izračun standardnih odstupanja ako su nepoznata. Za naš primjer, ove vrijednosti su izračunate u prvom izračunu i grafičkom radu, ali radi jasnoće, dodatno ćemo prikazati izračun.

Tablica 7

Pomoćna tablica za izračun koeficijenta

Bravais–Pearsonove korelacije

x ja , S

Y ja, cm

13,59

x =
,

g =
,

.

Dobivena vrijednost koeficijenta korelacije omogućuje nam da potvrdimo preliminarni zaključak i donesemo konačni zaključak - odnos između proučavanih karakteristika:

    linearni;

    negativan;

4 . Odredimo pouzdanost koeficijenta korelacije.

Pretpostavimo da ne postoji veza između rezultata u trčanju na 100 m i skoku u dalj ( N O : r= 0).

Zaključak: postoji jaka, negativna statistički značajna ( R=0,95) odnos između trke na 100 m s preprekama i skoka u dalj. To znači da se s poboljšanjem rezultata u skoku u dalj smanjuje vrijeme potrebno za trčanje na 100 m.

5 . Izračunajmo koeficijent determinacije:

Posljedično, samo 96% odnosa između rezultata na 100 m prepone i skoku u dalj objašnjava se njihovim međusobnim utjecajem, a ostatak, tj. 4%, objašnjava se utjecajem drugih neuračunatih čimbenika.

6. Izračunajmo koeficijente izravne i inverzne regresijske jednadžbe pomoću formula, zamijenimo vrijednosti izračunatih koeficijenata u odgovarajuću formulu i napišimo izravnu i inverznu regresijsku jednadžbu:

Y= a 1 + b 1 x- jednadžba izravne regresije;

X = a 2 + b 2 Y- inverzna regresijska jednadžba.

Iskoristimo gore navedene rezultate izračuna:

x =
; g =
;
;
13,59;
6,4,

Izračunajmo koeficijent b 1 , pomoću formule:

Za izračunavanje koeficijenta A 1 b 1 x I Y

A 1 I b 1

Y = 22 - 1,15x

Izračunajmo koeficijent b 2 , pomoću formule:

Za izračunavanje koeficijenta A 2 umjesto toga zamijenite u jednadžbu izravne regresije b 2 izračunata vrijednost, a umjesto toga x I Y aritmetičke sredine dvaju uzoraka iz tablice:

Zamijenimo dobivene vrijednosti koeficijenata A 1 I b 1 u jednadžbu izravne regresije i napišite jednadžbu ravne linije:

X = 18,92 - 0,83Y

Tako smo dobili izravnu i inverznu regresijsku jednadžbu:

Y = 22 - 1,15x- jednadžba izravne regresije;

X = 18,92 - 0,83Y- inverzna regresijska jednadžba.

Da biste provjerili ispravnost izračuna, dovoljno je zamijeniti prosječnu vrijednost u izravnu jednadžbu i odrediti vrijednost Y. Primljena vrijednost Y treba biti blizu ili jednak prosječnoj vrijednosti .

Y = 22 - 1,15 = 22 - 1,15 13,59 = 6,4 =.

Prilikom zamjene u inverznu regresijsku jednadžbu srednje vrijednosti , rezultirajuća vrijednost x treba biti blizu ili jednak prosječnoj vrijednosti .

X = 18,92 - 0,83= 18,92 - 0,83 6,4 = 13,6 = .

7. Konstruirajmo regresijske linije na korelacijskom polju.

Da biste grafički konstruirali teorijske regresijske linije, kao i da biste konstruirali bilo koju ravnu crtu, morate imati dvije točke iz raspona vrijednosti x I Y.

Štoviše, u jednadžbi izravne regresije nezavisna varijabla x, i ovisan Y, a u suprotnom smjeru – nezavisna varijabla Y, i ovisan X.

Y = 22 - 1,15x

x

Y

X = 18,92 - 0,83Y

Y

x

Koordinate točke sjecišta linija izravne i inverzne regresijske jednadžbe su vrijednosti aritmetičkih sredina dvaju uzoraka (uzimajući u obzir pogreške zaokruživanja u približnim izračunima).

Zaključak: znajući rezultat trke na 100 m s preprekama, pomoću jednadžbe izravne regresije, teoretski možete odrediti rezultat skoka u dalj; i obrnuto, znajući rezultat skoka u dalj koristeći inverznu regresijsku jednadžbu, možete odrediti rezultat trke s preponama.

Zadatak.

Za poduzeća lake industrije u regiji dobivene su informacije koje karakteriziraju ovisnost obujma proizvodnje (Y, milijuna rubalja) o obujmu kapitalnih ulaganja (Y, milijuna rubalja).

Stol 1.

Ovisnost obujma proizvodnje o obimu kapitalnih ulaganja.

x
Y

Potreban:

1. Odredite parametre jednadžbe linearne regresije, dajte ekonomsku interpretaciju koeficijenta regresije.

2. Izračunajte ostatke; pronaći rezidualni zbroj kvadrata; procijeniti varijancu reziduala; iscrtajte ostatke.

3. Provjerite ispunjenost preduvjeta MNC-a.

4. Provjeriti značajnost parametara regresijske jednadžbe Studentovim t-testom (α = 0,05).

5. Izračunajte koeficijent determinacije, provjerite značajnost regresijske jednadžbe Fisherovim F testom (α = 0,05), odredite prosječnu relativnu pogrešku aproksimacije. Izvedite zaključak o kvaliteti modela.

6. Predvidjeti prosječnu vrijednost indikatora Y na razini značajnosti α = 0,1, ako je predviđena vrijednost faktora X 80% njegove maksimalne vrijednosti.

7. Grafički predstavite stvarne i modelne Y vrijednosti prognozne točke.

8. Napravite jednadžbe nelinearne regresije i nacrtajte ih:

Hiperboličko;

Snažan;

Indikativno.

9. Za navedene modele pronaći koeficijente determinacije i prosječne relativne pogreške aproksimacije. Usporedite modele na temelju ovih karakteristika i izvedite zaključak.

Nađimo parametre linearne regresijske jednadžbe i dajmo ekonomsku interpretaciju regresijskog koeficijenta.

Jednadžba linearne regresije je: ,

Izračuni za pronalaženje parametara a i b dati su u tablici 2.

Tablica 2.

Izračun vrijednosti za pronalaženje parametara jednadžbe linearne regresije.

Regresijska jednadžba izgleda ovako: y = 13,8951 + 2,4016*x.

Uz povećanje obujma kapitalnih ulaganja (X) za 1 milijun rubalja. obujam proizvodnje (Y) povećat će se u prosjeku za 2,4016 milijuna rubalja. Dakle, postoji pozitivna korelacija znakova, što ukazuje na učinkovitost poduzeća i isplativost ulaganja u njihove aktivnosti.

2. Izračunajte ostatke; pronaći rezidualni zbroj kvadrata; procijenimo varijancu reziduala i iscrtajte reziduale.

Ostatak se izračunava pomoću formule: e i = y i - y prog.

Ostatak zbroja kvadrata odstupanja: = 207,74.

Raspršivanje ostataka: 25.97.

Izračuni su prikazani u tablici 3.

Tablica 3.

Y x Y=a+b*x i e i = y i - y progn. e i 2
100,35 3,65 13,306
81,14 -4,14 17,131
117,16 -0,16 0,0269
138,78 -1,78 3,1649
136,38 6,62 43,859
143,58 0,42 0,1744
73,93 8,07 65,061
102,75 -1,75 3,0765
136,38 -4,38 19,161
83,54 -6,54 42,78
Iznos 0,00 207,74
Prosjek 111,4 40,6

Grafikon stanja izgleda ovako:


Sl. 1. Grafikon stanja

3. Provjerimo ispunjenost preduvjeta MNC-a koji uključuje elemente:

- provjera je li matematičko očekivanje slučajne komponente jednako nuli;

- slučajna priroda ostataka;

- provjera neovisnosti;

- podudarnost broja ostataka s normalnim zakonom raspodjele.

Provjera jednakosti matematičkog očekivanja razina niza ostataka nuli.

Provedeno tijekom testiranja odgovarajuće nulte hipoteze H 0: . U tu svrhu konstruira se t-statistika, gdje .

, dakle, hipoteza je prihvaćena.

Nasumična priroda ostataka.

Provjerimo slučajnost razina određenog broja ostataka pomoću kriterija prekretnice:

Broj točaka preokreta određuje se iz tablice reziduala:

e i = y i - y progn. Prekretnice e i 2 (e i - e i -1) 2
3,65 13,31
-4,14 * 17,13 60,63
-0,16 * 0,03 15,80
-1,78 * 3,16 2,61
6,62 * 43,86 70,59
0,42 * 0,17 38,50
8,07 * 65,06 58,50
-1,75 * 3,08 96,43
-4,38 19,16 6,88
-6,54 42,78 4,68
Iznos 0,00 207,74 354,62
Prosjek

= 6 > , dakle, svojstvo slučajnosti ostataka je zadovoljeno.

Neovisnost ostatka provjereno Durbin-Watsonovim testom:

=4 - 1,707 = 2,293.

Budući da je pao u interval od d 2 do 2, onda prema ovom kriteriju možemo zaključiti da je svojstvo neovisnosti zadovoljeno. To znači da u dinamičkom nizu nema autokorelacije, pa je model prema ovom kriteriju adekvatan.

Podudarnost broja ostataka s normalnim zakonom raspodjele utvrđeno korištenjem R/S kriterija s kritičnim razinama (2,7-3,7);

Izračunajmo RS vrijednost:

RS = (e max - e min)/ S,

gdje je e max maksimalna vrijednost razina određenog broja ostataka E(t) = 8,07;

e min - minimalna vrijednost razina niza ostataka E(t) = -6,54.

S - standardna devijacija, = 4,8044.

RS = (e max - e min)/ S = (8,07 + 6,54)/4,8044 = 3,04.

Od 2.7< 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

Dakle, razmatrajući različite kriterije za ispunjavanje preduvjeta MNC-a, dolazimo do zaključka da su preduvjeti MNC-a ispunjeni.

4. Provjerimo značajnost parametara regresijske jednadžbe pomoću Studentovog t-testa α = 0,05.

Provjera značajnosti pojedinih regresijskih koeficijenata povezana je s utvrđivanjem izračunatih vrijednosti t-test (t-statistika) za odgovarajuće koeficijente regresije:

Zatim se izračunate vrijednosti uspoređuju s tabličnima t stol= 2,3060. Tablična vrijednost kriterija određena je na ( n- 2) stupnjevi slobode ( n- broj opažanja) i odgovarajuću razinu značajnosti a (0,05)

Ako je izračunata vrijednost t-testa sa (n- 2) stupnjevi slobode premašuju njegovu tabličnu vrijednost na danoj razini značajnosti, regresijski koeficijent se smatra značajnim.

U našem slučaju koeficijenti regresije a 0 su beznačajni, a 1 značajni koeficijenti.

Uparena linearna regresija

PRAKTIČNO

Uparena linearna regresija: Radionica. –

Studij ekonometrije uključuje stjecanje iskustva u konstruiranju ekonometrijskih modela, donošenju odluka o specifikaciji i identifikaciji modela, izboru metode za procjenu parametara modela, ocjeni njegove kvalitete, interpretaciji rezultata, dobivanju prognoznih procjena i sl. Radionica će pomoći studentima steći praktične vještine u tim stvarima.

Odobreno od uredničkog i izdavačkog vijeća

Sastavio: M.B. Perova, doktorica ekonomskih znanosti, prof

Opće odredbe

Ekonometrijsko istraživanje počinje s teorijom koja uspostavlja odnose među pojavama. Od cijelog niza čimbenika koji utječu na efektivni atribut, istaknuti su najznačajniji čimbenici. Nakon što se utvrdi postojanje veze između proučavanih karakteristika, regresijskom analizom utvrđuje se točna vrsta te veze.

Regresijska analiza sastoji se u definiranju analitičkog izraza (u definiranju funkcije), u kojem je promjena jedne vrijednosti (rezultativna karakteristika) posljedica utjecaja nezavisne vrijednosti (faktorska karakteristika). Taj se odnos može kvantificirati konstruiranjem regresijske jednadžbe ili regresijske funkcije.

Osnovni regresijski model je upareni (jednofaktorski) regresijski model. Uparena regresija– jednadžba veze dviju varijabli na I x:

Gdje – zavisna varijabla (rezultativni atribut);

– nezavisna, eksplanatorna varijabla (faktorska karakteristika).

Ovisno o prirodi promjene na s promjenom x razlikovati linearne i nelinearne regresije.

Linearna regresija

Ova regresijska funkcija naziva se polinom prvog stupnja i koristi se za opisivanje procesa koji se ravnomjerno razvijaju tijekom vremena.

Imati slučajnog člana (greške regresije) povezana je s utjecajem na zavisnu varijablu drugih čimbenika koji nisu uzeti u obzir u jednadžbi, s mogućom nelinearnošću modela, pogreškama mjerenja, a time i izgledom jednadžba slučajne pogreške regresija može biti posljedica sljedećeg cilja razloga:

1) nereprezentativnost uzorka. Upareni regresijski model uključuje čimbenik koji ne može u potpunosti objasniti varijaciju u svojstvu ishoda, a na koji mogu u mnogo većoj mjeri utjecati mnogi drugi čimbenici (izostavljene varijable). Na primjer, plaće mogu ovisiti, osim o kvalifikacijama, i o stupnju obrazovanja, radnom iskustvu, spolu itd.;

2) postoji mogućnost da se varijable uključene u model mogu mjeriti s greškom. Primjerice, podaci o izdacima za hranu kućanstava prikupljaju se iz evidencije sudionika istraživanja, za koje se pretpostavlja da pažljivo bilježe svoje dnevne izdatke. Naravno, greške su moguće.

Na temelju promatranja uzorka procjenjuje se regresijska jednadžba uzorka ( regresijska linija):

,

Gdje
– procjene parametara regresijske jednadžbe (
).

Analitički oblik ovisnosti između proučavanog para karakteristika (regresijska funkcija) određuje se pomoću sljedećeg metode:

    Na temelju teorijske i logičke analize prirodu fenomena koji se proučavaju, njihovu društveno-ekonomsku bit. Primjerice, ako se proučava odnos između prihoda kućanstva i veličine depozita stanovništva u bankama, onda je očito da je odnos izravan.

    Grafička metoda, kada se priroda veze procjenjuje vizualno.

Ova se ovisnost može jasno vidjeti ako izgradite grafikon, iscrtavajući vrijednosti atributa na x-osi x, a na ordinati - vrijednosti karakteristike na. Ucrtavanjem točaka koje odgovaraju vrijednostima x I na, dobivamo korelacijsko polje:

a) ako su točke nasumično razbacane po polju, to ukazuje na nepostojanje ovisnosti između ovih značajki;

b) ako su točke koncentrirane oko osi koja ide od donjeg lijevog kuta do gornjeg desnog, tada postoji izravan odnos između karakteristika;

c) ako su točke koncentrirane oko osi koja ide od gornjeg lijevog kuta do donjeg desnog – tada postoji obrnuti odnos između karakteristika.

Spojimo li točke na korelacijskom polju ravnim segmentima, dobit ćemo izlomljenu liniju s određenom tendencijom rasta. Ovo će biti empirijska linija komunikacije ili empirijska regresijska linija. Po izgledu se može suditi ne samo o prisutnosti, već io obliku ovisnosti između proučavanih karakteristika.

Konstruiranje uparene regresijske jednadžbe

Konstruiranje regresijske jednadžbe svodi se na procjenu njezinih parametara. Ove procjene parametara mogu se pronaći na različite načine. Jedna od njih je metoda najmanjih kvadrata (LSM). Suština metode je sljedeća. Svaka vrijednost odgovara empirijskoj (promatranoj) vrijednosti . Konstruiranjem regresijske jednadžbe, na primjer jednadžbe ravne linije, za svaku vrijednost odgovarat će teoretskoj (izračunatoj) vrijednosti . Promatrane vrijednosti ne leže točno na regresijskoj liniji, tj. ne podudaraju . Razlika između stvarne i izračunate vrijednosti zavisne varijable naziva se Podsjetnik:

Metoda najmanjih kvadrata omogućuje dobivanje takvih procjena parametara pri kojima je zbroj kvadratnih odstupanja stvarnih vrijednosti rezultirajuće karakteristike na od teorijskog , tj. zbroj kvadrata ostataka je minimalan:

Za linearne jednadžbe i nelinearne jednadžbe koje se mogu svesti na linearne, sljedeći sustav se rješava s obzirom na A I b:

Gdje n- veličina uzorka.

Nakon rješavanja sustava jednadžbi dobivamo vrijednosti A I b, koji nam omogućuje pisanje regresijska jednadžba(regresijska jednadžba):

Gdje – eksplanatorna (nezavisna) varijabla;

– objašnjena (ovisna) varijabla;

Regresijska linija prolazi točkom ( ,) i ispunjene su jednakosti:

Možete koristiti gotove formule koje slijede iz ovog sustava jednadžbi:

Gdje – prosječna vrijednost ovisnog obilježja;

–prosječna vrijednost nezavisnog obilježja;

– aritmetička srednja vrijednost umnoška zavisnih i nezavisnih obilježja;

– varijanca nezavisne karakteristike;

– kovarijanca između zavisnih i nezavisnih karakteristika.

Kovarijanca uzorka dvije varijable x, na je prosječna vrijednost umnoška odstupanja ovih varijabli od njihovih prosjeka

Parametar b na x ima veliki praktični značaj i naziva se koeficijent regresije. Koeficijent regresije pokazuje za koliko jedinica se prosječno mijenja vrijednost na x po 1 jedinici njegove mjere.

Znak parametra b u jednadžbi parne regresije označava smjer odnosa:

Ako
, tada je odnos između proučavanih pokazatelja izravan, tj. s predznakom rastućeg faktora x efektivni predznak također raste na, i obrnuto;

Ako
, tada je odnos između proučavanih pokazatelja inverzan, tj. s predznakom rastućeg faktora x rezultantni znak na smanjuje, i obrnuto.

Vrijednost parametra A u uparenoj regresijskoj jednadžbi u nekim se slučajevima može interpretirati kao početna vrijednost rezultirajuće karakteristike na. Ova interpretacija parametra A moguće samo ako vrijednost
ima značenje.

Nakon konstruiranja regresijske jednadžbe promatrane vrijednosti g može se predstaviti kao:

Ostaci hrane , poput grešaka , slučajne su varijable, međutim, za razliku od pogrešaka , vidljiv. Ostatak je taj dio zavisne varijable g, što se ne može objasniti pomoću regresijske jednadžbe.

Na temelju regresijske jednadžbe može se izračunati teorijske vrijednosti x za bilo koje vrijednosti x.

U ekonomskoj analizi često se koristi koncept elastičnosti funkcije. Funkcija elastičnosti
izračunati kao relativna promjena g na relativnu promjenu x. Elastičnost pokazuje za koliko se postotaka funkcija mijenja
kada se nezavisna varijabla promijeni za 1%.

Budući da je elastičnost linearne funkcije
nije konstantna vrijednost, već ovisi o x, tada se koeficijent elastičnosti obično izračunava kao prosječni pokazatelj elastičnosti.

Koeficijent elastičnosti pokazuje za koliko će se postotaka u prosjeku promijeniti vrijednost rezultirajuće karakteristike na kada se promijeni karakteristika faktora x za 1% svoje prosječne vrijednosti:

Gdje
– prosječne vrijednosti varijabli x I na u uzorku.

Procjena kvalitete izgrađenog regresijskog modela

Kvaliteta regresijskog modela– primjerenost izgrađenog modela izvornim (promatranim) podacima.

Za mjerenje nepropusnosti spoja, tj. da biste izmjerili koliko je blizu funkcionalnom, morate odrediti varijancu, koja mjeri odstupanja na iz na x i karakteriziranje rezidualne varijacije zbog drugih čimbenika. Oni čine osnovu pokazatelja koji karakteriziraju kvalitetu regresijskog modela.

Kvaliteta parne regresije određena je pomoću karakterizirajućih koeficijenata

1) bliskost veze - korelacijski indeks, upareni linearni koeficijent korelacije;

2) pogreška aproksimacije;

3) kvalitetu regresijske jednadžbe i njezinih pojedinih parametara - srednje kvadratne pogreške regresijske jednadžbe u cjelini i njezinih pojedinih parametara.

Za regresijske jednadžbe bilo koje vrste, određuje se indeks korelacije, koja karakterizira samo blizinu korelacijske ovisnosti, tj. stupanj njegove aproksimacije funkcionalnoj vezi:

,

Gdje – faktorska (teorijska) disperzija;

– ukupna varijanca.

Indeks korelacije uzima vrijednosti
, pri čemu,

Ako

Ako
- veza između znakova x I na je funkcionalan, bliže do 1, što je bliži odnos između proučavanih karakteristika. Ako
, tada se veza može smatrati bliskom

Izračunavaju se varijance potrebne za izračunavanje pokazatelja nepropusnosti spojke:

Ukupna varijanca, mjerenje ukupne varijacije uslijed djelovanja svih čimbenika:

Faktorska (teorijska) varijanca, mjerenje varijacije dobivenog svojstva na zbog djelovanja predznaka faktora x:

Preostala varijanca, karakterizirajući varijaciju svojstva na zbog svih faktora osim x(tj. s isključenim x):

Zatim, prema pravilu zbrajanja varijanci:

Kvaliteta parne sobe linearni regresija se također može definirati pomoću pair koeficijent linearne korelacije:

,

Gdje
– kovarijanca varijabli x I na;

– standardna devijacija nezavisne karakteristike;

– standardna devijacija zavisne karakteristike.

Koeficijent linearne korelacije karakterizira blizinu i smjer odnosa između karakteristika koje se proučavaju. Mjeri se unutar [-1; +1]:

Ako
– tada je veza među obilježjima izravna;

Ako
– tada je odnos među predznacima inverzan;

Ako
– tada nema povezanosti među karakteristikama;

Ako
ili
– tada je veza između obilježja funkcionalna, tj. karakterizira potpuna korespondencija između x I na. Bliže do 1, što je bliži odnos između proučavanih karakteristika.

Ako indeks korelacije (upareni linearni koeficijent korelacije) kvadriramo, dobivamo koeficijent determinacije.

Koeficijent determinacije– predstavlja udio faktorske varijance u ukupnom broju i pokazuje za koliko postotaka varira rezultirajuće obilježje na objasniti varijacijom faktorske karakteristike x:

Ne karakterizira cijelu varijaciju na od znaka faktora x, ali samo onaj njegov dio koji odgovara jednadžbi linearne regresije, tj. pokazuje udio varijacije u rezultantnoj karakteristici koja je linearno povezana s varijacijom u faktorskoj karakteristici.

Veličina
– udio varijacije u rezultirajućoj karakteristici koju regresijski model nije mogao uzeti u obzir.

Disperzija točaka u korelacijskom polju može biti vrlo velika, a izračunata regresijska jednadžba može dati veliku pogrešku u procjeni analiziranog pokazatelja.

Prosječna pogreška aproksimacije prikazuje prosječno odstupanje izračunatih vrijednosti od stvarnih:

Najveća dopuštena vrijednost je 12-15%.

Standardna pogreška je mjera širenja zavisne varijable oko regresijske linije. Za cijeli niz promatranih vrijednosti izračunava se standard (rms) greška regresijske jednadžbe, što je standardna devijacija stvarnih vrijednosti na u odnosu na teorijske vrijednosti izračunate pomoću regresijske jednadžbe na x .

,

Gdje
– broj stupnjeva slobode;

m– broj parametara regresijske jednadžbe (za ravnu jednadžbu m=2).

Možete procijeniti vrijednost srednje kvadratne pogreške uspoređujući je

a) s prosječnom vrijednošću rezultirajuće karakteristike na;

b) sa standardnom devijacijom karakteristike na:

Ako
, tada je upotreba ove regresijske jednadžbe prikladna.

Odvojeno procijenjeno standard (srednje kvadratne) pogreške parametara jednadžbe i indeksa korelacije:

;
;
.

x– standardna devijacija x.

Provjera značajnosti regresijske jednadžbe i pokazatelja nepropusnosti veze

Da bi se konstruirani model mogao koristiti za daljnje ekonomske proračune, provjera kvalitete konstruiranog modela nije dovoljna. Također je potrebno provjeriti signifikantnost (značajnost) procjena regresijske jednadžbe dobivenih metodom najmanjih kvadrata i pokazatelja snage odnosa, tj. potrebno ih je provjeriti u skladu s pravim parametrima odnosa.

To je zbog činjenice da pokazatelji izračunati iz ograničene populacije zadržavaju element slučajnosti svojstven pojedinačnim vrijednostima atributa. Stoga su to samo procjene određenog statističkog obrasca. Potrebno je procijeniti stupanj točnosti i značaj (pouzdanost, signifikantnost) regresijskih parametara. Pod, ispod značaj razumjeti vjerojatnost da vrijednost parametra koji se testira nije nula i ne uključuje vrijednosti suprotnih predznaka.

Provjera značaja– provjera pretpostavke da su parametri različiti od nule.

Procjena značaja uparene regresijske jednadžbe svodi se na provjeru hipoteza o značaju regresijske jednadžbe u cjelini i njezinih pojedinih parametara ( a, b), parni koeficijent determinacije ili indeks korelacije.

U ovom slučaju može se istaknuti sljedeće: glavne hipotezeH 0 :

1)
– regresijski koeficijenti su beznačajni, a regresijska jednadžba je također beznačajna;

2)
– upareni koeficijent determinacije je beznačajan, a regresijska jednadžba je također beznačajna.

Sljedeće hipoteze su alternativne (ili obrnute):

1)
– regresijski koeficijenti značajno se razlikuju od nule, a konstruirana regresijska jednadžba je značajna;

2)
– upareni koeficijent determinacije značajno se razlikuje od nule i konstruirana regresijska jednadžba je značajna.

Testiranje hipoteze o značaju uparene regresijske jednadžbe

Za testiranje hipoteze o statističkoj beznačajnosti regresijske jednadžbe u cjelini i koeficijenta determinacije koristimo F-kriterij(Fisherov test):

ili

Gdje k 1 = m–1 ; k 2 = nm – broj stupnjeva slobode;

n– broj populacijskih jedinica;

m– broj parametara regresijske jednadžbe;

–faktorska disperzija;

– rezidualna varijanca.

Hipoteza se testira na sljedeći način:

1) ako je stvarna (promatrana) vrijednost F-kriterij je veći od kritične (tabelarne) vrijednosti ovog kriterija
, onda s vjerojatnošću
glavna hipoteza o beznačajnosti regresijske jednadžbe ili uparenog koeficijenta determinacije odbacuje se, a regresijska jednadžba se smatra značajnom;

2) ako je stvarna (promatrana) vrijednost F-kriterija manja od kritične vrijednosti ovog kriterija
, tada s vjerojatnošću (
) prihvaća se glavna hipoteza o beznačajnosti regresijske jednadžbe ili uparenog koeficijenta determinacije, a konstruirana regresijska jednadžba smatra se beznačajnom.

Kritična vrijednost F-kriteriji se nalaze u odgovarajućim tablicama ovisno o razini značajnosti i broj stupnjeva slobode
.

Broj stupnjeva slobode– pokazatelj, koji se definira kao razlika između veličine uzorka ( n) i broj procijenjenih parametara za dati uzorak ( m). Za parni regresijski model, broj stupnjeva slobode izračunava se kao
, budući da su dva parametra procijenjena iz uzorka (
).

Razina značajnosti – utvrđena vrijednost
,

Gdje – vjerojatnost pouzdanosti procijenjenog parametra koji pada u interval pouzdanosti. Obično se prihvaća 0,95. Tako je vjerojatnost da procijenjeni parametar neće pasti u interval pouzdanosti, jednaka 0,05 (5%).

Tada se, u slučaju procjene značajnosti uparene regresijske jednadžbe, kritična vrijednost F-testa izračunava kao
:

.

Testiranje hipoteze o značajnosti parametara uparene regresijske jednadžbe i indeksa korelacije

Prilikom provjere značajnosti parametara jednadžbe (pretpostavke da se parametri razlikuju od nule) postavlja se glavna hipoteza o beznačajnosti dobivenih procjena (
. Kao alternativna (inverzna) hipoteza postavljena je o značaju parametara jednadžbe (
).

Za testiranje postavljenih hipoteza koristi se t -kriterij (t-statistika) Studentski test. Opažena vrijednost t-kriterij se uspoređuje s vrijednošću t-kriterij određen iz tablice Studentove distribucije (kritična vrijednost). Kritična vrijednost t- kriteriji
ovisi o dva parametra: razini značajnosti i broj stupnjeva slobode
.

Iznesene hipoteze testiraju se na sljedeći način:

1) ako je apsolutna vrijednost promatrane vrijednosti t-kriteriji veći od kritične vrijednosti t- kriteriji, tj.
, onda s vjerojatnošću
odbacuje se glavna hipoteza o beznačajnosti regresijskih parametara, tj. regresijski parametri nisu jednaki 0;

2) ako je apsolutna vrijednost promatrane vrijednosti t-kriterij je manji ili jednak kritičnoj vrijednosti t- kriteriji, tj.
, onda s vjerojatnošću
prihvaća se glavna hipoteza o beznačajnosti regresijskih parametara, tj. Parametri regresije gotovo se ne razlikuju od 0 ili jednaki 0.

Procjena značajnosti regresijskih koeficijenata pomoću Studentovog testa provodi se usporedbom njihovih procjena s vrijednošću standardne pogreške:

;

Za procjenu statističke značajnosti indeksa korelacije (linearni koeficijent) također se koristi t-Studentov t-test.

Ponekad se to dogodi: problem se može riješiti gotovo aritmetički, ali prvo što pada na pamet su sve vrste Lebesgueovih integrala i Besselovih funkcija. Dakle, počnete trenirati neuronsku mrežu, zatim dodate još par skrivenih slojeva, eksperimentirate s brojem neurona, aktivacijskim funkcijama, zatim se sjetite SVM-a i Random Foresta i počnete ispočetka. Pa ipak, unatoč obilju zabavnih statističkih metoda podučavanja, linearna regresija ostaje jedan od popularnih alata. A za to postoje preduvjeti, među kojima je i intuitivnost u interpretaciji modela.

Nekoliko formula

U najjednostavnijem slučaju, linearni model se može prikazati na sljedeći način:

Y i = a 0 + a 1 x i + ε i

Gdje je a 0 matematičko očekivanje zavisne varijable y i kada je varijabla x i jednaka nuli; a 1 je očekivana promjena ovisne varijable y i kada se x i promijeni za jedan (ovaj koeficijent je odabran tako da vrijednost ½Σ(y i -ŷ i) 2 bude minimalna - to je takozvana “rezidualna funkcija”); ε i - slučajna pogreška.
U ovom slučaju, koeficijenti a 1 i a 0 mogu se izraziti preko Pearsonovog koeficijenta korelacije, standardnih devijacija i prosječnih vrijednosti varijabli x i y:

V 1 = cor(y, x)σ y /σ x

 0 = ȳ - â 1 x̄

Dijagnostika i greške modela

Da bi model bio ispravan, potrebno je zadovoljiti Gauss-Markovljeve uvjete, tj. pogreške moraju biti homoskedastične s nultim matematičkim očekivanjem. Dijagram reziduala e i = y i - ŷ i pomaže odrediti koliko je konstruirani model adekvatan (e i se može smatrati procjenom ε i).
Pogledajmo graf reziduala u slučaju jednostavnog linearnog odnosa y 1 ~ x (u nastavku su svi primjeri dani na jeziku R):

Skriveni tekst

postaviti.sjeme(1)n<- 100 x <- runif(n) y1 <- x + rnorm(n, sd=.1) fit1 <- lm(y1 ~ x) par(mfrow=c(1, 2)) plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9) abline(fit1) plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Ostaci su manje-više ravnomjerno raspoređeni duž horizontalne osi, što ukazuje na "nema sustavnog odnosa između vrijednosti slučajnog člana u bilo koja dva opažanja." Ispitajmo sada isti graf, ali izgrađen za linearni model, koji zapravo nije linearan:

Skriveni tekst

y2<- log(x) + rnorm(n, sd=.1) fit2 <- lm(y2 ~ x) plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9) abline(fit2) plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Prema grafu y 2 ~ x, čini se da se može pretpostaviti linearni odnos, ali reziduali imaju obrazac, što znači da čista linearna regresija ovdje neće raditi. Evo što heteroskedastičnost zapravo znači:

Skriveni tekst

y3<- x + rnorm(n, sd=.001*x) fit3 <- lm(y3 ~ x) plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9) abline(fit3) plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Linearni model s takvim "napuhanim" rezidualama nije točan. Također je ponekad korisno iscrtati kvantile reziduala u odnosu na kvantile koji bi se očekivali da su reziduali normalno raspoređeni:

Skriveni tekst

qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(fit2))



Drugi grafikon jasno pokazuje da se pretpostavka o normalnosti reziduala može odbaciti (što opet ukazuje da je model netočan). A postoje i takve situacije:

Skriveni tekst

x4<- c(9, x) y4 <- c(3, x + rnorm(n, sd=.1)) fit4 <- lm(y4 ~ x4) par(mfrow=c(1, 1)) plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9) abline(fit4)



To je takozvani "outlier", koji može uvelike iskriviti rezultate i dovesti do pogrešnih zaključaka. R ima sredstva za otkrivanje - koristeći standardiziranu mjeru dfbetas i hat vrijednosti:
> okrugli(dfbetas(fit4), 3) (Intercept) x4 1 15,987 -26,342 2 -0,131 0,062 3 -0,049 0,017 4 0,083 0,000 5 0,023 0,037 6 -0,245 0,131 7 0,055 0,084 8 0,027 0,055 .....
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0,810 0,012 0,011 0,010 0,013 0,014 0,013 0,014 0,010 0,010...
Kao što možete vidjeti, prvi član vektora x4 ima osjetno veći utjecaj na parametre regresijskog modela od ostalih, stoga je outlier.

Izbor modela za višestruku regresiju

Naravno, kod višestruke regresije postavlja se pitanje: isplati li se uzeti u obzir sve varijable? S jedne strane, čini se da se isplati, jer... svaka varijabla potencijalno nosi korisnu informaciju. Osim toga, povećanjem broja varijabli povećavamo R2 (usput rečeno, upravo je to razlog zašto se ova mjera ne može smatrati pouzdanom pri ocjeni kvalitete modela). S druge strane, vrijedi imati na umu stvari kao što su AIC i BIC, koji uvode kazne za složenost modela. Apsolutna vrijednost informacijskog kriterija sama po sebi nema smisla, pa je potrebno te vrijednosti usporediti u nekoliko modela: u našem slučaju, s različitim brojem varijabli. Model s minimalnom vrijednošću kriterija informacija bit će najbolji (iako se ima o čemu raspravljati).
Pogledajmo skup podataka UScrime iz knjižnice MASS:
biblioteka(MASS) podaci(UScrime) stepAIC(lm(y~., podaci=UScrime))
Model s najmanjom AIC vrijednošću ima sljedeće parametre:
Poziv: lm(formula = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, podaci = UScrime) Koeficijenti: (Intercept) M Ed Po1 M.F U1 U2 Ineq Prob -6426,101 9,332 18,012 10,265 2,234 -6,087 18,735 6.133 -3796.032
Stoga će optimalni model koji uzima u obzir AIC biti:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Koeficijenti: Procjena Std. T vrijednost pogreške Pr(>|t|) (Odsječak) -6426,101 1194,611 -5,379 4,04e-06 *** M 9,332 3,350 2,786 0,00828 ** Ed 18,012 5,275 3,414 0,00153 ** Po1 10,265 1. 5 52 6.613 8.26e-08 ** * M.F 2,234 1,360 1,642 0,10874 U1 -6,087 3,339 -1,823 0,07622. U2 18,735 7,248 2,585 0,01371 * Ineq 6,133 1,396 4,394 8,63e-05 *** Prob -3796,032 1490,646 -2,547 0,01505 * Signif. šifre: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘ ’ 1
Ako bolje pogledate, ispada da varijable M.F i U1 imaju prilično visoku p-vrijednost, što nam kao da nam daje naslutiti da te varijable nisu toliko važne. Ali p-vrijednost je prilično dvosmislena mjera kada se procjenjuje važnost određene varijable za statistički model. Ova činjenica je jasno prikazana primjerom:
podaci<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Procjena Std. Pogreška t vrijednost Pr(>|t|) V2 1,1912939 0,1401286 8,501431 3,325404e-17 V3 0,9354776 0,1271192 7,359057 2,568432e-13 V4 0,9311644 0,1240912 7.503873 8.816818e-14 V5 1.1644978 0.1385375 8.405652 7.370156e-17 V6 1.0613459 0.1317248 8.057300 1.242584e-15 V7 1.0092041 0.1287784 7.836752 7.021785e-15 V8 0.9307010 0.1219609 7.631143 3.391212e-14 V9 0.8624487 0.1198499 7.196073 8. 362082e-13 V10 0,9763194 0,0879140 11,105393 6,027585e-28
P-vrijednosti svake varijable su praktički jednake nuli, te se može pretpostaviti da su sve varijable važne za ovaj linearni model. Ali zapravo, ako pažljivo pogledate ostatke, ispada nešto ovako:

Skriveni tekst

plot(predvidi(fit), resid(fit), pch=".")



Ipak, alternativni pristup se oslanja na analizu varijance, u kojoj p-vrijednosti igraju ključnu ulogu. Usporedimo model bez M.F varijable s modelom izgrađenim uzimajući u obzir samo AIC:
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Analiza tablice varijance Model 1: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob Model 2: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Zbroj Sq F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2,6978 0,1087
S obzirom na P-vrijednost od 0,1087 na razini značajnosti od α=0,05, možemo zaključiti da nema statistički značajnih dokaza u korist alternativne hipoteze, tj. u korist modela s dodatnom varijablom M.F. Korištenje grafičke metode.
Ovom se metodom vizualno prikazuje oblik povezanosti proučavanih ekonomskih pokazatelja. Da biste to učinili, grafikon se crta u pravokutnom koordinatnom sustavu, pojedinačne vrijednosti rezultantne karakteristike Y iscrtavaju se duž ordinatne osi, a pojedinačne vrijednosti faktorske karakteristike X iscrtavaju se duž osi apscise.
Skup točaka rezultantne i faktorske karakteristike naziva se korelacijsko polje.
Na temelju korelacijskog polja možemo pretpostaviti (za populaciju) da je odnos između svih mogućih vrijednosti X i Y linearan.

Jednadžba linearne regresije ima oblik y = bx + a + ε
Ovdje je ε slučajna greška (odstupanje, smetnja).
Razlozi postojanja slučajne greške:
1. Neuključivanje značajnih eksplanatornih varijabli u regresijski model;
2. Agregacija varijabli. Na primjer, funkcija ukupne potrošnje pokušaj je općenitog izražavanja agregata pojedinačnih odluka o potrošnji. Ovo je samo aproksimacija pojedinih odnosa koji imaju različite parametre.
3. Netočan opis strukture modela;
4. Netočna funkcionalna specifikacija;
5. Pogreške mjerenja.
Budući da su odstupanja ε i za svako specifično promatranje i slučajna i njihove vrijednosti u uzorku nepoznate, tada:
1) iz opažanja x i i y i mogu se dobiti samo procjene parametara α i β
2) Procjene parametara α i β regresijskog modela su vrijednosti a i b, koje su po prirodi slučajne, jer odgovaraju slučajnom uzorku;
Tada će jednadžba procjene regresije (konstruirana iz podataka uzorka) imati oblik y = bx + a + ε, gdje su e i opažene vrijednosti (procjene) pogrešaka ε i, a a i b su, redom, procjene parametri α i β regresijskog modela koje treba pronaći.
Za procjenu parametara α i β – koristi se metoda najmanjih kvadrata (metoda najmanjih kvadrata).
Sustav normalnih jednadžbi.

Za naše podatke sustav jednadžbi ima oblik:

10a + 356b = 49
356a + 2135b = 9485

Iz prve jednadžbe izrazimo a i zamijenimo ga u drugu jednadžbu
Dobivamo b = 68,16, a = 11,17

Regresijska jednadžba:
y = 68,16 x - 11,17

1. Parametri regresijske jednadžbe.
Uzorak znači.



Odstupanja uzorka.


Standardna devijacija

1.1. Koeficijent korelacije
Izračunavamo pokazatelj blizine veze. Ovaj pokazatelj je koeficijent linearne korelacije uzorka, koji se izračunava po formuli:

Koeficijent linearne korelacije ima vrijednosti od –1 do +1.
Veze između karakteristika mogu biti slabe i jake (bliske). Njihovi kriteriji procjenjuju se prema Chaddockovoj ljestvici:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
U našem primjeru, veza između svojstva Y i faktora X vrlo je visoka i izravna.

1.2. Regresijska jednadžba(procjena regresijske jednadžbe).

Jednadžba linearne regresije je y = 68,16 x -11,17
Koeficijentima linearne regresijske jednadžbe može se dati ekonomsko značenje. Koeficijent regresijske jednadžbe pokazuje koliko jedinica. rezultat će se promijeniti kada se faktor promijeni za 1 jedinicu.
Koeficijent b = 68,16 pokazuje prosječnu promjenu efektivnog pokazatelja (u mjernim jedinicama y) s povećanjem ili smanjenjem vrijednosti faktora x po jedinici njegovog mjerenja. U ovom primjeru, s povećanjem od 1 jedinice, y se povećava u prosjeku za 68,16.
Koeficijent a = -11,17 formalno pokazuje predviđenu razinu y, ali samo ako je x = 0 blizu vrijednosti uzorka.
Ali ako je x = 0 daleko od vrijednosti uzorka x, tada doslovna interpretacija može dovesti do netočnih rezultata, pa čak i ako regresijska linija prilično točno opisuje promatrane vrijednosti uzorka, nema jamstva da će i to također biti slučaj kada se ekstrapolira lijevo ili desno.
Zamjenom odgovarajućih x vrijednosti u regresijsku jednadžbu, možemo odrediti usklađene (predviđene) vrijednosti pokazatelja učinka y(x) za svako opažanje.
Odnos između y i x određuje predznak regresijskog koeficijenta b (ako je > 0 - izravni odnos, inače - inverzan). U našem primjeru veza je izravna.

1.3. Koeficijent elastičnosti.
Nije preporučljivo koristiti regresijske koeficijente (u primjeru b) za izravnu procjenu utjecaja faktora na rezultantno obilježje ako postoji razlika u mjernim jedinicama rezultantnog pokazatelja y i faktorskog obilježja x.
U tu svrhu izračunavaju se koeficijenti elastičnosti i beta koeficijenti. Koeficijent elastičnosti nalazi se po formuli:


Pokazuje za koliko se postotaka u prosjeku mijenja efektivni atribut y kada se faktorski atribut x promijeni za 1%. Ne uzima u obzir stupanj fluktuacije faktora.
U našem primjeru, koeficijent elastičnosti je veći od 1. Stoga, ako se X promijeni za 1%, Y će se promijeniti za više od 1%. Drugim riječima, X značajno utječe na Y.
Beta koeficijent pokazuje za koji dio vrijednosti svoje standardne devijacije će se promijeniti prosječna vrijednost rezultirajuće karakteristike kada se faktorska karakteristika promijeni za vrijednost svoje standardne devijacije uz vrijednost preostalih nezavisnih varijabli fiksiranih na konstantnoj razini:

Oni. povećanje x za standardnu ​​devijaciju ovog pokazatelja dovest će do povećanja prosječnog Y za 0,9796 standardnih devijacija ovog pokazatelja.

1.4. Pogreška aproksimacije.
Ocijenimo kvalitetu regresijske jednadžbe koristeći pogrešku apsolutne aproksimacije.


Budući da je pogreška veća od 15%, nije preporučljivo koristiti ovu jednadžbu kao regresiju.

1.6. Koeficijent determinacije.
Kvadrat koeficijenta (višestruke) korelacije naziva se koeficijent determinacije, koji pokazuje udio varijacije u rezultantnom atributu koji se objašnjava varijacijom faktorskog atributa.
Najčešće, kada se tumači koeficijent determinacije, on se izražava u postocima.
R2 = 0,982 = 0,9596
oni. u 95,96% slučajeva promjene x dovode do promjena y. Drugim riječima, točnost odabira regresijske jednadžbe je visoka. Preostalih 4,04% promjene Y objašnjeno je čimbenicima koji nisu uzeti u obzir u modelu.

x g x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Procjena parametara regresijske jednadžbe.
2.1. Značaj koeficijenta korelacije.

Koristeći Studentovu tablicu s razinom značajnosti α=0,05 i stupnjevima slobode k=7, nalazimo t crit:
t krit = (7;0,05) = 1,895
gdje je m = 1 broj eksplanatornih varijabli.
Ako je promatrano t > t kritično, tada se rezultirajuća vrijednost korelacijskog koeficijenta smatra značajnom (nulta hipoteza koja tvrdi da je korelacijski koeficijent jednak nuli se odbacuje).
Budući da je t obs > t crit, odbacujemo hipotezu da je korelacijski koeficijent jednak 0. Drugim riječima, koeficijent korelacije je statistički značajan
U uparenoj linearnoj regresiji t 2 r = t 2 b i zatim testiranje hipoteza o značaju koeficijenata regresije i korelacije ekvivalentno je testiranju hipoteze o značaju jednadžbe linearne regresije.

2.3. Analiza točnosti određivanja procjena regresijskih koeficijenata.
Nepristrana procjena disperzije poremećaja je vrijednost:


S 2 y = 94,6484 - neobjašnjena varijanca (mjera širenja zavisne varijable oko regresijske linije).
S y = 9,7287 - standardna pogreška procjene (standardna pogreška regresije).
S a - standardna devijacija slučajne varijable a.


S b - standardna devijacija slučajne varijable b.

2.4. Intervali pouzdanosti za zavisnu varijablu.
Ekonomsko predviđanje temeljeno na konstruiranom modelu pretpostavlja da se već postojeći odnosi između varijabli održavaju tijekom razdoblja prijema.
Za predviđanje ovisne varijable rezultantnog atributa, potrebno je znati predviđene vrijednosti svih faktora uključenih u model.
Predviđene vrijednosti faktora zamjenjuju se u model i dobivaju se prediktivne bodovne procjene pokazatelja koji se proučava. (a + bx p ± ε)
Gdje

Izračunajmo granice intervala u kojem će 95% mogućih vrijednosti Y biti koncentrirano s neograničenim brojem promatranja i X p = 1 (-11,17 + 68,16*1 ± 6,4554)
(50.53;63.44)

Individualni intervali pouzdanosti zaYna zadanu vrijednostx.
(a + bx i ± ε)
Gdje

x i y = -11,17 + 68,16x i ε i ymin ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

S vjerojatnošću od 95% moguće je jamčiti da vrijednost Y za neograničeni broj opažanja neće pasti izvan granica pronađenih intervala.

2.5. Testiranje hipoteza o koeficijentima jednadžbe linearne regresije.
1) t-statistika. Studentov t test.
Provjerimo hipotezu H 0 o jednakosti pojedinačnih regresijskih koeficijenata nuli (ako alternativa nije jednaka H 1) na razini značajnosti α=0,05.
t krit = (7;0,05) = 1,895


Budući da je 12,8866 > 1,895, potvrđena je statistička značajnost regresijskog koeficijenta b (odbacujemo hipotezu da je taj koeficijent jednak nuli).


Budući da je 2,0914 > 1,895, potvrđena je statistička značajnost regresijskog koeficijenta a (odbacujemo hipotezu da je taj koeficijent jednak nuli).

Interval pouzdanosti za koeficijente regresijske jednadžbe.
Odredimo intervale pouzdanosti koeficijenata regresije, koji će s pouzdanošću od 95% biti sljedeći:
(b - t kritični S b ; b + t kritični S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
S vjerojatnošću od 95% može se reći da će vrijednost ovog parametra ležati u pronađenom intervalu.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
S vjerojatnošću od 95% može se reći da će vrijednost ovog parametra ležati u pronađenom intervalu.

2) F-statistika. Fisherov kriterij.
Testiranje značajnosti regresijskog modela provodi se Fisherovim F testom, čija se izračunata vrijednost nalazi kao omjer varijance izvornog niza opažanja pokazatelja koji se proučava i nepristrane procjene varijance rezidualnog niza za ovaj model.
Ako je izračunata vrijednost s lang=EN-US>n-m-1) stupnjevima slobode veća od tablične vrijednosti na danoj razini značajnosti, tada se model smatra značajnim.

gdje je m broj faktora u modelu.
Statistička značajnost uparene linearne regresije procjenjuje se pomoću sljedećeg algoritma:
1. Postavlja se nulta hipoteza da je jednadžba kao cjelina statistički beznačajna: H 0: R 2 =0 na razini značajnosti α.
2. Zatim odredite stvarnu vrijednost F-kriterija:


gdje je m=1 za parnu regresiju.
3. Tablična vrijednost određena je iz tablica Fisherove distribucije za danu razinu značajnosti, uzimajući u obzir da je broj stupnjeva slobode za ukupni zbroj kvadrata (veća varijanca) 1, a broj stupnjeva slobode za ostatak zbroj kvadrata (manja varijanca) u linearnoj regresiji je n-2 .
4. Ako je stvarna vrijednost F-testa manja od tablične vrijednosti, onda kažu da nema razloga za odbacivanje nulte hipoteze.
U suprotnom, nulta hipoteza se odbacuje, a alternativna hipoteza o statističkoj značajnosti jednadžbe u cjelini se prihvaća s vjerojatnošću (1-α).
Tablična vrijednost kriterija sa stupnjevima slobode k1=1 i k2=7, Fkp = 5,59
Budući da je stvarna vrijednost F > Fkp, koeficijent determinacije je statistički značajan (Nađena procjena regresijske jednadžbe je statistički pouzdana).

Provjera autokorelacije reziduala.
Važan preduvjet za konstruiranje kvalitativnog regresijskog modela pomoću OLS-a je neovisnost vrijednosti slučajnih odstupanja od vrijednosti odstupanja u svim drugim promatranjima. Ovo osigurava da ne postoji korelacija između bilo kojih odstupanja, a posebno između susjednih odstupanja.
Autokorelacija (serijska korelacija) definira se kao korelacija između promatranih pokazatelja poredanih u vremenu (vremenska serija) ili prostoru (unakrsna serija). Autokorelacija reziduala (varijanci) uobičajena je u regresijskom analizi kada se koriste podaci vremenskih serija i vrlo rijetka kada se koriste podaci presjeka.
U ekonomskim problemima to je mnogo češće pozitivna autokorelacija, rađe nego negativna autokorelacija. U većini slučajeva pozitivna autokorelacija uzrokovana je usmjerenim konstantnim utjecajem nekih čimbenika koji nisu uzeti u obzir u modelu.
Negativna autokorelacija zapravo znači da nakon pozitivnog odstupanja slijedi negativno i obrnuto. Ova situacija se može dogoditi ako se isti odnos između potražnje za bezalkoholnim pićima i prihoda promatra prema sezonskim podacima (zima-ljeto).
Među glavni razlozi koji uzrokuju autokorelaciju, mogu se razlikovati sljedeće:
1. Greške specifikacije. Neuzimanje u obzir bilo koje važne eksplanatorne varijable u modelu ili netočan odabir oblika ovisnosti obično dovodi do sustavnih odstupanja točaka promatranja od regresijske linije, što može dovesti do autokorelacije.
2. Inercija. Mnogi ekonomski pokazatelji (inflacija, nezaposlenost, GNP, itd.) imaju određenu cikličku prirodu povezanu s valovitošću poslovne aktivnosti. Stoga se promjena pokazatelja ne događa trenutno, već ima određenu inerciju.
3. Efekt paukove mreže. U mnogim proizvodnim i drugim područjima ekonomski pokazatelji s odgodom (vremenskim odmakom) reagiraju na promjene gospodarskih uvjeta.
4. Izglađivanje podataka. Često se podaci za određeno dugo vremensko razdoblje dobivaju usrednjavanjem podataka u njegovim sastavnim intervalima. To može dovesti do određenog izglađivanja fluktuacija koje su se dogodile u promatranom razdoblju, što zauzvrat može uzrokovati autokorelaciju.
Posljedice autokorelacije slične su posljedicama heteroskedastičnosti: zaključci iz t- i F-statistike koji određuju značajnost koeficijenta regresije i koeficijenta determinacije vjerojatno će biti netočni.

Autokorelacijsko otkrivanje

1. Grafička metoda
Postoji niz opcija za grafičko definiranje autokorelacije. Jedan od njih povezuje odstupanja e i s trenucima njihova primitka i. U tom slučaju se na apscisnoj osi nanosi ili vrijeme dobivanja statističkih podataka ili redni broj opažanja, a na ordinatnoj osi odstupanja e i (ili procjene odstupanja).
Prirodno je pretpostaviti da ako postoji određena povezanost između odstupanja, tada postoji autokorelacija. Odsutnost ovisnosti najvjerojatnije će ukazivati ​​na odsutnost autokorelacije.
Autokorelacija postaje jasnija ako nacrtate ovisnost e i o e i-1.

Durbin-Watsonov test.
Ovaj kriterij je najpoznatiji za otkrivanje autokorelacije.
Pri statističkoj analizi regresijskih jednadžbi, u početnoj fazi često se provjerava izvedivost jednog preduvjeta: uvjeta za statističku neovisnost jednih odstupanja. U ovom slučaju provjerava se nekorelacija susjednih vrijednosti e i.

g y(x) e i = y-y(x) e 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Za analizu korelacije odstupanja koristi se Durbin-Watson statistika:

Kritične vrijednosti d 1 i d 2 određuju se na temelju posebnih tablica za traženu razinu značajnosti α, broj promatranja n = 9 i broj eksplanatornih varijabli m = 1.
Nema autokorelacije ako je ispunjen sljedeći uvjet:
d 1< DW и d 2 < DW < 4 - d 2 .
Bez pozivanja na tablice, možete koristiti približno pravilo i pretpostaviti da ne postoji autokorelacija reziduala ako je 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.
KATEGORIJE

POPULARNI ČLANCI

2023 “kingad.ru” - ultrazvučni pregled ljudskih organa