Formula koeficijenta linearne regresije. Regresijska jednadžba

Regresijska analiza je statistička metoda istraživanja koja vam omogućuje da pokažete ovisnost određenog parametra o jednoj ili više neovisnih varijabli. U predračunalnoj eri njegovo je korištenje bilo prilično teško, posebice kada se radilo o velikim količinama podataka. Danas, nakon što ste naučili kako izgraditi regresiju u Excelu, možete riješiti složene statističke probleme u samo nekoliko minuta. U nastavku su konkretni primjeri iz područja ekonomije.

Vrste regresije

Sam ovaj koncept uveden je u matematiku 1886. godine. Regresija se događa:

  • linearni;
  • parabolični;
  • trijezan;
  • eksponencijalni;
  • hiperbolički;
  • demonstrativan;
  • logaritamski.

Primjer 1

Razmotrimo problem određivanja ovisnosti broja članova tima koji su dali otkaz o prosječnoj plaći u 6 industrijskih poduzeća.

Zadatak. U šest poduzeća analizirana je prosječna mjesečna plaća i broj zaposlenika koji su dobrovoljno dali otkaz. U tabelarnom obliku imamo:

Broj ljudi koji su odustali

Plaća

30 000 rubalja

35 000 rubalja

40 000 rubalja

45 000 rubalja

50 000 rubalja

55 000 rubalja

60 000 rubalja

Za zadatak određivanja ovisnosti broja radnika koji napuštaju posao o prosječnoj plaći u 6 poduzeća, regresijski model ima oblik jednadžbe Y = a 0 + a 1 x 1 +...+a k x k, gdje su x i utjecajne varijable, a i su regresijski koeficijenti, a k je broj faktora.

Za ovaj problem Y je indikator odlaska zaposlenika, a faktor utjecaja je plaća koju označavamo s X.

Korištenje mogućnosti tabličnog procesora Excel

Regresijskoj analizi u Excelu mora prethoditi primjena ugrađenih funkcija na postojeće tablične podatke. Međutim, u ove svrhe bolje je koristiti vrlo koristan dodatak “Analysis Pack”. Za aktivaciju je potrebno:

  • na kartici "Datoteka" idite na odjeljak "Opcije";
  • u prozoru koji se otvori odaberite redak "Dodaci";
  • kliknite gumb "Idi" koji se nalazi ispod, desno od retka "Upravljanje";
  • potvrdite okvir pored naziva "Paket analize" i potvrdite svoje radnje klikom na "U redu".

Ako je sve učinjeno ispravno, potreban gumb pojavit će se na desnoj strani kartice "Podaci", koja se nalazi iznad Excel radnog lista.

u Excelu

Sada kada imamo sve potrebne virtualne alate pri ruci za izvođenje ekonometrijskih izračuna, možemo početi rješavati naš problem. Za ovo:

  • Kliknite na gumb "Analiza podataka";
  • u prozoru koji se otvori kliknite na gumb "Regresija";
  • u kartici koja se pojavi unesite raspon vrijednosti za Y (broj zaposlenika koji odustaju) i za X (njihove plaće);
  • Svoje radnje potvrđujemo pritiskom na gumb "Ok".

Kao rezultat toga, program će automatski ispuniti novu proračunsku tablicu podacima regresijske analize. Bilješka! Excel vam omogućuje da ručno postavite mjesto koje želite za tu svrhu. Na primjer, to može biti isti list na kojem se nalaze vrijednosti Y i X ili čak nova radna knjiga posebno dizajnirana za pohranu takvih podataka.

Analiza rezultata regresije za R-kvadrat

U Excelu podaci dobiveni obradom podataka u primjeru koji se razmatra imaju oblik:

Prije svega, trebali biste obratiti pozornost na vrijednost R-kvadrata. Predstavlja koeficijent determinacije. U ovom primjeru R-kvadrat = 0,755 (75,5%), tj. izračunati parametri modela objašnjavaju odnos između parametara koji se razmatraju za 75,5%. Što je veća vrijednost koeficijenta determinacije, to je odabrani model prikladniji za određeni zadatak. Smatra se da ispravno opisuje stvarnu situaciju kada je vrijednost R-kvadrata iznad 0,8. Ako je R-kvadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza koeficijenata

Broj 64,1428 pokazuje kolika će biti vrijednost Y ako se sve varijable xi u modelu koji razmatramo vratimo na nulu. Drugim riječima, može se tvrditi da na vrijednost analiziranog parametra utječu i drugi čimbenici koji nisu opisani u konkretnom modelu.

Sljedeći koeficijent -0,16285 koji se nalazi u ćeliji B18 pokazuje težinu utjecaja varijable X na Y. To znači da prosječna mjesečna plaća zaposlenih unutar razmatranog modela utječe na broj onih koji su odustali s težinom od -0,16285, tj. stupanj njegovog utjecaja potpuno je malen. Znak "-" označava da je koeficijent negativan. To je očito, jer svi znaju da što je veća plaća u poduzeću, to manje ljudi izražava želju za prekidom ugovora o radu ili davanjem otkaza.

Višestruka regresija

Ovaj izraz se odnosi na jednadžbu odnosa s nekoliko neovisnih varijabli oblika:

y=f(x 1 +x 2 +…x m) + ε, gdje je y rezultantna karakteristika (ovisna varijabla), a x 1, x 2,…x m su faktorske karakteristike (nezavisne varijable).

Procjena parametara

Za višestruku regresiju (MR), ona se provodi metodom najmanjih kvadrata (OLS). Za linearne jednadžbe oblika Y = a + b 1 x 1 +…+b m x m + ε konstruiramo sustav normalnih jednadžbi (vidi dolje)

Da bismo razumjeli načelo metode, razmotrimo slučaj s dva faktora. Tada imamo situaciju opisanu formulom

Odavde dobivamo:

gdje je σ varijanca odgovarajuće značajke koja se odražava u indeksu.

OLS je primjenjiv na MR jednadžbu na standardiziranoj skali. U ovom slučaju dobivamo jednadžbu:

u kojima su t y, t x 1, … t xm standardizirane varijable, za koje su prosječne vrijednosti jednake 0; β i su standardizirani regresijski koeficijenti, a standardna devijacija je 1.

Imajte na umu da su svi β i u ovom slučaju navedeni kao normalizirani i centralizirani, stoga se njihova međusobna usporedba smatra ispravnom i prihvatljivom. Osim toga, uobičajeno je izdvojiti faktore odbacivanjem onih s najnižim vrijednostima βi.

Problem s korištenjem jednadžbe linearne regresije

Pretpostavimo da imamo tablicu dinamike cijena za određeni proizvod N u proteklih 8 mjeseci. Potrebno je donijeti odluku o svrsishodnosti kupnje njegove serije po cijeni od 1850 rubalja/t.

broj mjeseca

ime mjeseca

cijena proizvoda N

1750 rubalja po toni

1755 rubalja po toni

1767 rubalja po toni

1760 rubalja po toni

1770 rubalja po toni

1790 rubalja po toni

1810 rubalja po toni

1840 rubalja po toni

Da biste riješili ovaj problem u Excel tabličnom procesoru, morate koristiti alat "Analiza podataka", već poznat iz primjera prikazanog gore. Zatim odaberite odjeljak "Regresija" i postavite parametre. Treba imati na umu da se u polju „Interval unosa Y” mora unijeti raspon vrijednosti za zavisnu varijablu (u ovom slučaju cijene za robu u određenim mjesecima u godini), au polju „Interval unosa X” - za nezavisnu varijablu (broj mjeseca). Potvrdite radnju klikom na "OK". Na novom listu (ako je tako naznačeno) dobivamo podatke za regresiju.

Koristeći ih, konstruiramo linearnu jednadžbu oblika y=ax+b, gdje su parametri a i b koeficijenti pravca s nazivom mjeseca i koeficijenti i pravci “Y-presjeka” s lista s rezultate regresijske analize. Stoga je jednadžba linearne regresije (LR) za zadatak 3 napisana kao:

Cijena proizvoda N = 11,714* broj mjeseca + 1727,54.

ili u algebarskom zapisu

y = 11,714 x + 1727,54

Analiza rezultata

Da bi se odlučilo je li rezultirajuća linearna regresijska jednadžba odgovarajuća, koriste se koeficijenti višestruke korelacije (MCC) i determinacije, kao i Fisherov test i Studentov t test. U proračunskoj tablici programa Excel s rezultatima regresije oni se nazivaju višestruki R, R-kvadrat, F-statistika i t-statistika.

KMC R omogućuje procjenu bliskosti vjerojatnosnog odnosa između neovisnih i zavisnih varijabli. Njegova visoka vrijednost ukazuje na prilično jaku vezu između varijabli "Broj mjeseca" i "Cijena proizvoda N u rubljama po 1 toni". Međutim, priroda ovog odnosa ostaje nepoznata.

Kvadrat koeficijenta determinacije R2 (RI) je numerička karakteristika udjela ukupnog raspršenja i pokazuje raspršenost kojeg dijela eksperimentalnih podataka, tj. vrijednosti zavisne varijable odgovara jednadžbi linearne regresije. U problemu koji se razmatra ta je vrijednost jednaka 84,8%, tj. statistički podaci su s visokim stupnjem točnosti opisani dobivenim SD-om.

F-statistika, također nazvana Fisherov test, koristi se za procjenu značaja linearnog odnosa, opovrgavajući ili potvrđujući hipotezu o njegovom postojanju.

(Studentov test) pomaže u procjeni značajnosti koeficijenta s nepoznatim ili slobodnim članom linearne veze. Ako je vrijednost t-testa > tcr, hipoteza o beznačajnosti slobodnog člana linearne jednadžbe se odbacuje.

U razmatranom problemu za slobodni član pomoću Excel alata dobiveno je da je t = 169,20903, a p = 2,89E-12, odnosno imamo nultu vjerojatnost da će se odbaciti točna hipoteza o beznačajnosti slobodnog člana. . Za koeficijent za nepoznatu t=5,79405, a p=0,001158. Drugim riječima, vjerojatnost da će ispravna hipoteza o beznačajnosti koeficijenta za nepoznanicu biti odbačena je 0,12%.

Stoga se može tvrditi da je rezultirajuća jednadžba linearne regresije primjerena.

Problem isplativosti kupnje paketa dionica

Višestruka regresija u Excelu izvodi se pomoću istog alata za analizu podataka. Razmotrimo konkretan problem primjene.

Uprava tvrtke NNN mora odlučiti o svrsishodnosti kupnje 20% udjela u MMM dd. Cijena paketa (SP) je 70 milijuna američkih dolara. NNN stručnjaci prikupili su podatke o sličnim transakcijama. Odlučeno je procijeniti vrijednost paketa dionica prema takvim parametrima, izraženim u milijunima američkih dolara, kao što su:

  • računi prema dobavljačima (VK);
  • godišnji obujam prometa (VO);
  • potraživanja (VD);
  • trošak dugotrajne imovine (COF).

Osim toga, koristi se parametar zaostalih plaća poduzeća (V3 P) u tisućama američkih dolara.

Rješenje pomoću procesora proračunskih tablica Excel

Prije svega, trebate izraditi tablicu izvornih podataka. Ovako izgleda:

  • pozovite prozor "Analiza podataka";
  • odaberite odjeljak "Regresija";
  • U okvir “Interval unosa Y” unesite raspon vrijednosti zavisnih varijabli iz stupca G;
  • Kliknite na ikonu s crvenom strelicom desno od prozora “Interval unosa X” i označite raspon svih vrijednosti iz stupaca B, C, D, F na listu.

Označite stavku "Novi radni list" i kliknite "U redu".

Dobiti regresijsku analizu za dati problem.

Studija rezultata i zaključaka

Regresijsku jednadžbu "prikupljamo" iz gore navedenih zaokruženih podataka u Excel proračunskoj tablici:

SP = 0,103*SOF + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265.844.

U poznatijem matematičkom obliku, može se napisati kao:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Podaci za MMM dd prikazani su u tablici:

Zamjenom u regresijsku jednadžbu dobivamo brojku od 64,72 milijuna američkih dolara. To znači da se dionice MMM dd ne isplati kupovati, jer je njihova vrijednost od 70 milijuna dolara prilično prenapuhana.

Kao što vidite, korištenje proračunske tablice programa Excel i regresijske jednadžbe omogućilo je donošenje informirane odluke o izvedivosti vrlo specifične transakcije.

Sada znate što je regresija. Gore navedeni primjeri programa Excel pomoći će vam u rješavanju praktičnih problema u području ekonometrije.

U prethodnim postovima, analiza se često fokusirala na jednu numeričku varijablu, kao što su prinosi uzajamnog fonda, vrijeme učitavanja web stranice ili konzumacija bezalkoholnih pića. U ovoj i sljedećim bilješkama, pogledat ćemo metode za predviđanje vrijednosti numeričke varijable ovisno o vrijednostima jedne ili više drugih numeričkih varijabli.

Materijal će biti ilustriran međusektorskim primjerom. Predviđanje obima prodaje u trgovini odjećom. Lanac diskontnih trgovina odjećom Sunflowers kontinuirano se širi već 25 godina. Međutim, tvrtka trenutno nema sustavan pristup odabiru novih prodajnih mjesta. Lokacija na kojoj tvrtka namjerava otvoriti novu trgovinu određuje se na temelju subjektivnih razmatranja. Kriteriji odabira su povoljni uvjeti najma ili ideja voditelja o idealnoj lokaciji trgovine. Zamislite da ste voditelj odjela za posebne projekte i planiranje. Dobili ste zadatak izraditi strateški plan otvaranja novih trgovina. Ovaj plan treba sadržavati predviđanje godišnje prodaje za novootvorene trgovine. Vjerujete da je maloprodajni prostor izravno povezan s prihodom i želite to uzeti u obzir u procesu donošenja odluka. Kako razviti statistički model za predviđanje godišnje prodaje na temelju veličine nove trgovine?

Obično se regresijska analiza koristi za predviđanje vrijednosti varijable. Njegov cilj je razviti statistički model koji može predvidjeti vrijednosti zavisne varijable ili odgovora iz vrijednosti najmanje jedne nezavisne ili eksplanatorne varijable. U ovoj bilješci ćemo pogledati jednostavnu linearnu regresiju - statističku metodu koja vam omogućuje predviđanje vrijednosti zavisne varijable Y vrijednostima neovisne varijable x. Sljedeće bilješke opisat će višestruki regresijski model dizajniran za predviđanje vrijednosti nezavisne varijable Y na temelju vrijednosti nekoliko zavisnih varijabli ( X 1, X 2, …, X k).

Preuzmite bilješku u ili formatu, primjere u formatu

Vrste regresijskih modela

Gdje ρ 1 – koeficijent autokorelacije; Ako ρ 1 = 0 (bez autokorelacije), D≈ 2; Ako ρ 1 ≈ 1 (pozitivna autokorelacija), D≈ 0; Ako ρ 1 = -1 (negativna autokorelacija), D ≈ 4.

U praksi se primjena Durbin-Watsonovog kriterija temelji na usporedbi vrijednosti D s kritičnim teorijskim vrijednostima dL I dU za određeni broj opažanja n, broj neovisnih varijabli modela k(za jednostavnu linearnu regresiju k= 1) i razinu značajnosti α. Ako D< d L , hipoteza o neovisnosti slučajnih odstupanja je odbačena (dakle, postoji pozitivna autokorelacija); Ako D>dU, hipoteza nije odbačena (to jest, nema autokorelacije); Ako dL< D < d U , nema dovoljno razloga za donošenje odluke. Kada se izračunata vrijednost D prelazi 2, zatim sa dL I dU Ne uspoređuje se sam koeficijent D, i izraz (4 – D).

Da bismo izračunali Durbin-Watson statistiku u Excelu, okrenimo se donjoj tablici na slici. 14 Povlačenje stanja. Brojnik u izrazu (10) izračunava se pomoću funkcije =SUMMAR(niz1;niz2), a nazivnik =SUMAR(niz) (slika 16).

Riža. 16. Formule za izračunavanje Durbin-Watsonove statistike

U našem primjeru D= 0,883. Glavno pitanje je: koju vrijednost Durbin-Watsonove statistike treba smatrati dovoljno malom da se zaključi da postoji pozitivna autokorelacija? Potrebno je korelirati vrijednost D s kritičnim vrijednostima ( dL I dU), ovisno o broju promatranja n i razinu značajnosti α (slika 17).

Riža. 17. Kritične vrijednosti Durbin-Watsonove statistike (fragment tablice)

Dakle, u problemu obima prodaje u trgovini koja dostavlja robu na kućnu adresu postoji jedna nezavisna varijabla ( k= 1), 15 promatranja ( n= 15) i razinu značajnosti α = 0,05. Stoga, dL= 1,08 i dU= 1,36. Jer D = 0,883 < dL= 1,08, postoji pozitivna autokorelacija između reziduala, metoda najmanjih kvadrata se ne može koristiti.

Testiranje hipoteza o nagibu i koeficijentu korelacije

Gore je regresija korištena isključivo za predviđanje. Odrediti regresijske koeficijente i predvidjeti vrijednost varijable Y za datu vrijednost varijable x Korištena je metoda najmanjih kvadrata. Osim toga, ispitali smo korijen srednje kvadratne pogreške procjene i koeficijent mješovite korelacije. Ako analiza reziduala potvrdi da uvjeti primjenjivosti metode najmanjih kvadrata nisu povrijeđeni, a model jednostavne linearne regresije je adekvatan, na temelju podataka uzorka, može se tvrditi da postoji linearni odnos između varijabli u populacija.

Primjenat -kriteriji za nagib. Testiranjem je li nagib populacije β 1 jednak nuli, možete odrediti postoji li statistički značajan odnos između varijabli x I Y. Ako se ova hipoteza odbaci, može se tvrditi da između varijabli x I Y postoji linearni odnos. Nulta i alternativna hipoteza formulirane su na sljedeći način: H 0: β 1 = 0 (nema linearne ovisnosti), H1: β 1 ≠ 0 (postoji linearna ovisnost). A-priorat t-statistika je jednaka razlici između nagiba uzorka i hipotetske vrijednosti nagiba populacije, podijeljene s korijenom srednje kvadratne pogreške procjene nagiba:

(11) t = (b 1 β 1 ) / Sb 1

Gdje b 1 – nagib izravne regresije na uzorku podataka, β1 – hipotetski nagib izravne populacije, , i test statistika t Ima t-distribucija sa n – 2 stupnjevi slobode.

Provjerimo postoji li statistički značajna veza između veličine trgovine i godišnje prodaje pri α = 0,05. t-kriterij se prikazuje zajedno s drugim parametrima kada se koristi Paket analiza(opcija Regresija). Potpuni rezultati paketa analize prikazani su na slici. 4, fragment koji se odnosi na t-statistiku - na sl. 18.

Riža. 18. Rezultati primjene t

Budući da je broj trgovina n= 14 (vidi sliku 3), kritična vrijednost t-statistika na razini značajnosti α = 0,05 može se pronaći pomoću formule: tL=STUDENT.ARV(0,025,12) = –2,1788, gdje je 0,025 polovica razine značajnosti, a 12 = n – 2; t U=STUDENT.OBR(0,975,12) = +2,1788.

Jer t-statistika = 10,64 > t U= 2,1788 (slika 19), nulta hipoteza H 0 odbijena. Na drugoj strani, R- vrijednost za x= 10,6411, izračunato formulom =1-STUDENT.DIST(D3,12,TRUE), približno je jednako nuli, pa hipoteza H 0 opet odbijen. Činjenica da se R-vrijednost od gotovo nule znači da kada ne bi postojao pravi linearni odnos između veličina trgovina i godišnje prodaje, bilo bi ga gotovo nemoguće otkriti pomoću linearne regresije. Stoga postoji statistički značajan linearni odnos između prosječne godišnje prodaje u trgovini i veličine trgovine.

Riža. 19. Testiranje hipoteze o nagibu populacije na razini značajnosti od 0,05 i 12 stupnjeva slobode

PrimjenaF -kriteriji za nagib. Alternativni pristup testiranju hipoteza o nagibu jednostavne linearne regresije je korištenje F- kriteriji. Podsjetimo da F-test se koristi za testiranje odnosa između dvije varijance (za više detalja, pogledajte). Prilikom testiranja hipoteze o nagibu, mjera slučajnih pogrešaka je varijanca pogreške (zbroj kvadrata pogrešaka podijeljen s brojem stupnjeva slobode), tako da F-kriterij koristi omjer varijance objašnjene regresijom (tj. vrijednost SSR, podijeljeno s brojem nezavisnih varijabli k), na varijancu pogreške ( MSE = S Yx 2 ).

A-priorat F-statistika je jednaka srednjem kvadratu regresije (MSR) podijeljenom s varijancom pogreške (MSE): F = MSR/ MSE, Gdje MSR=SSR / k, MSE =JJI/(n– k – 1), k– broj nezavisnih varijabli u regresijskom modelu. Statistika testa F Ima F-distribucija sa k I n– k – 1 stupnjevi slobode.

Za zadanu razinu značajnosti α pravilo odlučivanja formulira se na sljedeći način: ako F>FU, nulta hipoteza se odbacuje; inače se ne odbija. Rezultati, prikazani u obliku zbirne tablice analize varijance, prikazani su na sl. 20.

Riža. 20. Analiza tablice varijance za testiranje hipoteze o statističkoj značajnosti regresijskog koeficijenta

Također t-kriterij F-kriterij se prikazuje u tablici kada se koristi Paket analiza(opcija Regresija). Puni rezultati rada Paket analiza prikazani su na sl. 4, fragment koji se odnosi na F-statistika – na sl. 21.

Riža. 21. Rezultati primjene F-kriteriji dobiveni korištenjem Excel Analysis Package

F-statistika je 113,23, i R-vrijednost blizu nule (ćelija ZnačajF). Ako je razina značajnosti α 0,05, odredite kritičnu vrijednost F-razdiobe s jednim i 12 stupnjeva slobode mogu se dobiti pomoću formule F U=F.OBR(1-0,05;1;12) = 4,7472 (Slika 22). Jer F = 113,23 > F U= 4,7472, i R-vrijednost blizu 0< 0,05, нулевая гипотеза H 0 se odbija, tj. Veličina trgovine usko je povezana s njezinom godišnjom prodajom.

Riža. 22. Testiranje hipoteze o nagibu populacije na razini značajnosti od 0,05 s jednim i 12 stupnjeva slobode

Interval pouzdanosti koji sadrži nagib β 1 . Kako biste testirali hipotezu da postoji linearni odnos između varijabli, možete konstruirati interval pouzdanosti koji sadrži nagib β 1 i potvrditi da hipotetska vrijednost β 1 = 0 pripada tom intervalu. Središte intervala pouzdanosti koji sadrži nagib β 1 je nagib uzorka b 1 , a granice su mu količine b 1 ±tn –2 Sb 1

Kao što je prikazano na sl. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =STUDENT.ARV(0,975,12) = 2,1788. Stoga, b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ili + 1,328 ≤ β 1 ≤ +2,012. Dakle, postoji vjerojatnost od 0,95 da nagib populacije leži između +1,328 i +2,012 (tj. 1,328,000 USD do 2,012,000 USD). Budući da su te vrijednosti veće od nule, postoji statistički značajan linearni odnos između godišnje prodaje i površine prodavaonice. Kad bi interval pouzdanosti sadržavao nulu, ne bi postojao odnos između varijabli. Osim toga, interval pouzdanosti znači da svako povećanje prodajne površine za 1000 kvadratnih metara. ft. rezultira povećanjem prosječnog obujma prodaje između 1.328.000 USD i 2.012.000 USD.

Korištenjet -kriteriji za koeficijent korelacije. uveden je koeficijent korelacije r, što je mjera odnosa između dviju numeričkih varijabli. Može se koristiti za određivanje postoji li statistički značajan odnos između dviju varijabli. Označimo koeficijent korelacije između populacija obiju varijabli simbolom ρ. Nulta i alternativna hipoteza formulirane su na sljedeći način: H 0: ρ = 0 (bez korelacije), H 1: ρ ≠ 0 (postoji korelacija). Provjera postojanja korelacije:

Gdje r = + , Ako b 1 > 0, r = – , Ako b 1 < 0. Тестовая статистика t Ima t-distribucija sa n – 2 stupnjevi slobode.

U problemu o lancu trgovina Suncokreti r 2= 0,904, a b 1- +1,670 (vidi sliku 4). Jer b 1> 0, korelacijski koeficijent između godišnje prodaje i veličine trgovine je r= +√0,904 = +0,951. Testirajmo nultu hipotezu da ne postoji korelacija između ovih varijabli pomoću t-statistika:

Na razini značajnosti α = 0,05, nultu hipotezu treba odbaciti jer t= 10,64 > 2,1788. Stoga se može tvrditi da postoji statistički značajan odnos između godišnje prodaje i veličine trgovine.

Kada se raspravlja o zaključcima koji se odnose na nagib populacije, intervali pouzdanosti i testovi hipoteza koriste se naizmjenično. Međutim, izračunavanje intervala pouzdanosti koji sadrži koeficijent korelacije pokazalo se težim, budući da je tip distribucije uzorkovanja statistike r ovisi o stvarnom koeficijentu korelacije.

Procjena matematičkog očekivanja i predviđanje pojedinačnih vrijednosti

Ovaj odjeljak govori o metodama za procjenu matematičkog očekivanja odgovora Y i predviđanja pojedinačnih vrijednosti Y za zadane vrijednosti varijable x.

Konstruiranje intervala povjerenja. U primjeru 2 (pogledajte gornji odjeljak Metoda najmanjeg kvadrata) regresijska jednadžba omogućila je predviđanje vrijednosti varijable Y x. U problemu odabira lokacije za maloprodajno mjesto, prosječni godišnji obujam prodaje u prodavaonici površine 4000 m2. stopa bila jednaka 7,644 milijuna dolara.Međutim, ova procjena matematičkog očekivanja opće populacije je točkasta. Za procjenu matematičkog očekivanja populacije predložen je koncept intervala pouzdanosti. Slično, možemo uvesti koncept interval pouzdanosti za matematičko očekivanje odgovora za datu vrijednost varijable x:

Gdje , = b 0 + b 1 X i– predviđena vrijednost je promjenjiva Y na x = X i, S YX– korijen srednje kvadratne pogreške, n- veličina uzorka, xja- navedena vrijednost varijable x, µ Y|x = xja– matematičko očekivanje varijable Y na x = Xi, SSX =

Analiza formule (13) pokazuje da širina intervala pouzdanosti ovisi o nekoliko čimbenika. Na određenoj razini značajnosti, povećanje amplitude fluktuacija oko regresijske linije, mjereno pomoću korijena srednje kvadratne pogreške, dovodi do povećanja širine intervala. S druge strane, kao što se i očekivalo, povećanje veličine uzorka prati i sužavanje intervala. Osim toga, širina intervala se mijenja ovisno o vrijednostima xja. Ako vrijednost varijable Y predviđene količine x, blizu prosječne vrijednosti , interval pouzdanosti ispada uži nego kod predviđanja odgovora za vrijednosti daleko od prosjeka.

Recimo da pri odabiru lokacije trgovine želimo konstruirati 95% interval pouzdanosti za prosječnu godišnju prodaju svih trgovina čija je površina 4000 četvornih metara. stopala:

Dakle, prosječni godišnji obujam prodaje u svim trgovinama s površinom od 4.000 m2. stopa, s 95% vjerojatnosti leži u rasponu od 6,971 do 8,317 milijuna dolara.

Izračunajte interval pouzdanosti za predviđenu vrijednost. Uz interval pouzdanosti za matematičko očekivanje odgovora za danu vrijednost varijable x, često je potrebno znati interval pouzdanosti za predviđenu vrijednost. Iako je formula za izračun takvog intervala pouzdanosti vrlo slična formuli (13), ovaj interval sadrži predviđenu vrijednost, a ne procjenu parametra. Interval za predviđeni odgovor Yx = Xi za određenu vrijednost varijable xja određuje se formulom:

Pretpostavimo da pri odabiru lokacije za maloprodajno mjesto želimo konstruirati 95% interval pouzdanosti za predviđeni godišnji obujam prodaje za trgovinu čija je površina 4000 četvornih metara. stopala:

Stoga, predviđeni godišnji obujam prodaje za trgovinu s površinom od 4000 kvadratnih metara. stopa, s vjerojatnošću od 95% leži u rasponu od 5,433 do 9,854 milijuna dolara. Kao što vidimo, interval pouzdanosti za predviđenu vrijednost odgovora mnogo je širi od intervala pouzdanosti za njegovo matematičko očekivanje. To je zato što je varijabilnost u predviđanju pojedinačnih vrijednosti mnogo veća nego u procjeni matematičkog očekivanja.

Zamke i etička pitanja povezana s korištenjem regresije

Poteškoće povezane s regresijskom analizom:

  • Zanemarivanje uvjeta primjenjivosti metode najmanjih kvadrata.
  • Pogrešna procjena uvjeta primjenjivosti metode najmanjih kvadrata.
  • Netočan izbor alternativnih metoda kada su prekršeni uvjeti primjenjivosti metode najmanjih kvadrata.
  • Primjena regresijske analize bez dubljeg poznavanja predmeta istraživanja.
  • Ekstrapolacija regresije izvan raspona eksplanatorne varijable.
  • Zabuna između statističkih i uzročnih odnosa.

Raširena uporaba proračunskih tablica i statističkog softvera eliminirala je računalne probleme koji su kočili korištenje regresijske analize. Međutim, to je dovelo do toga da su regresijsku analizu koristili korisnici koji nisu imali dovoljno kvalifikacija i znanja. Kako korisnici mogu znati za alternativne metode ako mnogi od njih uopće nemaju pojma o uvjetima primjenjivosti metode najmanjih kvadrata i ne znaju kako provjeriti njihovu primjenu?

Istraživač se ne bi trebao zanositi krčenjem brojeva - izračunavanjem pomaka, nagiba i koeficijenta mješovite korelacije. Treba mu dublje znanje. Ilustrirajmo to klasičnim primjerom iz udžbenika. Anscombe je pokazao da sva četiri skupa podataka prikazana na Sl. 23, imaju iste regresijske parametre (Sl. 24).

Riža. 23. Četiri umjetna skupa podataka

Riža. 24. Regresijska analiza četiri umjetna skupa podataka; gotovo s Paket analiza(kliknite na sliku za povećanje slike)

Dakle, sa stajališta regresijske analize, svi ovi skupovi podataka potpuno su identični. Kad bi analiza tu završila, izgubili bismo mnogo korisnih informacija. O tome svjedoče dijagrami raspršenosti (Slika 25) i rezidualni dijagrami (Slika 26) konstruirani za ove skupove podataka.

Riža. 25. Dijagrami raspršenosti za četiri skupa podataka

Dijagrami raspršenosti i dijagrami reziduala pokazuju da se ti podaci razlikuju jedni od drugih. Jedini skup raspoređen duž ravne crte je skup A. Grafički prikaz reziduala izračunatih iz skupa A nema nikakav uzorak. To se ne može reći za skupove B, C i D. Dijagram raspršenosti iscrtan za skup B pokazuje izražen kvadratni uzorak. Ovaj zaključak potvrđuje dijagram reziduala koji ima parabolični oblik. Dijagram raspršenosti i dijagram reziduala pokazuju da skup podataka B sadrži izuzetak. U ovoj situaciji potrebno je isključiti outlier iz skupa podataka i ponoviti analizu. Metoda za otkrivanje i eliminiranje outliera u opažanjima naziva se analiza utjecaja. Nakon uklanjanja outliera, rezultat ponovne procjene modela može biti potpuno drugačiji. Dijagram raspršenosti iscrtan iz podataka iz skupa G ilustrira neobičnu situaciju u kojoj empirijski model značajno ovisi o pojedinačnom odgovoru ( X 8 = 19, Y 8 = 12,5). Takvi regresijski modeli moraju se posebno pažljivo izračunati. Dakle, grafikoni raspršenosti i reziduala bitan su alat za regresijsku analizu i trebali bi biti njezin sastavni dio. Bez njih regresijska analiza nije vjerodostojna.

Riža. 26. Dijagrami reziduala za četiri skupa podataka

Kako izbjeći zamke u regresijskoj analizi:

  • Analiza mogućih odnosa između varijabli x I Y uvijek započnite crtanjem dijagrama raspršenosti.
  • Prije tumačenja rezultata regresijske analize provjerite uvjete njene primjenjivosti.
  • Nacrtajte reziduale u odnosu na nezavisnu varijablu. To će omogućiti određivanje koliko dobro empirijski model odgovara rezultatima promatranja i otkrivanje povrede konstantnosti varijance.
  • Upotrijebite histograme, dijagrame stabljike i lista, okvirne dijagrame i dijagrame normalne distribucije za testiranje pretpostavke normalne distribucije pogreške.
  • Ako uvjeti za primjenjivost metode najmanjih kvadrata nisu ispunjeni, upotrijebite alternativne metode (na primjer, kvadratni ili višestruki regresijski modeli).
  • Ako su zadovoljeni uvjeti za primjenjivost metode najmanjih kvadrata, potrebno je testirati hipotezu o statističkoj značajnosti regresijskih koeficijenata i konstruirati intervale pouzdanosti koji sadrže matematičko očekivanje i predviđenu vrijednost odgovora.
  • Izbjegavajte predviđanje vrijednosti zavisne varijable izvan raspona nezavisne varijable.
  • Imajte na umu da statistički odnosi nisu uvijek uzročno-posljedični. Zapamtite da korelacija između varijabli ne znači da postoji uzročno-posljedična veza između njih.

Sažetak. Kao što je prikazano na blok dijagramu (Slika 27), bilješka opisuje jednostavan model linearne regresije, uvjete za njegovu primjenjivost i kako testirati te uvjete. Razmotreno t-kriterij za ispitivanje statističke značajnosti nagiba regresije. Za predviđanje vrijednosti zavisne varijable korišten je regresijski model. Razmatran je primjer vezan uz izbor lokacije za maloprodajno mjesto u kojem se ispituje ovisnost godišnjeg obujma prodaje o površini prodavaonice. Dobivene informacije omogućuju vam točniji odabir lokacije za trgovinu i predviđanje njezine godišnje prodaje. Sljedeće bilješke nastavit će raspravu o regresijskoj analizi i osvrnuti se na višestruke regresijske modele.

Riža. 27. Dijagram strukture nota

Korišteni su materijali iz knjige Levin i dr. Statistika za menadžere. – M.: Williams, 2004. – str. 792–872 (prikaz, stručni).

Ako je zavisna varijabla kategorička, mora se koristiti logistička regresija.

Korištenje grafičke metode.
Ovom se metodom vizualno prikazuje oblik povezanosti proučavanih ekonomskih pokazatelja. Da biste to učinili, grafikon se crta u pravokutnom koordinatnom sustavu, pojedinačne vrijednosti rezultantne karakteristike Y iscrtavaju se duž ordinatne osi, a pojedinačne vrijednosti faktorske karakteristike X iscrtavaju se duž osi apscise.
Skup točaka rezultantne i faktorske karakteristike naziva se korelacijsko polje.
Na temelju korelacijskog polja možemo pretpostaviti (za populaciju) da je odnos između svih mogućih vrijednosti X i Y linearan.

Jednadžba linearne regresije ima oblik y = bx + a + ε
Ovdje je ε slučajna greška (odstupanje, smetnja).
Razlozi postojanja slučajne greške:
1. Neuključivanje značajnih eksplanatornih varijabli u regresijski model;
2. Agregacija varijabli. Na primjer, funkcija ukupne potrošnje pokušaj je općenitog izražavanja agregata pojedinačnih odluka o potrošnji. Ovo je samo aproksimacija pojedinih odnosa koji imaju različite parametre.
3. Netočan opis strukture modela;
4. Netočna funkcionalna specifikacija;
5. Pogreške mjerenja.
Budući da su odstupanja ε i za svako specifično opažanje i slučajna i njihove vrijednosti u uzorku nepoznate, tada:
1) iz opažanja x i i y i mogu se dobiti samo procjene parametara α i β
2) Procjene parametara α i β regresijskog modela su vrijednosti a i b, koje su po prirodi slučajne, jer odgovaraju slučajnom uzorku;
Tada će jednadžba procjene regresije (konstruirana iz podataka uzorka) imati oblik y = bx + a + ε, gdje su e i opažene vrijednosti (procjene) pogrešaka ε i, a a i b su, redom, procjene parametri α i β regresijskog modela koje treba pronaći.
Za procjenu parametara α i β – koristi se metoda najmanjih kvadrata (metoda najmanjih kvadrata).
Sustav normalnih jednadžbi.

Za naše podatke sustav jednadžbi ima oblik:

10a + 356b = 49
356a + 2135b = 9485

Iz prve jednadžbe izrazimo a i zamijenimo ga u drugu jednadžbu
Dobivamo b = 68,16, a = 11,17

Regresijska jednadžba:
y = 68,16 x - 11,17

1. Parametri regresijske jednadžbe.
Uzorak znači.



Odstupanja uzorka.


Standardna devijacija

1.1. Koeficijent korelacije
Izračunavamo pokazatelj blizine veze. Ovaj pokazatelj je koeficijent linearne korelacije uzorka, koji se izračunava po formuli:

Koeficijent linearne korelacije ima vrijednosti od –1 do +1.
Veze između karakteristika mogu biti slabe i jake (bliske). Njihovi kriteriji procjenjuju se prema Chaddockovoj ljestvici:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
U našem primjeru, veza između svojstva Y i faktora X vrlo je visoka i izravna.

1.2. Regresijska jednadžba(procjena regresijske jednadžbe).

Jednadžba linearne regresije je y = 68,16 x -11,17
Koeficijentima linearne regresijske jednadžbe može se dati ekonomsko značenje. Koeficijent regresijske jednadžbe pokazuje koliko jedinica. rezultat će se promijeniti kada se faktor promijeni za 1 jedinicu.
Koeficijent b = 68,16 pokazuje prosječnu promjenu efektivnog pokazatelja (u mjernim jedinicama y) s povećanjem ili smanjenjem vrijednosti faktora x po jedinici njegovog mjerenja. U ovom primjeru, s povećanjem od 1 jedinice, y se povećava u prosjeku za 68,16.
Koeficijent a = -11,17 formalno pokazuje predviđenu razinu y, ali samo ako je x = 0 blizu vrijednosti uzorka.
Ali ako je x = 0 daleko od vrijednosti uzorka x, tada doslovna interpretacija može dovesti do netočnih rezultata, pa čak i ako regresijska linija prilično točno opisuje promatrane vrijednosti uzorka, nema jamstva da će i to također biti slučaj kada se ekstrapolira lijevo ili desno.
Zamjenom odgovarajućih x vrijednosti u regresijsku jednadžbu, možemo odrediti usklađene (predviđene) vrijednosti pokazatelja učinka y(x) za svako opažanje.
Odnos između y i x određuje predznak regresijskog koeficijenta b (ako je > 0 - izravni odnos, inače - inverzan). U našem primjeru veza je izravna.

1.3. Koeficijent elastičnosti.
Nije preporučljivo koristiti regresijske koeficijente (u primjeru b) za izravnu procjenu utjecaja faktora na rezultantno obilježje ako postoji razlika u mjernim jedinicama rezultantnog pokazatelja y i faktorskog obilježja x.
U tu svrhu izračunavaju se koeficijenti elastičnosti i beta koeficijenti. Koeficijent elastičnosti nalazi se po formuli:


Pokazuje za koliko se postotaka u prosjeku mijenja efektivni atribut y kada se faktorski atribut x promijeni za 1%. Ne uzima u obzir stupanj fluktuacije faktora.
U našem primjeru, koeficijent elastičnosti je veći od 1. Stoga, ako se X promijeni za 1%, Y će se promijeniti za više od 1%. Drugim riječima, X značajno utječe na Y.
Beta koeficijent pokazuje za koji dio vrijednosti svoje standardne devijacije će se promijeniti prosječna vrijednost rezultirajuće karakteristike kada se faktorska karakteristika promijeni za vrijednost svoje standardne devijacije uz vrijednost preostalih nezavisnih varijabli fiksiranih na konstantnoj razini:

Oni. povećanje x za standardnu ​​devijaciju ovog pokazatelja dovest će do povećanja prosječnog Y za 0,9796 standardnih devijacija ovog pokazatelja.

1.4. Pogreška aproksimacije.
Ocijenimo kvalitetu regresijske jednadžbe koristeći pogrešku apsolutne aproksimacije.


Budući da je pogreška veća od 15%, nije preporučljivo koristiti ovu jednadžbu kao regresiju.

1.6. Koeficijent determinacije.
Kvadrat koeficijenta (višestruke) korelacije naziva se koeficijent determinacije, koji pokazuje udio varijacije u rezultantnom atributu koji se objašnjava varijacijom faktorskog atributa.
Najčešće, kada se tumači koeficijent determinacije, on se izražava u postocima.
R2 = 0,982 = 0,9596
oni. u 95,96% slučajeva promjene x dovode do promjena y. Drugim riječima, točnost odabira regresijske jednadžbe je visoka. Preostalih 4,04% promjene Y objašnjeno je čimbenicima koji nisu uzeti u obzir u modelu.

x g x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Procjena parametara regresijske jednadžbe.
2.1. Značaj koeficijenta korelacije.

Koristeći Studentovu tablicu s razinom značajnosti α=0,05 i stupnjevima slobode k=7, nalazimo t crit:
t krit = (7;0,05) = 1,895
gdje je m = 1 broj eksplanatornih varijabli.
Ako je promatrano t > t kritično, tada se rezultirajuća vrijednost korelacijskog koeficijenta smatra značajnom (nulta hipoteza koja tvrdi da je korelacijski koeficijent jednak nuli se odbacuje).
Budući da je t obs > t crit, odbacujemo hipotezu da je korelacijski koeficijent jednak 0. Drugim riječima, koeficijent korelacije je statistički značajan
U uparenoj linearnoj regresiji t 2 r = t 2 b i zatim testiranje hipoteza o značaju koeficijenata regresije i korelacije ekvivalentno je testiranju hipoteze o značaju jednadžbe linearne regresije.

2.3. Analiza točnosti određivanja procjena regresijskih koeficijenata.
Nepristrana procjena disperzije poremećaja je vrijednost:


S 2 y = 94,6484 - neobjašnjena varijanca (mjera širenja zavisne varijable oko regresijske linije).
S y = 9,7287 - standardna pogreška procjene (standardna pogreška regresije).
S a - standardna devijacija slučajne varijable a.


S b - standardna devijacija slučajne varijable b.

2.4. Intervali pouzdanosti za zavisnu varijablu.
Ekonomsko predviđanje temeljeno na konstruiranom modelu pretpostavlja da se već postojeći odnosi između varijabli održavaju tijekom razdoblja prijema.
Za predviđanje ovisne varijable rezultantnog atributa, potrebno je znati predviđene vrijednosti svih faktora uključenih u model.
Predviđene vrijednosti faktora zamjenjuju se u model i dobivaju se prediktivne bodovne procjene pokazatelja koji se proučava. (a + bx p ± ε)
Gdje

Izračunajmo granice intervala u kojem će 95% mogućih vrijednosti Y biti koncentrirano s neograničenim brojem promatranja i X p = 1 (-11,17 + 68,16*1 ± 6,4554)
(50.53;63.44)

Individualni intervali pouzdanosti zaYna zadanu vrijednostx.
(a + bx i ± ε)
Gdje

x i y = -11,17 + 68,16x i εi ymin ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

S vjerojatnošću od 95% moguće je jamčiti da vrijednost Y za neograničeni broj opažanja neće pasti izvan granica pronađenih intervala.

2.5. Testiranje hipoteza o koeficijentima jednadžbe linearne regresije.
1) t-statistika. Studentov t test.
Provjerimo hipotezu H 0 o jednakosti pojedinačnih regresijskih koeficijenata nuli (ako alternativa nije jednaka H 1) na razini značajnosti α=0,05.
t krit = (7;0,05) = 1,895


Budući da je 12,8866 > 1,895, potvrđena je statistička značajnost regresijskog koeficijenta b (odbacujemo hipotezu da je taj koeficijent jednak nuli).


Budući da je 2,0914 > 1,895, potvrđena je statistička značajnost regresijskog koeficijenta a (odbacujemo hipotezu da je taj koeficijent jednak nuli).

Interval pouzdanosti za koeficijente regresijske jednadžbe.
Odredimo intervale pouzdanosti koeficijenata regresije, koji će s pouzdanošću od 95% biti sljedeći:
(b - t kritični S b ; b + t kritični S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
S vjerojatnošću od 95% može se reći da će vrijednost ovog parametra ležati u pronađenom intervalu.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
S vjerojatnošću od 95% može se reći da će vrijednost ovog parametra ležati u pronađenom intervalu.

2) F-statistika. Fisherov kriterij.
Testiranje značajnosti regresijskog modela provodi se Fisherovim F testom, čija se izračunata vrijednost nalazi kao omjer varijance izvornog niza opažanja pokazatelja koji se proučava i nepristrane procjene varijance rezidualnog niza za ovaj model.
Ako je izračunata vrijednost s lang=EN-US>n-m-1) stupnjevima slobode veća od tablične vrijednosti na danoj razini značajnosti, tada se model smatra značajnim.

gdje je m broj faktora u modelu.
Statistička značajnost uparene linearne regresije procjenjuje se pomoću sljedećeg algoritma:
1. Postavlja se nulta hipoteza da je jednadžba kao cjelina statistički beznačajna: H 0: R 2 =0 na razini značajnosti α.
2. Zatim odredite stvarnu vrijednost F-kriterija:


gdje je m=1 za parnu regresiju.
3. Tablična vrijednost određena je iz tablica Fisherove distribucije za danu razinu značajnosti, uzimajući u obzir da je broj stupnjeva slobode za ukupni zbroj kvadrata (veća varijanca) 1, a broj stupnjeva slobode za ostatak zbroj kvadrata (manja varijanca) u linearnoj regresiji je n-2 .
4. Ako je stvarna vrijednost F-testa manja od tablične vrijednosti, onda kažu da nema razloga za odbacivanje nulte hipoteze.
U suprotnom, nulta hipoteza se odbacuje, a alternativna hipoteza o statističkoj značajnosti jednadžbe u cjelini se prihvaća s vjerojatnošću (1-α).
Tablična vrijednost kriterija sa stupnjevima slobode k1=1 i k2=7, Fkp = 5,59
Budući da je stvarna vrijednost F > Fkp, koeficijent determinacije je statistički značajan (Nađena procjena regresijske jednadžbe je statistički pouzdana).

Provjera autokorelacije reziduala.
Važan preduvjet za konstruiranje kvalitativnog regresijskog modela pomoću OLS-a je neovisnost vrijednosti slučajnih odstupanja od vrijednosti odstupanja u svim drugim promatranjima. Ovo osigurava da ne postoji korelacija između bilo kojih odstupanja, a posebno između susjednih odstupanja.
Autokorelacija (serijska korelacija) definira se kao korelacija između promatranih pokazatelja poredanih u vremenu (vremenska serija) ili prostoru (unakrsna serija). Autokorelacija reziduala (varijanci) uobičajena je u regresijskom analizi kada se koriste podaci vremenskih serija i vrlo rijetka kada se koriste podaci presjeka.
U ekonomskim problemima to je mnogo češće pozitivna autokorelacija, rađe nego negativna autokorelacija. U većini slučajeva, pozitivna autokorelacija je uzrokovana konstantnim utjecajem nekih čimbenika koji nisu uzeti u obzir u modelu.
Negativna autokorelacija zapravo znači da nakon pozitivnog odstupanja slijedi negativno i obrnuto. Ova situacija se može dogoditi ako se isti odnos između potražnje za bezalkoholnim pićima i prihoda promatra prema sezonskim podacima (zima-ljeto).
Među glavni razlozi koji uzrokuju autokorelaciju, mogu se razlikovati sljedeće:
1. Greške specifikacije. Neuzimanje u obzir bilo koje važne eksplanatorne varijable u modelu ili netočan odabir oblika ovisnosti obično dovodi do sustavnih odstupanja točaka promatranja od regresijske linije, što može dovesti do autokorelacije.
2. Inercija. Mnogi ekonomski pokazatelji (inflacija, nezaposlenost, GNP, itd.) imaju određenu cikličku prirodu povezanu s valovitošću poslovne aktivnosti. Stoga se promjena pokazatelja ne događa trenutno, već ima određenu inerciju.
3. Efekt paukove mreže. U mnogim proizvodnim i drugim područjima ekonomski pokazatelji s odgodom (vremenskim odmakom) reagiraju na promjene gospodarskih uvjeta.
4. Izglađivanje podataka. Često se podaci za određeno dugo vremensko razdoblje dobivaju usrednjavanjem podataka u njegovim sastavnim intervalima. To može dovesti do određenog izglađivanja fluktuacija koje su se dogodile u promatranom razdoblju, što zauzvrat može uzrokovati autokorelaciju.
Posljedice autokorelacije slične su posljedicama heteroskedastičnosti: zaključci iz t- i F-statistike koji određuju značajnost koeficijenta regresije i koeficijenta determinacije vjerojatno će biti netočni.

Autokorelacijsko otkrivanje

1. Grafička metoda
Postoji niz opcija za grafičko definiranje autokorelacije. Jedan od njih povezuje odstupanja e i s trenucima njihova primitka i. U tom slučaju se na apscisnoj osi nanosi ili vrijeme dobivanja statističkih podataka ili redni broj opažanja, a na ordinatnoj osi odstupanja e i (ili procjene odstupanja).
Prirodno je pretpostaviti da ako postoji određena povezanost između odstupanja, tada postoji autokorelacija. Odsutnost ovisnosti najvjerojatnije će ukazivati ​​na odsutnost autokorelacije.
Autokorelacija postaje jasnija ako nacrtate ovisnost e i o e i-1.

Durbin-Watsonov test.
Ovaj kriterij je najpoznatiji za otkrivanje autokorelacije.
Pri statističkoj analizi regresijskih jednadžbi, u početnoj fazi često se provjerava izvedivost jednog preduvjeta: uvjeta za statističku neovisnost jednih odstupanja. U ovom slučaju provjerava se nekorelacija susjednih vrijednosti e i.

g y(x) e i = y-y(x) e 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Za analizu korelacije odstupanja koristi se Durbin-Watson statistika:

Kritične vrijednosti d 1 i d 2 određuju se na temelju posebnih tablica za traženu razinu značajnosti α, broj promatranja n = 9 i broj eksplanatornih varijabli m = 1.
Nema autokorelacije ako je ispunjen sljedeći uvjet:
d 1< DW и d 2 < DW < 4 - d 2 .
Bez pozivanja na tablice, možete koristiti približno pravilo i pretpostaviti da ne postoji autokorelacija reziduala ako je 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

Izračunavanje koeficijenata regresijske jednadžbe

Sustav jednadžbi (7.8) temeljen na dostupnoj ED nije moguće jednoznačno riješiti jer je broj nepoznanica uvijek veći od broja jednadžbi. Za prevladavanje ovog problema potrebne su dodatne pretpostavke. Zdrav razum nalaže: preporučljivo je odabrati koeficijente polinoma na takav način da se osigura minimalna pogreška u aproksimaciji ED. Za procjenu aproksimacijskih pogrešaka mogu se koristiti različite mjere. Korijen srednje kvadratne pogreške široko se koristi kao takva mjera. Na njezinoj osnovi razvijena je posebna metoda za procjenu koeficijenata regresijskih jednadžbi - metoda najmanjih kvadrata (LSM). Ova metoda vam omogućuje da dobijete procjene najveće vjerojatnosti nepoznatih koeficijenata regresijske jednadžbe pod opcijom normalne distribucije, ali se može koristiti za bilo koju drugu distribuciju faktora.

MNC se temelji na sljedećim odredbama:

· vrijednosti grešaka i faktori su neovisni, a samim tim i nekorelirani, tj. pretpostavlja se da mehanizmi generiranja smetnji nisu povezani s mehanizmom generiranja vrijednosti faktora;

· matematičko očekivanje pogreške ε mora biti jednako nuli (konstantna komponenta je uključena u koeficijent a 0), drugim riječima, pogreška je centrirana veličina;

· procjena uzorka varijance pogreške treba biti minimalna.

Razmotrimo korištenje OLS-a u odnosu na linearnu regresiju standardiziranih vrijednosti. Za centrirane količine u j koeficijent a 0 jednaka nuli, onda su jednadžbe linearne regresije

. (7.9)

Ovdje je uveden poseban znak "^" za označavanje vrijednosti indikatora izračunatih pomoću regresijske jednadžbe, za razliku od vrijednosti dobivenih iz rezultata promatranja.

Metodom najmanjih kvadrata određuju se takve vrijednosti koeficijenata regresijske jednadžbe koje daju bezuvjetni minimum izrazu

Minimum se nalazi izjednačavanjem s nulom svih parcijalnih derivacija izraza (7.10), preuzetih preko nepoznatih koeficijenata, i rješavanjem sustava jednadžbi

(7.11)

Dosljednim provođenjem transformacija i korištenjem prethodno uvedenih procjena koeficijenata korelacije

. (7.12)

Dakle, primljeno T–1 linearne jednadžbe, koje vam omogućuju jedinstveno izračunavanje vrijednosti a 2 , a 3 , …, a t.

Ako je linearni model netočan ili su parametri netočno izmjereni, tada nam u ovom slučaju metoda najmanjih kvadrata omogućuje pronalaženje takvih vrijednosti koeficijenata pri kojima linearni model najbolje opisuje stvarni objekt u smislu odabrane standardne devijacije. kriterij.

Kada postoji samo jedan parametar, jednadžba linearne regresije postaje

Koeficijent a 2 nalazi se iz jednadžbe

Zatim, s obzirom na to r 2.2= 1, traženi koeficijent

a 2 = r y ,2 . (7.13)

Relacija (7.13) potvrđuje prethodno izrečenu tvrdnju da je koeficijent korelacije mjera linearne povezanosti dva standardizirana parametra.

Zamjena pronađene vrijednosti koeficijenta a 2 u izraz za w, uzimajući u obzir svojstva centriranih i normaliziranih veličina, dobivamo minimalnu vrijednost ove funkcije jednaku 1– r 2 god,2. Vrijednost 1– r 2 y,2 naziva se rezidualna varijanca slučajne varijable g u odnosu na slučajnu varijablu u 2. Karakterizira pogrešku koja se dobiva kada se indikator zamijeni funkcijom parametra υ= a 2 u 2. Samo s | r y,2| = 1 rezidualna varijanca je nula, pa stoga nema pogreške pri aproksimaciji indikatora linearnom funkcijom.

Prelazak s centriranih i normaliziranih vrijednosti indikatora i parametara

mogu se dobiti za izvorne vrijednosti

Ova jednadžba je također linearna s obzirom na koeficijent korelacije. Lako je vidjeti da centriranje i normalizacija za linearnu regresiju omogućuje smanjenje dimenzije sustava jednadžbi za jedan, tj. pojednostaviti rješenje problema određivanja koeficijenata, a samim koeficijentima dati jasno značenje.

Korištenje najmanjih kvadrata za nelinearne funkcije praktički se ne razlikuje od razmatrane sheme (samo koeficijent a0 u izvornoj jednadžbi nije jednak nuli).

Na primjer, pretpostavimo da je potrebno odrediti koeficijente parabolične regresije

Varijanca pogreške uzorka

Na temelju njega možemo dobiti sljedeći sustav jednadžbi

Nakon transformacija sustav jednadžbi poprimit će oblik

Uzimajući u obzir svojstva momenata standardiziranih veličina, pišemo

Određivanje koeficijenata nelinearne regresije temelji se na rješavanju sustava linearnih jednadžbi. Za to se mogu koristiti univerzalni paketi numeričkih metoda ili specijalizirani paketi za obradu statističkih podataka.

S povećanjem stupnja regresijske jednadžbe raste i stupanj distribucijskih momenata parametara koji se koriste za određivanje koeficijenata. Dakle, za određivanje koeficijenata regresijske jednadžbe drugog stupnja koriste se trenuci raspodjele parametara do uključivo četvrtog stupnja. Poznato je da se točnost i pouzdanost procjene trenutaka iz ograničenog uzorka ED-a naglo smanjuje kako se njihov redoslijed povećava. Korištenje polinoma stupnja višeg od drugog u regresijskim jednadžbama je neprikladno.

Kvaliteta dobivene regresijske jednadžbe procjenjuje se stupnjem bliskosti između rezultata promatranja indikatora i vrijednosti predviđenih regresijskom jednadžbom u zadanim točkama u prostoru parametara. Ako su rezultati približni, onda se problem regresijske analize može smatrati riješenim. U suprotnom biste trebali promijeniti regresijsku jednadžbu (odabrati drugačiji stupanj polinoma ili sasvim drugu vrstu jednadžbe) i ponoviti izračune za procjenu parametara.

Ako postoji više pokazatelja, problem regresijske analize rješava se zasebno za svaki od njih.

Analizirajući bit regresijske jednadžbe, treba primijetiti sljedeće točke. Razmatrani pristup ne daje zasebnu (neovisnu) procjenu koeficijenata - promjena vrijednosti jednog koeficijenta povlači za sobom promjenu vrijednosti drugih. Dobivene koeficijente ne treba smatrati doprinosom odgovarajućeg parametra vrijednosti pokazatelja. Regresijska jednadžba je samo dobar analitički opis postojećeg ED, a ne zakon koji opisuje odnos između parametara i pokazatelja. Ova se jednadžba koristi za izračunavanje vrijednosti indikatora u zadanom rasponu promjena parametara. Ograničeno je prikladan za izračune izvan ovog raspona, tj. može se koristiti za rješavanje problema interpolacije i, u ograničenoj mjeri, za ekstrapolaciju.



Glavni razlog netočnosti prognoze nije toliko neizvjesnost ekstrapolacije regresijske linije, koliko značajna varijacija pokazatelja zbog čimbenika koji nisu uzeti u obzir u modelu. Ograničenje mogućnosti predviđanja je uvjet stabilnosti parametara koji nisu uzeti u obzir u modelu i priroda utjecaja čimbenika modela koji su uzeti u obzir. Ako se vanjska okolina naglo promijeni, tada će sastavljena regresijska jednadžba izgubiti smisao. U regresijsku jednadžbu ne možete zamijeniti vrijednosti faktora koji se značajno razlikuju od onih prikazanih u ED. Preporuča se da se ne prelazi jedna trećina raspona varijacije parametra za maksimalnu i minimalnu vrijednost faktora.

Prognoza dobivena supstitucijom očekivane vrijednosti parametra u regresijsku jednadžbu je točka jedan. Vjerojatnost da se takva prognoza ostvari je zanemariva. Preporučljivo je odrediti interval pouzdanosti prognoze. Za pojedinačne vrijednosti indikatora, interval treba uzeti u obzir pogreške u položaju regresijske linije i odstupanja pojedinačnih vrijednosti od ove linije. Prosječna pogreška u predviđanju indikatora y za faktor x bit će

Gdje je prosječna pogreška u položaju regresijske linije u populaciji na x = x k;

– procjena varijance odstupanja pokazatelja od regresijske linije u populaciji;

x k– očekivana vrijednost faktora.

Granice pouzdanosti prognoze, na primjer, za regresijsku jednadžbu (7.14), određene su izrazom

Negativan slobodni pojam a 0 u regresijskoj jednadžbi za izvorne varijable znači da domena postojanja indikatora ne uključuje nulte vrijednosti parametra. Ako a 0 > 0, tada domena postojanja indikatora uključuje nulte vrijednosti parametara, a sam koeficijent karakterizira prosječnu vrijednost indikatora u nedostatku utjecaja parametara.

Problem 7.2. Konstruirajte regresijsku jednadžbu za kapacitet kanala na temelju uzorka navedenog u tablici. 7.1.

Riješenje. U odnosu na navedeni uzorak, konstrukcija analitičke ovisnosti uglavnom je provedena u okviru korelacijske analize: propusnost ovisi samo o parametru omjera signal/šum. Ostaje zamijeniti prethodno izračunate vrijednosti parametara u izraz (7.14). Jednadžba za kapacitet poprimit će oblik

ŷ = 26,47–0,93×41,68×5,39/6,04+0,93×5,39/6,03× x = – 8,121+0,830x.

Rezultati proračuna prikazani su u tablici. 7.5.

Tablica 7.5

N str Kapacitet kanala Omjer signala i šuma Vrijednost funkcije Greška
Y x ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

Proučavanje korelacijskih ovisnosti temelji se na proučavanju takvih veza između varijabli u kojima se vrijednosti jedne varijable, koja se može uzeti kao zavisna varijabla, "u prosjeku" mijenjaju ovisno o vrijednostima koje uzima druga varijabla, koja se smatra uzrokom u odnosu na zavisnu varijablu. Djelovanje ovog uzroka provodi se u uvjetima složene interakcije različitih čimbenika, zbog čega je manifestacija uzorka zamagljena utjecajem slučajnosti. Izračunavanjem prosječnih vrijednosti efektivnog atributa za zadanu skupinu vrijednosti atributa-faktora djelomično se eliminira utjecaj slučajnosti. Izračunom parametara teorijskog komunikacijskog voda oni se dalje eliminiraju i dobiva se jednoznačna (formalno) promjena “y” s promjenom faktora “x”.

Za proučavanje stohastičkih odnosa široko se koriste metoda usporedbe dva paralelna niza, metoda analitičkog grupiranja, korelacijska analiza, regresijska analiza i neke neparametarske metode. Općenito, zadaća statistike u području proučavanja odnosa nije samo kvantificirati njihovu prisutnost, smjer i snagu povezanosti, već i utvrditi oblik (analitički izraz) utjecaja faktorskih obilježja na rezultantno. Za njegovo rješavanje koriste se metode korelacijske i regresijske analize.

POGLAVLJE 1. JEDNADŽBA REGRESIJE: TEORIJSKE OSNOVE

1.1. Regresijska jednadžba: bit i vrste funkcija

Regresija (lat. regressio - obrnuto kretanje, prijelaz iz složenijih oblika razvoja u manje složene) jedan je od temeljnih pojmova u teoriji vjerojatnosti i matematičkoj statistici, koji izražava ovisnost prosječne vrijednosti slučajne varijable o vrijednostima druge slučajne varijable ili nekoliko slučajnih varijabli. Ovaj koncept uveo je Francis Galton 1886.

Teorijska regresijska linija je linija oko koje su grupirane točke korelacijskog polja i koja označava glavni smjer, glavnu tendenciju veze.

Teorijska regresijska linija treba odražavati promjenu prosječnih vrijednosti efektivnog atributa "y" kako se mijenjaju vrijednosti atributa faktora "x", pod uvjetom da su svi drugi uzroci, slučajni u odnosu na faktor "x" , u potpunosti su otkazani. Prema tome, ova linija mora biti povučena tako da je zbroj odstupanja točaka korelacijskog polja od odgovarajućih točaka teorijske regresijske linije jednak nuli, a zbroj kvadrata tih odstupanja minimalan.

y=f(x) - regresijska jednadžba je formula za statistički odnos između varijabli.

Ravna linija na ravnini (u dvodimenzionalnom prostoru) dana je jednadžbom y=a+b*x. Detaljnije, varijabla y može se izraziti u smislu konstante (a) i nagiba (b) pomnoženih s varijablom x. Konstanta se ponekad naziva i odsječak, a nagib se ponekad naziva regresija ili B-koeficijent.

Važna faza regresijske analize je određivanje vrste funkcije kojom se karakterizira ovisnost između karakteristika. Glavna osnova trebala bi biti smislena analiza prirode ovisnosti koja se proučava i njezinog mehanizma. Istodobno, nije uvijek moguće teorijski potkrijepiti oblik veze između svakog od čimbenika i pokazatelja uspješnosti, budući da su socioekonomski fenomeni koji se proučavaju vrlo složeni, a čimbenici koji oblikuju njihovu razinu usko su isprepleteni i međusobno djeluju. jedno s drugim. Stoga se na temelju teorijske analize često mogu izvući najopćenitiji zaključci o smjeru odnosa, mogućnosti njegove promjene u proučavanoj populaciji, opravdanosti korištenja linearnog odnosa, mogućoj prisutnosti ekstremnih vrijednosti, itd. Nužna nadopuna takvim pretpostavkama mora biti analiza konkretnih činjeničnih podataka.

Približna ideja o liniji odnosa može se dobiti na temelju empirijske regresijske linije. Empirijska regresijska linija obično je isprekidana linija i ima više ili manje značajan prekid. To se objašnjava činjenicom da je utjecaj drugih neuračunatih čimbenika koji utječu na varijaciju rezultirajuće karakteristike nepotpuno ugašen u prosjeku, zbog nedovoljno velikog broja opažanja, stoga se empirijskim komunikacijskim putem može odabrati i opravdati vrstu teorijske krivulje, pod uvjetom da je broj promatranja dovoljno velik.

Jedan od elemenata specifičnih studija je usporedba različitih jednadžbi ovisnosti, temeljena na korištenju kriterija kvalitete za aproksimaciju empirijskih podataka konkurentskim verzijama modela.Za karakterizaciju odnosa ekonomskih pokazatelja najčešće se koriste sljedeće vrste funkcija:

1. Linearni:

2. Hiperbolično:

3. Demonstrativno:

4. Parabolični:

5. Snaga:

6. Logaritamski:

7. Logistika:

Model s jednom eksplanatornom i jednom objašnjenom varijablom je upareni regresijski model. Ako se koriste dvije ili više eksplanatornih (faktorskih) varijabli, tada govorimo o korištenju višestrukog regresijskog modela. U tom slučaju, linearne, eksponencijalne, hiperboličke, eksponencijalne i druge vrste funkcija koje povezuju ove varijable mogu se odabrati kao opcije.

Za pronalaženje parametara a i b regresijske jednadžbe koristi se metoda najmanjih kvadrata. Kada se primjenjuje metoda najmanjih kvadrata za pronalaženje funkcije koja najbolje odgovara empirijskim podacima, vjeruje se da skup kvadrata odstupanja empirijskih točaka od teorijske regresijske crte treba biti minimalna vrijednost.

Kriterij najmanjih kvadrata može se napisati na sljedeći način:

Posljedično, korištenje metode najmanjih kvadrata za određivanje parametara a i b linije koja najbolje odgovara empirijskim podacima svodi se na problem ekstrema.

Što se tiče ocjena, mogu se izvući sljedeći zaključci:

1. Procjenitelji najmanjih kvadrata su funkcije uzorka, što ih čini jednostavnim za izračunavanje.

2. Procjene najmanjih kvadrata su točkaste procjene teoretskih regresijskih koeficijenata.

3. Pravac empirijske regresije nužno prolazi točkom x, y.

4. Jednadžba empirijske regresije konstruirana je na način da zbroj odstupanja

.

Grafički prikaz empirijske i teorijske linije komunikacije prikazan je na slici 1.


Parametar b u jednadžbi je koeficijent regresije. U slučaju izravne korelacije, koeficijent regresije je pozitivan, au slučaju inverzne korelacije, koeficijent regresije je negativan. Koeficijent regresije pokazuje koliko se u prosjeku promijeni vrijednost efektivnog atributa “y” kada se faktorski atribut “x” promijeni za jedan. Geometrijski, koeficijent regresije je nagib ravne linije koja prikazuje korelacijsku jednadžbu u odnosu na os "x" (za jednadžbu

).

Grana multivarijatne statističke analize posvećena rekonstrukciji ovisnosti naziva se regresijska analiza. Termin "linearna regresijska analiza" koristi se kada funkcija koja se razmatra linearno ovisi o procijenjenim parametrima (ovisnost o nezavisnim varijablama može biti proizvoljna). Teorija ocjenjivanja

nepoznatih parametara dobro je razvijen posebno u slučaju linearne regresijske analize. Ako nema linearnosti i nije moguće prijeći na linearni problem, tada se u pravilu ne mogu očekivati ​​dobra svojstva procjena. Prikazat ćemo pristupe u slučaju ovisnosti raznih vrsta. Ako ovisnost ima oblik polinoma (polinoma). Ako izračun korelacije karakterizira snagu odnosa između dviju varijabli, tada regresijska analiza služi za određivanje vrste tog odnosa i omogućuje predviđanje vrijednosti jedne (ovisne) varijable na temelju vrijednosti druge (neovisne) varijable . Za provođenje linearne regresijske analize, zavisna varijabla mora imati intervalnu (ili ordinalnu) ljestvicu. Istodobno, binarna logistička regresija otkriva ovisnost dihotomne varijable o nekoj drugoj varijabli vezanoj uz bilo koju ljestvicu. Isti uvjeti prijave vrijede i za probit analizu. Ako je zavisna varijabla kategorička, ali ima više od dvije kategorije, tada je prikladna metoda multinomna logistička regresija; mogu se analizirati nelinearni odnosi između varijabli koje pripadaju intervalnoj ljestvici. U tu je svrhu dizajnirana metoda nelinearne regresije.

KATEGORIJE

POPULARNI ČLANCI

2023 “kingad.ru” - ultrazvučni pregled ljudskih organa