Što je regresijska funkcija. Regresijska analiza - statistička metoda za proučavanje ovisnosti slučajne varijable o varijablama

Regresijska analiza je metoda utvrđivanja analitičkog izraza stohastičkog odnosa između proučavanih obilježja. Regresijska jednadžba pokazuje kako se u prosjeku mijenja na prilikom promjene bilo kojeg od x ja , i izgleda ovako:

gdje y - zavisna varijabla (uvijek je jedan);

x ja - nezavisne varijable (faktore) (može ih biti više).

Ako postoji samo jedna nezavisna varijabla, to je jednostavna regresijska analiza. Ako ih ima nekoliko P 2), onda se takva analiza naziva multivarijantnom.

Tijekom regresijske analize rješavaju se dva glavna zadatka:

    konstrukcija regresijske jednadžbe, tj. pronalaženje vrste odnosa između pokazatelja rezultata i neovisnih čimbenika x 1 , x 2 , …, x n .

    procjena značaja dobivene jednadžbe, tj. određivanje koliko odabrana obilježja faktora objašnjavaju varijaciju obilježja g.

Regresijska analiza koristi se uglavnom za planiranje, kao i za razvoj regulatornog okvira.

Za razliku od korelacijske analize, koja samo odgovara na pitanje postoji li odnos između analiziranih obilježja, regresijska analiza daje i svoj formalizirani izraz. Osim toga, ako korelacijska analiza proučava bilo koji odnos faktora, onda regresijska analiza proučava jednostranu ovisnost, tj. veza koja pokazuje kako promjena faktorskih predznaka utječe na rezultantni predznak.

Regresijska analiza jedna je od najrazvijenijih metoda matematičke statistike. Strogo govoreći, provedba regresijske analize zahtijeva ispunjenje niza posebnih zahtjeva (osobito, x l ,x 2 ,...,x n ;g moraju biti neovisne, normalno distribuirane slučajne varijable s konstantnim varijancama). U stvarnom životu, striktno pridržavanje zahtjeva regresijske i korelacijske analize vrlo je rijetko, ali su obje ove metode vrlo česte u ekonomskim istraživanjima. Ovisnosti u gospodarstvu mogu biti ne samo izravne, već i inverzne i nelinearne. Regresijski model može se izgraditi u prisutnosti bilo koje ovisnosti, međutim, u multivarijantnoj analizi koriste se samo linearni modeli oblika:

Konstrukcija regresijske jednadžbe provodi se, u pravilu, metodom najmanjih kvadrata, čija je bit minimiziranje zbroja kvadratnih odstupanja stvarnih vrijednosti rezultirajućeg atributa od njegovih izračunatih vrijednosti, tj.

gdje t - broj opažanja;

j =a+b 1 x 1 j +b 2 x 2 j + ... + b n x n j - izračunata vrijednost faktora rezultata.

Regresijske koeficijente preporuča se odrediti pomoću analitičkih paketa za osobno računalo ili posebnog financijskog kalkulatora. U najjednostavnijem slučaju, regresijski koeficijenti jednofaktorske linearne regresijske jednadžbe oblika y = a + bx može se pronaći pomoću formula:

analiza klastera

Klaster analiza je jedna od metoda multivarijantne analize, namijenjena grupiranju (klasteriziranju) populacije, čiji se elementi odlikuju mnogim značajkama. Vrijednosti svakog od obilježja služe kao koordinate svake jedinice proučavane populacije u višedimenzionalnom prostoru obilježja. Svako opažanje, karakterizirano vrijednostima nekoliko pokazatelja, može se prikazati kao točka u prostoru tih pokazatelja, čije se vrijednosti smatraju koordinatama u višedimenzionalnom prostoru. Udaljenost između točaka R i q S k koordinate se definiraju kao:

Glavni kriterij za klasteriranje je da razlike između klastera trebaju biti značajnije nego između promatranja dodijeljenih istom klasteru, tj. u višedimenzionalnom prostoru mora se poštovati nejednakost:

gdje r 1, 2 - udaljenost između klastera 1 i 2.

Kao i postupci regresijske analize, postupak klasteriranja je prilično naporan, preporučljivo ga je izvesti na računalu.

U svojim radovima koji datiraju iz 1908. Opisao je to na primjeru rada agenta za prodaju nekretnina. U svojim je bilješkama stručnjak za prodaju kuća vodio evidenciju širokog raspona ulaznih podataka za svaku pojedinu zgradu. Na temelju rezultata dražbe utvrđeno je koji je čimbenik imao najveći utjecaj na cijenu transakcije.

Analiza velikog broja transakcija dala je zanimljive rezultate. Mnogi čimbenici utjecali su na konačnu cijenu, što je ponekad dovodilo do paradoksalnih zaključaka, pa čak i izravnih "odstupanja" kada je kuća s velikim početnim potencijalom prodana po nižoj cijeni.

Drugi primjer primjene takve analize je posao kojem je povjereno utvrđivanje primanja zaposlenika. Složenost zadatka bila je u tome što nije bilo potrebno distribuirati fiksni iznos svima, već strogo uskladiti njegovu vrijednost s određenim obavljenim radom. Pojava mnogih problema s praktički sličnim rješenjima zahtijevala je njihovo detaljnije proučavanje na matematičkoj razini.

Značajno mjesto dano je odjeljku "regresijska analiza", koji je kombinirao praktične metode koje se koriste za proučavanje ovisnosti koje potpadaju pod koncept regresije. Ti se odnosi promatraju između podataka dobivenih tijekom statističkih studija.

Među brojnim zadacima koje treba riješiti, on sebi postavlja tri glavna cilja: definiranje regresijske jednadžbe općeg oblika; izrada procjena parametara koji su nepoznati, a koji su dio regresijske jednadžbe; testiranje hipoteza statističke regresije. U tijeku proučavanja odnosa koji nastaje između para veličina dobivenih kao rezultat eksperimentalnih opažanja i čineći niz (skup) tipa (x1, y1), ..., (xn, yn), oslanjaju se na odredbe regresijske teorije i pretpostavljaju da se za jednu veličinu Y promatra određena distribucija vjerojatnosti, dok druga X ostaje fiksirana.

Rezultat Y ovisi o vrijednosti varijable X, ta se ovisnost može odrediti različitim uzorcima, dok na točnost dobivenih rezultata utječu priroda opažanja i svrha analize. Eksperimentalni model temelji se na određenim pretpostavkama koje su jednostavne, ali uvjerljive. Glavni uvjet je da je parametar X kontrolirana vrijednost. Njegove vrijednosti su postavljene prije početka eksperimenta.

Ako se tijekom eksperimenta koristi par nekontroliranih XY vrijednosti, tada se regresijska analiza provodi na isti način, ali za tumačenje rezultata, tijekom kojih se proučava odnos slučajnih varijabli koje se proučavaju, koriste se metode Metode matematičke statistike nisu apstraktna tema. Svoju primjenu u životu nalaze u raznim područjima ljudske djelatnosti.

U znanstvenoj literaturi izraz linearna regresijska analiza našao je široku primjenu za definiranje gore navedene metode. Za varijablu X koristi se termin regresor ili prediktor, a ovisne Y-varijable nazivaju se i kriterijske varijable. Ova terminologija odražava samo matematičku ovisnost varijabli, ali ne i uzročno-posljedične odnose.

Regresijska analiza je najčešća metoda koja se koristi u obradi rezultata širokog spektra opažanja. Ovom se metodom proučavaju fizičke i biološke ovisnosti, a primjenjuje se iu ekonomiji iu tehnologiji. Mnoga druga područja koriste modele regresijske analize. Analiza varijance, multivarijatna statistička analiza usko surađuju s ovom metodom proučavanja.

Regresijska i korelacijska analiza - statističke metode istraživanja. Ovo su najčešći načini za prikaz ovisnosti parametra o jednoj ili više neovisnih varijabli.

U nastavku ćemo na konkretnim praktičnim primjerima razmotriti ove dvije među ekonomistima vrlo popularne analize. Također ćemo dati primjer dobivanja rezultata kada se oni kombiniraju.

Regresijska analiza u Excelu

Prikazuje utjecaj nekih vrijednosti (nezavisnih, neovisnih) na zavisnu varijablu. Primjerice, kako broj ekonomski aktivnog stanovništva ovisi o broju poduzeća, plaćama i drugim parametrima. Ili: kako strana ulaganja, cijene energenata i sl. utječu na razinu BDP-a.

Rezultat analize omogućuje vam određivanje prioriteta. I na temelju glavnih čimbenika, predvidjeti, planirati razvoj prioritetnih područja, donositi upravljačke odluke.

Regresija se događa:

  • linearno (y = a + bx);
  • parabolični (y = a + bx + cx 2);
  • eksponencijalni (y = a * exp(bx));
  • snaga (y = a*x^b);
  • hiperbolički (y = b/x + a);
  • logaritamski (y = b * 1n(x) + a);
  • eksponencijalni (y = a * b^x).

Razmotrimo primjer izgradnje regresijskog modela u Excelu i tumačenje rezultata. Uzmimo linearni tip regresije.

Zadatak. U 6 poduzeća analizirana je prosječna mjesečna plaća i broj zaposlenih koji su otišli. Potrebno je utvrditi ovisnost broja umirovljenih radnika o prosječnoj plaći.

Model linearne regresije ima sljedeći oblik:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Gdje su a regresijski koeficijenti, x su utjecajne varijable, a k je broj faktora.

U našem primjeru, Y je pokazatelj broja radnika koji su napustili posao. Faktor utjecaja je plaća (x).

Excel ima ugrađene funkcije koje se mogu koristiti za izračunavanje parametara modela linearne regresije. Ali dodatak Analysis ToolPak to će učiniti brže.

Aktivirajte moćan analitički alat:

Nakon aktivacije, dodatak će biti dostupan na kartici Podaci.

Sada ćemo se izravno pozabaviti regresijskom analizom.



Prije svega, obraćamo pozornost na R-kvadrat i koeficijente.

R-kvadrat je koeficijent determinacije. U našem primjeru to je 0,755, odnosno 75,5%. To znači da izračunati parametri modela objašnjavaju odnos između proučavanih parametara za 75,5%. Što je veći koeficijent determinacije, to je model bolji. Dobro - iznad 0,8. Loše - manje od 0,5 (takva se analiza teško može smatrati razumnom). U našem primjeru - "nije loše".

Koeficijent 64,1428 pokazuje koliki će biti Y ako su sve varijable u modelu koji se razmatra jednake 0. Odnosno, drugi faktori koji nisu opisani u modelu također utječu na vrijednost analiziranog parametra.

Koeficijent -0,16285 pokazuje težinu varijable X na Y. Odnosno, prosječna mjesečna plaća unutar ovog modela utječe na broj onih koji su odustali s težinom od -0,16285 (ovo je mali stupanj utjecaja). Znak “-” označava negativan utjecaj: što je veća plaća, to manje odustaje. Što je pošteno.



Korelacijska analiza u Excelu

Korelacijska analiza pomaže utvrditi postoji li odnos između pokazatelja u jednom ili dva uzorka. Na primjer, između vremena rada stroja i troškova popravaka, cijene opreme i trajanja rada, visine i težine djece itd.

Ako postoji odnos, tada dovodi li povećanje jednog parametra do povećanja (pozitivna korelacija) ili do smanjenja (negativna) drugog. Korelacijska analiza pomaže analitičaru odrediti može li vrijednost jednog pokazatelja predvidjeti moguću vrijednost drugog.

Koeficijent korelacije označava se r. Varira od +1 do -1. Klasifikacija korelacija za različita područja bit će različita. Kada je vrijednost koeficijenta 0, ne postoji linearni odnos između uzoraka.

Razmotrite kako pomoću programa Excel pronaći koeficijent korelacije.

Funkcija CORREL koristi se za pronalaženje uparenih koeficijenata.

Zadatak: Utvrditi postoji li veza između vremena rada tokarilice i troškova njenog održavanja.

Postavite kursor u bilo koju ćeliju i pritisnite gumb fx.

  1. U kategoriji "Statistika" odaberite funkciju CORREL.
  2. Argument "Niz 1" - prvi raspon vrijednosti - vrijeme stroja: A2: A14.
  3. Argument "Niz 2" - drugi raspon vrijednosti - trošak popravka: B2:B14. Pritisnite OK.

Da biste odredili vrstu veze, morate pogledati apsolutni broj koeficijenta (svako područje djelatnosti ima svoju ljestvicu).

Za korelacijsku analizu nekoliko parametara (više od 2) prikladnije je koristiti "Analizu podataka" (dodatak "Analysis Package"). Na popisu trebate odabrati korelaciju i označiti niz. Svi.

Rezultirajući koeficijenti bit će prikazani u korelacijskoj matrici. Kao ova:

Korelacijska-regresijska analiza

U praksi se ove dvije tehnike često koriste zajedno.

Primjer:


Sada su vidljivi podaci regresijske analize.

Cilj regresijske analize je izmjeriti odnos između zavisne varijable i jedne (regresijska analiza u paru) ili više (više) nezavisnih varijabli. Nezavisne varijable se također nazivaju faktorijelima, eksplanatorima, determinantama, regresorima i prediktorima.

Zavisna varijabla ponekad se naziva definirana, objašnjena ili varijabla "odgovora". Iznimno raširena uporaba regresijske analize u empirijskim istraživanjima nije samo zbog činjenice da je ona pogodan alat za testiranje hipoteza. Regresija, posebno višestruka regresija, učinkovita je tehnika modeliranja i predviđanja.

Počnimo objašnjavati principe rada s regresijskom analizom jednostavnijim – metodom parova.

Regresijska analiza u paru

Prvi koraci pri korištenju regresijske analize bit će gotovo identični onima koje smo poduzeli u okviru izračuna koeficijenta korelacije. Tri glavna uvjeta za učinkovitost korelacijske analize korištenjem Pearsonove metode - normalna distribucija varijabli, intervalno mjerenje varijabli, linearni odnos između varijabli - također su relevantni za višestruku regresiju. U skladu s tim, u prvoj fazi se konstruiraju dijagrami raspršenja, provodi se statistička i deskriptivna analiza varijabli te se izračunava regresijska linija. Kao iu okviru korelacijske analize, regresijske linije se grade metodom najmanjih kvadrata.

Kako bismo jasnije ilustrirali razlike između dviju metoda analize podataka, okrenimo se primjeru koji je već razmatran s varijablama "SPS potpora" i "udio ruralnog stanovništva". Izvorni podaci su identični. Razlika u dijagramima raspršenosti bit će u tome što je u regresijskoj analizi ispravno zavisnu varijablu - u našem slučaju "SPS support" iscrtati duž Y osi, dok u korelacijskoj analizi to nije bitno. Nakon čišćenja outliera, dijagram raspršenosti izgleda ovako:

Temeljna ideja regresijske analize je da, imajući opći trend za varijable - u obliku regresijske linije - možete predvidjeti vrijednost zavisne varijable, imajući vrijednosti nezavisne.

Zamislimo običnu matematičku linearnu funkciju. Svaki pravac u euklidskom prostoru može se opisati formulom:

gdje je a konstanta koja određuje pomak duž y-osi; b - koeficijent koji određuje kut linije.

Znajući nagib i konstantu, možete izračunati (predvidjeti) vrijednost y za bilo koji x.

Ova najjednostavnija funkcija čini osnovu modela regresijske analize s upozorenjem da ćemo vrijednost y predvidjeti ne točno, već unutar određenog intervala pouzdanosti, tj. približno.

Konstanta je točka presjeka regresijske linije i y-osi (F-odsječak, koji se obično naziva "presretač" u statističkim paketima). U našem primeru glasanja za SPS, njegova zaokružena vrednost biće 10,55. Koeficijent nagiba b bit će približno jednak -0,1 (kao u korelacijskoj analizi znak pokazuje vrstu veze - direktnu ili inverznu). Stoga će rezultirajući model izgledati kao SP C = -0,1 x Sel. nas. + 10.55.

ATP \u003d -0,10 x 47 + 10,55 \u003d 5,63.

Razlika između izvorne i predviđene vrijednosti naziva se rezidual (već smo se susreli s ovim pojmom - temeljnim za statistiku - pri analizi tablica nepredviđenih okolnosti). Dakle, za slučaj Republike Adygea, ostatak će biti 3,92 - 5,63 = -1,71. Što je veća modulo vrijednost ostatka, lošije je predviđena vrijednost.

Izračunavamo predviđene vrijednosti i reziduale za sve slučajeve:
Događa se sub. nas. hvala

(izvornik)

hvala

(predviđeno)

Ostaci
Republika Adigeja 47 3,92 5,63 -1,71 -
Republika Altaj 76 5,4 2,59 2,81
Republika Baškortostan 36 6,04 6,78 -0,74
Republika Burjatija 41 8,36 6,25 2,11
Republika Dagestan 59 1,22 4,37 -3,15
Republika Ingušetija 59 0,38 4,37 3,99
itd.

Analiza omjera početnih i predviđenih vrijednosti služi za procjenu kvalitete rezultirajućeg modela, njegove prediktivne sposobnosti. Jedan od glavnih pokazatelja regresijske statistike je koeficijent višestruke korelacije R - koeficijent korelacije između izvorne i predviđene vrijednosti zavisne varijable. U parnoj regresijskoj analizi jednak je uobičajenom Pearsonovom koeficijentu korelacije između zavisne i nezavisne varijable, u našem slučaju - 0,63. Da bi se smisleno protumačio višestruki R, on se mora pretvoriti u koeficijent determinacije. To se radi na isti način kao i kod korelacijske analize – kvadriranja. Koeficijent determinacije R-kvadrat (R 2) pokazuje udio varijacije zavisne varijable objašnjene nezavisnim (nezavisnim) varijablama.

U našem slučaju R 2 = 0,39 (0,63 2); to znači da varijabla "udio ruralnog stanovništva" objašnjava oko 40% varijacije u varijabli "potpora CPS-u". Što je veća vrijednost koeficijenta determinacije, veća je kvaliteta modela.

Druga mjera kvalitete modela je standardna pogreška procjene. Ovo je mjera koliko su točke "raspršene" oko regresijske linije. Mjera disperzije za intervalne varijable je standardna devijacija. Prema tome, standardna pogreška procjene je standardna devijacija distribucije reziduala. Što je njegova vrijednost veća, to je širenje veće i model lošiji. U našem slučaju standardna pogreška je 2,18. Za taj će iznos naš model “prosječno pogriješiti” pri predviđanju vrijednosti varijable “SPS podrška”.

Regresijska statistika također uključuje analizu varijance. Uz njegovu pomoć saznajemo: 1) koliki je udio varijacije (disperzije) zavisne varijable objašnjen nezavisnom varijablom; 2) koji udio varijance zavisne varijable otpada na reziduale (neobjašnjeni dio); 3) koliki je omjer ovih dviju vrijednosti (/ "-omjer). Statistika disperzije je posebno važna za studije uzoraka - ona pokazuje koliko je vjerojatno da postoji odnos između neovisnih i zavisnih varijabli u općoj populaciji. Međutim , za kontinuirane studije (kao u našem primjeru), studija U ovom slučaju, provjerava se je li otkriveni statistički obrazac uzrokovan slučajnošću slučajnih okolnosti, koliko je karakterističan za kompleks uvjeta u kojima se nalazi ispitana populacija. , tj. utvrđuje se da dobiveni rezultat nije istinit za neki opsežniji opći agregat, već stupanj njegove pravilnosti, oslobođenosti od slučajnih utjecaja.

U našem slučaju, analiza statistike varijance je sljedeća:

SS df MS F značenje
Regres. 258,77 1,00 258,77 54,29 0.000000001
Preostalo 395,59 83,00 L,11
Ukupno 654,36

F-omjer od 54,29 značajan je na razini od 0,0000000001. U skladu s tim, možemo sa sigurnošću odbaciti nultu hipotezu (da je odnos koji smo pronašli slučajan).

Sličnu funkciju ima t kriterij, ali s obzirom na regresijske koeficijente (kutna i F-križanja). Pomoću kriterija / testiramo hipotezu da su regresijski koeficijenti u općoj populaciji jednaki nuli. U našem slučaju, opet sa sigurnošću možemo odbaciti nultu hipotezu.

Višestruka regresijska analiza

Model višestruke regresije gotovo je identičan modelu parne regresije; jedina razlika je u tome što je nekoliko neovisnih varijabli uključeno uzastopno u linearnu funkciju:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ako postoji više od dvije neovisne varijable, ne možemo dobiti vizualni prikaz njihovog odnosa; u tom pogledu višestruka regresija je manje "vidljiva" od regresije u paru. Kada postoje dvije neovisne varijable, može biti korisno prikazati podatke u 3D dijagramu raspršenosti. U profesionalnim statističkim programskim paketima (primjerice Statistica) postoji mogućnost rotiranja trodimenzionalnog grafikona, što omogućuje dobar vizualni prikaz strukture podataka.

Kod rada s višestrukom regresijom, za razliku od parne regresije, potrebno je odrediti algoritam analize. Standardni algoritam uključuje sve dostupne prediktore u konačnom regresijskom modelu. Algoritam korak po korak pretpostavlja sekvencijalno uključivanje (isključivanje) nezavisnih varijabli, na temelju njihove eksplanatorne "težine". Metoda koraka je dobra kada postoji mnogo nezavisnih varijabli; "čisti" model od iskreno slabih prediktora, čineći ga kompaktnijim i konciznijim.

Dodatni uvjet za ispravnost višestruke regresije (uz interval, normalnost i linearnost) je nepostojanje multikolinearnosti - prisutnost jakih korelacija između nezavisnih varijabli.

Tumačenje statistike višestruke regresije uključuje sve elemente koje smo razmotrili za slučaj parne regresije. Osim toga, postoje i druge važne komponente u statistici višestruke regresijske analize.

Rad ćemo ilustrirati višestrukom regresijom na primjeru testiranja hipoteza koje objašnjavaju razlike u razini izborne aktivnosti u regijama Rusije. Specifične empirijske studije sugeriraju da na odaziv birača utječu:

Nacionalni faktor (varijabla "rusko stanovništvo"; operacionalizirano kao udio ruskog stanovništva u sastavnim entitetima Ruske Federacije). Pretpostavlja se da povećanje udjela ruskog stanovništva dovodi do smanjenja odaziva birača;

Čimbenik urbanizacije (varijabla "urbano stanovništvo"; operacionaliziran kao udio gradskog stanovništva u sastavnim entitetima Ruske Federacije, s ovim smo faktorom već radili u sklopu korelacijske analize). Pretpostavlja se da porast udjela gradskog stanovništva također dovodi do smanjenja izlaznosti birača.

Zavisna varijabla - "intenzitet izborne aktivnosti" ("aktivno") operacionalizirana je kroz podatak o prosječnoj izlaznosti po regijama na saveznim izborima od 1995. do 2003. Početna tablica podataka za dvije nezavisne i jednu zavisnu varijablu imat će sljedeći oblik: :

Događa se Varijable
Imovina. Gor. nas. rus. nas.
Republika Adigeja 64,92 53 68
Republika Altaj 68,60 24 60
Republika Burjatija 60,75 59 70
Republika Dagestan 79,92 41 9
Republika Ingušetija 75,05 41 23
Republika Kalmikija 68,52 39 37
Karačajevsko-Čerkeska Republika 66,68 44 42
Republika Karelija 61,70 73 73
Republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

itd. (nakon čišćenja emisija ostala su 83 slučaja od 88)

Statistika koja opisuje kvalitetu modela:

1. Višestruki R = 0,62; L-kvadrat = 0,38. Dakle, nacionalni faktor i faktor urbanizacije zajedno objašnjavaju oko 38% varijacije varijable "izborna aktivnost".

2. Prosječna pogreška je 3,38. Tako je “u prosjeku” konstruirani model pogrešan u predviđanju razine izlaznosti.

3. /l-omjer objašnjene i neobjašnjene varijacije je 25,2 na razini 0,000000003. Nulta hipoteza o slučajnosti otkrivenih odnosa je odbačena.

4. Kriterij / za konstantne i regresijske koeficijente varijabli "urbano stanovništvo" i "rusko stanovništvo" je značajan na razini 0,0000001; 0,00005 odnosno 0,007. Nulta hipoteza o slučajnosti koeficijenata je odbačena.

Dodatne korisne statistike u analizi omjera početne i predviđene vrijednosti zavisne varijable su Mahalanobisova udaljenost i Cookova udaljenost. Prva je mjera jedinstvenosti slučaja (pokazuje koliko kombinacija vrijednosti svih nezavisnih varijabli za određeni slučaj odstupa od prosječne vrijednosti za sve nezavisne varijable u isto vrijeme). Drugo je mjera utjecaja slučaja. Različita promatranja na različite načine utječu na nagib regresijske linije, a pomoću Cookove udaljenosti možete ih usporediti prema ovom pokazatelju. Ovo je korisno prilikom čišćenja odstupanja (odstupanja se mogu smatrati pretjerano utjecajnim slučajem).

U našem primjeru Dagestan je jedan od jedinstvenih i utjecajnih slučajeva.

Događa se Početna

vrijednosti

Predska

vrijednosti

Ostaci Udaljenost

Mahalanobis

Udaljenost
Adigeja 64,92 66,33 -1,40 0,69 0,00
Republika Altaj 68,60 69.91 -1,31 6,80 0,01
Republika Burjatija 60,75 65,56 -4,81 0,23 0,01
Republika Dagestan 79,92 71,01 8,91 10,57 0,44
Republika Ingušetija 75,05 70,21 4,84 6,73 0,08
Republika Kalmikija 68,52 69,59 -1,07 4,20 0,00

Stvarni regresijski model ima sljedeće parametre: Y-odsječak (konstanta) = 75,99; b (Hor. sat.) \u003d -0,1; b (rus. nas.) = -0,06. Konačna formula.

Regresijska analiza jedna je od najpopularnijih metoda statističkog istraživanja. Može se koristiti za određivanje stupnja utjecaja nezavisnih varijabli na zavisnu varijablu. Funkcionalnost programa Microsoft Excel ima alate dizajnirane za provedbu ove vrste analize. Pogledajmo što su i kako ih koristiti.

No, kako biste koristili funkciju koja vam omogućuje provođenje regresijske analize, prije svega morate aktivirati Analysis Package. Tek tada će se alati potrebni za ovaj postupak pojaviti na vrpci programa Excel.


Sad kad idemo na tab "Podaci", na vrpci u kutiji s alatima "Analiza" vidjet ćemo novi gumb - "Analiza podataka".

Vrste regresijske analize

Postoji nekoliko vrsta regresija:

  • parabolični;
  • vlast;
  • logaritamski;
  • eksponencijalni;
  • demonstracija;
  • hiperbolički;
  • Linearna regresija.

Kasnije ćemo detaljnije govoriti o implementaciji posljednje vrste regresijske analize u Excelu.

Linearna regresija u Excelu

Ispod je, kao primjer, tablica koja prikazuje prosječnu dnevnu temperaturu zraka na ulici i broj kupaca trgovine za odgovarajući radni dan. Otkrijmo uz pomoć regresijske analize točno kako vremenski uvjeti u obliku temperature zraka mogu utjecati na posjećenost maloprodajnog objekta.

Opća jednadžba linearne regresije izgleda ovako: Y = a0 + a1x1 + ... + axk. U ovoj formuli Y označava varijablu čiji utjecaj pokušavamo proučavati. U našem slučaju to je broj kupaca. Značenje x su različiti čimbenici koji utječu na varijablu. Mogućnosti a su koeficijenti regresije. Odnosno, određuju značaj određenog faktora. Indeks k označava ukupan broj istih faktora.


Analiza rezultata analize

Rezultati regresijske analize prikazuju se u obliku tablice na mjestu navedenom u postavkama.

Jedan od glavnih pokazatelja je R-kvadrat. Označava kvalitetu modela. U našem slučaju taj koeficijent iznosi 0,705 ili oko 70,5%. Ovo je prihvatljiva razina kvalitete. Odnos manji od 0,5 je loš.

Još jedan važan pokazatelj nalazi se u ćeliji na sjecištu linije "Y-raskrižje" i stupac "Koeficijenti". Ovdje je naznačeno koju će vrijednost Y imati, au našem slučaju to je broj kupaca, a svi ostali faktori jednaki su nuli. U ovoj tablici ova vrijednost je 58,04.

Vrijednost na sjecištu grafikona "Varijabla X1" i "Koeficijenti" pokazuje razinu ovisnosti Y o X. U našem slučaju to je razina ovisnosti broja kupaca trgovine o temperaturi. Koeficijent od 1,31 smatra se prilično visokim pokazateljem utjecaja.

Kao što vidite, vrlo je jednostavno stvoriti tablicu regresijske analize pomoću programa Microsoft Excel. Ali samo obučena osoba može raditi s podacima dobivenim na izlazu i razumjeti njihovu bit.

KATEGORIJE

POPULARNI ČLANCI

2022 "kingad.ru" - ultrazvučni pregled ljudskih organa