Što je regresijska funkcija. Regresijska analiza je statistička metoda za proučavanje ovisnosti slučajne varijable o varijablama

Regresijska analiza je metoda utvrđivanja analitičkog izraza za stohastičku ovisnost između proučavanih karakteristika. Regresijska jednadžba pokazuje kako se prosjek mijenja na prilikom promjene bilo kojeg od x ja , i ima oblik:

Gdje y - zavisna varijabla (uvijek je ista);

x ja - nezavisne varijable (faktore) (može ih biti više).

Ako postoji samo jedna nezavisna varijabla, to je jednostavna regresijska analiza. Ako ih ima nekoliko ( P 2), onda se takva analiza naziva multifaktorska.

Regresijska analiza rješava dva glavna problema:

    konstruiranje regresijske jednadžbe, tj. pronalaženje vrste odnosa između pokazatelja rezultata i neovisnih čimbenika x 1 , x 2 , …, x n .

    procjena značaja dobivene jednadžbe, tj. određivanje koliko odabrane faktorske karakteristike objašnjavaju varijaciju osobine u.

Regresijska analiza koristi se uglavnom za planiranje, kao i za izradu regulatornog okvira.

Za razliku od korelacijske analize, koja samo odgovara na pitanje postoji li odnos između analiziranih karakteristika, regresijska analiza daje i svoj formalizirani izraz. Osim toga, ako korelacijska analiza proučava bilo kakav odnos između faktora, onda regresijska analiza proučava jednostranu ovisnost, tj. odnos koji pokazuje kako promjena faktorskih karakteristika utječe na efektivnu karakteristiku.

Regresijska analiza jedna je od najrazvijenijih metoda matematičke statistike. Strogo govoreći, za provedbu regresijske analize potrebno je ispuniti niz posebnih zahtjeva (osobito, x l ,x 2 ,...,x n ;g moraju biti neovisne, normalno distribuirane slučajne varijable s konstantnim varijancama). U stvarnom životu, striktno pridržavanje zahtjeva regresijske i korelacijske analize vrlo je rijetko, ali su obje ove metode vrlo česte u ekonomskim istraživanjima. Ovisnosti u ekonomiji mogu biti ne samo izravne, već i inverzne i nelinearne. Regresijski model može se izgraditi u prisutnosti bilo koje ovisnosti, međutim, u multivarijantnoj analizi koriste se samo linearni modeli oblika:

Regresijska jednadžba se u pravilu konstruira metodom najmanjih kvadrata, čija je bit minimiziranje zbroja kvadratnih odstupanja stvarnih vrijednosti rezultirajuće karakteristike od njegovih izračunatih vrijednosti, tj.

Gdje T - broj opažanja;

j =a+b 1 x 1 j + b 2 x 2 j + ... + b n x n j - izračunata vrijednost faktora rezultata.

Preporuča se određivanje regresijskih koeficijenata pomoću analitičkih paketa za osobno računalo ili posebnog financijskog kalkulatora. U najjednostavnijem slučaju, regresijski koeficijenti jednofaktorske linearne regresijske jednadžbe oblika y = a + bx može se pronaći pomoću formula:

Klaster analiza

Klaster analiza je jedna od metoda višedimenzionalne analize namijenjena grupiranju (klasteriziranju) populacije čiji se elementi odlikuju mnogim karakteristikama. Vrijednosti svake značajke služe kao koordinate svake jedinice populacije koja se proučava u višedimenzionalnom prostoru značajki. Svako opažanje, karakterizirano vrijednostima nekoliko pokazatelja, može se prikazati kao točka u prostoru tih pokazatelja, čije se vrijednosti smatraju koordinatama u višedimenzionalnom prostoru. Udaljenost između točaka R I q S k koordinate se definiraju kao:

Glavni kriterij za klasteriranje je da razlike između klastera trebaju biti značajnije nego između promatranja dodijeljenih istom klasteru, tj. u višedimenzionalnom prostoru mora se poštovati sljedeća nejednakost:

Gdje r 1, 2 - udaljenost između klastera 1 i 2.

Kao i postupci regresijske analize, postupak klasteriranja je prilično zahtjevan te ga je preporučljivo izvesti na računalu.

U svojim djelima koja datiraju od 1908. Opisao je to na primjeru rada agenta za prodaju nekretnina. Specijalist prodaje kuća je u svojoj evidenciji vodio širok raspon ulaznih podataka za svaku pojedinu zgradu. Na temelju rezultata dražbe utvrđeno je koji je čimbenik imao najveći utjecaj na cijenu transakcije.

Analiza velikog broja transakcija dala je zanimljive rezultate. Na konačnu cijenu utjecalo je mnogo čimbenika, koji su ponekad dovodili do paradoksalnih zaključaka, pa čak i do očitih "odstupanja" kada je kuća s velikim početnim potencijalom prodana po sniženoj cijeni.

Drugi primjer primjene takve analize je posao kojemu je povjereno utvrđivanje primanja zaposlenika. Složenost zadatka bila je u činjenici da nije zahtijevala raspodjelu fiksnog iznosa svima, već njegovu strogu usklađenost s određenim obavljenim radom. Pojava mnogih problema s praktički sličnim rješenjima zahtijevala je njihovo detaljnije proučavanje na matematičkoj razini.

Značajno mjesto pridijeljeno je odjeljku „regresijska analiza“ koji je objedinio praktične metode korištene za proučavanje ovisnosti koje potpadaju pod pojam regresije. Ti se odnosi promatraju između podataka dobivenih iz statističkih studija.

Među mnogim zadacima koje treba riješiti tri su glavna cilja: određivanje opće regresijske jednadžbe; konstruiranje procjena parametara koji su nepoznanice dio regresijske jednadžbe; testiranje hipoteza statističke regresije. U tijeku proučavanja odnosa koji nastaje između para veličina dobivenih kao rezultat eksperimentalnih opažanja i čineći niz (skup) tipa (x1, y1), ..., (xn, yn), oslanjaju se na odredbe regresijske teorije i pretpostavljaju da za jednu veličinu Y postoji određena distribucija vjerojatnosti, dok je druga X fiksirana.

Rezultat Y ovisi o vrijednosti varijable X, a ta se ovisnost može odrediti različitim uzorcima, a na točnost dobivenih rezultata utječu priroda opažanja i svrha analize. Eksperimentalni model temelji se na određenim pretpostavkama koje su pojednostavljene, ali vjerojatne. Glavni uvjet je da je parametar X kontrolirana veličina. Njegove vrijednosti su postavljene prije početka eksperimenta.

Ako se tijekom eksperimenta koristi par nekontroliranih varijabli XY, tada se regresijska analiza provodi na isti način, ali se koriste metode za interpretaciju rezultata, tijekom kojih se proučava odnos slučajnih varijabli koje se proučavaju. Metode matematičke statistike nisu apstraktna tema. Oni pronalaze primjenu u životu u različitim sferama ljudske djelatnosti.

U znanstvenoj literaturi za definiranje gore navedene metode naširoko se koristi termin linearna regresijska analiza. Za varijablu X koristi se termin regresor ili prediktor, a ovisne varijable Y nazivaju se i kriterijske varijable. Ova terminologija odražava samo matematičku ovisnost varijabli, ali ne i uzročno-posljedičnu vezu.

Regresijska analiza je najčešća metoda koja se koristi u obradi rezultata širokog spektra opažanja. Ovom se metodom proučavaju fizičke i biološke ovisnosti, a primjenjuje se iu ekonomiji iu tehnologiji. Mnoga druga područja koriste modele regresijske analize. Analiza varijance i multivarijatna statistička analiza blisko surađuju s ovom metodom proučavanja.

Regresijska i korelacijska analiza su statističke metode istraživanja. Ovo su najčešći načini za prikaz ovisnosti parametra o jednoj ili više neovisnih varijabli.

U nastavku ćemo na konkretnim praktičnim primjerima razmotriti ove dvije među ekonomistima vrlo popularne analize. Također ćemo dati primjer dobivanja rezultata njihovim kombiniranjem.

Regresijska analiza u Excelu

Prikazuje utjecaj nekih vrijednosti (nezavisnih, neovisnih) na zavisnu varijablu. Na primjer, kako broj ekonomski aktivnog stanovništva ovisi o broju poduzeća, plaćama i drugim parametrima. Ili: kako strana ulaganja, cijene energenata i sl. utječu na razinu BDP-a.

Rezultat analize omogućuje vam da istaknete prioritete. I na temelju glavnih čimbenika predvidjeti, planirati razvoj prioritetnih područja i donositi upravljačke odluke.

Regresija se događa:

  • linearno (y = a + bx);
  • parabolični (y = a + bx + cx 2);
  • eksponencijalni (y = a * exp(bx));
  • snaga (y = a*x^b);
  • hiperbolički (y = b/x + a);
  • logaritamski (y = b * 1n(x) + a);
  • eksponencijalni (y = a * b^x).

Pogledajmo primjer izrade regresijskog modela u Excelu i tumačenje rezultata. Uzmimo linearni tip regresije.

Zadatak. U 6 poduzeća analizirana je prosječna mjesečna plaća i broj zaposlenika koji odustaju. Potrebno je utvrditi ovisnost broja zaposlenika koji odustaju od prosječne plaće.

Model linearne regresije izgleda ovako:

Y = a 0 + a 1 x 1 +…+a k x k.

Gdje su a regresijski koeficijenti, x su utjecajne varijable, k je broj faktora.

U našem primjeru, Y je pokazatelj odustajanja zaposlenika. Faktor utjecaja je plaća (x).

Excel ima ugrađene funkcije koje vam mogu pomoći u izračunavanju parametara modela linearne regresije. Ali dodatak "Analysis Package" to će učiniti brže.

Aktiviramo moćan analitički alat:

Nakon aktivacije, dodatak će biti dostupan na kartici Podaci.

Sada napravimo samu regresijsku analizu.



Prije svega, obraćamo pažnju na R-kvadrat i koeficijente.

R-kvadrat je koeficijent determinacije. U našem primjeru – 0,755, odnosno 75,5%. To znači da izračunati parametri modela objašnjavaju 75,5% odnosa između proučavanih parametara. Što je veći koeficijent determinacije, to je model bolji. Dobro - iznad 0,8. Loše – manje od 0,5 (takva se analiza teško može smatrati razumnom). U našem primjeru - "nije loše".

Koeficijent 64,1428 pokazuje koliki će biti Y ako su sve varijable u modelu koji se razmatra jednake 0. To jest, na vrijednost analiziranog parametra utječu i drugi faktori koji nisu opisani u modelu.

Koeficijent -0,16285 pokazuje težinu varijable X na Y. Odnosno, prosječna mjesečna plaća unutar ovog modela utječe na broj onih koji su odustali s težinom od -0,16285 (ovo je mali stupanj utjecaja). Znak "-" označava negativan utjecaj: što je veća plaća, manje ljudi daje otkaz. Što je pošteno.



Korelacijska analiza u Excelu

Korelacijska analiza pomaže utvrditi postoji li odnos između pokazatelja u jednom ili dva uzorka. Na primjer, između vremena rada stroja i troškova popravaka, cijene opreme i trajanja rada, visine i težine djece itd.

Ako postoji veza, onda povećanje jednog parametra dovodi do povećanja (pozitivna korelacija) ili smanjenja (negativna) drugog. Korelacijska analiza pomaže analitičaru odrediti može li se vrijednost jednog pokazatelja koristiti za predviđanje moguće vrijednosti drugog.

Koeficijent korelacije je označen s r. Varira od +1 do -1. Klasifikacija korelacija za različita područja bit će različita. Kada je koeficijent 0, ne postoji linearni odnos između uzoraka.

Pogledajmo kako pronaći koeficijent korelacije pomoću programa Excel.

Za pronalaženje uparenih koeficijenata koristi se funkcija CORREL.

Cilj: Utvrditi postoji li veza između vremena rada tokarilice i troškova njenog održavanja.

Postavite kursor u bilo koju ćeliju i pritisnite gumb fx.

  1. U kategoriji “Statistika” odaberite funkciju CORREL.
  2. Argument "Niz 1" - prvi raspon vrijednosti - vrijeme rada stroja: A2:A14.
  3. Argument "Niz 2" - drugi raspon vrijednosti - trošak popravka: B2:B14. Pritisnite OK.

Da biste odredili vrstu veze, morate pogledati apsolutni broj koeficijenta (svako područje djelatnosti ima svoju ljestvicu).

Za korelacijsku analizu nekoliko parametara (više od 2) prikladnije je koristiti "Analizu podataka" (dodatak "Paket analize"). Morate odabrati korelaciju s popisa i označiti niz. Svi.

Rezultirajući koeficijenti bit će prikazani u korelacijskoj matrici. Kao ovo:

Korelacijska i regresijska analiza

U praksi se ove dvije tehnike često koriste zajedno.

Primjer:


Sada su podaci regresijske analize postali vidljivi.

Svrha regresijske analize je izmjeriti odnos između zavisne varijable i jedne (regresijska analiza u paru) ili više (više) nezavisnih varijabli. Nezavisne varijable se također nazivaju faktorske, eksplanatorne, determinantne, regresorske i prediktorske varijable.

Zavisna varijabla se ponekad naziva utvrđena, objašnjena ili varijabla "odgovora". Iznimno raširena uporaba regresijske analize u empirijskim istraživanjima nije samo zbog činjenice da je ona pogodan alat za testiranje hipoteza. Regresija, posebno višestruka regresija, učinkovita je metoda za modeliranje i predviđanje.

Počnimo objašnjavati principe rada s regresijskom analizom jednostavnijim – metodom parova.

Uparena regresijska analiza

Prvi koraci pri korištenju regresijske analize bit će gotovo identični onima koje smo poduzeli pri izračunu koeficijenta korelacije. Tri glavna uvjeta za učinkovitost korelacijske analize korištenjem Pearsonove metode - normalna distribucija varijabli, intervalno mjerenje varijabli, linearni odnos između varijabli - također su relevantni za višestruku regresiju. U skladu s tim, u prvoj fazi se konstruiraju dijagrami raspršenja, provodi se statistička i deskriptivna analiza varijabli te se izračunava regresijska linija. Kao iu okviru korelacijske analize, regresijske linije konstruirane su metodom najmanjih kvadrata.

Kako bismo jasnije ilustrirali razlike između dviju metoda analize podataka, okrenimo se primjeru o kojem smo već raspravljali s varijablama „SPS potpora“ i „udio ruralnog stanovništva“. Izvorni podaci su identični. Razlika u dijagramima raspršenja bit će u tome što je u regresijskoj analizi ispravno nacrtati zavisnu varijablu - u našem slučaju, "SPS podršku" na Y-osi, dok u korelacijskoj analizi to nije važno. Nakon čišćenja outliera, dijagram raspršenosti izgleda ovako:

Temeljna ideja regresijske analize je da je, imajući opći trend za varijable - u obliku regresijske linije - moguće predvidjeti vrijednost zavisne varijable, s obzirom na vrijednosti nezavisne.

Zamislimo običnu matematičku linearnu funkciju. Svaka pravac u euklidskom prostoru može se opisati formulom:

gdje je a konstanta koja određuje pomak duž ordinatne osi; b je koeficijent koji određuje kut nagiba pravca.

Znajući nagib i konstantu, možete izračunati (predvidjeti) vrijednost y za bilo koji x.

Ova najjednostavnija funkcija čini osnovu modela regresijske analize s upozorenjem da nećemo točno predvidjeti vrijednost y, već unutar određenog intervala pouzdanosti, tj. približno.

Konstanta je točka presjeka regresijske linije i y-osi (F-presjek, obično označen kao "presretač" u statističkim paketima). U našem primjeru s glasovanjem za SDS njegova zaokružena vrijednost bit će 10,55. Kutni koeficijent b bit će približno -0,1 (kao u korelacijskoj analizi, znak pokazuje vrstu veze - izravnu ili inverznu). Tako će dobiveni model imati oblik SP C = -0,1 x Sel. nas. + 10.55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Razlika između izvorne i predviđene vrijednosti naziva se ostatak (već smo se susreli s ovim pojmom, koji je temeljan za statistiku, pri analizi tablica nepredviđenih okolnosti). Dakle, za slučaj "Republike Adygea" ostatak će biti jednak 3,92 - 5,63 = -1,71. Što je veća modularna vrijednost ostatka, manje je uspješna predviđena vrijednost.

Izračunavamo predviđene vrijednosti i reziduale za sve slučajeve:
Događa se Sjeo. nas. hvala

(izvornik)

hvala

(predviđeno)

Ostaci hrane
Republika Adigeja 47 3,92 5,63 -1,71 -
Republika Altaj 76 5,4 2,59 2,81
Republika Baškortostan 36 6,04 6,78 -0,74
Republika Burjatija 41 8,36 6,25 2,11
Republika Dagestan 59 1,22 4,37 -3,15
Republika Ingušetija 59 0,38 4,37 3,99
itd.

Analiza omjera početnih i predviđenih vrijednosti služi za ocjenu kvalitete rezultirajućeg modela i njegove prediktivne sposobnosti. Jedan od glavnih pokazatelja regresijske statistike je koeficijent višestruke korelacije R - koeficijent korelacije između izvorne i predviđene vrijednosti zavisne varijable. U parnoj regresijskoj analizi jednak je uobičajenom Pearsonovom koeficijentu korelacije između zavisne i nezavisne varijable, u našem slučaju - 0,63. Da bi se smisleno interpretirao višestruki R, mora se pretvoriti u koeficijent determinacije. To se radi na isti način kao i kod korelacijske analize – kvadriranjem. Koeficijent determinacije R-kvadrat (R 2) pokazuje udio varijacije zavisne varijable koji se objašnjava nezavisnom varijablom(ama).

U našem slučaju R 2 = 0,39 (0,63 2); to znači da varijabla "udio ruralnog stanovništva" objašnjava približno 40% varijable u varijabli "SPS potpora". Što je veći koeficijent determinacije, veća je kvaliteta modela.

Drugi pokazatelj kvalitete modela je standardna pogreška procjene. Ovo je mjera koliko su točke "raspršene" oko regresijske linije. Mjera širenja za intervalne varijable je standardna devijacija. Prema tome, standardna pogreška procjene je standardna devijacija distribucije reziduala. Što je njegova vrijednost veća, to je raspršenje veće i model lošiji. U našem slučaju standardna pogreška je 2,18. Za taj će iznos naš model "prosječno pogriješiti" kada predviđa vrijednost varijable "SPS podrška".

Regresijska statistika također uključuje analizu varijance. Uz njegovu pomoć saznajemo: 1) koliki je udio varijacije (disperzije) zavisne varijable objašnjen nezavisnom varijablom; 2) koji udio varijance zavisne varijable otpada na reziduale (neobjašnjeni dio); 3) koliki je omjer tih dviju veličina (/"-omjer). Statistika disperzije je posebno važna za studije uzoraka - ona pokazuje koliko je vjerojatno da postoji odnos između nezavisnih i zavisnih varijabli u populaciji. Međutim, za kontinuirane studije (kao u našem primjeru) rezultati studije analize varijance nisu korisni. U ovom slučaju, oni provjeravaju je li identificirani statistički obrazac uzrokovan kombinacijom slučajnih okolnosti, koliko je karakterističan za kompleks uvjeta u kojima locira se populacija koja se ispituje, tj. utvrđuje se da dobiveni rezultat nije istinit za neki širi opći agregat, već stupanj njegove pravilnosti, oslobođenosti od slučajnih utjecaja.

U našem slučaju, ANOVA statistika je sljedeća:

SS df MS F značenje
Regres. 258,77 1,00 258,77 54,29 0.000000001
Ostatak 395,59 83,00 L,11
Ukupno 654,36

F-omjer od 54,29 značajan je na razini od 0,0000000001. U skladu s tim, s pouzdanjem možemo odbaciti nultu hipotezu (da je odnos koji smo otkrili rezultat slučajnosti).

Kriterij t ima sličnu funkciju, ali u odnosu na koeficijente regresije (kutni i F-presjek). Pomoću / kriterija testiramo hipotezu da su u općoj populaciji regresijski koeficijenti jednaki nuli. U našem slučaju, opet sa sigurnošću možemo odbaciti nultu hipotezu.

Višestruka regresijska analiza

Model višestruke regresije gotovo je identičan modelu uparene regresije; jedina razlika je u tome što je nekoliko neovisnih varijabli uključeno uzastopno u linearnu funkciju:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ako postoji više od dvije nezavisne varijable, ne možemo dobiti vizualnu predodžbu o njihovom odnosu; u tom pogledu višestruka regresija je manje "vizualna" od regresije u paru. Kada imate dvije neovisne varijable, može biti korisno prikazati podatke u 3D dijagramu raspršenosti. U profesionalnim statističkim programskim paketima (na primjer, Statistica) postoji opcija rotiranja trodimenzionalnog grafikona, što vam omogućuje da dobro vizualno prikažete strukturu podataka.

Kod rada s višestrukom regresijom, za razliku od parne regresije, potrebno je odrediti algoritam analize. Standardni algoritam uključuje sve dostupne prediktore u konačnom regresijskom modelu. Algoritam korak po korak uključuje sekvencijalno uključivanje (isključivanje) nezavisnih varijabli na temelju njihove eksplanatorne "težine". Metoda koraka je dobra kada postoji mnogo nezavisnih varijabli; "čisti" model od iskreno slabih prediktora, čineći ga kompaktnijim i konciznijim.

Dodatni uvjet za ispravnost višestruke regresije (uz interval, normalnost i linearnost) je nepostojanje multikolinearnosti - prisutnost jakih korelacija između nezavisnih varijabli.

Tumačenje statistike višestruke regresije uključuje sve elemente koje smo razmotrili za slučaj parne regresije. Osim toga, postoje i druge važne komponente statistike višestruke regresijske analize.

Rad ćemo ilustrirati višestrukom regresijom na primjeru testiranja hipoteza koje objašnjavaju razlike u razini izborne aktivnosti u ruskim regijama. Specifične empirijske studije sugeriraju da na odaziv birača utječu:

Nacionalni faktor (varijabla “rusko stanovništvo”; operacionalizirano kao udio ruskog stanovništva u sastavnim entitetima Ruske Federacije). Pretpostavlja se da povećanje udjela ruskog stanovništva dovodi do smanjenja izlaznosti birača;

Čimbenik urbanizacije (varijabla “urbano stanovništvo”; operacionalizirano kao udio urbanog stanovništva u sastavnim entitetima Ruske Federacije; s ovim smo faktorom već radili u sklopu korelacijske analize). Pretpostavlja se da porast udjela gradskog stanovništva dovodi i do smanjenja izlaznosti birača.

Zavisna varijabla - “intenzitet izborne aktivnosti” (“aktivno”) operacionalizirana je kroz podatke o prosječnom odazivu po regijama na saveznim izborima od 1995. do 2003. Početna tablica podataka za dvije nezavisne i jednu zavisnu varijablu bit će sljedeća:

Događa se Varijable
Imovina. Gor. nas. rus. nas.
Republika Adigeja 64,92 53 68
Republika Altaj 68,60 24 60
Republika Burjatija 60,75 59 70
Republika Dagestan 79,92 41 9
Republika Ingušetija 75,05 41 23
Republika Kalmikija 68,52 39 37
Karačajevsko-Čerkeska Republika 66,68 44 42
Republika Karelija 61,70 73 73
Republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

itd. (nakon čišćenja emisija ostaju 83 od 88 slučajeva)

Statistika koja opisuje kvalitetu modela:

1. Višestruki R = 0,62; L-kvadrat = 0,38. Posljedično, nacionalni faktor i faktor urbanizacije zajedno objašnjavaju oko 38% varijacije u varijabli “izborna aktivnost”.

2. Prosječna greška je 3,38. Upravo je tako “prosječno pogrešan” konstruirani model pri predviđanju razine izlaznosti.

3. /l-omjer objašnjene i neobjašnjene varijacije je 25,2 na razini 0,000000003. Nulta hipoteza o slučajnosti identificiranih odnosa je odbačena.

4. Kriterij / za konstantne i regresijske koeficijente varijabli “urbano stanovništvo” i “rusko stanovništvo” je značajan na razini 0,0000001; 0,00005 odnosno 0,007. Nulta hipoteza da su koeficijenti slučajni je odbačena.

Dodatne korisne statistike u analizi odnosa između izvorne i predviđene vrijednosti zavisne varijable su Mahalanobisova udaljenost i Cookova udaljenost. Prva je mjera jedinstvenosti slučaja (pokazuje koliko kombinacija vrijednosti svih nezavisnih varijabli za određeni slučaj odstupa od prosječne vrijednosti za sve nezavisne varijable istovremeno). Drugo je mjera utjecaja slučaja. Različita opažanja imaju različite učinke na nagib regresijske linije, a Cookova udaljenost može se koristiti za njihovu usporedbu na ovom pokazatelju. Ovo može biti korisno pri čišćenju odstupanja (odstupanja se mogu smatrati pretjerano utjecajnim slučajem).

U našem primjeru, jedinstveni i utjecajni slučajevi uključuju Dagestan.

Događa se Izvornik

vrijednosti

Predska

vrijednosti

Ostaci hrane Udaljenost

Mahalanobis

Udaljenost
Adigeja 64,92 66,33 -1,40 0,69 0,00
Republika Altaj 68,60 69.91 -1,31 6,80 0,01
Republika Burjatija 60,75 65,56 -4,81 0,23 0,01
Republika Dagestan 79,92 71,01 8,91 10,57 0,44
Republika Ingušetija 75,05 70,21 4,84 6,73 0,08
Republika Kalmikija 68,52 69,59 -1,07 4,20 0,00

Sam regresijski model ima sljedeće parametre: Y-presjek (konstanta) = 75,99; b (vodoravno) = -0,1; Kommersant (ruski nas.) = -0,06. Konačna formula.

Regresijska analiza jedna je od najpopularnijih metoda statističkog istraživanja. Može se koristiti za utvrđivanje stupnja utjecaja nezavisnih varijabli na zavisnu varijablu. Microsoft Excel ima alate dizajnirane za izvođenje ove vrste analize. Pogledajmo što su i kako ih koristiti.

No, kako biste koristili funkciju koja vam omogućuje izvođenje regresijske analize, prvo morate aktivirati Analysis Package. Tek tada će se alati potrebni za ovaj postupak pojaviti na vrpci programa Excel.


Sad kad idemo na tab "Podaci", na vrpci u kutiji s alatima "Analiza" vidjet ćemo novi gumb - "Analiza podataka".

Vrste regresijske analize

Postoji nekoliko vrsta regresija:

  • parabolični;
  • trijezan;
  • logaritamski;
  • eksponencijalni;
  • demonstrativan;
  • hiperbolički;
  • Linearna regresija.

Kasnije ćemo detaljnije govoriti o izvođenju posljednje vrste regresijske analize u Excelu.

Linearna regresija u Excelu

U nastavku, kao primjer, nalazi se tablica koja prikazuje prosječnu dnevnu vanjsku temperaturu zraka i broj kupaca trgovine za odgovarajući radni dan. Otkrijmo regresijskom analizom kako točno vremenski uvjeti u obliku temperature zraka mogu utjecati na posjećenost maloprodajnog objekta.

Opća jednadžba linearne regresije je sljedeća: Y = a0 + a1x1 +…+ akhk. U ovoj formuli Y znači varijabla, utjecaj čimbenika na koje pokušavamo proučavati. U našem slučaju to je broj kupaca. Značenje x su različiti čimbenici koji utječu na varijablu. Mogućnosti a su koeficijenti regresije. Odnosno, oni su ti koji određuju značaj pojedinog faktora. Indeks k označava ukupan broj istih faktora.


Analiza rezultata analize

Rezultati regresijske analize prikazuju se u obliku tablice na mjestu navedenom u postavkama.

Jedan od glavnih pokazatelja je R-kvadrat. Označava kvalitetu modela. U našem slučaju taj koeficijent iznosi 0,705 ili oko 70,5%. Ovo je prihvatljiva razina kvalitete. Ovisnost manja od 0,5 je loša.

Još jedan važan pokazatelj nalazi se u ćeliji na sjecištu linije "Y-raskrižje" i stupac "Izgledi". To pokazuje koju će vrijednost Y imati, au našem slučaju to je broj kupaca, sa svim ostalim faktorima jednakima nuli. U ovoj tablici ova vrijednost je 58,04.

Vrijednost na sjecištu grafikona "Varijabla X1" I "Izgledi" pokazuje razinu ovisnosti Y o X. U našem slučaju to je razina ovisnosti broja kupaca trgovine o temperaturi. Koeficijent od 1,31 smatra se prilično visokim pokazateljem utjecaja.

Kao što vidite, korištenjem programa Microsoft Excel vrlo je jednostavno izraditi tablicu regresijske analize. Ali samo obučena osoba može raditi s izlaznim podacima i razumjeti njihovu bit.

KATEGORIJE

POPULARNI ČLANCI

2023 “kingad.ru” - ultrazvučni pregled ljudskih organa