Regresivna ovisnost. Regresijska analiza

U statističkom modeliranju, regresijska analiza je studija koja se koristi za procjenu odnosa između varijabli. Ova matematička metoda uključuje mnoge druge metode za modeliranje i analizu višestrukih varijabli gdje je fokus na odnosu između zavisne varijable i jedne ili više nezavisnih. Točnije, regresijska analiza pomaže nam razumjeti kako se tipična vrijednost zavisne varijable mijenja ako se jedna od nezavisnih varijabli promijeni dok druge nezavisne varijable ostanu fiksne.

U svim slučajevima, ciljna procjena je funkcija nezavisnih varijabli i naziva se regresijska funkcija. U regresijskoj analizi također je od interesa karakterizirati promjenu ovisne varijable kao funkciju regresije, koja se može opisati pomoću distribucije vjerojatnosti.

Problemi regresijske analize

Ova statistička istraživačka metoda ima široku primjenu za prognoziranje, gdje njezina primjena ima značajnu prednost, ali ponekad može dovesti do iluzije ili lažnih odnosa, pa se preporuča pažljivo je koristiti u navedenoj stvari, jer npr. korelacija ne znači uzročnost.

Razvijen je velik broj metoda za regresijsku analizu, poput linearne i obične regresije najmanjih kvadrata, koje su parametarske. Njihova bit je da je regresijska funkcija definirana u terminima konačnog broja nepoznatih parametara koji se procjenjuju iz podataka. Neparametrijska regresija dopušta da njena funkcija leži unutar specifičnog skupa funkcija, koji može biti beskonačno dimenzionalan.

Kao statistička istraživačka metoda, regresijska analiza u praksi ovisi o obliku procesa generiranja podataka i načinu na koji se odnosi na regresijski pristup. Budući da je pravi oblik podataka koji proces generira obično nepoznat broj, regresijska analiza podataka često u određenoj mjeri ovisi o pretpostavkama o procesu. Te se pretpostavke ponekad mogu provjeriti ako je dostupno dovoljno podataka. Regresijski modeli često su korisni čak i kada su pretpostavke umjereno narušene, iako možda neće imati maksimalnu učinkovitost.

U užem smislu, regresija se može posebno odnositi na procjenu kontinuiranih varijabli odgovora, za razliku od diskretnih varijabli odgovora koje se koriste u klasifikaciji. Slučaj kontinuirane izlazne varijable naziva se i metrička regresija kako bi se razlikovao od srodnih problema.

Priča

Najraniji oblik regresije je dobro poznata metoda najmanjih kvadrata. Objavili su ga Legendre 1805. i Gauss 1809. Legendre i Gauss primijenili su metodu na problem određivanja orbita tijela oko Sunca (uglavnom kometa, ali kasnije i novootkrivenih malih planeta) iz astronomskih promatranja. Gauss je 1821. objavio daljnji razvoj teorije najmanjih kvadrata, uključujući verziju Gauss-Markovljevog teorema.

Izraz "regresija" skovao je Francis Galton u 19. stoljeću kako bi opisao biološki fenomen. Ideja je bila da visina potomaka u odnosu na visinu njihovih predaka ima tendenciju regresije prema dolje prema normalnoj sredini. Za Galtona je regresija imala samo ovo biološko značenje, no kasnije su njegov rad nastavili Udney Yoley i Karl Pearson i doveli ga u opći statistički kontekst. U radu Yulea i Pearsona, zajednička distribucija odgovora i eksplanatornih varijabli pretpostavlja se da je Gaussova. Tu je pretpostavku odbacio Fischer u radovima iz 1922. i 1925. godine. Fisher je predložio da je uvjetna distribucija varijable odgovora Gaussova, ali zajednička distribucija ne mora biti. U tom je pogledu Fischerov prijedlog bliži Gaussovoj formulaciji iz 1821. Prije 1970. ponekad je trebalo i do 24 sata da se dobije rezultat regresijske analize.

Metode regresijske analize i dalje su područje aktivnog istraživanja. Posljednjih desetljeća razvijene su nove metode za robusnu regresiju; regresije koje uključuju korelirane odgovore; regresijske metode koje se prilagođavaju različitim vrstama podataka koji nedostaju; neparametarska regresija; metode Bayesove regresije; regresije u kojima se prediktorske varijable mjere s greškom; regresija s više prediktora nego opažanja i uzročno-posljedično zaključivanje s regresijom.

Regresijski modeli

Modeli regresijske analize uključuju sljedeće varijable:

  • Nepoznati parametri, označeni kao beta, koji mogu biti skalari ili vektori.
  • Nezavisne varijable, X.
  • Zavisne varijable, Y.

Različita područja znanosti u kojima se koristi regresijska analiza koriste različite termine umjesto zavisnih i nezavisnih varijabli, ali u svim slučajevima regresijski model povezuje Y s funkcijom X i β.

Aproksimacija se obično piše kao E(Y | X) = F(X, β). Za provođenje regresijske analize potrebno je odrediti vrstu funkcije f. Rjeđe se temelji na znanju o odnosu između Y i X, koje se ne oslanja na podatke. Ako takvo znanje nije dostupno, odabire se fleksibilan ili prikladan oblik F.

Zavisna varijabla Y

Pretpostavimo sada da vektor nepoznatih parametara β ima duljinu k. Za izvođenje regresijske analize korisnik mora dati informacije o ovisnoj varijabli Y:

  • Ako se promatra N podatkovnih točaka oblika (Y, X), gdje je N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ako se promatra točno N = K i funkcija F je linearna, tada se jednadžba Y = F(X, β) može riješiti točno, a ne približno. To se svodi na rješavanje skupa N-jednadžbi s N-nepoznatih (elementi β) koji imaju jedinstveno rješenje sve dok je X linearno neovisan. Ako je F nelinearan, možda ne postoji rješenje ili može postojati mnogo rješenja.
  • Najčešća situacija je kada se promatra N > podatkovnih točaka. U ovom slučaju postoji dovoljno informacija u podacima za procjenu jedinstvene vrijednosti za β koja najbolje odgovara podacima i regresijski model gdje se primjena podataka može promatrati kao preodređeni sustav u β.

U potonjem slučaju, regresijska analiza pruža alate za:

  • Pronalaženje rješenja za nepoznate parametre β, koje će, na primjer, minimizirati udaljenost između izmjerene i predviđene vrijednosti Y.
  • Pod određenim statističkim pretpostavkama, regresijska analiza koristi višak informacija za pružanje statističkih informacija o nepoznatim parametrima β i predviđenim vrijednostima zavisne varijable Y.

Potreban broj neovisnih mjerenja

Razmotrimo regresijski model koji ima tri nepoznata parametra: β 0 , β 1 i β 2 . Pretpostavimo da eksperimentator izvrši 10 mjerenja na istoj vrijednosti vektora nezavisne varijable X. U ovom slučaju regresijska analiza ne daje jedinstven skup vrijednosti. Najbolje što možete učiniti je procijeniti srednju vrijednost i standardnu ​​devijaciju zavisne varijable Y. Slično, mjerenjem dvije različite vrijednosti X, možete dobiti dovoljno podataka za regresiju s dvije nepoznanice, ali ne i s tri ili više nepoznanica.

Ako su eksperimentatorova mjerenja obavljena na tri različite vrijednosti vektora neovisne varijable X, tada će regresijska analiza dati jedinstven skup procjena za tri nepoznata parametra u β.

U slučaju opće linearne regresije, gornja izjava je ekvivalentna zahtjevu da je matrica X T X invertibilna.

Statističke pretpostavke

Kada je broj mjerenja N veći od broja nepoznatih parametara k i pogreške mjerenja ε i , tada se, u pravilu, višak informacija sadržanih u mjerenjima diseminira i koristi za statistička predviđanja u vezi s nepoznatim parametrima. Ovaj višak informacija naziva se regresijski stupanj slobode.

Temeljne pretpostavke

Klasične pretpostavke za regresijsku analizu uključuju:

  • Uzorkovanje je reprezentativno za predviđanje zaključivanja.
  • Izraz pogreške je slučajna varijabla sa sredinom nula, koja je uvjetovana eksplanatornim varijablama.
  • Neovisne varijable mjere se bez grešaka.
  • Kao nezavisne varijable (prediktori) one su linearno neovisne, odnosno nijedan prediktor nije moguće izraziti kao linearnu kombinaciju ostalih.
  • Pogreške su nekorelirane, to jest matrica kovarijance pogreške dijagonala i svaki element koji nije nula je varijanca pogreške.
  • Varijanca pogreške je konstantna kroz promatranja (homoskedastičnost). Ako nije, tada se mogu koristiti ponderirani najmanji kvadrati ili druge metode.

Ovi dovoljni uvjeti za procjenu najmanjih kvadrata imaju potrebna svojstva; posebno, ove pretpostavke znače da će procjene parametara biti objektivne, dosljedne i učinkovite, posebno kada se uzmu u obzir u klasi linearnih procjenitelja. Važno je napomenuti da dokazi rijetko zadovoljavaju uvjete. Odnosno, metoda se koristi čak i ako pretpostavke nisu točne. Odstupanja od pretpostavki ponekad se mogu koristiti kao mjera koliko je model koristan. Mnoge od ovih pretpostavki mogu se ublažiti naprednijim metodama. Izvješća o statističkoj analizi obično uključuju analizu testova uzorka podataka i metodologije za korisnost modela.

Osim toga, varijable se u nekim slučajevima odnose na vrijednosti izmjerene na točkama. Mogu postojati prostorni trendovi i prostorne autokorelacije u varijablama koje krše statističke pretpostavke. Geografska ponderirana regresija jedina je metoda koja se bavi takvim podacima.

Značajka linearne regresije je da je zavisna varijabla, koja je Yi, linearna kombinacija parametara. Na primjer, jednostavna linearna regresija koristi jednu nezavisnu varijablu, x i , i dva parametra, β 0 i β 1 , za modeliranje n-točaka.

U višestrukoj linearnoj regresiji postoji više neovisnih varijabli ili njihovih funkcija.

Kada se iz populacije uzme slučajni uzorak, njegovi parametri omogućuju dobivanje modela linearne regresije uzorka.

S ovog aspekta najpopularnija je metoda najmanjih kvadrata. Koristi se za dobivanje procjena parametara koje minimiziraju zbroj kvadrata reziduala. Ova vrsta minimizacije (što je tipično za linearnu regresiju) ove funkcije dovodi do skupa normalnih jednadžbi i skupa linearnih jednadžbi s parametrima, koji se rješavaju da bi se dobile procjene parametara.

Pod daljnjom pretpostavkom da se pogreška populacije općenito širi, istraživač može koristiti ove standardne procjene pogreške za stvaranje intervala pouzdanosti i provođenje testova hipoteza o njezinim parametrima.

Nelinearna regresijska analiza

Primjer u kojem funkcija nije linearna s obzirom na parametre ukazuje na to da bi zbroj kvadrata trebao biti minimiziran korištenjem iterativnog postupka. Ovo uvodi mnoge komplikacije koje definiraju razlike između linearnih i nelinearnih metoda najmanjih kvadrata. Posljedično, rezultati regresijske analize pri korištenju nelinearne metode ponekad su nepredvidivi.

Izračun snage i veličine uzorka

Općenito ne postoje konzistentne metode u odnosu na broj opažanja u odnosu na broj nezavisnih varijabli u modelu. Prvo pravilo predložili su Dobra i Hardin i izgleda kao N = t^n, gdje je N veličina uzorka, n broj neovisnih varijabli, a t broj promatranja potrebnih za postizanje željene točnosti ako je model imao samo jedna nezavisna varijabla. Na primjer, istraživač gradi linearni regresijski model koristeći skup podataka koji sadrži 1000 pacijenata (N). Ako istraživač odluči da je potrebno pet promatranja za točno definiranje linije (m), tada je najveći broj neovisnih varijabli koje model može podržati 4.

Ostale metode

Iako se parametri regresijskog modela obično procjenjuju metodom najmanjih kvadrata, postoje druge metode koje se koriste puno rjeđe. Na primjer, ovo su sljedeće metode:

  • Bayesove metode (na primjer Bayesova linearna regresija).
  • Postotna regresija, koristi se za situacije u kojima se smanjenje postotnih pogrešaka smatra prikladnijim.
  • Najmanja apsolutna odstupanja, koja su robusnija u prisutnosti odstupanja što dovodi do kvantilne regresije.
  • Neparametarska regresija, koja zahtijeva veliki broj promatranja i izračuna.
  • Mjerni podatak učenja na daljinu koji se uči kako bi se pronašao smisleni pokazatelj udaljenosti u zadanom ulaznom prostoru.

Softver

Svi glavni statistički softverski paketi izvode regresijsku analizu najmanjih kvadrata. Jednostavna linearna regresija i višestruka regresijska analiza mogu se koristiti u nekim aplikacijama za proračunske tablice, kao iu nekim kalkulatorima. Iako mnogi paketi statističkog softvera mogu izvoditi različite vrste neparametarske i robusne regresije, te su metode manje standardizirane; različiti softverski paketi implementiraju različite metode. Specijalizirani regresijski softver razvijen je za korištenje u područjima kao što su analiza pregleda i neuroimaging.

Tijekom studija studenti se vrlo često susreću s raznim jednadžbama. O jednoj od njih - regresijskoj jednadžbi - raspravlja se u ovom članku. Ova vrsta jednadžbe posebno se koristi za opisivanje karakteristika odnosa između matematičkih parametara. Ova vrsta jednakosti koristi se u statistici i ekonometriji.

Definicija regresije

U matematici regresija označava određenu veličinu koja opisuje ovisnost prosječne vrijednosti skupa podataka o vrijednostima druge veličine. Regresijska jednadžba pokazuje, kao funkciju određene karakteristike, prosječnu vrijednost druge karakteristike. Regresijska funkcija ima oblik jednostavne jednadžbe y = x, u kojoj y djeluje kao zavisna varijabla, a x kao nezavisna varijabla (faktor obilježja). Zapravo, regresija se izražava kao y = f (x).

Koje su vrste odnosa između varijabli?

Općenito, postoje dvije suprotne vrste odnosa: korelacija i regresija.

Prvi karakterizira jednakost uvjetnih varijabli. U ovom slučaju nije pouzdano poznato koja varijabla ovisi o drugoj.

Ako ne postoji jednakost između varijabli i uvjeti govore koja je varijabla objašnjavajuća, a koja zavisna, tada možemo govoriti o prisutnosti veze drugog tipa. Kako bi se konstruirala jednadžba linearne regresije, bit će potrebno saznati koja se vrsta odnosa promatra.

Vrste regresija

Danas postoji 7 različitih vrsta regresije: hiperbolička, linearna, višestruka, nelinearna, parna, inverzna, logaritamski linearna.

Hiperbolički, linearni i logaritamski

Jednadžba linearne regresije koristi se u statistici za jasno objašnjenje parametara jednadžbe. Izgleda kao y = c+t*x+E. Hiperbolička jednadžba ima oblik pravilne hiperbole y = c + m / x + E. Logaritamski linearna jednadžba izražava odnos pomoću logaritamske funkcije: In y = In c + m * In x + In E.

Višestruko i nelinearno

Dva složenija tipa regresije su višestruka i nelinearna. Jednadžba višestruke regresije izražena je funkcijom y = f(x 1, x 2 ... x c) + E. U ovoj situaciji, y djeluje kao zavisna varijabla, a x djeluje kao objašnjavajuća varijabla. E varijabla je stohastička; ona uključuje utjecaj drugih faktora u jednadžbi. Jednadžba nelinearne regresije pomalo je kontroverzna. S jedne strane, u odnosu na pokazatelje koji se uzimaju u obzir, on nije linearan, ali s druge strane, u ulozi ocjenjivanja pokazatelja, on je linearan.

Inverzne i uparene vrste regresija

Inverz je vrsta funkcije koju je potrebno pretvoriti u linearni oblik. U najtradicionalnijim aplikacijskim programima ima oblik funkcije y = 1/c + m*x+E. Jednadžba parne regresije prikazuje odnos između podataka kao funkcije y = f (x) + E. Baš kao u drugim jednadžbama, y ​​ovisi o x, a E je stohastički parametar.

Pojam korelacije

Ovo je pokazatelj koji pokazuje postojanje veze između dva fenomena ili procesa. Snaga veze izražava se koeficijentom korelacije. Njegova vrijednost fluktuira unutar intervala [-1;+1]. Negativan indikator ukazuje na prisutnost povratne informacije, pozitivan indikator ukazuje na izravnu povratnu vezu. Ako koeficijent ima vrijednost jednaku 0, tada nema veze. Što je vrijednost bliža 1, to je odnos između parametara jači; što je bliži 0, to je slabiji.

Metode

Parametarskim metodama korelacije može se procijeniti snaga odnosa. Koriste se na temelju procjene distribucije za proučavanje parametara koji se pokoravaju zakonu normalne distribucije.

Parametri linearne regresijske jednadžbe potrebni su za prepoznavanje vrste ovisnosti, funkcije regresijske jednadžbe i procjenu pokazatelja odabrane formule odnosa. Korelacijsko polje se koristi kao metoda identifikacije veze. Da biste to učinili, svi postojeći podaci moraju biti grafički prikazani. Svi poznati podaci moraju biti ucrtani u pravokutni dvodimenzionalni koordinatni sustav. Tako nastaje korelacijsko polje. Na apscisnoj osi označene su vrijednosti opisnog faktora, a na ordinatnoj osi vrijednosti zavisnog faktora. Ako postoji funkcionalni odnos između parametara, oni se nižu u obliku linije.

Ako je koeficijent korelacije takvih podataka manji od 30%, možemo govoriti o gotovo potpunoj odsutnosti povezanosti. Ako je između 30% i 70%, to ukazuje na prisutnost srednje bliskih veza. Indikator od 100% je dokaz funkcionalne veze.

Jednadžba nelinearne regresije, kao i linearna, mora biti dopunjena korelacijskim indeksom (R).

Korelacija za višestruku regresiju

Koeficijent determinacije je pokazatelj kvadrata višestruke korelacije. On govori o bliskoj povezanosti predstavljenog skupa pokazatelja sa svojstvom koje se proučava. Također se može govoriti o prirodi utjecaja parametara na rezultat. Pomoću ovog pokazatelja procjenjuje se jednadžba višestruke regresije.

Da bi se izračunao pokazatelj višestruke korelacije, potrebno je izračunati njegov indeks.

Metoda najmanjeg kvadrata

Ova metoda je način procjene faktora regresije. Njegova je bit minimizirati zbroj kvadratnih odstupanja dobivenih kao rezultat ovisnosti faktora o funkciji.

Jednadžba linearne regresije u paru može se procijeniti pomoću takve metode. Ova vrsta jednadžbi koristi se kada se otkrije upareni linearni odnos između pokazatelja.

Parametri jednadžbe

Svaki parametar funkcije linearne regresije ima specifično značenje. Uparena linearna regresijska jednadžba sadrži dva parametra: c i m. Parametar m pokazuje prosječnu promjenu konačnog pokazatelja funkcije y, pod uvjetom da se varijabla x smanji (poveća) za jednu konvencionalnu jedinicu. Ako je varijabla x nula, tada je funkcija jednaka parametru c. Ako varijabla x nije nula, onda faktor c nema ekonomsko značenje. Jedini utjecaj na funkciju ima predznak ispred faktora c. Ako postoji minus, onda možemo reći da je promjena rezultata spora u odnosu na faktor. Ako postoji plus, to znači ubrzanu promjenu rezultata.

Svaki parametar koji mijenja vrijednost regresijske jednadžbe može se izraziti jednadžbom. Na primjer, faktor c ima oblik c = y - mx.

Grupirani podaci

Postoje uvjeti zadatka u kojima su sve informacije grupirane prema atributu x, ali za određenu skupinu naznačene su odgovarajuće prosječne vrijednosti ovisnog pokazatelja. U ovom slučaju, prosječne vrijednosti karakteriziraju kako se indikator mijenja ovisno o x. Dakle, grupirane informacije pomažu pronaći regresijsku jednadžbu. Koristi se kao analiza odnosa. Međutim, ova metoda ima svoje nedostatke. Nažalost, prosječni pokazatelji često su podložni vanjskim fluktuacijama. Te fluktuacije ne odražavaju obrazac odnosa; one samo prikrivaju njegovu "buku". Prosjeci pokazuju obrasce odnosa mnogo gore od jednadžbe linearne regresije. Međutim, oni se mogu koristiti kao osnova za pronalaženje jednadžbe. Množenjem broja pojedine populacije s odgovarajućim prosjekom, može se dobiti zbroj y unutar grupe. Zatim morate zbrojiti sve primljene iznose i pronaći konačni pokazatelj y. Malo je teže raditi izračune s indikatorom zbroja xy. Ako su intervali mali, možemo uvjetno uzeti da je indikator x za sve jedinice (unutar grupe) isti. Trebali biste to pomnožiti sa zbrojem y da biste saznali zbroj umnožaka x i y. Zatim se svi iznosi zbrajaju i dobiva se ukupni iznos xy.

Jednadžba višestruke parne regresije: procjena važnosti odnosa

Kao što je ranije objašnjeno, višestruka regresija ima funkciju oblika y = f (x 1,x 2,…,x m)+E. Najčešće se ovakva jednadžba koristi za rješavanje problema ponude i potražnje za proizvodom, prihoda od kamata na otkupljene dionice te za proučavanje uzroka i vrste funkcije troškova proizvodnje. Također se aktivno koristi u raznim makroekonomskim studijama i izračunima, ali na mikroekonomskoj razini ova se jednadžba koristi nešto rjeđe.

Glavni zadatak višestruke regresije je izgraditi model podataka koji sadrži ogromnu količinu informacija kako bi se dalje utvrdilo kakav utjecaj svaki od faktora pojedinačno iu svojoj ukupnosti ima na pokazatelj koji treba modelirati i njegove koeficijente. Regresijska jednadžba može poprimiti različite vrijednosti. U ovom slučaju, za procjenu odnosa, obično se koriste dvije vrste funkcija: linearne i nelinearne.

Linearna funkcija je prikazana u obliku sljedećeg odnosa: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. U ovom slučaju a2, a m smatraju se "čistim" koeficijentima regresije. Oni su potrebni za karakterizaciju prosječne promjene parametra y s promjenom (smanjenjem ili povećanjem) svakog odgovarajućeg parametra x za jednu jedinicu, uz uvjet stabilnih vrijednosti ostalih pokazatelja.

Nelinearne jednadžbe imaju, na primjer, oblik potencije y=ax 1 b1 x 2 b2 ...x m bm. U ovom slučaju, pokazatelji b 1, b 2 ..... b m nazivaju se koeficijenti elastičnosti, oni pokazuju kako će se rezultat promijeniti (za koliko%) s povećanjem (smanjenjem) odgovarajućeg pokazatelja x za 1% i uz stabilan pokazatelj ostalih faktora.

Koje čimbenike treba uzeti u obzir pri izradi višestruke regresije

Kako bi se pravilno izgradila višestruka regresija, potrebno je saznati na koje faktore treba obratiti posebnu pozornost.

Potrebno je imati određeno razumijevanje prirode odnosa između ekonomskih čimbenika i onoga što se modelira. Čimbenici koje treba uključiti moraju ispunjavati sljedeće kriterije:

  • Mora biti predmet kvantitativnog mjerenja. Da bi se koristio faktor koji opisuje kvalitetu predmeta, u svakom slučaju treba mu dati kvantitativni oblik.
  • Ne smije postojati međukorelacija čimbenika, niti funkcionalni odnos. Takve radnje najčešće dovode do nepovratnih posljedica - sustav običnih jednadžbi postaje bezuvjetan, a to povlači njegovu nepouzdanost i nejasne procjene.
  • U slučaju velikog korelacijskog pokazatelja, ne postoji način da se otkrije izolirani utjecaj čimbenika na konačni rezultat pokazatelja, stoga koeficijenti postaju netumačivi.

Metode gradnje

Postoji ogroman broj metoda i metoda koje objašnjavaju kako možete odabrati faktore za jednadžbu. Međutim, sve te metode temelje se na odabiru koeficijenata pomoću korelacijskog pokazatelja. Među njima su:

  • Metoda eliminacije.
  • Način prebacivanja.
  • Postupna regresijska analiza.

Prva metoda uključuje filtriranje svih koeficijenata iz ukupnog skupa. Druga metoda uključuje uvođenje mnogih dodatnih faktora. Pa, treći je eliminacija faktora koji su prethodno korišteni za jednadžbu. Svaka od ovih metoda ima pravo postojati. Imaju svoje prednosti i nedostatke, ali svi mogu riješiti problem uklanjanja nepotrebnih pokazatelja na svoj način. U pravilu su rezultati dobiveni svakom pojedinačnom metodom prilično bliski.

Metode multivarijatne analize

Takve metode određivanja faktora temelje se na razmatranju pojedinačnih kombinacija međusobno povezanih karakteristika. To uključuje diskriminantnu analizu, prepoznavanje oblika, analizu glavnih komponenti i analizu klastera. Osim toga, postoji i faktorska analiza, no ona se pojavila zbog razvoja metode komponenata. Sve se one primjenjuju u određenim okolnostima, pod određenim uvjetima i čimbenicima.

Svrha regresijske analize je izmjeriti odnos između zavisne varijable i jedne (regresijska analiza u paru) ili više (više) nezavisnih varijabli. Nezavisne varijable se također nazivaju faktorske, eksplanatorne, determinantne, regresorske i prediktorske varijable.

Zavisna varijabla se ponekad naziva utvrđena, objašnjena ili varijabla "odgovora". Iznimno raširena uporaba regresijske analize u empirijskim istraživanjima nije samo zbog činjenice da je ona pogodan alat za testiranje hipoteza. Regresija, posebno višestruka regresija, učinkovita je metoda za modeliranje i predviđanje.

Počnimo objašnjavati principe rada s regresijskom analizom jednostavnijim – metodom parova.

Uparena regresijska analiza

Prvi koraci pri korištenju regresijske analize bit će gotovo identični onima koje smo poduzeli pri izračunu koeficijenta korelacije. Tri glavna uvjeta za učinkovitost korelacijske analize korištenjem Pearsonove metode - normalna distribucija varijabli, intervalno mjerenje varijabli, linearni odnos između varijabli - također su relevantni za višestruku regresiju. U skladu s tim, u prvoj fazi se konstruiraju dijagrami raspršenja, provodi se statistička i deskriptivna analiza varijabli te se izračunava regresijska linija. Kao iu okviru korelacijske analize, regresijske linije konstruirane su metodom najmanjih kvadrata.

Kako bismo jasnije ilustrirali razlike između dviju metoda analize podataka, okrenimo se primjeru o kojem smo već raspravljali s varijablama „SPS potpora“ i „udio ruralnog stanovništva“. Izvorni podaci su identični. Razlika u dijagramima raspršenja bit će u tome što je u regresijskoj analizi ispravno nacrtati zavisnu varijablu - u našem slučaju, "SPS podršku" na Y-osi, dok u korelacijskoj analizi to nije važno. Nakon čišćenja outliera, dijagram raspršenosti izgleda ovako:

Temeljna ideja regresijske analize je da je, imajući opći trend za varijable - u obliku regresijske linije - moguće predvidjeti vrijednost zavisne varijable, s obzirom na vrijednosti nezavisne.

Zamislimo običnu matematičku linearnu funkciju. Svaka pravac u euklidskom prostoru može se opisati formulom:

gdje je a konstanta koja određuje pomak duž ordinatne osi; b je koeficijent koji određuje kut nagiba pravca.

Znajući nagib i konstantu, možete izračunati (predvidjeti) vrijednost y za bilo koji x.

Ova najjednostavnija funkcija čini osnovu modela regresijske analize s upozorenjem da nećemo točno predvidjeti vrijednost y, već unutar određenog intervala pouzdanosti, tj. približno.

Konstanta je točka presjeka regresijske linije i y-osi (F-presjek, obično označen kao "presretač" u statističkim paketima). U našem primjeru s glasovanjem za SDS njegova zaokružena vrijednost bit će 10,55. Kutni koeficijent b bit će približno -0,1 (kao u korelacijskoj analizi, znak pokazuje vrstu veze - izravnu ili inverznu). Tako će dobiveni model imati oblik SP C = -0,1 x Sel. nas. + 10.55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Razlika između izvorne i predviđene vrijednosti naziva se ostatak (već smo se susreli s ovim pojmom, koji je temeljan za statistiku, pri analizi tablica nepredviđenih okolnosti). Dakle, za slučaj "Republike Adygea" ostatak će biti jednak 3,92 - 5,63 = -1,71. Što je veća modularna vrijednost ostatka, manje je uspješna predviđena vrijednost.

Izračunavamo predviđene vrijednosti i reziduale za sve slučajeve:
Događa se Sjeo. nas. hvala

(izvornik)

hvala

(predviđeno)

Ostaci hrane
Republika Adigeja 47 3,92 5,63 -1,71 -
Republika Altaj 76 5,4 2,59 2,81
Republika Baškortostan 36 6,04 6,78 -0,74
Republika Burjatija 41 8,36 6,25 2,11
Republika Dagestan 59 1,22 4,37 -3,15
Republika Ingušetija 59 0,38 4,37 3,99
itd.

Analiza omjera početnih i predviđenih vrijednosti služi za ocjenu kvalitete rezultirajućeg modela i njegove prediktivne sposobnosti. Jedan od glavnih pokazatelja regresijske statistike je koeficijent višestruke korelacije R - koeficijent korelacije između izvorne i predviđene vrijednosti zavisne varijable. U parnoj regresijskoj analizi jednak je uobičajenom Pearsonovom koeficijentu korelacije između zavisne i nezavisne varijable, u našem slučaju - 0,63. Da bi se smisleno interpretirao višestruki R, mora se pretvoriti u koeficijent determinacije. To se radi na isti način kao i kod korelacijske analize – kvadriranjem. Koeficijent determinacije R-kvadrat (R 2) pokazuje udio varijacije zavisne varijable koji se objašnjava nezavisnom varijablom(ama).

U našem slučaju R 2 = 0,39 (0,63 2); to znači da varijabla "udio ruralnog stanovništva" objašnjava približno 40% varijable u varijabli "SPS potpora". Što je veći koeficijent determinacije, veća je kvaliteta modela.

Drugi pokazatelj kvalitete modela je standardna pogreška procjene. Ovo je mjera koliko su točke "raspršene" oko regresijske linije. Mjera širenja za intervalne varijable je standardna devijacija. Prema tome, standardna pogreška procjene je standardna devijacija distribucije reziduala. Što je njegova vrijednost veća, to je raspršenje veće i model lošiji. U našem slučaju standardna pogreška je 2,18. Za taj će iznos naš model "prosječno pogriješiti" kada predviđa vrijednost varijable "SPS podrška".

Regresijska statistika također uključuje analizu varijance. Uz njegovu pomoć saznajemo: 1) koliki je udio varijacije (disperzije) zavisne varijable objašnjen nezavisnom varijablom; 2) koji udio varijance zavisne varijable otpada na reziduale (neobjašnjeni dio); 3) koliki je omjer tih dviju veličina (/"-omjer). Statistika disperzije je posebno važna za studije uzoraka - ona pokazuje koliko je vjerojatno da postoji odnos između nezavisnih i zavisnih varijabli u populaciji. Međutim, za kontinuirane studije (kao u našem primjeru) rezultati studije analize varijance nisu korisni. U ovom slučaju, oni provjeravaju je li identificirani statistički obrazac uzrokovan kombinacijom slučajnih okolnosti, koliko je karakterističan za kompleks uvjeta u kojima locira se populacija koja se ispituje, tj. utvrđuje se da dobiveni rezultat nije istinit za neki širi opći agregat, već stupanj njegove pravilnosti, oslobođenosti od slučajnih utjecaja.

U našem slučaju, ANOVA statistika je sljedeća:

SS df MS F značenje
Regres. 258,77 1,00 258,77 54,29 0.000000001
Ostatak 395,59 83,00 L,11
Ukupno 654,36

F-omjer od 54,29 značajan je na razini od 0,0000000001. U skladu s tim, s pouzdanjem možemo odbaciti nultu hipotezu (da je odnos koji smo otkrili rezultat slučajnosti).

Kriterij t ima sličnu funkciju, ali u odnosu na koeficijente regresije (kutni i F-presjek). Pomoću / kriterija testiramo hipotezu da su u općoj populaciji regresijski koeficijenti jednaki nuli. U našem slučaju, opet sa sigurnošću možemo odbaciti nultu hipotezu.

Višestruka regresijska analiza

Model višestruke regresije gotovo je identičan modelu uparene regresije; jedina razlika je u tome što je nekoliko neovisnih varijabli uključeno uzastopno u linearnu funkciju:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ako postoji više od dvije nezavisne varijable, ne možemo dobiti vizualnu predodžbu o njihovom odnosu; u tom pogledu višestruka regresija je manje "vizualna" od regresije u paru. Kada imate dvije neovisne varijable, može biti korisno prikazati podatke u 3D dijagramu raspršenosti. U profesionalnim statističkim programskim paketima (na primjer, Statistica) postoji opcija rotiranja trodimenzionalnog grafikona, što vam omogućuje da dobro vizualno prikažete strukturu podataka.

Kod rada s višestrukom regresijom, za razliku od parne regresije, potrebno je odrediti algoritam analize. Standardni algoritam uključuje sve dostupne prediktore u konačnom regresijskom modelu. Algoritam korak po korak uključuje sekvencijalno uključivanje (isključivanje) nezavisnih varijabli na temelju njihove eksplanatorne "težine". Metoda koraka je dobra kada postoji mnogo nezavisnih varijabli; "čisti" model od iskreno slabih prediktora, čineći ga kompaktnijim i konciznijim.

Dodatni uvjet za ispravnost višestruke regresije (uz interval, normalnost i linearnost) je nepostojanje multikolinearnosti - prisutnost jakih korelacija između nezavisnih varijabli.

Tumačenje statistike višestruke regresije uključuje sve elemente koje smo razmotrili za slučaj parne regresije. Osim toga, postoje i druge važne komponente statistike višestruke regresijske analize.

Rad ćemo ilustrirati višestrukom regresijom na primjeru testiranja hipoteza koje objašnjavaju razlike u razini izborne aktivnosti u ruskim regijama. Specifične empirijske studije sugeriraju da na odaziv birača utječu:

Nacionalni faktor (varijabla “rusko stanovništvo”; operacionalizirano kao udio ruskog stanovništva u sastavnim entitetima Ruske Federacije). Pretpostavlja se da povećanje udjela ruskog stanovništva dovodi do smanjenja izlaznosti birača;

Čimbenik urbanizacije (varijabla “urbano stanovništvo”; operacionalizirano kao udio urbanog stanovništva u sastavnim entitetima Ruske Federacije; s ovim smo faktorom već radili u sklopu korelacijske analize). Pretpostavlja se da porast udjela urbanog stanovništva dovodi i do smanjenja izlaznosti birača.

Zavisna varijabla - “intenzitet izborne aktivnosti” (“aktivno”) operacionalizirana je kroz podatke o prosječnom odazivu po regijama na saveznim izborima od 1995. do 2003. Početna tablica podataka za dvije nezavisne i jednu zavisnu varijablu bit će sljedeća:

Događa se Varijable
Imovina. Gor. nas. rus. nas.
Republika Adigeja 64,92 53 68
Republika Altaj 68,60 24 60
Republika Burjatija 60,75 59 70
Republika Dagestan 79,92 41 9
Republika Ingušetija 75,05 41 23
Republika Kalmikija 68,52 39 37
Karačajevsko-Čerkeska Republika 66,68 44 42
Republika Karelija 61,70 73 73
Republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

itd. (nakon čišćenja emisija ostala su 83 slučaja od 88)

Statistika koja opisuje kvalitetu modela:

1. Višestruki R = 0,62; L-kvadrat = 0,38. Posljedično, nacionalni faktor i faktor urbanizacije zajedno objašnjavaju oko 38% varijacije u varijabli “izborna aktivnost”.

2. Prosječna greška je 3,38. Upravo je tako “prosječno pogrešan” konstruirani model pri predviđanju razine izlaznosti.

3. /l-omjer objašnjene i neobjašnjene varijacije je 25,2 na razini 0,000000003. Nulta hipoteza o slučajnosti identificiranih odnosa je odbačena.

4. Kriterij / za konstantne i regresijske koeficijente varijabli “urbano stanovništvo” i “rusko stanovništvo” je značajan na razini 0,0000001; 0,00005 odnosno 0,007. Nulta hipoteza da su koeficijenti slučajni je odbačena.

Dodatne korisne statistike u analizi odnosa između izvorne i predviđene vrijednosti zavisne varijable su Mahalanobisova udaljenost i Cookova udaljenost. Prva je mjera jedinstvenosti slučaja (pokazuje koliko kombinacija vrijednosti svih nezavisnih varijabli za određeni slučaj odstupa od prosječne vrijednosti za sve nezavisne varijable istovremeno). Drugo je mjera utjecaja slučaja. Različita opažanja imaju različite učinke na nagib regresijske linije, a Cookova udaljenost može se koristiti za njihovu usporedbu na ovom pokazatelju. Ovo može biti korisno pri čišćenju odstupanja (odstupanja se mogu smatrati pretjerano utjecajnim slučajem).

U našem primjeru, jedinstveni i utjecajni slučajevi uključuju Dagestan.

Događa se Izvornik

vrijednosti

Predska

vrijednosti

Ostaci hrane Udaljenost

Mahalanobis

Udaljenost
Adigeja 64,92 66,33 -1,40 0,69 0,00
Republika Altaj 68,60 69.91 -1,31 6,80 0,01
Republika Burjatija 60,75 65,56 -4,81 0,23 0,01
Republika Dagestan 79,92 71,01 8,91 10,57 0,44
Republika Ingušetija 75,05 70,21 4,84 6,73 0,08
Republika Kalmikija 68,52 69,59 -1,07 4,20 0,00

Sam regresijski model ima sljedeće parametre: Y-presjek (konstanta) = 75,99; b (vodoravno) = -0,1; Kommersant (ruski nas.) = -0,06. Konačna formula.

U prethodnim postovima, analiza se često fokusirala na jednu numeričku varijablu, kao što su prinosi uzajamnog fonda, vrijeme učitavanja web stranice ili konzumacija bezalkoholnih pića. U ovoj i sljedećim bilješkama, pogledat ćemo metode za predviđanje vrijednosti numeričke varijable ovisno o vrijednostima jedne ili više drugih numeričkih varijabli.

Materijal će biti ilustriran međusektorskim primjerom. Predviđanje obima prodaje u trgovini odjećom. Lanac diskontnih trgovina odjećom Sunflowers kontinuirano se širi već 25 godina. Međutim, tvrtka trenutno nema sustavan pristup odabiru novih prodajnih mjesta. Lokacija na kojoj tvrtka namjerava otvoriti novu trgovinu određuje se na temelju subjektivnih razmatranja. Kriteriji odabira su povoljni uvjeti najma ili ideja voditelja o idealnoj lokaciji trgovine. Zamislite da ste voditelj odjela za posebne projekte i planiranje. Dobili ste zadatak izraditi strateški plan otvaranja novih trgovina. Ovaj plan treba sadržavati predviđanje godišnje prodaje za novootvorene trgovine. Vjerujete da je maloprodajni prostor izravno povezan s prihodom i želite to uzeti u obzir u procesu donošenja odluka. Kako razviti statistički model za predviđanje godišnje prodaje na temelju veličine nove trgovine?

Obično se regresijska analiza koristi za predviđanje vrijednosti varijable. Njegov cilj je razviti statistički model koji može predvidjeti vrijednosti zavisne varijable ili odgovora iz vrijednosti najmanje jedne nezavisne ili eksplanatorne varijable. U ovoj bilješci ćemo pogledati jednostavnu linearnu regresiju - statističku metodu koja vam omogućuje predviđanje vrijednosti zavisne varijable Y vrijednostima neovisne varijable x. Sljedeće bilješke opisat će višestruki regresijski model dizajniran za predviđanje vrijednosti nezavisne varijable Y na temelju vrijednosti nekoliko zavisnih varijabli ( X 1, X 2, …, X k).

Preuzmite bilješku u ili formatu, primjere u formatu

Vrste regresijskih modela

Gdje ρ 1 – koeficijent autokorelacije; Ako ρ 1 = 0 (bez autokorelacije), D≈ 2; Ako ρ 1 ≈ 1 (pozitivna autokorelacija), D≈ 0; Ako ρ 1 = -1 (negativna autokorelacija), D ≈ 4.

U praksi se primjena Durbin-Watsonovog kriterija temelji na usporedbi vrijednosti D s kritičnim teorijskim vrijednostima dL I d U za određeni broj opažanja n, broj neovisnih varijabli modela k(za jednostavnu linearnu regresiju k= 1) i razinu značajnosti α. Ako D< d L , hipoteza o neovisnosti slučajnih odstupanja je odbačena (dakle, postoji pozitivna autokorelacija); Ako D>dU, hipoteza nije odbačena (to jest, nema autokorelacije); Ako dL< D < d U , nema dovoljno razloga za donošenje odluke. Kada se izračunata vrijednost D prelazi 2, zatim sa dL I d U Ne uspoređuje se sam koeficijent D, i izraz (4 – D).

Da bismo izračunali Durbin-Watson statistiku u Excelu, okrenimo se donjoj tablici na slici. 14 Povlačenje stanja. Brojnik u izrazu (10) izračunava se pomoću funkcije =SUMMAR(niz1;niz2), a nazivnik =SUMAR(niz) (slika 16).

Riža. 16. Formule za izračunavanje Durbin-Watsonove statistike

U našem primjeru D= 0,883. Glavno pitanje je: koju vrijednost Durbin-Watsonove statistike treba smatrati dovoljno malom da se zaključi da postoji pozitivna autokorelacija? Potrebno je korelirati vrijednost D s kritičnim vrijednostima ( dL I d U), ovisno o broju promatranja n i razinu značajnosti α (slika 17).

Riža. 17. Kritične vrijednosti Durbin-Watsonove statistike (fragment tablice)

Dakle, u problemu obima prodaje u trgovini koja dostavlja robu na kućnu adresu postoji jedna nezavisna varijabla ( k= 1), 15 promatranja ( n= 15) i razinu značajnosti α = 0,05. Stoga, dL= 1,08 i dU= 1,36. Jer D = 0,883 < dL= 1,08, postoji pozitivna autokorelacija između reziduala, metoda najmanjih kvadrata se ne može koristiti.

Testiranje hipoteza o nagibu i koeficijentu korelacije

Gore je regresija korištena isključivo za predviđanje. Odrediti regresijske koeficijente i predvidjeti vrijednost varijable Y za datu vrijednost varijable x Korištena je metoda najmanjih kvadrata. Osim toga, ispitali smo korijen srednje kvadratne pogreške procjene i koeficijent mješovite korelacije. Ako analiza reziduala potvrdi da uvjeti primjenjivosti metode najmanjih kvadrata nisu povrijeđeni, a model jednostavne linearne regresije je adekvatan, na temelju podataka uzorka, može se tvrditi da postoji linearni odnos između varijabli u populacija.

Primjenat -kriteriji za nagib. Testiranjem je li nagib populacije β 1 jednak nuli, možete odrediti postoji li statistički značajan odnos između varijabli x I Y. Ako se ova hipoteza odbaci, može se tvrditi da između varijabli x I Y postoji linearni odnos. Nulta i alternativna hipoteza formulirane su na sljedeći način: H 0: β 1 = 0 (nema linearne ovisnosti), H1: β 1 ≠ 0 (postoji linearna ovisnost). A-priorat t-statistika je jednaka razlici između nagiba uzorka i hipotetske vrijednosti nagiba populacije, podijeljene s korijenom srednje kvadratne pogreške procjene nagiba:

(11) t = (b 1 β 1 ) / S b 1

Gdje b 1 – nagib izravne regresije na uzorku podataka, β1 – hipotetski nagib izravne populacije, , i test statistika t Ima t-distribucija sa n – 2 stupnjevi slobode.

Provjerimo postoji li statistički značajna veza između veličine trgovine i godišnje prodaje pri α = 0,05. t-kriterij se prikazuje zajedno s drugim parametrima kada se koristi Paket analiza(opcija Regresija). Potpuni rezultati paketa analize prikazani su na slici. 4, fragment koji se odnosi na t-statistiku - na sl. 18.

Riža. 18. Rezultati primjene t

Budući da je broj trgovina n= 14 (vidi sliku 3), kritična vrijednost t-statistika na razini značajnosti α = 0,05 može se pronaći pomoću formule: t L=STUDENT.ARV(0,025,12) = –2,1788, gdje je 0,025 polovica razine značajnosti, a 12 = n – 2; tU=STUDENT.OBR(0,975,12) = +2,1788.

Jer t-statistika = 10,64 > tU= 2,1788 (slika 19), nulta hipoteza H 0 odbijena. Na drugoj strani, R- vrijednost za x= 10,6411, izračunato formulom =1-STUDENT.DIST(D3,12,TRUE), približno je jednako nuli, pa hipoteza H 0 opet odbijen. Činjenica da se R-vrijednost od gotovo nule znači da kada ne bi postojao pravi linearni odnos između veličina trgovina i godišnje prodaje, bilo bi ga gotovo nemoguće otkriti pomoću linearne regresije. Stoga postoji statistički značajan linearni odnos između prosječne godišnje prodaje u trgovini i veličine trgovine.

Riža. 19. Testiranje hipoteze o nagibu populacije na razini značajnosti od 0,05 i 12 stupnjeva slobode

PrimjenaF -kriteriji za nagib. Alternativni pristup testiranju hipoteza o nagibu jednostavne linearne regresije je korištenje F- kriteriji. Podsjetimo da F-test se koristi za testiranje odnosa između dvije varijance (za više detalja, pogledajte). Prilikom testiranja hipoteze o nagibu, mjera slučajnih pogrešaka je varijanca pogreške (zbroj kvadrata pogrešaka podijeljen s brojem stupnjeva slobode), tako da F-kriterij koristi omjer varijance objašnjene regresijom (tj. vrijednost SSR, podijeljeno s brojem nezavisnih varijabli k), na varijancu pogreške ( MSE = S Yx 2 ).

A-priorat F-statistika je jednaka srednjem kvadratu regresije (MSR) podijeljenom s varijancom pogreške (MSE): F = MSR/ MSE, Gdje MSR=SSR / k, MSE =JJI/(n– k – 1), k– broj nezavisnih varijabli u regresijskom modelu. Statistika testa F Ima F-distribucija sa k I n– k – 1 stupnjevi slobode.

Za zadanu razinu značajnosti α pravilo odlučivanja formulira se na sljedeći način: ako F>FU, nulta hipoteza se odbacuje; inače se ne odbija. Rezultati, prikazani u obliku zbirne tablice analize varijance, prikazani su na sl. 20.

Riža. 20. Analiza tablice varijance za testiranje hipoteze o statističkoj značajnosti regresijskog koeficijenta

Također t-kriterij F-kriterij se prikazuje u tablici kada se koristi Paket analiza(opcija Regresija). Puni rezultati rada Paket analiza prikazani su na sl. 4, fragment koji se odnosi na F-statistika – na sl. 21.

Riža. 21. Rezultati primjene F-kriteriji dobiveni korištenjem Excel Analysis Package

F-statistika je 113,23, i R-vrijednost blizu nule (ćelija ZnačajF). Ako je razina značajnosti α 0,05, odredite kritičnu vrijednost F-razdiobe s jednim i 12 stupnjeva slobode mogu se dobiti pomoću formule F U=F.OBR(1-0,05;1;12) = 4,7472 (Slika 22). Jer F = 113,23 > F U= 4,7472, i R-vrijednost blizu 0< 0,05, нулевая гипотеза H 0 se odbija, tj. Veličina trgovine usko je povezana s njezinom godišnjom prodajom.

Riža. 22. Testiranje hipoteze o nagibu populacije na razini značajnosti od 0,05 s jednim i 12 stupnjeva slobode

Interval pouzdanosti koji sadrži nagib β 1 . Kako biste testirali hipotezu da postoji linearni odnos između varijabli, možete konstruirati interval pouzdanosti koji sadrži nagib β 1 i potvrditi da hipotetska vrijednost β 1 = 0 pripada tom intervalu. Središte intervala pouzdanosti koji sadrži nagib β 1 je nagib uzorka b 1 , a granice su mu količine b 1 ±tn –2 S b 1

Kao što je prikazano na sl. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =STUDENT.ARV(0,975,12) = 2,1788. Stoga, b 1 ±tn –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ili + 1,328 ≤ β 1 ≤ +2,012. Dakle, postoji vjerojatnost od 0,95 da nagib populacije leži između +1,328 i +2,012 (tj. 1,328,000 USD do 2,012,000 USD). Budući da su te vrijednosti veće od nule, postoji statistički značajan linearni odnos između godišnje prodaje i površine prodavaonice. Kad bi interval pouzdanosti sadržavao nulu, ne bi postojao odnos između varijabli. Osim toga, interval pouzdanosti znači da svako povećanje prodajne površine za 1000 kvadratnih metara. ft. rezultira povećanjem prosječnog obujma prodaje između 1.328.000 USD i 2.012.000 USD.

Korištenjet -kriteriji za koeficijent korelacije. uveden je koeficijent korelacije r, što je mjera odnosa između dviju numeričkih varijabli. Može se koristiti za određivanje postoji li statistički značajan odnos između dviju varijabli. Označimo koeficijent korelacije između populacija obiju varijabli simbolom ρ. Nulta i alternativna hipoteza formulirane su na sljedeći način: H 0: ρ = 0 (bez korelacije), H 1: ρ ≠ 0 (postoji korelacija). Provjera postojanja korelacije:

Gdje r = + , Ako b 1 > 0, r = – , Ako b 1 < 0. Тестовая статистика t Ima t-distribucija sa n – 2 stupnjevi slobode.

U problemu o lancu trgovina Suncokreti r 2= 0,904, a b 1- +1,670 (vidi sliku 4). Jer b 1> 0, korelacijski koeficijent između godišnje prodaje i veličine trgovine je r= +√0,904 = +0,951. Testirajmo nultu hipotezu da ne postoji korelacija između ovih varijabli pomoću t-statistika:

Na razini značajnosti α = 0,05, nultu hipotezu treba odbaciti jer t= 10,64 > 2,1788. Stoga se može tvrditi da postoji statistički značajan odnos između godišnje prodaje i veličine trgovine.

Kada se raspravlja o zaključcima koji se odnose na nagib populacije, intervali pouzdanosti i testovi hipoteza koriste se naizmjenično. Međutim, izračunavanje intervala pouzdanosti koji sadrži koeficijent korelacije pokazalo se težim, budući da je tip distribucije uzorkovanja statistike r ovisi o stvarnom koeficijentu korelacije.

Procjena matematičkog očekivanja i predviđanje pojedinačnih vrijednosti

Ovaj odjeljak govori o metodama za procjenu matematičkog očekivanja odgovora Y i predviđanja pojedinačnih vrijednosti Y za zadane vrijednosti varijable x.

Konstruiranje intervala povjerenja. U primjeru 2 (pogledajte gornji odjeljak Metoda najmanjeg kvadrata) regresijska jednadžba omogućila je predviđanje vrijednosti varijable Y x. U problemu odabira lokacije za maloprodajno mjesto, prosječni godišnji obujam prodaje u prodavaonici površine 4000 m2. stopa bila jednaka 7,644 milijuna dolara.Međutim, ova procjena matematičkog očekivanja opće populacije je točkasta. Za procjenu matematičkog očekivanja populacije predložen je koncept intervala pouzdanosti. Slično, možemo uvesti koncept interval pouzdanosti za matematičko očekivanje odgovora za datu vrijednost varijable x:

Gdje , = b 0 + b 1 X i– predviđena vrijednost je promjenjiva Y na x = X i, S YX– korijen srednje kvadratne pogreške, n- veličina uzorka, xja- navedena vrijednost varijable x, µ Y|x = xja– matematičko očekivanje varijable Y na x = X i, SSX =

Analiza formule (13) pokazuje da širina intervala pouzdanosti ovisi o nekoliko čimbenika. Na određenoj razini značajnosti, povećanje amplitude fluktuacija oko regresijske linije, mjereno pomoću korijena srednje kvadratne pogreške, dovodi do povećanja širine intervala. S druge strane, kao što se i očekivalo, povećanje veličine uzorka prati i sužavanje intervala. Osim toga, širina intervala se mijenja ovisno o vrijednostima xja. Ako je vrijednost varijable Y predviđene količine x, blizu prosječne vrijednosti , interval pouzdanosti ispada uži nego kod predviđanja odgovora za vrijednosti daleko od prosjeka.

Recimo da pri odabiru lokacije trgovine želimo konstruirati 95% interval pouzdanosti za prosječnu godišnju prodaju svih trgovina čija je površina 4000 četvornih metara. stopala:

Dakle, prosječni godišnji obujam prodaje u svim trgovinama s površinom od 4.000 m2. stopa, s 95% vjerojatnosti leži u rasponu od 6,971 do 8,317 milijuna dolara.

Izračunajte interval pouzdanosti za predviđenu vrijednost. Uz interval pouzdanosti za matematičko očekivanje odgovora za danu vrijednost varijable x, često je potrebno znati interval pouzdanosti za predviđenu vrijednost. Iako je formula za izračun takvog intervala pouzdanosti vrlo slična formuli (13), ovaj interval sadrži predviđenu vrijednost, a ne procjenu parametra. Interval za predviđeni odgovor Yx = Xi za određenu vrijednost varijable xja određuje se formulom:

Pretpostavimo da pri odabiru lokacije za maloprodajno mjesto želimo konstruirati 95% interval pouzdanosti za predviđeni godišnji obujam prodaje za trgovinu čija je površina 4000 četvornih metara. stopala:

Stoga, predviđeni godišnji obujam prodaje za trgovinu s površinom od 4000 kvadratnih metara. stopa, s vjerojatnošću od 95% leži u rasponu od 5,433 do 9,854 milijuna dolara. Kao što vidimo, interval pouzdanosti za predviđenu vrijednost odgovora mnogo je širi od intervala pouzdanosti za njegovo matematičko očekivanje. To je zato što je varijabilnost u predviđanju pojedinačnih vrijednosti mnogo veća nego u procjeni matematičkog očekivanja.

Zamke i etička pitanja povezana s korištenjem regresije

Poteškoće povezane s regresijskom analizom:

  • Zanemarivanje uvjeta primjenjivosti metode najmanjih kvadrata.
  • Pogrešna procjena uvjeta primjenjivosti metode najmanjih kvadrata.
  • Netočan izbor alternativnih metoda kada su prekršeni uvjeti primjenjivosti metode najmanjih kvadrata.
  • Primjena regresijske analize bez dubljeg poznavanja predmeta istraživanja.
  • Ekstrapolacija regresije izvan raspona eksplanatorne varijable.
  • Zabuna između statističkih i uzročnih odnosa.

Raširena uporaba proračunskih tablica i statističkog softvera eliminirala je računalne probleme koji su kočili korištenje regresijske analize. Međutim, to je dovelo do toga da su regresijsku analizu koristili korisnici koji nisu imali dovoljno kvalifikacija i znanja. Kako korisnici mogu znati za alternativne metode ako mnogi od njih uopće nemaju pojma o uvjetima primjenjivosti metode najmanjih kvadrata i ne znaju kako provjeriti njihovu primjenu?

Istraživač se ne bi trebao zanositi krčenjem brojeva - izračunavanjem pomaka, nagiba i koeficijenta mješovite korelacije. Treba mu dublje znanje. Ilustrirajmo to klasičnim primjerom iz udžbenika. Anscombe je pokazao da sva četiri skupa podataka prikazana na Sl. 23, imaju iste regresijske parametre (Sl. 24).

Riža. 23. Četiri umjetna skupa podataka

Riža. 24. Regresijska analiza četiri umjetna skupa podataka; gotovo s Paket analiza(kliknite na sliku za povećanje slike)

Dakle, sa stajališta regresijske analize, svi ovi skupovi podataka potpuno su identični. Kad bi analiza tu završila, izgubili bismo mnogo korisnih informacija. O tome svjedoče dijagrami raspršenosti (Slika 25) i rezidualni dijagrami (Slika 26) konstruirani za ove skupove podataka.

Riža. 25. Dijagrami raspršenosti za četiri skupa podataka

Dijagrami raspršenosti i dijagrami reziduala pokazuju da se ti podaci razlikuju jedni od drugih. Jedini skup raspoređen duž ravne crte je skup A. Grafički prikaz reziduala izračunatih iz skupa A nema nikakav uzorak. To se ne može reći za skupove B, C i D. Dijagram raspršenosti iscrtan za skup B pokazuje izražen kvadratni uzorak. Ovaj zaključak potvrđuje dijagram reziduala koji ima parabolični oblik. Dijagram raspršenosti i dijagram reziduala pokazuju da skup podataka B sadrži izuzetak. U ovoj situaciji potrebno je isključiti outlier iz skupa podataka i ponoviti analizu. Metoda za otkrivanje i eliminiranje outliera u opažanjima naziva se analiza utjecaja. Nakon uklanjanja outliera, rezultat ponovne procjene modela može biti potpuno drugačiji. Dijagram raspršenosti iscrtan iz podataka iz skupa G ilustrira neobičnu situaciju u kojoj empirijski model značajno ovisi o pojedinačnom odgovoru ( X 8 = 19, Y 8 = 12,5). Takvi regresijski modeli moraju se posebno pažljivo izračunati. Dakle, grafikoni raspršenosti i reziduala bitan su alat za regresijsku analizu i trebali bi biti njezin sastavni dio. Bez njih regresijska analiza nije vjerodostojna.

Riža. 26. Dijagrami reziduala za četiri skupa podataka

Kako izbjeći zamke u regresijskoj analizi:

  • Analiza mogućih odnosa između varijabli x I Y uvijek započnite crtanjem dijagrama raspršenosti.
  • Prije tumačenja rezultata regresijske analize provjerite uvjete njene primjenjivosti.
  • Nacrtajte reziduale u odnosu na nezavisnu varijablu. To će omogućiti određivanje koliko dobro empirijski model odgovara rezultatima promatranja i otkrivanje povrede konstantnosti varijance.
  • Upotrijebite histograme, dijagrame stabljike i lista, okvirne dijagrame i dijagrame normalne distribucije za testiranje pretpostavke normalne distribucije pogreške.
  • Ako uvjeti za primjenjivost metode najmanjih kvadrata nisu ispunjeni, upotrijebite alternativne metode (na primjer, kvadratni ili višestruki regresijski modeli).
  • Ako su zadovoljeni uvjeti za primjenjivost metode najmanjih kvadrata, potrebno je testirati hipotezu o statističkoj značajnosti regresijskih koeficijenata i konstruirati intervale pouzdanosti koji sadrže matematičko očekivanje i predviđenu vrijednost odgovora.
  • Izbjegavajte predviđanje vrijednosti zavisne varijable izvan raspona nezavisne varijable.
  • Imajte na umu da statistički odnosi nisu uvijek uzročno-posljedični. Zapamtite da korelacija između varijabli ne znači da postoji uzročno-posljedična veza između njih.

Sažetak. Kao što je prikazano na blok dijagramu (Slika 27), bilješka opisuje jednostavan model linearne regresije, uvjete za njegovu primjenjivost i kako testirati te uvjete. Razmotreno t-kriterij za ispitivanje statističke značajnosti nagiba regresije. Za predviđanje vrijednosti zavisne varijable korišten je regresijski model. Razmatran je primjer vezan uz izbor lokacije za maloprodajno mjesto u kojem se ispituje ovisnost godišnjeg obujma prodaje o površini prodavaonice. Dobivene informacije omogućuju vam točniji odabir lokacije za trgovinu i predviđanje njezine godišnje prodaje. Sljedeće bilješke nastavit će raspravu o regresijskoj analizi i osvrnuti se na višestruke regresijske modele.

Riža. 27. Dijagram strukture nota

Korišteni su materijali iz knjige Levin i dr. Statistika za menadžere. – M.: Williams, 2004. – str. 792–872 (prikaz, stručni).

Ako je zavisna varijabla kategorička, mora se koristiti logistička regresija.

ZAKLJUČAK REZULTATA

Tablica 8.3a. Regresijska statistika
Regresijska statistika
Množina R 0,998364
R-kvadrat 0,99673
Normalizirani R-kvadrat 0,996321
Standardna pogreška 0,42405
Zapažanja 10

Prvo, pogledajmo gornji dio izračuna, prikazan u tablici 8.3a – regresijska statistika.

Vrijednost R-kvadrata, koja se također naziva i mjera sigurnosti, karakterizira kvalitetu rezultirajuće regresijske linije. Ova se kvaliteta izražava stupnjem podudarnosti između izvornih podataka i regresijskog modela (izračunati podaci). Mjera izvjesnosti je uvijek unutar intervala.

U većini slučajeva vrijednost R-kvadrata nalazi se između ovih vrijednosti, koje se nazivaju ekstremne vrijednosti, tj. između nule i jedan.

Ako je vrijednost R-kvadrata blizu jedinice, to znači da konstruirani model objašnjava gotovo svu varijabilnost relevantnih varijabli. Nasuprot tome, vrijednost R-kvadrata blizu nule znači da je kvaliteta konstruiranog modela loša.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje regresijske linije prema izvornim podacima.

Množina R- koeficijent višestruke korelacije R - izražava stupanj ovisnosti nezavisne varijable (X) i zavisne varijable (Y).

Višestruki R jednak je kvadratnom korijenu koeficijenta determinacije; ova količina uzima vrijednosti u rasponu od nula do jedan.

U jednostavnoj analizi linearne regresije, višestruki R jednak je Pearsonovom koeficijentu korelacije. Doista, višestruki R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tablica 8.3b. Regresijski koeficijenti
Izgledi Standardna pogreška t-statistika
Y-raskrižje 2,694545455 0,33176878 8,121757129
Varijabla X 1 2,305454545 0,04668634 49,38177965
* Dostavljena je skraćena verzija izračuna

Sada razmotrite srednji dio izračuna, prikazan u tablici 8.3b. Ovdje je dan regresijski koeficijent b (2,305454545) i pomak po ordinatnoj osi, tj. konstanta a (2,694545455).

Na temelju izračuna, jednadžbu regresije možemo napisati na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na temelju predznaka (negativan ili pozitivan) koeficijenti regresije(koeficijent b).

Ako znak na koeficijent regresije- pozitivan, odnos između zavisne varijable i nezavisne varijable bit će pozitivan. U našem slučaju predznak regresijskog koeficijenta je pozitivan, dakle i odnos je pozitivan.

Ako znak na koeficijent regresije- negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

U tablici 8.3c. Prikazani su rezultati derivacije reziduala. Kako bi se ovi rezultati pojavili u izvješću, morate aktivirati potvrdni okvir "Reziduali" prilikom pokretanja alata "Regresija".

POVLAČENJE OSTATKA

Tablica 8.3c. Ostaci hrane
Promatranje Predviđeno Y Ostaci hrane Standardna stanja
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Pomoću ovog dijela izvješća možemo vidjeti odstupanja svake točke od konstruirane regresijske linije. Najveća apsolutna vrijednost

KATEGORIJE

POPULARNI ČLANCI

2023 “kingad.ru” - ultrazvučni pregled ljudskih organa