Varësia regresive. Analiza e regresionit

Në modelimin statistikor, analiza e regresionit është një studim që përdoret për të vlerësuar marrëdhënien midis variablave. Kjo metodë matematikore përfshin shumë metoda të tjera për modelimin dhe analizimin e variablave të shumëfishta ku fokusi është në marrëdhënien midis një ndryshoreje të varur dhe një ose më shumë variablave të pavarur. Më konkretisht, analiza e regresionit na ndihmon të kuptojmë se si ndryshon vlera tipike e një ndryshoreje të varur nëse një nga variablat e pavarur ndryshon ndërsa variablat e tjerë të pavarur mbeten fikse.

Në të gjitha rastet, vlerësimi i synuar është një funksion i variablave të pavarur dhe quhet funksion regresioni. Në analizën e regresionit, është gjithashtu me interes të karakterizohet ndryshimi në variablin e varur si funksion i regresionit, i cili mund të përshkruhet duke përdorur një shpërndarje probabiliteti.

Problemet e analizës së regresionit

Kjo metodë e hulumtimit statistikor përdoret gjerësisht për parashikime, ku përdorimi i saj ka përparësi të konsiderueshme, por ndonjëherë mund të çojë në iluzion ose marrëdhënie të rreme, prandaj rekomandohet përdorimi i saj me kujdes në këtë çështje, pasi, për shembull, korrelacioni nuk do të thotë shkakësore.

Një numër i madh metodash janë zhvilluar për analizën e regresionit, si regresioni linear dhe i zakonshëm i katrorëve më të vegjël, të cilat janë parametrike. Thelbi i tyre është se funksioni i regresionit përcaktohet në terma të një numri të kufizuar parametrash të panjohur që vlerësohen nga të dhënat. Regresioni joparametrik lejon që funksioni i tij të shtrihet brenda një grupi specifik funksionesh, të cilat mund të jenë me dimensione të pafundme.

Si një metodë kërkimore statistikore, analiza e regresionit në praktikë varet nga forma e procesit të gjenerimit të të dhënave dhe nga mënyra se si ai lidhet me qasjen e regresionit. Meqenëse forma e vërtetë e gjenerimit të procesit të të dhënave është zakonisht një numër i panjohur, analiza e regresionit të të dhënave shpesh varet në një farë mase nga supozimet rreth procesit. Këto supozime ndonjëherë janë të testueshme nëse ka të dhëna të mjaftueshme në dispozicion. Modelet e regresionit janë shpesh të dobishëm edhe kur supozimet shkelen mesatarisht, megjithëse ato mund të mos funksionojnë në kulmin e efikasitetit.

Në një kuptim më të ngushtë, regresioni mund t'i referohet në mënyrë specifike vlerësimit të variablave të përgjigjes së vazhdueshme, në krahasim me variablat e përgjigjeve diskrete të përdorura në klasifikim. Rasti i ndryshores së prodhimit të vazhdueshëm quhet gjithashtu regresion metrik për ta dalluar atë nga problemet e lidhura.

Histori

Forma më e hershme e regresionit është metoda e njohur e katrorëve më të vegjël. Ajo u botua nga Lezhandre në 1805 dhe Gauss në 1809. Lezhandri dhe Gauss aplikuan metodën për problemin e përcaktimit nga vëzhgimet astronomike orbitat e trupave rreth Diellit (kryesisht kometat, por më vonë edhe planetët e vegjël të sapo zbuluar). Gauss publikoi një zhvillim të mëtejshëm të teorisë së katrorëve më të vegjël në 1821, duke përfshirë një version të teoremës Gauss-Markov.

Termi "regresion" u krijua nga Francis Galton në shekullin e 19-të për të përshkruar një fenomen biologjik. Ideja ishte që lartësia e pasardhësve nga ajo e paraardhësve të tyre priret të zmbrapset poshtë drejt mesatares normale. Për Galton, regresioni kishte vetëm këtë kuptim biologjik, por më vonë puna e tij u vazhdua nga Udney Yoley dhe Karl Pearson dhe u soll në një kontekst më të përgjithshëm statistikor. Në veprën e Yule dhe Pearson, shpërndarja e përbashkët e përgjigjes dhe variablave shpjegues supozohet të jetë Gaussian. Ky supozim u hodh poshtë nga Fischer në letrat e 1922 dhe 1925. Fisher sugjeroi që shpërndarja e kushtëzuar e variablit të përgjigjes është Gaussian, por shpërndarja e përbashkët nuk duhet të jetë. Në këtë drejtim, propozimi i Fischer është më afër formulimit të Gausit të vitit 1821. Përpara vitit 1970, ndonjëherë duheshin deri në 24 orë për të marrë rezultatin e një analize regresioni.

Metodat e analizës së regresionit vazhdojnë të jenë një fushë e kërkimit aktiv. Në dekadat e fundit, janë zhvilluar metoda të reja për regresion të fortë; regresione që përfshijnë përgjigje të ndërlidhura; metodat e regresionit që akomodojnë lloje të ndryshme të të dhënave që mungojnë; regresioni joparametrik; Metodat e regresionit Bayesian; regresionet në të cilat variablat parashikues maten me gabim; regresioni me më shumë parashikues sesa vëzhgime, dhe përfundimi shkak-pasojë me regresion.

Modelet e regresionit

Modelet e analizës së regresionit përfshijnë variablat e mëposhtëm:

  • Parametra të panjohur, të caktuar beta, të cilat mund të jenë skalar ose vektor.
  • Variablat e pavarur, X.
  • Variablat e varur, Y.

Fusha të ndryshme të shkencës ku përdoret analiza e regresionit përdorin terma të ndryshëm në vend të variablave të varur dhe të pavarur, por në të gjitha rastet modeli i regresionit lidh Y me një funksion të X dhe β.

Përafrimi zakonisht shkruhet si E(Y | X) = F(X, β). Për të kryer analizën e regresionit, duhet të përcaktohet lloji i funksionit f. Më rrallë, ai bazohet në njohuritë për marrëdhënien midis Y dhe X, e cila nuk mbështetet në të dhëna. Nëse një njohuri e tillë nuk është e disponueshme, atëherë zgjidhet forma fleksibël ose e përshtatshme F.

Ndryshorja e varur Y

Le të supozojmë tani se vektori i parametrave të panjohur β ka gjatësi k. Për të kryer analizën e regresionit, përdoruesi duhet të japë informacion në lidhje me variablin e varur Y:

  • Nëse vërehen N pika të dhënash të formës (Y, X), ku N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Nëse vërehen saktësisht N = K dhe funksioni F është linear, atëherë ekuacioni Y = F(X, β) mund të zgjidhet saktësisht dhe jo përafërsisht. Kjo arrin në zgjidhjen e një grupi N-ekuacionesh me N-të panjohura (elementet β) që ka një zgjidhje unike për sa kohë që X është linearisht i pavarur. Nëse F është jolineare, mund të mos ketë zgjidhje, ose mund të ekzistojnë shumë zgjidhje.
  • Situata më e zakonshme është ku vërehen pikat e të dhënave N >. Në këtë rast, ka informacion të mjaftueshëm në të dhëna për të vlerësuar një vlerë unike për β që i përshtatet më së miri të dhënave, dhe një model regresioni ku aplikimi për të dhënat mund të shihet si një sistem i mbipërcaktuar në β.

Në rastin e fundit, analiza e regresionit ofron mjete për:

  • Gjetja e një zgjidhjeje për parametrat e panjohur β, e cila, për shembull, do të minimizojë distancën midis vlerës së matur dhe të parashikuar të Y.
  • Sipas supozimeve të caktuara statistikore, analiza e regresionit përdor informacion të tepërt për të siguruar informacion statistikor në lidhje me parametrat e panjohur β dhe vlerat e parashikuara të ndryshores së varur Y.

Numri i kërkuar i matjeve të pavarura

Konsideroni një model regresioni që ka tre parametra të panjohur: β 0 , β 1 dhe β 2 . Supozoni se eksperimentuesi bën 10 matje në të njëjtën vlerë të vektorit të ndryshores së pavarur X. Në këtë rast, analiza e regresionit nuk prodhon një grup unik vlerash. Më e mira që mund të bëni është të vlerësoni mesataren dhe devijimin standard të ndryshores së varur Y. Në mënyrë të ngjashme, duke matur dy vlera të ndryshme të X, mund të merrni të dhëna të mjaftueshme për regresion me dy të panjohura, por jo me tre ose më shumë të panjohura.

Nëse matjet e eksperimentuesit janë bërë në tre vlera të ndryshme të vektorit të ndryshores së pavarur X, atëherë analiza e regresionit do të sigurojë një grup unik vlerësimesh për tre parametrat e panjohur në β.

Në rastin e regresionit të përgjithshëm linear, deklarata e mësipërme është ekuivalente me kërkesën që matrica X T X të jetë e kthyeshme.

Supozime Statistikore

Kur numri i matjeve N është më i madh se numri i parametrave të panjohur k dhe gabimet e matjes ε i, atëherë, si rregull, informacioni i tepërt që përmbahet në matjet shpërndahet dhe përdoret për parashikime statistikore në lidhje me parametrat e panjohur. Ky informacion i tepërt quhet shkalla e regresionit të lirisë.

Supozimet Themelore

Supozimet klasike për analizën e regresionit përfshijnë:

  • Marrja e mostrave është përfaqësuese e parashikimit të konkluzionit.
  • Termi i gabimit është një ndryshore e rastësishme me një mesatare zero, e cila është e kushtëzuar nga variablat shpjegues.
  • Variablat e pavarur maten pa gabime.
  • Si variabla të pavarur (parashikues), ata janë linearisht të pavarur, domethënë nuk është e mundur të shprehet ndonjë parashikues si një kombinim linear i të tjerëve.
  • Gabimet janë të pakorreluara, pra matrica e kovariancës së gabimit të diagonaleve dhe çdo element jo zero është varianca e gabimit.
  • Varianca e gabimit është konstante përgjatë vëzhgimeve (homoscedasticiteti). Nëse jo, atëherë mund të përdoren katrorët më të vegjël të peshuar ose metoda të tjera.

Këto kushte të mjaftueshme për vlerësimin e katrorëve më të vegjël kanë vetitë e kërkuara; në veçanti, këto supozime nënkuptojnë se vlerësimet e parametrave do të jenë objektive, të qëndrueshme dhe efikase, veçanërisht kur merren parasysh në klasën e vlerësuesve linearë. Është e rëndësishme të theksohet se provat rrallëherë i plotësojnë kushtet. Kjo do të thotë, metoda përdoret edhe nëse supozimet nuk janë të sakta. Ndryshimet nga supozimet ndonjëherë mund të përdoren si një masë se sa i dobishëm është modeli. Shumë nga këto supozime mund të zbuten në metoda më të avancuara. Raportet e analizës statistikore zakonisht përfshijnë analizën e testeve mbi të dhënat e mostrës dhe metodologjinë për dobinë e modelit.

Për më tepër, variablat në disa raste i referohen vlerave të matura në vendndodhjet e pikave. Mund të ketë tendenca hapësinore dhe autokorrelacione hapësinore në variabla që shkelin supozimet statistikore. Regresioni i ponderuar gjeografik është metoda e vetme që merret me të dhëna të tilla.

Një tipar i regresionit linear është se ndryshorja e varur, e cila është Yi, është një kombinim linear i parametrave. Për shembull, regresioni i thjeshtë linear përdor një ndryshore të pavarur, x i, dhe dy parametra, β 0 dhe β 1 , për të modeluar n-pika.

Në regresionin linear të shumëfishtë, ekzistojnë variabla ose funksione të shumta të pavarura prej tyre.

Kur një kampion i rastësishëm merret nga një popullatë, parametrat e tij lejojnë që dikush të marrë një model të regresionit linear të mostrës.

Në këtë aspekt, më e popullarizuara është metoda e katrorëve më të vegjël. Përdoret për të marrë vlerësime të parametrave që minimizojnë shumën e mbetjeve në katror. Ky lloj minimizimi (i cili është tipik për regresionin linear) i këtij funksioni çon në një grup ekuacionesh normale dhe një grup ekuacionesh lineare me parametra, të cilët zgjidhen për të marrë vlerësimet e parametrave.

Nën supozimin e mëtejshëm se gabimi i popullsisë përhapet në përgjithësi, një studiues mund të përdorë këto vlerësime standarde të gabimit për të krijuar intervale besimi dhe për të kryer teste hipotezash rreth parametrave të tij.

Analiza e regresionit jolinear

Një shembull ku funksioni nuk është linear në lidhje me parametrat tregon se shuma e katrorëve duhet të minimizohet duke përdorur një procedurë përsëritëse. Kjo paraqet shumë ndërlikime që përcaktojnë dallimet midis metodave lineare dhe jolineare të katrorëve më të vegjël. Rrjedhimisht, rezultatet e analizës së regresionit kur përdorni një metodë jolineare janë ndonjëherë të paparashikueshme.

Llogaritja e fuqisë dhe madhësia e mostrës

Në përgjithësi nuk ka metoda të qëndrueshme në lidhje me numrin e vëzhgimeve kundrejt numrit të variablave të pavarur në model. Rregulli i parë u propozua nga Dobra dhe Hardin dhe duket si N = t^n, ku N është madhësia e kampionit, n është numri i variablave të pavarur dhe t është numri i vëzhgimeve të nevojshme për të arritur saktësinë e dëshiruar nëse modeli kishte vetëm një variabël i pavarur. Për shembull, një studiues ndërton një model regresioni linear duke përdorur një grup të dhënash që përmban 1000 pacientë (N). Nëse studiuesi vendos që pesë vëzhgime nevojiten për të përcaktuar saktë vijën (m), atëherë numri maksimal i variablave të pavarur që modeli mund të mbështesë është 4.

Metoda të tjera

Megjithëse parametrat e modelit të regresionit zakonisht vlerësohen duke përdorur metodën e katrorëve më të vegjël, ka metoda të tjera që përdoren shumë më rrallë. Për shembull, këto janë metodat e mëposhtme:

  • Metodat Bayesian (për shembull, regresioni linear Bayesian).
  • Regresioni i përqindjes, përdoret për situatat ku ulja e gabimeve të përqindjes konsiderohet më e përshtatshme.
  • Devijimet më të vogla absolute, të cilat janë më të forta në prani të pikave të jashtme që çojnë në regresion kuantil.
  • Regresioni joparametrik, i cili kërkon një numër të madh vëzhgimesh dhe llogaritjesh.
  • Një metrikë e të mësuarit në distancë që mësohet për të gjetur një metrikë kuptimplotë të distancës në një hapësirë ​​të caktuar hyrëse.

Software

Të gjitha paketat kryesore të softuerit statistikor kryejnë analizë të regresionit të katrorëve më të vegjël. Regresioni i thjeshtë linear dhe analiza e regresionit të shumëfishtë mund të përdoren në disa aplikacione të tabelave, si dhe në disa kalkulatorë. Megjithëse shumë paketa softuerike statistikore mund të kryejnë lloje të ndryshme të regresionit joparametrik dhe të fuqishëm, këto metoda janë më pak të standardizuara; paketa të ndryshme softuerike zbatojnë metoda të ndryshme. Softueri i specializuar i regresionit është zhvilluar për përdorim në fusha të tilla si analiza e ekzaminimit dhe neuroimazhimi.

Gjatë studimeve, studentët shumë shpesh ndeshen me një sërë ekuacionesh. Njëri prej tyre - ekuacioni i regresionit - diskutohet në këtë artikull. Ky lloj ekuacioni përdoret posaçërisht për të përshkruar karakteristikat e marrëdhënies midis parametrave matematikorë. Ky lloj barazie përdoret në statistikë dhe ekonometri.

Përkufizimi i regresionit

Në matematikë, regresioni nënkupton një sasi të caktuar që përshkruan varësinë e vlerës mesatare të një grupi të dhënash nga vlerat e një sasie tjetër. Ekuacioni i regresionit tregon, në funksion të një karakteristike të veçantë, vlerën mesatare të një karakteristike tjetër. Funksioni i regresionit ka formën e një ekuacioni të thjeshtë y = x, në të cilin y vepron si një ndryshore e varur dhe x si një ndryshore e pavarur (faktor-tipar). Në fakt, regresioni shprehet si y = f (x).

Cilat janë llojet e marrëdhënieve midis variablave?

Në përgjithësi, ekzistojnë dy lloje të kundërta të marrëdhënieve: korrelacioni dhe regresioni.

E para karakterizohet nga barazia e variablave të kushtëzuar. Në këtë rast, nuk dihet me besueshmëri se cila variabël varet nga tjetra.

Nëse nuk ka barazi midis variablave dhe kushtet thonë se cila variabël është shpjeguese dhe cila është e varur, atëherë mund të flasim për praninë e një lidhjeje të llojit të dytë. Për të ndërtuar një ekuacion të regresionit linear, do të jetë e nevojshme të zbulohet se çfarë lloj marrëdhënieje vërehet.

Llojet e regresioneve

Sot, ekzistojnë 7 lloje të ndryshme të regresionit: hiperbolik, linear, shumëfish, jolinear, çift, invers, logaritmikisht linear.

Hiperbolike, lineare dhe logaritmike

Ekuacioni i regresionit linear përdoret në statistika për të shpjeguar qartë parametrat e ekuacionit. Duket sikur y = c+t*x+E. Një ekuacion hiperbolik ka formën e një hiperbole të rregullt y = c + m / x + E. Një ekuacion logaritmik linear shpreh marrëdhënien duke përdorur një funksion logaritmik: Në y = Në c + m * Në x + Në E.

Të shumëfishta dhe jolineare

Dy llojet më komplekse të regresionit janë të shumëfishtë dhe jolinearë. Ekuacioni i regresionit të shumëfishtë shprehet me funksionin y = f(x 1, x 2 ... x c) + E. Në këtë situatë, y vepron si një ndryshore e varur dhe x vepron si një ndryshore shpjeguese. Ndryshorja E është stokastike; përfshin ndikimin e faktorëve të tjerë në ekuacion. Ekuacioni i regresionit jolinear është pak i diskutueshëm. Nga njëra anë, në raport me treguesit e marrë në konsideratë, nuk është linear, por nga ana tjetër, në rolin e vlerësimit të treguesve, është linear.

Llojet e kundërta dhe të çiftëzuara të regresioneve

Një invers është një lloj funksioni që duhet të konvertohet në një formë lineare. Në programet më tradicionale të aplikimit, ai ka formën e një funksioni y = 1/c + m*x+E. Një ekuacion i regresionit në çift tregon marrëdhënien midis të dhënave si funksion i y = f (x) + E. Ashtu si në ekuacionet e tjera, y varet nga x dhe E është një parametër stokastik.

Koncepti i korrelacionit

Ky është një tregues që tregon ekzistencën e një marrëdhënieje midis dy fenomeneve ose proceseve. Forca e marrëdhënies shprehet si një koeficient korrelacioni. Vlera e tij luhatet brenda intervalit [-1;+1]. Një tregues negativ tregon praninë e reagimeve, një tregues pozitiv tregon reagime të drejtpërdrejta. Nëse koeficienti merr një vlerë të barabartë me 0, atëherë nuk ka asnjë lidhje. Sa më afër të jetë vlera me 1, aq më e fortë është marrëdhënia midis parametrave; sa më afër 0, aq më e dobët është.

Metodat

Metodat parametrike të korrelacionit mund të vlerësojnë fuqinë e marrëdhënies. Ato përdoren në bazë të vlerësimit të shpërndarjes për të studiuar parametrat që i binden ligjit të shpërndarjes normale.

Parametrat e ekuacionit të regresionit linear janë të nevojshëm për të identifikuar llojin e varësisë, funksionin e ekuacionit të regresionit dhe për të vlerësuar treguesit e formulës së zgjedhur të marrëdhënies. Fusha e korrelacionit përdoret si metodë e identifikimit të lidhjes. Për ta bërë këtë, të gjitha të dhënat ekzistuese duhet të përshkruhen grafikisht. Të gjitha të dhënat e njohura duhet të vizatohen në një sistem koordinativ dy-dimensional drejtkëndor. Kështu formohet një fushë korrelacioni. Vlerat e faktorit përshkrues shënohen përgjatë boshtit të abshisës, ndërsa vlerat e faktorit të varur shënohen përgjatë boshtit të ordinatave. Nëse ekziston një marrëdhënie funksionale midis parametrave, ato rreshtohen në formën e një rreshti.

Nëse koeficienti i korrelacionit të të dhënave të tilla është më pak se 30%, mund të flasim për një mungesë pothuajse të plotë të lidhjes. Nëse është midis 30% dhe 70%, atëherë kjo tregon praninë e lidhjeve të mesme të ngushta. Një tregues 100% është dëshmi e një lidhjeje funksionale.

Një ekuacion jolinear i regresionit, ashtu si ai linear, duhet të plotësohet me një indeks korrelacioni (R).

Korrelacioni për regresion të shumëfishtë

Koeficienti i përcaktimit është një tregues i katrorit të korrelacionit të shumëfishtë. Ai flet për marrëdhënien e ngushtë të grupit të treguesve të paraqitur me karakteristikën që studiohet. Mund të flasë gjithashtu për natyrën e ndikimit të parametrave në rezultat. Ekuacioni i regresionit të shumëfishtë vlerësohet duke përdorur këtë tregues.

Për të llogaritur treguesin e korrelacionit të shumëfishtë, është e nevojshme të llogaritet indeksi i tij.

Metoda me katrorin më të vogël

Kjo metodë është një mënyrë për të vlerësuar faktorët e regresionit. Thelbi i tij është të minimizojë shumën e devijimeve në katror të marra si rezultat i varësisë së faktorit nga funksioni.

Një ekuacion i regresionit linear në çift mund të vlerësohet duke përdorur një metodë të tillë. Ky lloj ekuacionesh përdoret kur zbulohet një marrëdhënie lineare e çiftuar midis treguesve.

Parametrat e ekuacionit

Çdo parametër i funksionit të regresionit linear ka një kuptim specifik. Ekuacioni i regresionit linear të çiftuar përmban dy parametra: c dhe m. Parametri m demonstron ndryshimin mesatar në treguesin përfundimtar të funksionit y, me kusht që ndryshorja x të zvogëlohet (rritet) me një njësi konvencionale. Nëse ndryshorja x është zero, atëherë funksioni është i barabartë me parametrin c. Nëse ndryshorja x nuk është zero, atëherë faktori c nuk ka kuptim ekonomik. Ndikimi i vetëm në funksion është shenja përpara faktorit c. Nëse ka një minus, atëherë mund të themi se ndryshimi në rezultat është i ngadaltë në krahasim me faktorin. Nëse ka një plus, atëherë kjo tregon një ndryshim të përshpejtuar në rezultat.

Çdo parametër që ndryshon vlerën e ekuacionit të regresionit mund të shprehet përmes një ekuacioni. Për shembull, faktori c ka formën c = y - mx.

Të dhëna të grupuara

Ekzistojnë kushte të detyrës në të cilat të gjitha informacionet grupohen sipas atributit x, por për një grup të caktuar tregohen vlerat mesatare përkatëse të treguesit të varur. Në këtë rast, vlerat mesatare karakterizojnë se si ndryshon treguesi në varësi të x. Kështu, informacioni i grupuar ndihmon për të gjetur ekuacionin e regresionit. Përdoret si analizë e marrëdhënieve. Megjithatë, kjo metodë ka të metat e saj. Për fat të keq, treguesit mesatarë janë shpesh subjekt i luhatjeve të jashtme. Këto luhatje nuk pasqyrojnë modelin e marrëdhënies; ato thjesht maskojnë "zhurmën" e saj. Mesataret tregojnë modele marrëdhëniesh shumë më të këqija se një ekuacion i regresionit linear. Megjithatë, ato mund të përdoren si bazë për gjetjen e një ekuacioni. Duke shumëzuar numrin e një popullsie individuale me mesataren përkatëse, mund të merret shuma y brenda grupit. Tjetra, duhet të shtoni të gjitha shumat e marra dhe të gjeni treguesin përfundimtar y. Është pak më e vështirë të bësh llogaritjet me treguesin e shumës xy. Nëse intervalet janë të vogla, mund të marrim me kusht treguesin x për të gjitha njësitë (brenda grupit) të jetë i njëjtë. Ju duhet ta shumëzoni atë me shumën e y për të gjetur shumën e prodhimeve të x dhe y. Më pas, të gjitha shumat mblidhen së bashku dhe fitohet shuma totale xy.

Ekuacioni i regresionit të shumëfishtë në çift: vlerësimi i rëndësisë së një marrëdhënieje

Siç u diskutua më herët, regresioni i shumëfishtë ka një funksion të formës y = f (x 1,x 2,…,x m)+E. Më shpesh, një ekuacion i tillë përdoret për të zgjidhur problemin e ofertës dhe kërkesës për një produkt, të ardhurat nga interesi për aksionet e riblera dhe për të studiuar shkaqet dhe llojin e funksionit të kostos së prodhimit. Përdoret gjithashtu në mënyrë aktive në një shumëllojshmëri të gjerë studimesh dhe llogaritjesh makroekonomike, por në nivelin mikroekonomik ky ekuacion përdoret pak më rrallë.

Detyra kryesore e regresionit të shumëfishtë është të ndërtojë një model të dhënash që përmban një sasi të madhe informacioni në mënyrë që të përcaktohet më tej se çfarë ndikimi ka secili prej faktorëve individualisht dhe në tërësinë e tyre në treguesin që duhet të modelohet dhe koeficientët e tij. Ekuacioni i regresionit mund të marrë një shumëllojshmëri të gjerë vlerash. Në këtë rast, për të vlerësuar marrëdhënien, zakonisht përdoren dy lloje funksionesh: lineare dhe jolineare.

Funksioni linear përshkruhet në formën e marrëdhënies së mëposhtme: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. Në këtë rast, a2, a m konsiderohen koeficientë të regresionit "të pastër". Ato janë të nevojshme për të karakterizuar ndryshimin mesatar në parametrin y me një ndryshim (ulje ose rritje) në secilin parametër korrespondues x me një njësi, me kushtin e vlerave të qëndrueshme të treguesve të tjerë.

Ekuacionet jolineare kanë, për shembull, formën e një funksioni fuqie y=ax 1 b1 x 2 b2 ...x m bm. Në këtë rast, treguesit b 1, b 2 ..... b m quhen koeficientë elasticiteti, ata demonstrojnë se si rezultati do të ndryshojë (me sa%) me një rritje (ulje) në treguesin përkatës x me 1% dhe me një tregues të qëndrueshëm të faktorëve të tjerë.

Cilët faktorë duhet të merren parasysh gjatë ndërtimit të regresionit të shumëfishtë

Për të ndërtuar saktë regresionin e shumëfishtë, është e nevojshme të zbuloni se cilët faktorë duhet t'i kushtohet vëmendje e veçantë.

Është e nevojshme të kemi njëfarë kuptimi të natyrës së marrëdhënieve ndërmjet faktorëve ekonomikë dhe asaj që po modelohet. Faktorët që duhet të përfshihen duhet të plotësojnë kriteret e mëposhtme:

  • Duhet t'i nënshtrohet matjes sasiore. Për të përdorur një faktor që përshkruan cilësinë e një objekti, në çdo rast duhet t'i jepet një formë sasiore.
  • Nuk duhet të ketë ndërlidhje faktorësh, apo marrëdhënie funksionale. Veprime të tilla më së shpeshti çojnë në pasoja të pakthyeshme - sistemi i ekuacioneve të zakonshme bëhet i pakushtëzuar, dhe kjo përfshin jobesueshmërinë dhe vlerësimet e tij të paqarta.
  • Në rastin e një treguesi të madh korrelacioni, nuk ka asnjë mënyrë për të zbuluar ndikimin e izoluar të faktorëve në rezultatin përfundimtar të treguesit, prandaj, koeficientët bëhen të pakuptueshëm.

Metodat e ndërtimit

Ka një numër të madh metodash dhe metodash që shpjegojnë se si mund të zgjidhni faktorët për një ekuacion. Sidoqoftë, të gjitha këto metoda bazohen në zgjedhjen e koeficientëve duke përdorur një tregues korrelacioni. Ndër to janë:

  • Metoda e eliminimit.
  • Metoda e ndërrimit.
  • Analiza e regresionit hap pas hapi.

Metoda e parë përfshin filtrimin e të gjithë koeficientëve nga grupi total. Metoda e dytë përfshin futjen e shumë faktorëve shtesë. Epo, e treta është eliminimi i faktorëve që janë përdorur më parë për ekuacionin. Secila prej këtyre metodave ka të drejtë të ekzistojë. Ata kanë të mirat dhe të këqijat e tyre, por të gjithë mund ta zgjidhin çështjen e eliminimit të treguesve të panevojshëm në mënyrën e tyre. Si rregull, rezultatet e marra nga secila metodë individuale janë mjaft të afërta.

Metodat e analizës me shumë variacione

Metoda të tilla për përcaktimin e faktorëve bazohen në marrjen në konsideratë të kombinimeve individuale të karakteristikave të ndërlidhura. Këto përfshijnë analizën diskriminuese, njohjen e formës, analizën e komponentit kryesor dhe analizën e grupimeve. Përveç kësaj, ekziston edhe analiza e faktorëve, por ajo u shfaq për shkak të zhvillimit të metodës së komponentëve. Të gjitha ato zbatohen në rrethana të caktuara, në varësi të kushteve dhe faktorëve të caktuar.

Qëllimi i analizës së regresionit është të matë lidhjen midis një ndryshoreje të varur dhe një (analizë regresioni në çift) ose më shumë (shumë) variabla të pavarur. Variablat e pavarur quhen edhe variablat faktor, shpjegues, përcaktues, regresor dhe parashikues.

Ndryshorja e varur nganjëherë quhet variabli i përcaktuar, i shpjeguar ose i "përgjigjes". Përdorimi jashtëzakonisht i gjerë i analizës së regresionit në kërkimin empirik nuk është vetëm për faktin se është një mjet i përshtatshëm për testimin e hipotezave. Regresioni, veçanërisht regresioni i shumëfishtë, është një metodë efektive për modelimin dhe parashikimin.

Le të fillojmë të shpjegojmë parimet e punës me analizën e regresionit me një më të thjeshtë - metodën e çiftit.

Analiza e regresionit të çiftuar

Hapat e parë kur përdorim analizën e regresionit do të jenë pothuajse identikë me ato që kemi marrë në llogaritjen e koeficientit të korrelacionit. Tre kushtet kryesore për efektivitetin e analizës së korrelacionit duke përdorur metodën Pearson - shpërndarja normale e variablave, matja e intervalit të variablave, marrëdhënia lineare midis variablave - janë gjithashtu të rëndësishme për regresionin e shumëfishtë. Prandaj, në fazën e parë, ndërtohen grafikët e shpërndarjes, kryhet një analizë statistikore dhe përshkruese e variablave dhe llogaritet një linjë regresioni. Ashtu si në kuadrin e analizës së korrelacionit, linjat e regresionit ndërtohen duke përdorur metodën e katrorëve më të vegjël.

Për të ilustruar më qartë ndryshimet midis dy metodave të analizës së të dhënave, le t'i drejtohemi shembullit të diskutuar tashmë me variablat "mbështetje SPS" dhe "pjesa e popullsisë rurale". Të dhënat burimore janë identike. Dallimi në scatterplots do të jetë se në analizën e regresionit është e saktë të vizatohet ndryshorja e varur - në rastin tonë, "mbështetja SPS" në boshtin Y, ndërsa në analizën e korrelacionit kjo nuk ka rëndësi. Pas pastrimit të pjesëve të jashtme, grafiku i shpërndarjes duket kështu:

Ideja themelore e analizës së regresionit është se, duke pasur një tendencë të përgjithshme për variablat - në formën e një linje regresioni - është e mundur të parashikohet vlera e ndryshores së varur, duke pasur parasysh vlerat e asaj të pavarur.

Le të imagjinojmë një funksion të zakonshëm matematikor linear. Çdo vijë e drejtë në hapësirën Euklidiane mund të përshkruhet me formulën:

ku a është një konstante që specifikon zhvendosjen përgjatë boshtit të ordinatave; b është një koeficient që përcakton këndin e prirjes së vijës.

Duke ditur pjerrësinë dhe konstanten, mund të llogarisni (parashikoni) vlerën e y për çdo x.

Ky funksion më i thjeshtë formoi bazën e modelit të analizës së regresionit me paralajmërimin se nuk do të parashikojmë saktësisht vlerën e y, por brenda një intervali të caktuar besimi, d.m.th. përafërsisht.

Konstanta është pika e kryqëzimit të vijës së regresionit dhe boshtit y (kryqëzimi F, zakonisht shënohet "përgjues" në paketat statistikore). Në shembullin tonë me votën për Bashkimin e Forcave të Djathta, vlera e rrumbullakosur e tij do të jetë 10.55. Koeficienti këndor b do të jetë afërsisht -0.1 (si në analizën e korrelacionit, shenja tregon llojin e lidhjes - direkt ose invers). Kështu, modeli që rezulton do të ketë formën SP C = -0.1 x Sel. ne. + 10.55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Dallimi midis vlerave origjinale dhe atyre të parashikuara quhet mbetje (ne kemi hasur tashmë këtë term, i cili është thelbësor për statistikat, kur analizojmë tabelat e kontigjencës). Pra, për rastin e “Republikës së Adygeas” pjesa e mbetur do të jetë e barabartë me 3,92 - 5,63 = -1,71. Sa më e madhe të jetë vlera modulare e pjesës së mbetur, aq më pak sukses është vlera e parashikuar.

Ne llogarisim vlerat e parashikuara dhe mbetjet për të gjitha rastet:
Po ndodh U ul. ne. flm

(origjinale)

flm

(e parashikuar)

Mbetjet
Republika e Adygeas 47 3,92 5,63 -1,71 -
Republika e Altait 76 5,4 2,59 2,81
Republika e Bashkortostanit 36 6,04 6,78 -0,74
Republika e Buryatia 41 8,36 6,25 2,11
Republika e Dagestanit 59 1,22 4,37 -3,15
Republika e Ingushetisë 59 0,38 4,37 3,99
etj.

Analiza e raportit të vlerave fillestare dhe të parashikuara shërben për të vlerësuar cilësinë e modelit që rezulton dhe aftësinë e tij parashikuese. Një nga treguesit kryesorë të statistikave të regresionit është koeficienti i korrelacionit të shumëfishtë R - koeficienti i korrelacionit midis vlerave origjinale dhe të parashikuara të ndryshores së varur. Në analizën e regresionit të çiftuar, është e barabartë me koeficientin e zakonshëm të korrelacionit Pearson midis variablave të varur dhe të pavarur, në rastin tonë - 0.63. Për të interpretuar në mënyrë kuptimplotë shumëfishin R, ai duhet të shndërrohet në një koeficient përcaktimi. Kjo bëhet në të njëjtën mënyrë si në analizën e korrelacionit - me katror. Koeficienti i përcaktimit R-katror (R 2) tregon proporcionin e variacionit në variablin e varur që shpjegohet nga variablat e pavarur.

Në rastin tonë, R 2 = 0,39 (0,63 2); kjo do të thotë se variabli “pjesa e popullsisë rurale” shpjegon afërsisht 40% të variacionit në variablin “mbështetje SPS”. Sa më i madh të jetë koeficienti i përcaktimit, aq më i lartë është cilësia e modelit.

Një tregues tjetër i cilësisë së modelit është gabimi standard i vlerësimit. Kjo është një masë se sa gjerësisht pikat janë "të shpërndara" rreth vijës së regresionit. Masa e përhapjes për variablat e intervalit është devijimi standard. Prandaj, gabimi standard i vlerësimit është devijimi standard i shpërndarjes së mbetjeve. Sa më e lartë vlera e tij, aq më i madh është shpërndarja dhe aq më i keq është modeli. Në rastin tonë, gabimi standard është 2.18. Është me këtë shumë që modeli ynë do të "gabojë mesatarisht" kur parashikon vlerën e ndryshores "mbështetje SPS".

Statistikat e regresionit përfshijnë gjithashtu analizën e variancës. Me ndihmën e tij zbulojmë: 1) çfarë proporcioni të variacionit (dispersionit) të ndryshores së varur shpjegohet nga ndryshorja e pavarur; 2) çfarë proporcioni të variancës së variablit të varur llogaritet nga mbetjet (pjesa e pashpjegueshme); 3) cili është raporti i këtyre dy sasive (/"-raporti). Statistikat e dispersionit janë veçanërisht të rëndësishme për studimet e mostrës - tregon se sa e mundshme është që të ketë një lidhje midis variablave të pavarur dhe të varur në popullatë. Megjithatë, për studimet e vazhdueshme (si në shembullin tonë) rezultatet e studimit të analizës së variancës nuk janë të dobishme. Në këtë rast, ato kontrollojnë nëse modeli statistikor i identifikuar është shkaktuar nga një kombinim rrethanash të rastësishme, sa karakteristik është për kompleksin e kushteve në të cilat Popullsia që shqyrtohet është e vendosur, d.m.th konstatohet se rezultati i marrë nuk është i vërtetë për ndonjë agregat të përgjithshëm më të gjerë, por shkalla e rregullsisë së saj, liria nga ndikimet e rastësishme.

Në rastin tonë, statistikat ANOVA janë si më poshtë:

SS df ZNJ F kuptimi
Regresi. 258,77 1,00 258,77 54,29 0.000000001
Pjesa e mbetur 395,59 83,00 L, 11
Total 654,36

Raporti F prej 54.29 është i rëndësishëm në nivelin 0.0000000001. Prandaj, ne mund të hedhim poshtë me besim hipotezën zero (që marrëdhënia që zbuluam është për shkak të rastësisë).

Kriteri t kryen një funksion të ngjashëm, por në lidhje me koeficientët e regresionit (kryqëzimi këndor dhe F). Duke përdorur kriterin / testojmë hipotezën se në popullatën e përgjithshme koeficientët e regresionit janë të barabartë me zero. Në rastin tonë, ne përsëri mund të hedhim poshtë me besim hipotezën zero.

Analiza e regresionit të shumëfishtë

Modeli i regresionit të shumëfishtë është pothuajse identik me modelin e regresionit të çiftuar; I vetmi ndryshim është se disa variabla të pavarur përfshihen në mënyrë sekuenciale në funksionin linear:

Y = b1X1 + b2X2 + …+ bpXp + a.

Nëse ka më shumë se dy variabla të pavarur, ne nuk jemi në gjendje të marrim një ide vizuale të marrëdhënies së tyre; në këtë drejtim, regresioni i shumëfishtë është më pak "vizual" sesa regresioni çift. Kur keni dy ndryshore të pavarura, mund të jetë e dobishme t'i shfaqni të dhënat në një skemë shpërndarjeje 3D. Në paketat e softuerit statistikor profesional (për shembull, Statistica) ekziston një mundësi për të rrotulluar një grafik tre-dimensionale, i cili ju lejon të përfaqësoni vizualisht strukturën e të dhënave mirë.

Kur punoni me regresion të shumëfishtë, në krahasim me regresionin në çift, është e nevojshme të përcaktohet algoritmi i analizës. Algoritmi standard përfshin të gjithë parashikuesit e disponueshëm në modelin përfundimtar të regresionit. Algoritmi hap pas hapi përfshin përfshirjen (përjashtimin) vijues të variablave të pavarur bazuar në "peshën" e tyre shpjeguese. Metoda hap pas hapi është e mirë kur ka shumë variabla të pavarur; ai "pastron" modelin nga parashikuesit sinqerisht të dobët, duke e bërë atë më kompakt dhe konciz.

Një kusht shtesë për korrektësinë e regresionit të shumëfishtë (së bashku me intervalin, normalitetin dhe linearitetin) është mungesa e multikolinearitetit - prania e korrelacioneve të forta midis variablave të pavarur.

Interpretimi i statistikave të regresionit të shumëfishtë përfshin të gjithë elementët që kemi shqyrtuar për rastin e regresionit në çift. Përveç kësaj, ka komponentë të tjerë të rëndësishëm për statistikat e analizës së regresionit të shumëfishtë.

Ne do ta ilustrojmë punën me regresion të shumëfishtë duke përdorur shembullin e testimit të hipotezave që shpjegojnë dallimet në nivelin e aktivitetit elektoral në rajonet ruse. Studime specifike empirike kanë sugjeruar që nivelet e pjesëmarrjes në votime ndikohen nga:

Faktori kombëtar (variabli "popullsia ruse"; i funksionalizuar si pjesa e popullsisë ruse në entitetet përbërëse të Federatës Ruse). Supozohet se një rritje në përqindjen e popullsisë ruse çon në një ulje të pjesëmarrjes në votime;

Faktori i urbanizimit (variabli "popullsia urbane"; i funksionalizuar si përqindje e popullsisë urbane në entitetet përbërëse të Federatës Ruse; ne kemi punuar tashmë me këtë faktor si pjesë e analizës së korrelacionit). Supozohet se një rritje në përqindjen e popullsisë urbane çon gjithashtu në një ulje të pjesëmarrjes në votime.

Variabli i varur - “intensiteti i aktivitetit elektoral” (“aktiv”) është operacionalizuar nëpërmjet të dhënave mesatare të pjesëmarrjes sipas rajoneve në zgjedhjet federale nga viti 1995 deri në vitin 2003. Tabela fillestare e të dhënave për dy ndryshore të pavarura dhe një variabël të varur do të jetë si më poshtë:

Po ndodh Variablat
Asetet. Gor. ne. Rusia. ne.
Republika e Adygeas 64,92 53 68
Republika e Altait 68,60 24 60
Republika e Buryatia 60,75 59 70
Republika e Dagestanit 79,92 41 9
Republika e Ingushetisë 75,05 41 23
Republika e Kalmykisë 68,52 39 37
Republika Karachay-Cerkess 66,68 44 42
Republika e Karelia 61,70 73 73
Republika e Komit 59,60 74 57
Mari El Republika 65,19 62 47

etj. (pas pastrimit të emetimeve, 83 nga 88 raste mbeten)

Statistikat që përshkruajnë cilësinë e modelit:

1. R e shumëfishta = 0,62; L-katror = 0,38. Për rrjedhojë, faktori kombëtar dhe ai i urbanizimit shpjegojnë së bashku rreth 38% të variacionit në variablin “aktiviteti elektoral”.

2. Gabimi mesatar është 3.38. Kjo është saktësisht se sa "mesatarisht i gabuar" është modeli i ndërtuar kur parashikohet niveli i pjesëmarrjes.

3. /l-raporti i variacionit të shpjeguar dhe të pashpjegueshëm është 25.2 në nivelin 0.000000003. Hipoteza zero për rastësinë e marrëdhënieve të identifikuara refuzohet.

4. Kriteri / për koeficientët konstant dhe regresiv të variablave “popullsia urbane” dhe “popullsia ruse” është i rëndësishëm në nivelin 0.0000001; 0,00005 dhe 0,007 respektivisht. Hipoteza zero se koeficientët janë të rastësishëm refuzohet.

Statistikat shtesë të dobishme në analizimin e marrëdhënies midis vlerave origjinale dhe të parashikuara të ndryshores së varur janë distanca Mahalanobis dhe distanca e Cook. E para është një masë e veçantisë së rastit (tregon sa shumë devijon kombinimi i vlerave të të gjitha variablave të pavarur për një rast të caktuar nga vlera mesatare për të gjitha variablat e pavarur në të njëjtën kohë). E dyta është një masë e ndikimit të çështjes. Vëzhgime të ndryshme kanë efekte të ndryshme në pjerrësinë e vijës së regresionit dhe distanca e Cook mund të përdoret për t'i krahasuar ato në këtë tregues. Kjo mund të jetë e dobishme kur pastroni pikat e jashtme (një rast i jashtëm mund të konsiderohet si një rast tepër me ndikim).

Në shembullin tonë, rastet unike dhe me ndikim përfshijnë Dagestan.

Po ndodh Origjinale

vlerat

Predska

vlerat

Mbetjet Largësia

Mahalanobis

Largësia
Adygea 64,92 66,33 -1,40 0,69 0,00
Republika e Altait 68,60 69.91 -1,31 6,80 0,01
Republika e Buryatia 60,75 65,56 -4,81 0,23 0,01
Republika e Dagestanit 79,92 71,01 8,91 10,57 0,44
Republika e Ingushetisë 75,05 70,21 4,84 6,73 0,08
Republika e Kalmykisë 68,52 69,59 -1,07 4,20 0,00

Vetë modeli i regresionit ka këto parametra: Y-kryqëzimi (konstante) = 75.99; b (horizontale) = -0,1; Kommersant (rusisht nas.) = -0,06. Formula përfundimtare.

Në postimet e mëparshme, analiza shpesh fokusohej në një ndryshore të vetme numerike, të tilla si kthimet e fondeve të përbashkëta, kohët e ngarkimit të faqeve në internet ose konsumi i pijeve joalkoolike. Në këtë dhe shënimet pasuese, ne do të shikojmë metodat për parashikimin e vlerave të një ndryshoreje numerike në varësi të vlerave të një ose më shumë ndryshoreve të tjera numerike.

Materiali do të ilustrohet me një shembull tërthor. Parashikimi i vëllimit të shitjeve në një dyqan veshjesh. Zinxhiri i dyqaneve të veshjeve me zbritje Sunflowers është zgjeruar vazhdimisht për 25 vjet. Megjithatë, kompania aktualisht nuk ka një qasje sistematike për zgjedhjen e pikave të reja. Vendndodhja në të cilën një kompani synon të hapë një dyqan të ri përcaktohet bazuar në konsiderata subjektive. Kriteret e përzgjedhjes janë kushtet e favorshme të qirasë ose ideja e menaxherit për vendndodhjen ideale të dyqanit. Imagjinoni që jeni drejtuesi i departamentit të projekteve speciale dhe planifikimit. Ju keni marrë për detyrë të zhvilloni një plan strategjik për hapjen e dyqaneve të reja. Ky plan duhet të përfshijë një parashikim të shitjeve vjetore për dyqanet e sapohapura. Ju besoni se hapësira e shitjes me pakicë lidhet drejtpërdrejt me të ardhurat dhe dëshironi ta faktorizoni këtë në procesin tuaj të vendimmarrjes. Si të zhvilloni një model statistikor për të parashikuar shitjet vjetore bazuar në madhësinë e një dyqani të ri?

Në mënyrë tipike, analiza e regresionit përdoret për të parashikuar vlerat e një ndryshoreje. Qëllimi i tij është të zhvillojë një model statistikor që mund të parashikojë vlerat e një ndryshoreje të varur, ose përgjigje, nga vlerat e të paktën një ndryshoreje të pavarur, ose shpjeguese. Në këtë shënim, ne do të shikojmë regresionin e thjeshtë linear - një metodë statistikore që ju lejon të parashikoni vlerat e një variabli të varur Y nga vlerat e ndryshoreve të pavarura X. Shënimet pasuese do të përshkruajnë një model regresioni të shumëfishtë i krijuar për të parashikuar vlerat e një ndryshoreje të pavarur Y bazuar në vlerat e disa variablave të varur ( X 1, X 2, …, X k).

Shkarkoni shënimin në ose format, shembuj në format

Llojet e modeleve të regresionit

Ku ρ 1 – koeficienti i autokorrelacionit; Nëse ρ 1 = 0 (pa autokorrelacion), D≈ 2; Nëse ρ 1 ≈ 1 (autokorrelacion pozitiv), D≈ 0; Nëse ρ 1 = -1 (autokorrelacion negativ), D ≈ 4.

Në praktikë, zbatimi i kriterit Durbin-Watson bazohet në krahasimin e vlerës D me vlera teorike kritike d L Dhe d U për një numër të caktuar vëzhgimesh n, numri i variablave të pavarur të modelit k(për regresion të thjeshtë linear k= 1) dhe niveli i rëndësisë α. Nëse D< d L , hipoteza për pavarësinë e devijimeve të rastësishme refuzohet (prandaj, ekziston një autokorrelacion pozitiv); Nëse D>dU, hipoteza nuk hidhet poshtë (d.m.th. nuk ka autokorrelacion); Nëse d L< D < d U , nuk ka arsye të mjaftueshme për të marrë një vendim. Kur vlera e llogaritur D kalon 2, pastaj me d L Dhe d U Nuk është vetë koeficienti që krahasohet D, dhe shprehja (4 - D).

Për të llogaritur statistikat Durbin-Watson në Excel, le të kthehemi në tabelën e poshtme në Fig. 14 Tërheqja e bilancit. Numëruesi në shprehjen (10) llogaritet duke përdorur funksionin =SUMMAR(array1;array2), dhe emëruesin =SUMMAR(array) (Fig. 16).

Oriz. 16. Formulat për llogaritjen e statistikave Durbin-Watson

Në shembullin tonë D= 0,883. Pyetja kryesore është: cila vlerë e statistikës Durbin-Watson duhet të konsiderohet mjaft e vogël për të arritur në përfundimin se ekziston një autokorrelacion pozitiv? Është e nevojshme të lidhet vlera e D me vlerat kritike ( d L Dhe d U), në varësi të numrit të vëzhgimeve n dhe niveli i rëndësisë α (Fig. 17).

Oriz. 17. Vlerat kritike të statistikave Durbin-Watson (fragment tabele)

Kështu, në problemin e vëllimit të shitjeve në një dyqan që dërgon mallra në shtëpi, ekziston një variabël i pavarur ( k= 1), 15 vëzhgime ( n= 15) dhe niveli i rëndësisë α = 0,05. Prandaj, d L= 1,08 dhe dU= 1,36. Sepse D = 0,883 < d L= 1.08, ekziston një autokorrelacion pozitiv midis mbetjeve, metoda e katrorëve më të vegjël nuk mund të përdoret.

Testimi i hipotezave rreth pjerrësisë dhe koeficientit të korrelacionit

Më sipër, regresioni u përdor vetëm për parashikim. Për të përcaktuar koeficientët e regresionit dhe për të parashikuar vlerën e një ndryshoreje Y për një vlerë të dhënë variabël XËshtë përdorur metoda e katrorëve më të vegjël. Përveç kësaj, ne ekzaminuam gabimin mesatar katror të vlerësimit dhe koeficientin e përzier të korrelacionit. Nëse analiza e mbetjeve konfirmon se kushtet e zbatueshmërisë së metodës së katrorëve më të vegjël nuk janë shkelur dhe modeli i thjeshtë i regresionit linear është adekuat, bazuar në të dhënat e mostrës, mund të argumentohet se ekziston një marrëdhënie lineare midis variablave në popullatë.

Aplikaciont -kriteret për pjerrësinë. Duke testuar nëse pjerrësia e popullsisë β 1 është e barabartë me zero, ju mund të përcaktoni nëse ka një lidhje statistikisht domethënëse midis variablave X Dhe Y. Nëse kjo hipotezë refuzohet, mund të argumentohet se midis variablave X Dhe Y ka një marrëdhënie lineare. Hipotezat zero dhe alternative janë formuluar si më poshtë: H 0: β 1 = 0 (nuk ka varësi lineare), H1: β 1 ≠ 0 (ka një varësi lineare). A-parësore t-statistika është e barabartë me diferencën midis pjerrësisë së mostrës dhe vlerës hipotetike të pjerrësisë së popullatës, e ndarë me rrënjën e gabimit mesatar katror të vlerësimit të pjerrësisë:

(11) t = (b 1 β 1 ) / S b 1

Ku b 1 – pjerrësia e regresionit të drejtpërdrejtë në të dhënat e mostrës, β1 – pjerrësia hipotetike e popullsisë direkte, , dhe statistikat e testimit t Ajo ka t-shpërndarja me n – 2 shkallët e lirisë.

Le të kontrollojmë nëse ka një lidhje statistikisht domethënëse midis madhësisë së dyqanit dhe shitjeve vjetore në α = 0.05. t-kriteri shfaqet së bashku me parametrat e tjerë kur përdoret Paketa e analizës(opsion Regresioni). Rezultatet e plota të Paketës së Analizës janë paraqitur në Fig. 4, fragment i lidhur me statistikat t - në Fig. 18.

Oriz. 18. Rezultatet e aplikimit t

Që nga numri i dyqaneve n= 14 (shih Fig. 3), vlera kritike t-statistikat në një nivel të rëndësisë prej α = 0,05 mund të gjenden duke përdorur formulën: t L=STUDENT.ARV(0.025,12) = –2.1788, ku 0.025 është gjysma e nivelit të rëndësisë dhe 12 = n – 2; t U=STUDENT.OBR(0.975,12) = +2.1788.

Sepse t-statistika = 10,64 > t U= 2,1788 (Fig. 19), hipotezë zero H 0 refuzuar. Ne anen tjeter, R-vlera për X= 10,6411, e llogaritur me formulën =1-STUDENT.DIST(D3,12,TRUE), është afërsisht e barabartë me zero, kështu që hipoteza H 0 sërish refuzuar. Fakti që R-Vlera pothuajse zero do të thotë që nëse nuk do të kishte një lidhje të vërtetë lineare midis madhësive të dyqaneve dhe shitjeve vjetore, do të ishte praktikisht e pamundur të zbulohej duke përdorur regresionin linear. Prandaj, ekziston një lidhje lineare statistikisht e rëndësishme midis shitjeve mesatare vjetore të dyqaneve dhe madhësisë së dyqanit.

Oriz. 19. Testimi i hipotezës për pjerrësinë e popullsisë në një nivel rëndësie prej 0,05 dhe 12 gradë lirie

AplikacionF -kriteret për pjerrësinë. Një qasje alternative për testimin e hipotezave në lidhje me pjerrësinë e regresionit të thjeshtë linear është të përdoret F- kriteret. Le t'ju kujtojmë se F-testi përdoret për të testuar lidhjen midis dy variancave (për më shumë detaje, shih). Gjatë testimit të hipotezës së pjerrësisë, masa e gabimeve të rastësishme është varianca e gabimit (shuma e gabimeve në katror të pjesëtuar me numrin e shkallëve të lirisë), pra F-kriteri përdor raportin e variancës së shpjeguar nga regresioni (d.m.th. vlera SSR, pjesëtuar me numrin e variablave të pavarur k), te varianca e gabimit ( MSE = S YX 2 ).

A-parësore F-statistika është e barabartë me katrorin mesatar të regresionit (MSR) pjesëtuar me variancën e gabimit (MSE): F = MSR/ NVM, Ku MSR=SSR / k, MSE =SSE/(n– k – 1), k– numri i variablave të pavarur në modelin e regresionit. Statistikat e testimit F Ajo ka F-shpërndarja me k Dhe n– k – 1 shkallët e lirisë.

Për një nivel të caktuar të rëndësisë α, rregulli i vendimit formulohet si më poshtë: nëse F>FU, hipoteza zero hidhet poshtë; përndryshe nuk refuzohet. Rezultatet, të paraqitura në formën e një tabele përmbledhëse të analizës së variancës, janë paraqitur në Fig. 20.

Oriz. 20. Tabela e analizës së variancës për testimin e hipotezës për rëndësinë statistikore të koeficientit të regresionit

Po kështu t-kriter F-kriteri shfaqet në tabelë kur përdoret Paketa e analizës(opsion Regresioni). Rezultatet e plota të punës Paketa e analizës janë paraqitur në Fig. 4, fragment që lidhet me F-statistikat - në Fig. 21.

Oriz. 21. Rezultatet e aplikimit F-kriteret e marra duke përdorur Paketën e Analizës Excel

Statistika F është 113.23, dhe R-vlera afër zeros (qeliza RëndësiaF). Nëse niveli i rëndësisë α është 0,05, përcaktoni vlerën kritike F-Shpërndarjet me një dhe 12 shkallë lirie mund të merren duke përdorur formulën F U=F.OBR(1-0.05;1;12) = 4.7472 (Fig. 22). Sepse F = 113,23 > F U= 4,7472, dhe R-vlera afër 0< 0,05, нулевая гипотеза H 0 refuzohet, d.m.th. Madhësia e një dyqani është e lidhur ngushtë me shitjet e tij vjetore.

Oriz. 22. Testimi i hipotezës së pjerrësisë së popullsisë në një nivel të rëndësisë 0.05 me një dhe 12 shkallë lirie

Intervali i besimit që përmban pjerrësinë β 1 . Për të testuar hipotezën se ekziston një marrëdhënie lineare midis variablave, mund të ndërtoni një interval besimi që përmban pjerrësinë β 1 dhe të verifikoni që vlera hipotetike β 1 = 0 i përket këtij intervali. Qendra e intervalit të besimit që përmban pjerrësinë β 1 është pjerrësia e mostrës b 1 , dhe kufijtë e saj janë sasitë b 1 ±tn –2 S b 1

Siç tregohet në Fig. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =STUDENT.ARV(0.975,12) = 2.1788. Prandaj, b 1 ±tn –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ose + 1,328 ≤ β 1 ≤ +2,012. Kështu, ekziston një probabilitet prej 0,95 që pjerrësia e popullsisë të jetë midis +1,328 dhe +2,012 (d.m.th., 1,328,000 deri në 2,012,000 dollarë). Meqenëse këto vlera janë më të mëdha se zero, ekziston një lidhje lineare statistikisht e rëndësishme midis shitjeve vjetore dhe zonës së dyqanit. Nëse intervali i besimit përmban zero, nuk do të kishte asnjë lidhje midis variablave. Përveç kësaj, intervali i besimit do të thotë që çdo rritje e sipërfaqes së dyqanit me 1000 sq. ft rezulton në një rritje të vëllimit mesatar të shitjeve midis 1,328,000 dhe 2,012,000 dollarë.

Përdorimit -kriteret për koeficientin e korrelacionit. u prezantua koeficienti i korrelacionit r, e cila është një masë e marrëdhënies midis dy ndryshoreve numerike. Mund të përdoret për të përcaktuar nëse ka një lidhje statistikisht domethënëse midis dy variablave. Le të shënojmë koeficientin e korrelacionit midis popullatave të të dy variablave me simbolin ρ. Hipotezat zero dhe alternative janë formuluar si më poshtë: H 0: ρ = 0 (pa korrelacion), H 1: ρ ≠ 0 (ka një korrelacion). Kontrollimi i ekzistencës së një korrelacioni:

Ku r = + , Nëse b 1 > 0, r = – , Nëse b 1 < 0. Тестовая статистика t Ajo ka t-shpërndarja me n – 2 shkallët e lirisë.

Në problemin për zinxhirin e dyqaneve Sunflowers r 2= 0,904, a b 1- +1,670 (shih Fig. 4). Sepse b 1> 0, koeficienti i korrelacionit midis shitjeve vjetore dhe madhësisë së dyqanit është r= +√0,904 = +0,951. Le të testojmë hipotezën zero se nuk ka korrelacion midis këtyre variablave duke përdorur t- statistikat:

Në një nivel të rëndësisë prej α = 0.05, hipoteza zero duhet të refuzohet sepse t= 10,64 > 2,1788. Kështu, mund të argumentohet se ekziston një lidhje statistikisht e rëndësishme midis shitjeve vjetore dhe madhësisë së dyqanit.

Kur diskutohen konkluzionet në lidhje me pjerrësinë e popullsisë, intervalet e besimit dhe testet e hipotezave përdoren në mënyrë të ndërsjellë. Megjithatë, llogaritja e intervalit të besimit që përmban koeficientin e korrelacionit rezulton të jetë më e vështirë, pasi lloji i shpërndarjes së kampionit të statistikës r varet nga koeficienti i korrelacionit të vërtetë.

Vlerësimi i pritjes matematikore dhe parashikimi i vlerave individuale

Ky seksion diskuton metodat për vlerësimin e pritshmërisë matematikore të një përgjigjeje Y dhe parashikimet e vlerave individuale Y për vlerat e dhëna të ndryshores X.

Ndërtimi i një intervali besimi. Në shembullin 2 (shih seksionin më lart Metoda me katrorin më të vogël) ekuacioni i regresionit bëri të mundur parashikimin e vlerës së ndryshores Y X. Në problemin e zgjedhjes së një lokacioni për një dyqan me pakicë, vëllimi mesatar vjetor i shitjeve në një dyqan me një sipërfaqe prej 4000 sq. këmbët ishte e barabartë me 7.644 milionë dollarë.Megjithatë, ky vlerësim i pritshmërisë matematikore të popullatës së përgjithshme është pikë-pikë. Për të vlerësuar pritshmërinë matematikore të popullsisë, u propozua koncepti i një intervali besimi. Në mënyrë të ngjashme, ne mund të prezantojmë konceptin intervali i besimit për pritshmërinë matematikore të përgjigjes për një vlerë të dhënë variabël X:

Ku , = b 0 + b 1 X i– vlera e parashikuar është e ndryshueshme YX = X i, S YX- rrënja e gabimit mesatar katror, n- Madhësia e mostrës, Xi- vlera e specifikuar e ndryshores X, µ Y|X = Xi– pritshmëria matematikore e ndryshores YX = Xi, SSX =

Analiza e formulës (13) tregon se gjerësia e intervalit të besimit varet nga disa faktorë. Në një nivel të caktuar rëndësie, një rritje në amplituda e luhatjeve rreth vijës së regresionit, e matur duke përdorur gabimin mesatar katror të rrënjës, çon në një rritje në gjerësinë e intervalit. Nga ana tjetër, siç mund të pritej, një rritje në madhësinë e kampionit shoqërohet me një ngushtim të intervalit. Përveç kësaj, gjerësia e intervalit ndryshon në varësi të vlerave Xi. Nëse vlera e ndryshores Y parashikuar për sasitë X, afër vlerës mesatare , intervali i besimit rezulton të jetë më i ngushtë se kur parashikohet përgjigja për vlera larg mesatares.

Le të themi se kur zgjedhim vendndodhjen e dyqanit, duam të ndërtojmë një interval besimi prej 95% për shitjet mesatare vjetore të të gjitha dyqaneve sipërfaqja e të cilave është 4000 metra katrorë. këmbët:

Prandaj, vëllimi mesatar vjetor i shitjeve në të gjitha dyqanet me një sipërfaqe prej 4,000 sq. këmbë, me 95% probabilitet shtrihet në rangun nga 6,971 deri në 8,317 milionë dollarë.

Llogaritni intervalin e besimit për vlerën e parashikuar. Përveç intervalit të besimit për pritshmërinë matematikore të përgjigjes për një vlerë të caktuar të ndryshores X, shpesh është e nevojshme të dihet intervali i besimit për vlerën e parashikuar. Megjithëse formula për llogaritjen e një intervali të tillë besimi është shumë e ngjashme me formulën (13), ky interval përmban vlerën e parashikuar dhe jo vlerësimin e parametrave. Intervali për përgjigjen e parashikuar YX = Xi për një vlerë të ndryshueshme specifike Xi përcaktohet nga formula:

Supozoni se, kur zgjedhim një vendndodhje për një dyqan me pakicë, duam të ndërtojmë një interval besimi 95% për vëllimin e parashikuar vjetor të shitjeve për një dyqan, sipërfaqja e të cilit është 4000 metra katrorë. këmbët:

Prandaj, vëllimi i parashikuar vjetor i shitjeve për një dyqan me një sipërfaqe prej 4000 sq. këmbë, me një probabilitet 95% shtrihet në rangun nga 5,433 deri në 9,854 milionë dollarë.Siç mund të shohim, intervali i besimit për vlerën e parashikuar të përgjigjes është shumë më i gjerë se intervali i besimit për pritjet e tij matematikore. Kjo për shkak se ndryshueshmëria në parashikimin e vlerave individuale është shumë më e madhe sesa në vlerësimin e pritshmërisë matematikore.

Grackat dhe çështjet etike që lidhen me përdorimin e regresionit

Vështirësitë që lidhen me analizën e regresionit:

  • Injorimi i kushteve të zbatueshmërisë së metodës së katrorëve më të vegjël.
  • Vlerësimi i gabuar i kushteve për zbatueshmërinë e metodës së katrorëve më të vegjël.
  • Zgjedhja e gabuar e metodave alternative kur shkelen kushtet e zbatueshmërisë së metodës së katrorëve më të vegjël.
  • Zbatimi i analizës së regresionit pa njohuri të thella të lëndës së hulumtimit.
  • Ekstrapolimi i një regresioni përtej intervalit të variablit shpjegues.
  • Konfuzioni midis marrëdhënieve statistikore dhe shkakore.

Përdorimi i gjerë i tabelave dhe softuerit statistikor ka eliminuar problemet llogaritëse që kishin penguar përdorimin e analizës së regresionit. Megjithatë, kjo çoi në faktin se analiza e regresionit u përdor nga përdorues që nuk kishin kualifikime dhe njohuri të mjaftueshme. Si mund të dinë përdoruesit për metodat alternative nëse shumë prej tyre nuk kanë fare ide për kushtet e zbatueshmërisë së metodës së katrorëve më të vegjël dhe nuk dinë të kontrollojnë zbatimin e tyre?

Studiuesi nuk duhet të rrëmbehet nga numrat rrënqethës - duke llogaritur zhvendosjen, pjerrësinë dhe koeficientin e korrelacionit të përzier. Ai ka nevojë për njohuri më të thella. Le ta ilustrojmë këtë me një shembull klasik të marrë nga tekstet shkollore. Anscombe tregoi se të katër grupet e të dhënave të paraqitura në Fig. 23, kanë të njëjtat parametra regresioni (Fig. 24).

Oriz. 23. Katër grupe të dhënash artificiale

Oriz. 24. Analiza e regresionit të katër grupeve të të dhënave artificiale; bërë me Paketa e analizës(kliko mbi foto për ta zmadhuar imazhin)

Pra, nga pikëpamja e analizës së regresionit, të gjitha këto grupe të dhënash janë plotësisht identike. Nëse analiza do të përfundonte aty, do të humbnim shumë informacione të dobishme. Kjo dëshmohet nga parcelat e shpërndarjes (Figura 25) dhe ngastrat e mbetura (Figura 26) të ndërtuara për këto grupe të dhënash.

Oriz. 25. Shpërndani grafikët për katër grupe të dhënash

Grafikët e shpërndarjes dhe parcelat e mbetura tregojnë se këto të dhëna ndryshojnë nga njëra-tjetra. I vetmi grup i shpërndarë përgjatë një vije të drejtë është vendosur A. Grafiku i mbetjeve të llogaritura nga grupi A nuk ka asnjë model. Kjo nuk mund të thuhet për grupet B, C dhe D. Grafiku i shpërndarjes i paraqitur për grupin B tregon një model të theksuar kuadratik. Ky përfundim konfirmohet nga parcela e mbetur, e cila ka një formë parabolike. Grafiku i shpërndarjes dhe grafiku i mbetur tregojnë se grupi i të dhënave B përmban një vlerë të jashtme. Në këtë situatë, është e nevojshme të përjashtohet vlera e jashtme nga grupi i të dhënave dhe të përsëritet analiza. Një metodë për zbulimin dhe eliminimin e pikave të jashtme në vëzhgime quhet analiza e ndikimit. Pas eliminimit të periferisë, rezultati i rivlerësimit të modelit mund të jetë krejtësisht i ndryshëm. Skaterploti i grafikuar nga të dhënat nga grupi G ilustron një situatë të pazakontë në të cilën modeli empirik varet ndjeshëm nga një përgjigje individuale ( X 8 = 19, Y 8 = 12.5). Modele të tilla regresioni duhet të llogariten veçanërisht me kujdes. Pra, parcelat e shpërndarjes dhe ato të mbetura janë një mjet thelbësor për analizën e regresionit dhe duhet të jenë pjesë përbërëse e tij. Pa to, analiza e regresionit nuk është e besueshme.

Oriz. 26. Ngastra të mbetura për katër grupe të dhënash

Si të shmangni grackat në analizën e regresionit:

  • Analiza e marrëdhënieve të mundshme ndërmjet variablave X Dhe Y gjithmonë filloni duke vizatuar një grafik shpërndarjeje.
  • Para se të interpretoni rezultatet e analizës së regresionit, kontrolloni kushtet për zbatueshmërinë e tij.
  • Paraqitni mbetjet kundrejt ndryshores së pavarur. Kjo do të bëjë të mundur përcaktimin se sa mirë përputhet modeli empirik me rezultatet e vëzhgimit dhe zbulimin e një shkeljeje të qëndrueshmërisë së variancës.
  • Përdorni histogramet, grafikët e kërcellit dhe gjetheve, parcelat e kutive dhe grafikët e shpërndarjes normale për të testuar supozimin e një shpërndarjeje normale të gabimit.
  • Nëse kushtet për zbatueshmërinë e metodës së katrorëve më të vegjël nuk plotësohen, përdorni metoda alternative (për shembull, modelet e regresionit kuadratik ose të shumëfishtë).
  • Nëse plotësohen kushtet për zbatueshmërinë e metodës së katrorëve më të vegjël, është e nevojshme të testohet hipoteza për rëndësinë statistikore të koeficientëve të regresionit dhe të ndërtohen intervale besimi që përmbajnë pritshmërinë matematikore dhe vlerën e parashikuar të përgjigjes.
  • Shmangni parashikimin e vlerave të ndryshores së varur jashtë gamës së ndryshores së pavarur.
  • Mbani në mend se marrëdhëniet statistikore nuk janë gjithmonë shkak-pasojë. Mos harroni se korrelacioni midis variablave nuk do të thotë se ka një marrëdhënie shkak-pasojë midis tyre.

Përmbledhje. Siç tregohet në bllok diagramin (Figura 27), shënimi përshkruan modelin e thjeshtë të regresionit linear, kushtet për zbatueshmërinë e tij dhe mënyrën e testimit të këtyre kushteve. Konsiderohet t-kriteri për testimin e rëndësisë statistikore të pjerrësisë së regresionit. Një model regresioni është përdorur për të parashikuar vlerat e ndryshores së varur. Një shembull konsiderohet i lidhur me zgjedhjen e vendndodhjes për një pikë shitjeje me pakicë, në të cilën shqyrtohet varësia e vëllimit vjetor të shitjeve nga zona e dyqanit. Informacioni i marrë ju lejon të zgjidhni më saktë një vendndodhje për një dyqan dhe të parashikoni vëllimin e tij vjetor të shitjeve. Shënimet e mëposhtme do të vazhdojnë diskutimin e analizës së regresionit dhe gjithashtu do të shikojnë modelet e shumëfishta të regresionit.

Oriz. 27. Shënim diagramin e strukturës

Janë përdorur materiale nga libri Levin et al Statistics for Managers. – M.: Williams, 2004. – f. 792–872

Nëse ndryshorja e varur është kategorike, duhet të përdoret regresioni logjistik.

PËRFUNDIMI I REZULTATEVE

Tabela 8.3a. Statistikat e regresionit
Statistikat e regresionit
Shumësi R 0,998364
R-katror 0,99673
R-katrore e normalizuar 0,996321
Gabim standard 0,42405
Vëzhgimet 10

Së pari, le të shohim pjesën e sipërme të llogaritjeve, të paraqitura në tabelën 8.3a - statistikat e regresionit.

Vlera R-katror, ​​e quajtur edhe një masë sigurie, karakterizon cilësinë e vijës së regresionit që rezulton. Kjo cilësi shprehet me shkallën e korrespondencës ndërmjet të dhënave burimore dhe modelit të regresionit (të dhënat e llogaritura). Masa e sigurisë është gjithmonë brenda intervalit.

Në shumicën e rasteve, vlera R-katrore bie midis këtyre vlerave, të quajtura vlera ekstreme, d.m.th. mes zeros dhe një.

Nëse vlera R-katrore është afër një, kjo do të thotë se modeli i ndërtuar shpjegon pothuajse të gjithë ndryshueshmërinë në variablat përkatëse. Në të kundërt, një vlerë në katror R afër zeros do të thotë se cilësia e modelit të ndërtuar është e dobët.

Në shembullin tonë, masa e sigurisë është 0.99673, që tregon një përshtatje shumë të mirë të linjës së regresionit me të dhënat origjinale.

Shumësi R- koeficienti i korrelacionit të shumëfishtë R - shpreh shkallën e varësisë së variablave të pavarur (X) dhe ndryshores së varur (Y).

Shumëfishi R është i barabartë me rrënjën katrore të koeficientit të përcaktimit; kjo sasi merr vlera në intervalin nga zero në një.

Në analizën e thjeshtë të regresionit linear, shumëfishi R është i barabartë me koeficientin e korrelacionit Pearson. Në të vërtetë, shumëfishi R në rastin tonë është i barabartë me koeficientin e korrelacionit Pearson nga shembulli i mëparshëm (0.998364).

Tabela 8.3b. Koeficientët e regresionit
Shanset Gabim standard t-statistika
Kryqëzimi Y 2,694545455 0,33176878 8,121757129
Variabli X 1 2,305454545 0,04668634 49,38177965
* Ofrohet një version i shkurtuar i llogaritjeve

Tani merrni parasysh pjesën e mesme të llogaritjeve, të paraqitura në tabelën 8.3b. Këtu jepet koeficienti i regresionit b (2.305454545) dhe zhvendosja përgjatë boshtit të ordinatave, d.m.th. konstante a (2,694545455).

Bazuar në llogaritjet, ne mund të shkruajmë ekuacionin e regresionit si më poshtë:

Y= x*2.305454545+2.694545455

Drejtimi i marrëdhënies ndërmjet variablave përcaktohet në bazë të shenjave (negative ose pozitive) koeficientët e regresionit(koeficienti b).

Nëse shenja në koeficienti i regresionit- pozitive, marrëdhënia ndërmjet ndryshores së varur dhe variablit të pavarur do të jetë pozitive. Në rastin tonë, shenja e koeficientit të regresionit është pozitive, prandaj edhe marrëdhënia është pozitive.

Nëse shenja në koeficienti i regresionit- negative, marrëdhënia ndërmjet ndryshores së varur dhe ndryshores së pavarur është negative (e anasjelltë).

Në tabelën 8.3c. Janë paraqitur rezultatet e derivimit të mbetjeve. Në mënyrë që këto rezultate të shfaqen në raport, duhet të aktivizoni kutinë e zgjedhjes "Reziduals" kur përdorni mjetin "Regresion".

TERHEQJA E PJESES

Tabela 8.3c. Mbetjet
Vrojtim Parashikoi Y Mbetjet Bilancet standarde
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Duke përdorur këtë pjesë të raportit, ne mund të shohim devijimet e secilës pikë nga vija e ndërtuar e regresionit. Vlera më e madhe absolute

KATEGORITË

ARTIKUJ POPULLOR

2023 "kingad.ru" - ekzaminimi me ultratinguj i organeve të njeriut