Lineáris regressziós együttható képlete. Regressziós egyenlet

A regresszióanalízis egy statisztikai kutatási módszer, amely lehetővé teszi egy paraméter egy vagy több független változótól való függésének kimutatását. A számítógépek előtti korszakban használata meglehetősen nehézkes volt, különösen, ha nagy mennyiségű adatról volt szó. Ma, miután megtanulta, hogyan kell regressziót készíteni az Excelben, néhány perc alatt megoldhat összetett statisztikai problémákat. Az alábbiakban konkrét példákat mutatunk be a közgazdaságtan területéről.

A regresszió típusai

Magát a fogalmat 1886-ban vezették be a matematikába. Regresszió történik:

  • lineáris;
  • parabolikus;
  • erő;
  • exponenciális;
  • hiperbolikus;
  • demonstratív;
  • logaritmikus.

1. példa

Tekintsük azt a problémát, hogy meghatározzuk a nyugdíjba vonult csapattagok számának az átlagos fizetéstől való függését 6 ipari vállalkozásnál.

Feladat. Hat vállalkozásnál elemeztük a havi átlagkeresetet és a szabad akaratból távozók számát. Táblázatos formában a következőket kapjuk:

A távozók száma

Fizetés

30 000 rubel

35 000 rubel

40 000 rubel

45 000 rubel

50 000 rubel

55 000 rubel

60 000 rubel

A nyugdíjasok számának az átlagkeresettől való függőségének meghatározására 6 vállalkozásnál a regressziós modell az Y = a 0 + a 1 x 1 +…+a k x k egyenlet alakja, ahol x i a befolyásoló változók , a i a regressziós együtthatók, a k a tényezők száma.

Ennél a feladatnál Y a kilépő munkavállalók mutatója, befolyásoló tényező pedig a fizetés, amit X-szel jelölünk.

Az "Excel" táblázat lehetőségeinek használata

Az Excelben a regressziós elemzést meg kell előznie a beépített függvények alkalmazásának a rendelkezésre álló táblázatos adatokra. Azonban ezekre a célokra jobb a nagyon hasznos "Analysis Toolkit" bővítmény használata. Az aktiváláshoz szüksége lesz:

  • a "Fájl" lapon lépjen az "Opciók" szakaszra;
  • a megnyíló ablakban válassza ki a "Kiegészítők" sort;
  • kattintson a "Menet" gombra, amely alul, a "Kezelés" sortól jobbra található;
  • jelölje be az "Elemzési csomag" név melletti négyzetet, és erősítse meg műveleteit az "OK" gombra kattintva.

Ha mindent helyesen csinált, a kívánt gomb megjelenik az Adatok lap jobb oldalán, az Excel munkalap felett.

Excelben

Most, hogy minden szükséges virtuális eszköz kéznél van az ökonometriai számítások elvégzéséhez, megkezdhetjük a probléma megoldását. Ezért:

  • kattintson az "Adatelemzés" gombra;
  • a megnyíló ablakban kattintson a "Regresszió" gombra;
  • a megjelenő lapon adja meg az Y (a kilépő alkalmazottak száma) és az X (fizetéseik) értéktartományát;
  • Az "Ok" gomb megnyomásával erősítjük meg cselekedeteinket.

Ennek eredményeként a program automatikusan feltölti a táblázat új lapját regressziós elemzési adatokkal. Jegyzet! Az Excel képes manuálisan beállítani a kívánt helyet erre a célra. Ez lehet például ugyanaz a lap, ahol az Y és X értékek vannak, vagy akár egy új munkafüzet, amelyet kifejezetten ilyen adatok tárolására terveztek.

Az R-négyzet regressziós eredményeinek elemzése

Az Excelben a vizsgált példa adatainak feldolgozása során kapott adatok így néznek ki:

Mindenekelőtt az R-négyzet értékére kell figyelni. Ez a determinációs együttható. Ebben a példában az R-négyzet = 0,755 (75,5%), azaz a modell számított paraméterei 75,5%-kal magyarázzák a figyelembe vett paraméterek közötti kapcsolatot. Minél nagyobb a determinációs együttható értéke, annál jobban alkalmazható a választott modell egy adott feladatra. Úgy gondolják, hogy 0,8 feletti R-négyzet értékkel helyesen írja le a valós helyzetet. Ha R-négyzet<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Arányanalízis

A 64,1428 szám azt mutatja, hogy mi lesz Y értéke, ha az általunk vizsgált modellben az összes xi változó nullára van állítva. Más szóval, vitatható, hogy az elemzett paraméter értékét olyan egyéb tényezők is befolyásolják, amelyek egy adott modellben nem szerepelnek.

A következő -0,16285 együttható, amely a B18-as cellában található, az X változó Y-ra gyakorolt ​​hatásának súlyát mutatja. Ez azt jelenti, hogy az alkalmazottak átlagos havi fizetése a vizsgált modellen belül -0,16285 súllyal befolyásolja a kilépők számát, azaz. befolyásának mértéke egyáltalán kicsi. A "-" jel azt jelzi, hogy az együttható negatív értékű. Ez nyilvánvaló, hiszen mindenki tudja, hogy minél magasabb a fizetés a vállalkozásnál, annál kevesebben fejezik ki a munkaszerződés felmondását vagy kilépését.

Többszörös regresszió

Ez a kifejezés több független változót tartalmazó kapcsolódási egyenletre vonatkozik:

y \u003d f (x 1 + x 2 + ... x m) + ε, ahol y az effektív jellemző (függő változó), és x 1 , x 2 , ... x m a faktortényezők (független változók).

Paraméterbecslés

A többszörös regresszió (MR) esetében a legkisebb négyzetek (OLS) módszerével történik. Az Y = a + b 1 x 1 +…+b m x m + ε alakú lineáris egyenletekhez normál egyenletrendszert hozunk létre (lásd alább)

A módszer elvének megértéséhez vegyük figyelembe a kéttényezős esetet. Ekkor a képlettel leírt helyzet áll előttünk

Innen kapjuk:

ahol σ az indexben tükröződő megfelelő tulajdonság szórása.

Az LSM szabványosítható skálán alkalmazható az MP egyenletre. Ebben az esetben a következő egyenletet kapjuk:

ahol t y , t x 1, … t xm olyan standardizált változók, amelyekre az átlagértékek 0; β i a standardizált regressziós együtthatók, a szórása pedig 1.

Kérjük, vegye figyelembe, hogy ebben az esetben az összes β i normalizált és központosítottként van beállítva, így egymással való összehasonlításuk helyes és elfogadható. Ezenkívül szokás kiszűrni a tényezőket, figyelmen kívül hagyva azokat, amelyeknek a βi értéke a legkisebb.

Probléma a lineáris regressziós egyenlet használatával

Tegyük fel, hogy van egy táblázat egy adott N termék árdinamikájáról az elmúlt 8 hónapban. Dönteni kell a tétel 1850 rubel/t áron történő megvásárlásának célszerűségéről.

hónap száma

hónap neve

N tétel ára

1750 rubel tonnánként

1755 rubel tonnánként

1767 rubel tonnánként

1760 rubel tonnánként

1770 rubel tonnánként

1790 rubel tonnánként

1810 rubel tonnánként

1840 rubel tonnánként

A probléma Excel táblázatban történő megoldásához a fenti példából már ismert Adatelemző eszközt kell használni. Ezután válassza ki a "Regresszió" részt, és állítsa be a paramétereket. Emlékeztetni kell arra, hogy az "Y beviteli intervallum" mezőben meg kell adni a függő változó értéktartományát (ebben az esetben a termék ára az év adott hónapjaiban), és az "Input" mezőben. intervallum X" - a független változóhoz (hónapszám). Erősítse meg a műveletet az "OK" gombra kattintva. Egy új lapon (ha így volt jelezve) kapunk adatokat a regresszióhoz.

Ezek alapján felállítunk egy y=ax+b formájú lineáris egyenletet, ahol az a és b paraméterek a hónapszám megnevezésű sor együtthatói és az együtthatók, valamint az „Y metszéspont” sor. lap a regresszióanalízis eredményeivel. Így a 3. feladat lineáris regressziós egyenlete (LE) a következőképpen van felírva:

Termék ára N = 11.714* havi szám + 1727.54.

vagy algebrai jelölésben

y = 11,714 x + 1727,54

Az eredmények elemzése

Annak eldöntésére, hogy a kapott lineáris regressziós egyenlet megfelelő-e, többszörös korrelációs együtthatókat (MCC) és meghatározási együtthatókat, valamint Fisher-tesztet és Student-tesztet használnak. A regressziós eredményeket tartalmazó Excel táblázatban többszörös R, R-négyzet, F-statisztika és t-statisztika néven jelennek meg.

A KMC R lehetővé teszi a független és függő változók közötti valószínűségi kapcsolat szorosságának felmérését. Magas értéke meglehetősen erős kapcsolatot jelez a "Hónap száma" és "Az áruk ára N rubelben 1 tonnánként" változók között. Ennek a kapcsolatnak a természete azonban továbbra is ismeretlen.

Az R 2 (RI) determinációs együttható négyzete a teljes szórás arányának numerikus karakterisztikája, és azt mutatja meg, hogy a kísérleti adatok melyik részének, pl. a függő változó értékei megfelelnek a lineáris regressziós egyenletnek. A vizsgált feladatban ez az érték 84,8%, azaz a statisztikai adatokat nagy pontossággal írja le a kapott SD.

Az F-statisztika, más néven Fisher-teszt, egy lineáris kapcsolat jelentőségének felmérésére szolgál, megcáfolva vagy megerősítve a létezéséről szóló hipotézist.

(Hallgatói kritérium) egy lineáris kapcsolat ismeretlen vagy szabad tagjával segíti az együttható szignifikancia értékelését. Ha a t-kritérium értéke > t cr, akkor a lineáris egyenlet szabad tagjának jelentéktelenségére vonatkozó hipotézist elvetjük.

A szabad tagra vizsgált feladatban az Excel eszközök segítségével azt kaptuk, hogy t = 169,20903, és p = 2,89E-12, azaz nulla a valószínűsége annak, hogy a szabad tag jelentéktelenségére vonatkozó helyes hipotézis az lesz. elutasítva. Az ismeretlen együtthatónál t=5,79405 és p=0,001158. Más szavakkal, annak a valószínűsége, hogy a helyes hipotézist az együttható jelentéktelenségéről az ismeretlenre vonatkozóan elutasítják, 0,12%.

Így vitatható, hogy a kapott lineáris regressziós egyenlet megfelelő.

A részvénycsomag vásárlás célszerűségének problémája

Az Excel többszörös regressziója ugyanazzal az adatelemző eszközzel történik. Vegyünk egy konkrét alkalmazott problémát.

Az NNN vezetőségének döntést kell hoznia az MMM SA 20%-os részesedésének megvásárlásának célszerűségéről. A csomag (JV) ára 70 millió USA dollár. Az NNN szakemberei hasonló tranzakciókról gyűjtöttek adatokat. Úgy döntöttek, hogy a részvénycsomag értékét olyan paraméterek szerint értékelik, millió dollárban kifejezve, mint:

  • szállítói kötelezettségek (VK);
  • éves forgalom (VO);
  • követelések (VD);
  • állóeszközök bekerülési értéke (SOF).

Ezen túlmenően a vállalat bérszámfejtési hátraléka (V3 P) paramétert használják több ezer dollárban.

Megoldás Excel táblázat segítségével

Először is létre kell hoznia egy táblázatot a kezdeti adatokról. Ez így néz ki:

  • hívja meg az "Adatelemzés" ablakot;
  • válassza ki a "Regresszió" részt;
  • az "Y beviteli intervallum" mezőbe írja be a függő változók értéktartományát a G oszlopból;
  • kattintson a "Beviteli intervallum X" ablak jobb oldalán található piros nyíllal ellátott ikonra, és válassza ki az összes érték tartományát a lap B, C, D, F oszlopaiból.

Válassza az "Új munkalap" lehetőséget, majd kattintson az "OK" gombra.

Szerezze meg az adott probléma regressziós elemzését.

Az eredmények vizsgálata és következtetések

Az Excel táblázatban fent bemutatott kerekített adatokból „gyűjtjük” a regressziós egyenletet:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Ismertebb matematikai formában a következőképpen írható fel:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

A JSC "MMM" adatait a táblázat tartalmazza:

A regressziós egyenletbe behelyettesítve 64,72 millió dollárt kapnak. Ez azt jelenti, hogy a JSC MMM részvényeit nem szabad megvásárolni, mivel 70 millió dolláros értékük meglehetősen túlzott.

Mint látható, az Excel táblázat és a regressziós egyenlet használata lehetővé tette egy nagyon konkrét tranzakció megvalósíthatóságának megalapozott döntését.

Most már tudod, mi a regresszió. A fent tárgyalt Excel-példák az ökonometria területéből származó gyakorlati problémák megoldásában segítenek.

Az előző megjegyzésekben a hangsúly gyakran egyetlen numerikus változón volt, mint például a befektetési alapok hozama, a weboldalak betöltési ideje vagy az üdítőital-fogyasztás. Ebben és a következő megjegyzésekben megvizsgáljuk a numerikus változó értékeinek előrejelzési módszereit egy vagy több másik numerikus változó értékétől függően.

Az anyagot egy átmenő példával illusztráljuk. Eladási mennyiség előrejelzése egy ruhaüzletben. A Sunflowers akciós ruhaüzletek lánca 25 éve folyamatosan bővül. A vállalatnak azonban jelenleg nincs szisztematikus megközelítése az új üzletek kiválasztásában. Azt, hogy a cég hol szándékozik új üzletet nyitni, szubjektív megfontolások alapján kerül meghatározásra. A kiválasztási szempont a kedvező bérleti feltételek vagy a menedzser elképzelése az üzlet ideális helyéről. Képzelje el, hogy Ön a Speciális Projektek és Tervezési Osztály vezetője. Azt a feladatot kapta, hogy dolgozzon ki egy stratégiai tervet az új üzletek nyitására. Ennek a tervnek tartalmaznia kell az újonnan megnyitott üzletek éves eladásainak előrejelzését. Ön úgy gondolja, hogy a terület értékesítése közvetlenül kapcsolódik a bevételhez, és ezt a tényt szeretné figyelembe venni a döntéshozatali folyamatában. Hogyan dolgozzon ki egy statisztikai modellt, amely előrejelzi az éves eladásokat az új üzletméret alapján?

Általában a regressziós elemzést használják egy változó értékének előrejelzésére. Célja egy olyan statisztikai modell kidolgozása, amely legalább egy független, vagy magyarázó változó értékéből megjósolja a függő változó vagy válasz értékeit. Ebben a megjegyzésben egy egyszerű lineáris regressziót fogunk megvizsgálni - egy statisztikai módszert, amely lehetővé teszi a függő változó értékeinek előrejelzését Y a független változó értékeivel x. A következő megjegyzések egy többszörös regressziós modellt írnak le, amelyet a független változó értékeinek előrejelzésére terveztek Y több függő változó értékével ( X 1 , X 2 , …, X k).

Jegyzet letöltése vagy formátumban, példák formátumban

A regressziós modellek típusai

Ahol ρ 1 az autokorrelációs együttható; Ha ρ 1 = 0 (nincs autokorreláció), D≈ 2; Ha ρ 1 ≈ 1 (pozitív autokorreláció), D≈ 0; Ha ρ 1 = -1 (negatív autokorreláció), D ≈ 4.

A gyakorlatban a Durbin-Watson kritérium alkalmazása az érték összehasonlításán alapul D kritikus elméleti értékekkel dLÉs d U adott számú megfigyeléshez n, a modell független változóinak száma k(egyszerű lineáris regresszióhoz k= 1) és α szignifikanciaszint. Ha D< d L , a véletlen eltérések függetlenségének hipotézise elvetődik (ezért van pozitív autokorreláció); Ha D > d U, a hipotézist nem utasítják el (azaz nincs autokorreláció); Ha dL< D < d U nincs elég ok a döntés meghozatalára. Amikor a számított érték D akkor meghaladja a 2-t dLÉs d U nem magát az együtthatót hasonlítjuk össze Dés a kifejezés (4 – D).

A Durbin-Watson-statisztikák Excelben történő kiszámításához lapozzuk át az alsó táblázatot az 1. ábrán. 14 Egyenleg kivonás. A (10) kifejezés számlálóját a = SUMMQDIFF(tömb1, tömb2) függvénnyel számítjuk ki, a nevezőt pedig = SUMMQ(tömb) (16. ábra).

Rizs. 16. Képletek a Durbin-Watson statisztika kiszámításához

Példánkban D= 0,883. A fő kérdés az, hogy a Durbin-Watson statisztika melyik értékét tekintjük elég kicsinek ahhoz, hogy arra következtessünk, hogy létezik pozitív autokorreláció? Szükséges a D értékét a kritikus értékekkel korrelálni ( dLÉs d U) a megfigyelések számától függően nés α szignifikancia szint (17. ábra).

Rizs. 17. Durbin-Watson statisztika kritikus értékei (táblázatrészlet)

Így az árukat házhoz szállító üzlet értékesítési volumenének problémájában egy független változó van ( k= 1), 15 megfigyelés ( n= 15) és α = 0,05 szignifikanciaszint. Ennélfogva, dL= 1,08 és dU= 1,36. Mert a D = 0,883 < dL= 1,08, pozitív autokorreláció van a maradékok között, a legkisebb négyzetek módszere nem alkalmazható.

Hipotézisek tesztelése a meredekségről és a korrelációs együtthatóról

A fenti regressziót kizárólag előrejelzésre alkalmaztuk. Regressziós együtthatók meghatározása és egy változó értékének előrejelzése Y adott változó értékhez x a legkisebb négyzetek módszerét alkalmazták. Ezen kívül figyelembe vettük a becslés standard hibáját és a vegyes korrelációs együtthatót. Ha a maradékelemzés igazolja, hogy a legkisebb négyzetek módszerének alkalmazhatósági feltételei nem sérülnek, és az egyszerű lineáris regressziós modell megfelelő, akkor a mintaadatok alapján elmondható, hogy a sokaság változói között lineáris kapcsolat van.

Alkalmazást -a lejtő kritériumai. Annak ellenőrzésével, hogy a β 1 ​​populáció meredeksége egyenlő-e nullával, megállapítható, hogy van-e statisztikailag szignifikáns kapcsolat a változók között. xÉs Y. Ha ezt a hipotézist elvetjük, akkor vitatható, hogy a változók között xÉs Y lineáris kapcsolat van. A null- és alternatív hipotézis a következőképpen fogalmazódik meg: H 0: β 1 = 0 (nincs lineáris kapcsolat), H1: β 1 ≠ 0 (lineáris kapcsolat van). A-priory t-statisztika egyenlő a minta meredeksége és a feltételezett populáció meredekség közötti különbséggel, osztva a meredekség becslésének standard hibájával:

(11) t = (b 1 β 1 ) / Sb 1

Ahol b 1 a mintaadatokon alapuló közvetlen regresszió meredeksége, β1 a közvetlen általános sokaság hipotetikus meredeksége, és tesztstatisztika t Megvan t- terjesztés a n-2 szabadsági fokokat.

Vizsgáljuk meg, hogy van-e statisztikailag szignifikáns kapcsolat az üzlet mérete és az éves eladások között α = 0,05 mellett. t A -criteria más paraméterekkel együtt jelenik meg a használat során Elemző csomag(választási lehetőség Regresszió). Az Analysis Package teljes eredményeit az ábra mutatja. A 4. ábra a t-statisztikával kapcsolatos töredék - a 4. ábrán. 18.

Rizs. 18. Pályázati eredmények t

Mivel az üzletek száma n= 14 (lásd 3. ábra), kritikus érték t-a statisztikát α = 0,05 szignifikanciaszinten a következő képlettel találjuk meg: t L=HALLGATÓ.INV(0,025;12) = -2,1788 ahol 0,025 a szignifikanciaszint fele és 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Mert a t-statisztika = 10,64 > t U= 2,1788 (19. ábra), nullhipotézis H 0 elutasításra kerül. A másik oldalon, R-értéke x\u003d 10,6411, a következő képlettel számítva: \u003d 1-DIÁK.ELTOLÁS (D3, 12, IGAZ), megközelítőleg egyenlő nullával, tehát a hipotézis H 0 ismét elutasítják. A tény, hogy a R-érték közel nulla, vagyis ha nem lenne valódi lineáris kapcsolat az üzlet mérete és az éves eladások között, akkor szinte lehetetlen lenne lineáris regresszióval megtalálni. Ezért statisztikailag szignifikáns lineáris kapcsolat van az átlagos éves bolti eladások és az üzlet mérete között.

Rizs. 19. Az általános populáció meredekségére vonatkozó hipotézis tesztelése 0,05 szignifikanciaszinten és 12 szabadsági fokon

AlkalmazásF -a lejtő kritériumai. Az egyszerű lineáris regresszió meredekségével kapcsolatos hipotézisek tesztelésének alternatív megközelítése az, hogy használja F-kritériumok. Emlékezzen arra F A -kritérium két variancia közötti kapcsolat tesztelésére szolgál (lásd a részleteket). A meredekséghipotézis tesztelésekor a véletlen hibák mértéke a hibavariancia (a hibák négyzetes összege osztva a szabadságfokok számával), tehát F-teszt a regresszióval magyarázott variancia arányát (azaz az értékeket SSR osztva a független változók számával k), a hibavarianciához ( MSE=S Yx 2 ).

A-priory F-statisztika egyenlő a regresszióból eredő átlagos négyzetes eltérések (MSR) osztva a hibavarianciával (MSE): F = MSR/ MSE, Ahol MSR=SSR / k, MSE =SSE/(n– k – 1), k a független változók száma a regressziós modellben. Tesztstatisztika F Megvan F- terjesztés a kÉs n– k – 1 szabadsági fokokat.

Adott α szignifikanciaszintre a döntési szabályt a következőképpen fogalmazzuk meg: ha F > FU, a nullhipotézist elvetik; ellenkező esetben nem utasítják el. A varianciaanalízis összefoglaló táblázata formájában bemutatott eredményeket az 1. ábra mutatja. 20.

Rizs. 20. Varianciaanalízis táblázat a regressziós együttható statisztikai szignifikancia hipotézisének tesztelésére

Hasonlóképpen t-kritérium F-Criteria használatakor megjelenik a táblázatban Elemző csomag(választási lehetőség Regresszió). A munka teljes eredménye Elemző csomagábrán látható. 4, töredék kapcsolódó F-statisztika - az ábrán. 21.

Rizs. 21. Pályázati eredmények F- Az Excel Analysis ToolPack segítségével beszerzett kritériumok

Az F-statisztika 113,23 és R- nullához közeli érték (cella JelentőségF). Ha az α szignifikanciaszint 0,05, akkor határozza meg a kritikus értéket F-egy és 12 szabadságfokú eloszlásokat kaphatunk a képletből F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (22. ábra). Mert a F = 113,23 > F U= 4,7472, és R- 0-hoz közeli érték< 0,05, нулевая гипотеза H 0 eltér, azaz. Egy üzlet mérete szorosan összefügg az éves értékesítési volumenével.

Rizs. 22. Az általános populáció meredekségére vonatkozó hipotézis tesztelése 0,05-ös szignifikanciaszinten, 1 és 12 szabadságfokkal

A β 1 meredekséget tartalmazó konfidencia intervallum. A változók közötti lineáris kapcsolat fennállásának hipotézisének teszteléséhez felállíthat egy konfidenciaintervallumot, amely tartalmazza a β 1 ​​meredekséget, és megbizonyosodhat arról, hogy a β 1 ​​= 0 hipotetikus érték ehhez az intervallumhoz tartozik. A β 1 meredekséget tartalmazó konfidencia intervallum középpontja a minta meredeksége b 1 , határai pedig a mennyiségek b 1 ±t n –2 Sb 1

ábrán látható módon. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Ennélfogva, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 vagy + 1,328 ≤ β 1 ≤ +2,012. Így a populáció meredeksége 0,95 valószínűséggel a +1,328 és +2,012 közötti (azaz 1 328 000 és 2 012 000 dollár közötti) tartományba esik. Mivel ezek az értékek nullánál nagyobbak, statisztikailag szignifikáns lineáris kapcsolat van az éves értékesítés és az üzlet területe között. Ha a konfidencia intervallum nullát tartalmazna, nem lenne kapcsolat a változók között. Ezenkívül a konfidencia intervallum azt jelenti, hogy minden 1000 négyzetméter. láb az átlagos eladások 1 328 000 dollárral 2 012 000 dollárra nőtt.

Használatt -a korrelációs együttható kritériumai. korrelációs együtthatót vezettek be r, amely két numerikus változó közötti kapcsolat mértéke. Segítségével megállapítható, hogy van-e statisztikailag szignifikáns kapcsolat két változó között. Jelöljük a két változó populációja közötti korrelációs együtthatót ρ szimbólummal. A null- és alternatív hipotézis a következőképpen fogalmazódik meg: H 0: ρ = 0 (nincs korreláció), H 1: ρ ≠ 0 (van korreláció). Az összefüggés meglétének ellenőrzése:

Ahol r = + , Ha b 1 > 0, r = – , Ha b 1 < 0. Тестовая статистика t Megvan t- terjesztés a n-2 szabadsági fokokat.

A Napraforgó üzletlánc problémájában r2= 0,904 és b 1- +1,670 (lásd 4. ábra). Mert a b 1> 0, az éves eladások és a boltok mérete közötti korrelációs együttható r= +√0,904 = +0,951. Teszteljük azt a nullhipotézist, hogy nincs korreláció a változók között t- statisztika:

α = 0,05 szignifikanciaszintnél a nullhipotézist el kell vetni, mert t= 10,64 > 2,1788. Így vitatható, hogy statisztikailag szignifikáns kapcsolat van az éves értékesítés és az üzlet mérete között.

Amikor a populáció meredekségére vonatkozó következtetéseket tárgyaljuk, a konfidenciaintervallumok és a hipotézisek tesztelésének kritériumai felcserélhető eszközök. A korrelációs együtthatót tartalmazó konfidenciaintervallum kiszámítása azonban nehezebbnek bizonyul, mivel a statisztika mintavételi eloszlásának formája r a valódi korrelációs együtthatótól függ.

Matematikai elvárás becslése és egyéni értékek előrejelzése

Ez a rész a várható válasz becslésének módszereit tárgyalja Yés az egyéni értékek előrejelzései Y a változó adott értékeihez x.

Konfidenciaintervallum felépítése. A 2. példában (lásd a fenti részt Legkisebb négyzet alakú módszer) a regressziós egyenlet lehetővé tette a változó értékének előrejelzését Y x. A kiskereskedelmi üzlet helyének kiválasztásának problémájában az átlagos éves eladások egy 4000 négyzetméteres üzletben. láb 7,644 millió dollárnak felelt meg, azonban a lakosság matematikai elvárásainak ez a becslése egy pont. az általános sokaság matematikai elvárásainak becslésére a konfidenciaintervallum fogalmát javasolták. Hasonlóképpen bevezethető a koncepció a válasz matematikai elvárásának konfidenciaintervallumát egy változó adott értékéhez x:

Ahol , = b 0 + b 1 X i– előrejelzett érték változó Y nál nél x = X i, S YX az átlagos négyzetes hiba, n a minta mérete, xén- a változó adott értéke x, µ Y|x = xén– egy változó matematikai elvárása Y nál nél x = Х i,SSX=

A (13) képlet elemzése azt mutatja, hogy a konfidenciaintervallum szélessége több tényezőtől függ. Adott szignifikanciaszinten a regressziós egyenes körüli ingadozások amplitúdójának növekedése az átlagos négyzetes hibával mérve az intervallum szélességének növekedéséhez vezet. Másrészt, ahogy az várható volt, a minta méretének növekedése az intervallum szűkülésével jár. Ezenkívül az intervallum szélessége az értékektől függően változik xén. Ha a változó értéke Y mennyiségekre jósoltak x, közel az átlagértékhez , a konfidenciaintervallum szűkebbnek bizonyul, mint az átlagtól távoli értékekre adott válasz előrejelzésekor.

Tegyük fel, hogy az üzlet helyének kiválasztásakor 95%-os konfidencia intervallumot szeretnénk felépíteni az átlagos éves eladásokra minden 4000 négyzetméteres üzletben. láb:

Ezért az átlagos éves értékesítési volumen minden 4000 négyzetméteres üzletben. láb, 95%-os valószínűséggel a 6,971 és 8,317 millió dollár közötti tartományba esik.

Számítsa ki az előrejelzett érték konfidenciaintervallumát. A változó adott értékére adott válasz matematikai elvárásának konfidenciaintervallumán kívül x, gyakran szükséges ismerni a becsült érték konfidenciaintervallumát. Bár az ilyen konfidenciaintervallum kiszámításának képlete nagyon hasonló a (13) képlethez, ez az intervallum egy előre jelzett értéket tartalmaz, nem pedig a paraméter becslését. A várható válasz intervalluma Yx = Xi a változó meghatározott értékéhez xén képlet határozza meg:

Tételezzük fel, hogy egy kiskereskedelmi üzlet helyének kiválasztásakor egy 4000 négyzetméter alapterületű üzletben 95%-os konfidencia intervallumot szeretnénk felépíteni a várható éves értékesítési mennyiségre. láb:

Ezért a várható éves értékesítési volumen egy 4000 négyzetméterre. láb, 95%-os valószínűséggel az 5,433 és 9,854 millió dollár közötti tartományba esik.Amint látható, a megjósolt válaszérték konfidenciaintervalluma sokkal szélesebb, mint a matematikai várakozás konfidenciaintervalluma. Ennek az az oka, hogy az egyes értékek előrejelzésében sokkal nagyobb a változékonyság, mint a várható érték becslésében.

A regresszió használatával kapcsolatos buktatók és etikai problémák

A regressziós elemzéssel kapcsolatos nehézségek:

  • A legkisebb négyzetek módszere alkalmazhatósági feltételeinek figyelmen kívül hagyása.
  • A legkisebb négyzetek módszere alkalmazhatósági feltételeinek hibás becslése.
  • Az alternatív módszerek helytelen megválasztása a legkisebb négyzetek módszerének alkalmazási feltételeit megsértve.
  • A regresszióanalízis alkalmazása a tantárgy elmélyült ismerete nélkül.
  • A regresszió extrapolálása a magyarázó változó tartományán túl.
  • Zavar a statisztikai és az ok-okozati összefüggések között.

A táblázatok és statisztikai szoftverek széleskörű elterjedése megszüntette azokat a számítási problémákat, amelyek megakadályozták a regressziós elemzés alkalmazását. Ez azonban oda vezetett, hogy a regressziós elemzést olyan felhasználók kezdték alkalmazni, akik nem rendelkeznek megfelelő képesítéssel és tudással. Honnan tudnak a felhasználók az alternatív módszerekről, ha sokuknak fogalmuk sincs a legkisebb négyzetek módszerének alkalmazhatóságának feltételeiről, és nem tudják, hogyan ellenőrizzék azok megvalósítását?

A kutatót nem szabad elragadni a számok csiszolásával - az eltolódás, lejtés és vegyes korrelációs együttható kiszámításával. Neki mélyebb tudásra van szüksége. Illusztráljuk ezt egy tankönyvekből vett klasszikus példával. Anscombe megmutatta, hogy mind a négy adatkészlet az ábrán látható. 23 azonos regressziós paraméterekkel rendelkezik (24. ábra).

Rizs. 23. Négy mesterséges adatsor

Rizs. 24. Négy mesterséges adatsor regressziós elemzése; kész van valamivel Elemző csomag(kattints a képre a kép nagyításához)

Tehát a regresszióanalízis szempontjából ezek az adatsorok teljesen azonosak. Ha az elemzés ezzel véget is érne, sok hasznos információt veszítenénk el. Ezt bizonyítják az ezekhez az adatsorokhoz szerkesztett szórásdiagramok (25. ábra) és maradék diagramok (26. ábra).

Rizs. 25. Szórványdiagramok négy adatkészlethez

A szórásdiagramok és a maradék diagramok azt mutatják, hogy ezek az adatok különböznek egymástól. Az egyetlen egyenes mentén elosztott halmaz az A halmaz. Az A halmazból számított reziduumok görbéjének nincs mintája. Ugyanez nem mondható el a B, C és D halmazokról. A B halmazra ábrázolt szórásdiagram kifejezett másodfokú mintát mutat. Ezt a következtetést megerősíti a maradékok diagramja, amelynek parabola alakú. A szórásdiagram és a maradékdiagram azt mutatja, hogy a B adatkészlet kiugró értéket tartalmaz. Ebben a helyzetben ki kell zárni a kiugró értéket az adatsorból, és meg kell ismételni az elemzést. A megfigyelésekből származó kiugró értékek kimutatásának és kiküszöbölésének technikáját hatáselemzésnek nevezik. A kiugró érték megszüntetése után a modell újraértékelésének eredménye egészen más lehet. A D adatkészletből ábrázolt szórásdiagram egy szokatlan helyzetet mutat be, amelyben az empirikus modell nagymértékben függ egyetlen választól ( X 8 = 19, Y 8 = 12,5). Az ilyen regressziós modelleket különösen óvatosan kell kiszámítani. Tehát a szórás- és maradékdiagramok a regresszióelemzés elengedhetetlen eszközei, és ennek szerves részét kell képezniük. Ezek nélkül a regressziós elemzés nem hiteles.

Rizs. 26. Négy adatkészlet maradékának diagramja

Hogyan kerüljük el a buktatókat a regressziós elemzésben:

  • A változók közötti lehetséges kapcsolat elemzése xÉs Y mindig szóródással kezdjük.
  • A regressziós elemzés eredményeinek értelmezése előtt ellenőrizze az alkalmazhatóság feltételeit.
  • Ábrázolja a maradékokat a független változó függvényében! Ez lehetővé teszi annak meghatározását, hogy az empirikus modell hogyan felel meg a megfigyelési eredményeknek, és kimutatható a variancia állandóságának megsértése.
  • Használjon hisztogramokat, szár- és levéldiagramokat, dobozdiagramokat és normál eloszlási diagramokat a hibák normális eloszlásának feltételezésére.
  • Ha a legkisebb négyzetek módszerének alkalmazhatósági feltételei nem teljesülnek, használjon alternatív módszereket (például másodfokú vagy többszörös regressziós modelleket).
  • Ha a legkisebb négyzetek módszerének alkalmazhatósági feltételei teljesülnek, akkor szükséges a regressziós együtthatók statisztikai szignifikanciájára vonatkozó hipotézis tesztelése, valamint a matematikai várakozást és az előrejelzett válaszértéket tartalmazó konfidenciaintervallumok felépítése.
  • Kerülje a függő változó értékeinek előrejelzését a független változó tartományán kívül.
  • Ne feledje, hogy a statisztikai függőségek nem mindig ok-okozati összefüggések. Ne feledje, hogy a változók közötti korreláció nem jelenti azt, hogy ok-okozati összefüggés van közöttük.

Összegzés. Amint a blokkdiagramon (27. ábra) látható, a jegyzet egy egyszerű lineáris regressziós modellt ír le, az alkalmazhatóság feltételeit és e feltételek tesztelésének módjait. Figyelembe vett t-kritérium a regresszió meredekségének statisztikai szignifikanciájának tesztelésére. A függő változó értékeinek előrejelzésére regressziós modellt használtunk. Példának tekintjük a kiskereskedelmi üzlet helyének kiválasztását, amelyben az éves értékesítési volumen üzletterülettől való függését vizsgálják. A kapott információk lehetővé teszik az üzlet helyének pontosabb kiválasztását és az éves eladások előrejelzését. A következő jegyzetekben a regresszióelemzés, valamint a többszörös regressziós modellek tárgyalása folytatódik.

Rizs. 27. Jegyzet blokkvázlata

A Levin és munkatársai: Statisztikák menedzsereknek című könyvéből származó anyagokat használjuk. - M.: Williams, 2004. - p. 792–872

Ha a függő változó kategorikus, logisztikus regressziót kell alkalmazni.

Grafikus módszerrel.
Ezzel a módszerrel vizualizálható a vizsgált gazdasági mutatók közötti kommunikációs forma. Ehhez egy grafikont téglalap alakú koordinátarendszerben ábrázolunk, az eredményül kapott Y attribútum egyedi értékeit az ordináta tengelye mentén, az X tényező attribútum egyedi értékeit pedig az abszcissza tengely mentén ábrázoljuk.
Az effektív és faktorjelek ponthalmazát ún korrelációs mező.
A korrelációs mező alapján feltételezhető (az általános populációra), hogy az X és Y összes lehetséges értéke között lineáris a kapcsolat.

Lineáris regressziós egyenlet alakja y = bx + a + ε
Itt ε véletlen hiba (eltérés, perturbáció).
A véletlenszerű hiba okai:
1. A szignifikáns magyarázó változók figyelmen kívül hagyása a regressziós modellben;
2. Változók összesítése. Például a teljes fogyasztási függvény az egyének egyéni kiadási döntéseinek összességének általános kifejezésére tett kísérlet. Ez csak a különböző paraméterekkel rendelkező egyéni kapcsolatok közelítése.
3. A modell szerkezetének helytelen leírása;
4. Rossz funkcionális specifikáció;
5. Mérési hibák.
Mivel az ε i eltérések minden egyes megfigyelésre i véletlenszerűek, és a mintában szereplő értékeik ismeretlenek, akkor:
1) az x i és y i megfigyelések szerint csak az α és β paraméterek becslései nyerhetők
2) A regressziós modell α és β paramétereinek becslései rendre az a és b értékek, amelyek természetüknél fogva véletlenszerűek, mivel véletlenszerű mintának felel meg;
Ekkor a (mintaadatokból felépített) becsült regressziós egyenlet így fog kinézni: y = bx + a + ε, ahol e i az ε i hibák megfigyelt értékei (becslései), illetve a és b hibák becslései. a regressziós modell α és β paramétereit, amelyeket meg kell találni.
Az α és β paraméterek becsléséhez használja az LSM-et (legkisebb négyzetek).
Normálegyenletrendszer.

Adataink szerint az egyenletrendszer a következőképpen alakul:

10a + 356b = 49
356a + 2135b = 9485

Fejezz ki a-t az első egyenletből, és cseréld be a második egyenletbe
Azt kapjuk, hogy b = 68,16, a = 11,17

Regressziós egyenlet:
y = 68,16 x - 11,17

1. A regressziós egyenlet paraméterei.
A minta azt jelenti.



Minta eltérések.


szórás

1.1. Korrelációs együttható
Kiszámoljuk a kommunikáció szorosságának mutatóját. Egy ilyen mutató egy szelektív lineáris korrelációs együttható, amelyet a következő képlettel számítanak ki:

A lineáris korrelációs együttható –1 és +1 közötti értékeket vesz fel.
A jellemzők közötti kapcsolatok lehetnek gyengeek vagy erősek (szorosak). Kritériumaik a Chaddock-skálán vannak értékelve:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Példánkban az Y jellemző X tényezője közötti kapcsolat nagyon magas és közvetlen.

1.2. Regressziós egyenlet(a regressziós egyenlet kiértékelése).

A lineáris regressziós egyenlet y = 68,16 x -11,17
A lineáris regressziós egyenlet együtthatói közgazdasági jelentéssel bírhatnak. Regressziós egyenlet együtthatója megmutatja, hány egységet az eredmény megváltozik, ha a tényező 1 egységgel változik.
A b = 68,16 együttható az effektív mutató átlagos változását mutatja (y egységekben) az x tényező mértékegységenkénti értékének növekedésével vagy csökkenésével. Ebben a példában 1 egységnyi növekedéssel y átlagosan 68,16-tal nő.
Az a = -11,17 együttható formálisan mutatja y előrejelzett szintjét, de csak akkor, ha x=0 közel van a mintaértékekhez.
De ha x=0 messze van az x minta értékétől, akkor a szó szerinti értelmezés helytelen eredményekhez vezethet, és még ha a regressziós egyenes pontosan leírja a megfigyelt minta értékeit, nincs garancia arra, hogy ez is lesz balra vagy jobbra történő extrapoláció esetén.
Az x megfelelő értékeinek behelyettesítésével a regressziós egyenletben lehetőség nyílik az y(x) effektív mutató összehangolt (előre jelzett) értékeinek meghatározására minden egyes megfigyelésnél.
Az y és x közötti kapcsolat határozza meg a b regressziós együttható előjelét (ha > 0 - közvetlen kapcsolat, egyébként - inverz). Példánkban a kapcsolat közvetlen.

1.3. rugalmassági együttható.
Nem kívánatos a regressziós együtthatók használata (a b példában) a tényezők hatásos tulajdonságra gyakorolt ​​hatásának közvetlen értékelésére abban az esetben, ha az y effektív mutató és az x faktorattribútum mértékegységei eltérnek.
Ebből a célból kiszámítják a rugalmassági együtthatókat és a béta együtthatókat. A rugalmassági együtthatót a következő képlet határozza meg:


Megmutatja, hogy átlagosan hány százalékkal változik az y effektív attribútum, ha az x faktorattribútum 1%-kal változik. Nem veszi figyelembe a tényezők ingadozásának mértékét.
Példánkban a rugalmassági együttható nagyobb, mint 1. Ezért ha X 1%-kal változik, Y több mint 1%-kal változik. Más szavakkal, X jelentősen befolyásolja Y-t.
Béta együttható megmutatja, hogy a szórása értékének mekkora részével változik az effektív attribútum értéke átlagosan, ha a faktorattribútum szórásának értékével változik a fennmaradó független változók állandó szinten rögzített értékével:

Azok. x-nek a mutató szórásának értékével történő növelése az átlagos Y 0,9796-os növekedéséhez vezet a mutató szórásához képest.

1.4. Közelítési hiba.
Értékeljük a regressziós egyenlet minőségét az abszolút közelítési hibával.


Mivel a hiba nagyobb, mint 15%, ezt az egyenletet nem kívánatos regresszióként használni.

1.6. Meghatározási együttható.
A (többszörös) korrelációs együttható négyzetét determinációs koefficiensnek nevezzük, amely azt mutatja meg, hogy az eredő attribútum variációja mekkora hányadát magyarázza a faktorattribútum változása.
Leggyakrabban százalékban fejezik ki a determinációs együttható értelmezését.
R2 = 0,982 = 0,9596
azok. az esetek 95,96%-ában x változása y változásához vezet. Más szóval, a regressziós egyenlet kiválasztásának pontossága nagy. Az Y fennmaradó 4,04%-os változása a modellben nem vett tényezőknek köszönhető.

x y x2 y2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. A regressziós egyenlet paramétereinek becslése.
2.1. A korrelációs együttható jelentősége.

A Student-féle táblázat szerint α=0,05 szignifikanciaszinttel és k=7 szabadságfokkal találjuk a t crit:
t-krit = (7;0,05) = 1,895
ahol m = 1 a magyarázó változók száma.
Ha t obs > t kritikus, akkor a kapott korrelációs együttható értéket szignifikánsnak ismerjük el (azt a nullhipotézist, amely szerint a korrelációs együttható nullával egyenlő, elvetjük).
Mivel t obl > t crit, elvetjük azt a hipotézist, hogy a korrelációs együttható 0. Más szóval, a korrelációs együttható statisztikailag szignifikáns
Páros lineáris regresszióban t 2 r = t 2 b, majd a regressziós és korrelációs együtthatók szignifikanciájára vonatkozó hipotézisek tesztelése egyenértékű a lineáris regressziós egyenlet szignifikanciájára vonatkozó hipotézis tesztelésével.

2.3. A regressziós együtthatók becslései meghatározásának pontosságának elemzése.
A perturbációk szórásának elfogulatlan becslése a következő érték:


S 2 y = 94,6484 - megmagyarázhatatlan variancia (a függő változó regressziós egyenes körüli szóródásának mértéke).
S y = 9,7287 - a becslés standard hibája (a regresszió standard hibája).
S a - egy valószínűségi változó szórása a.


S b - a valószínűségi változó szórása b.

2.4. A függő változó konfidencia intervallumai.
A felépített modellen alapuló közgazdasági előrejelzés feltételezi, hogy a változók már meglévő kapcsolatai az átfutási időszakra is megmaradnak.
Az eredményül kapott attribútum függő változójának előrejelzéséhez ismerni kell a modellben szereplő összes tényező prediktív értékét.
A faktorok prediktív értékeit behelyettesítjük a modellbe, és a vizsgált indikátor pontszerű prediktív becsléseit kapjuk. (a + bx p ± ε)
Ahol

Számítsuk ki annak az intervallumnak a határait, amelyben Y lehetséges értékeinek 95%-a koncentrálódik korlátlan számú megfigyeléssel, és X p = 1 (-11,17 + 68,16*1 ± 6,4554)
(50.53;63.44)

Egyéni konfidencia intervallumok aYadott értékenx.
(a + bx i ± ε)
Ahol

x i y = -11,17 + 68,16x i ε i ymin ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

95%-os valószínűséggel garantálható, hogy Y értéke korlátlan számú megfigyeléssel nem lépi túl a talált intervallumok határait.

2.5. A lineáris regressziós egyenlet együtthatóira vonatkozó hipotézisek tesztelése.
1) t-statisztika. A tanuló kritériuma.
Teszteljük a H 0 hipotézist az egyes regressziós együtthatók nullával való egyenlőségéről (a H 1 alternatívával nem egyenlő) α=0,05 szignifikancia szinten.
t-krit = (7;0,05) = 1,895


Mivel 12,8866 > 1,895, a b regressziós együttható statisztikai szignifikanciája beigazolódik (elvetjük azt a hipotézist, hogy ez az együttható nullával egyenlő).


Mivel 2,0914 > 1,895, az a regressziós együttható statisztikai szignifikanciája beigazolódik (elvetjük azt a hipotézist, hogy ez az együttható nullával egyenlő).

A regressziós egyenlet együtthatóinak konfidencia intervalluma.
Határozzuk meg a regressziós együtthatók konfidencia intervallumait, amelyek 95%-os megbízhatósággal a következők lesznek:
(b - t crit S b; b + t crit S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
95%-os valószínűséggel vitatható, hogy ennek a paraméternek az értéke a talált intervallumban lesz.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
95%-os valószínűséggel vitatható, hogy ennek a paraméternek az értéke a talált intervallumban lesz.

2) F-statisztika. Fisher-kritérium.
A regressziós modell szignifikanciájának ellenőrzése Fisher F-próbával történik, melynek számított értékét a vizsgált indikátor kezdeti megfigyelési sorozata szórásának és a reziduális sorozat varianciájának torzítatlan becslésének arányaként kapjuk meg. ezt a modellt.
Ha a lang=EN-US>n-m-1) szabadságfokkal számított érték egy adott szignifikancia szinten nagyobb, mint a táblázatos érték, akkor a modell szignifikánsnak minősül.

ahol m a modellben szereplő tényezők száma.
A páros lineáris regresszió statisztikai szignifikanciájának értékelése a következő algoritmus szerint történik:
1. Feltételezzük azt a nullhipotézist, hogy az egyenlet egésze statisztikailag jelentéktelen: H 0: R 2 =0 α szignifikancia szinten.
2. Ezután határozza meg az F-kritérium tényleges értékét:


ahol m=1 páronkénti regresszió esetén.
3. A táblázat értékét Fisher-eloszlási táblázatokból határozzuk meg egy adott szignifikanciaszintre, figyelembe véve, hogy a teljes négyzetösszeghez (nagyobb szóráshoz) a szabadságfok száma 1, a szabadságfokok száma pedig a maradék összegéhez. négyzetek (alacsonyabb variancia) a lineáris regresszióban n-2.
4. Ha az F-kritérium tényleges értéke kisebb, mint a táblázati érték, akkor azt mondják, hogy nincs ok a nullhipotézis elutasítására.
Ellenkező esetben a nullhipotézist elvetjük, és az egyenlet egészének statisztikai szignifikanciájáról szóló alternatív hipotézist (1-α) valószínűséggel elfogadjuk.
A k1=1 és k2=7 szabadságfokkal rendelkező kritérium táblázati értéke, Fkp = 5,59
Mivel F > Fkp tényleges értéke, a determinációs együttható statisztikailag szignifikáns (A regressziós egyenlet talált becslése statisztikailag megbízható).

Ellenőrizze a maradékok autokorrelációját.
Az LSM segítségével kvalitatív regressziós modell megalkotásának fontos előfeltétele a véletlen eltérések értékeinek függetlensége az összes többi megfigyelés eltérési értékétől. Ez biztosítja, hogy ne legyen összefüggés az eltérések és különösen a szomszédos eltérések között.
Autokorreláció (soros korreláció) az időben (idősorok) vagy térben (keresztsorok) rendezett megfigyelt mértékek közötti korrelációként definiálható. A reziduumok (outlierek) autokorrelációjával gyakran találkozhatunk a regressziós elemzésben idősoros adatok használatakor, és nagyon ritkán keresztmetszeti adatok használatakor.
A gazdasági feladatoknál sokkal gyakoribb pozitív autokorreláció mint negatív autokorreláció. A legtöbb esetben a pozitív autokorrelációt néhány, a modellben figyelmen kívül hagyott tényező irányú állandó hatása okozza.
Negatív autokorreláció valójában azt jelenti, hogy a pozitív eltérést negatív követi, és fordítva. Ilyen helyzet állhat elő, ha az üdítőital-kereslet és a bevételek között azonos összefüggést vesszük figyelembe szezonális adatok szerint (tél-nyár).
Között autokorrelációt okozó fő okok, a következők különböztethetők meg:
1. Specifikációs hibák. Bármely fontos magyarázó változó figyelembevételének elmulasztása a modellben, vagy a függőség formájának helytelen megválasztása általában a megfigyelési pontok rendszerszintű eltéréséhez vezet a regressziós egyenestől, ami autokorrelációhoz vezethet.
2. Tehetetlenség. Számos gazdasági mutató (infláció, munkanélküliség, GNP stb.) bizonyos ciklikusságot mutat az üzleti tevékenység hullámzásával összefüggésben. Ezért a mutatók változása nem azonnal következik be, hanem bizonyos tehetetlenséggel rendelkezik.
3. Webhatás. Számos ipari és egyéb területen a gazdasági mutatók késéssel (időeltolással) reagálnak a gazdasági feltételek változásaira.
4. Adatsimítás. Gyakran egy bizonyos hosszú időszakra vonatkozó adatokat úgy kapják meg, hogy az adatokat az alkotó intervallumokra átlagolják. Ez a vizsgált időszakban fennálló ingadozások bizonyos kisimításához vezethet, ami viszont autokorrelációt okozhat.
Az autokorreláció következményei hasonlóak a heteroszkedaszticitáséhoz: a regressziós együttható és a determinációs együttható szignifikanciáját meghatározó t- és F-statisztikákra vonatkozó következtetések tévesek lehetnek.

Autokorreláció észlelése

1. Grafikus módszer
Számos lehetőség van az autokorreláció grafikus meghatározására. Az egyik az e i eltéréseket az i átvételük pillanataihoz köti. Ugyanakkor az abszcissza tengely mentén vagy a statisztikai adatok megszerzésének időpontját, vagy a megfigyelés sorszámát, az ordináta tengely mentén pedig az e i eltéréseket (vagy az eltérések becsléseit) ábrázoljuk.
Természetes azt feltételezni, hogy ha van bizonyos kapcsolat az eltérések között, akkor autokorreláció megy végbe. A függőség hiánya nagy valószínűséggel az autokorreláció hiányát jelzi.
Az autokorreláció világosabbá válik, ha e i e i-1 függvényt ábrázol.

Durbin-Watson teszt.
Ez a kritérium a legismertebb az autokorreláció kimutatására.
A regressziós egyenletek statisztikai elemzése során a kezdeti szakaszban gyakran egy premissza megvalósíthatóságát ellenőrizzük: az egymástól való eltérések statisztikai függetlenségének feltételeit. Ebben az esetben a szomszédos e i értékek korrelálatlanságát ellenőrizzük.

y y(x) e i = y-y(x) e 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Az eltérések korrelációjának elemzésére Durbin-Watson statisztikát használnak:

A d 1 és d 2 kritikus értékeket speciális táblázatok alapján határozzák meg a szükséges α szignifikancia szintre, a megfigyelések számára n = 9 és a magyarázó változók számára m = 1.
Nincs autokorreláció, ha a következő feltétel igaz:
d1< DW и d 2 < DW < 4 - d 2 .
A táblázatok hivatkozása nélkül használhatjuk a közelítő szabályt, és feltételezhetjük, hogy nincs autokorreláció a maradékok között, ha 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

A regressziós egyenlet együtthatóinak kiszámítása

A (7.8) egyenletrendszer nem oldható meg egyértelműen a meglévő ED alapján, mivel az ismeretlenek száma mindig nagyobb, mint az egyenletek száma. A probléma megoldásához további feltételezésekre van szükség. A józan ész azt sugallja, hogy kívánatos a polinom együtthatóit úgy megválasztani, hogy az ED közelítésében minimális hiba legyen. Különféle intézkedések alkalmazhatók a közelítési hibák értékelésére. Mint ilyen mérőszám, a négyzetgyökér-hiba széles körben alkalmazható. Ennek alapján egy speciális módszert dolgoztak ki a regressziós egyenletek együtthatóinak becslésére, a legkisebb négyzetek módszerét (LSM). Ez a módszer lehetővé teszi a regressziós egyenlet ismeretlen együtthatóinak maximális valószínűségi becslését a változat normál eloszlásával, de alkalmazható bármely más tényezők eloszlására.

Az MNC a következő rendelkezéseken alapul:

· a hibaértékek és tényezők értékei függetlenek, tehát nem korrelálnak, pl. feltételezzük, hogy a zajkeltés mechanizmusai nem kapcsolódnak a faktorértékek kialakulásának mechanizmusához;

az ε hiba matematikai elvárásának nullával kell egyenlőnek lennie (az állandó összetevő benne van az együtthatóban egy 0), más szóval a hiba egy központosított mennyiség;

· A hibavarianciára vonatkozó mintabecslésnek minimálisnak kell lennie.

Tekintsük a legkisebb négyzetek alkalmazását a standardizált értékek lineáris regressziójához. Központosított mennyiségekhez u j együttható egy 0 nulla, akkor a lineáris regressziós egyenletek

. (7.9)

Itt egy speciális "^" jel kerül bevezetésre, amely a regressziós egyenlet által számított mutató értékeit jelöli, ellentétben a megfigyelések eredményeiből kapott értékekkel.

A legkisebb négyzetek szerint a regressziós egyenlet együtthatóinak olyan értékeit határozzuk meg, amelyek feltétel nélküli minimumot adnak a kifejezéshez

A minimumot úgy kapjuk meg, hogy a (7.10) kifejezés összes parciális deriváltját nullával egyenlővé tesszük, és az egyenletrendszert megoldjuk.

(7.11)

A transzformációk egymás utáni végrehajtása és a korábban bevezetett korrelációs együttható becslések felhasználásával

. (7.12)

Szóval fogadott T–1 lineáris egyenlet, amely lehetővé teszi az értékek egyedi kiszámítását a 2, a 3, …, a t.

Ha a lineáris modell pontatlan, vagy a paramétereket pontatlanul mérik, akkor ebben az esetben az LSM lehetővé teszi az együtthatók olyan értékeinek megtalálását, amelyekre a lineáris modell a legjobban leírja a valós objektumot a választott szórás-kritérium értelmében.

Ha csak egy paraméter van, a lineáris regressziós egyenlet lesz

Együttható a 2 egyenletből található

Akkor ezt figyelembe véve r 2.2= 1, kívánt együttható

a 2 = r y ,2 . (7.13)

A (7.13) reláció megerősíti azt a korábban kifejtett állítást, hogy a korrelációs együttható két standardizált paraméter lineáris kapcsolatának mértéke.

Az együttható talált értékének behelyettesítése a 2 kifejezésébe w, figyelembe véve a központosított és normalizált mennyiségek tulajdonságait, megkapjuk ennek a függvénynek a minimális értékét, amely egyenlő 1– r2y,2. 1. érték – r2y,2 a valószínűségi változó reziduális varianciájának nevezzük y valószínűségi változóhoz képest u 2. Azt a hibát jellemzi, amelyet az indikátor υ= paraméter függvényével történő helyettesítésével kapunk a 2 u 2. Csak amikor | r y,2| = 1, a maradék szóródás nulla, és ezért nem történik hiba, ha a mutatót lineáris függvénnyel közelítjük.

A mutató és a paraméter középre igazított és normalizált értékeitől való elmozdulás

kezdő értékekre kaphatunk

Ez az egyenlet a korrelációs együtthatóhoz képest is lineáris. Könnyen belátható, hogy a központosítás és a lineáris regresszió normalizálása lehetővé teszi az egyenletrendszer dimenziójának eggyel való csökkentését, azaz. az együtthatók meghatározásával kapcsolatos probléma megoldásának egyszerűsítése, és maguknak az együtthatóknak egyértelmű jelentést adni.

Az LSM használata nemlineáris függvényekhez gyakorlatilag nem tér el a vizsgált sémától (csak az eredeti egyenletben szereplő a0 együttható nem egyenlő nullával).

Például legyen szükség a parabolikus regressziós együtthatók meghatározására

Minta hibavariancia

Ennek alapján a következő egyenletrendszert kaphatjuk

A transzformációk után az egyenletrendszer formát ölt

A szabványosított mennyiségek momentumainak tulajdonságait figyelembe véve írjuk

A nemlineáris regresszió együtthatóinak meghatározása egy lineáris egyenletrendszer megoldásán alapul. Ehhez használhatja a numerikus módszerek univerzális csomagjait vagy a statisztikai adatok feldolgozására szolgáló speciális csomagokat.

A regressziós egyenlet mértékének növekedésével az együtthatók meghatározásához használt paraméterek eloszlási momentumainak mértéke is nő. Tehát a másodfokú regressziós egyenlet együtthatóinak meghatározásához a paraméterek eloszlásának momentumait a negyedik fokig bezárólag használjuk. Ismeretes, hogy a DE-k korlátozott mintájából származó momentumok becslésének pontossága és megbízhatósága meredeken csökken a sorrend növekedésével. A regressziós egyenletekben a másodiknál ​​magasabb fokú polinomok használata nem tanácsos.

Az eredményül kapott regressziós egyenlet minőségét a mutató megfigyelésének eredményei és a regressziós egyenlet által előrejelzett értékek közötti közelség mértéke határozza meg a paramétertér adott pontjain. Ha az eredmények közel vannak, akkor a regresszióanalízis problémája megoldottnak tekinthető. Ellenkező esetben módosítsa a regressziós egyenletet (válasszon más fokot a polinomnak vagy teljesen más típusú egyenletet), és ismételje meg a számításokat a paraméterek becsléséhez.

Ha több mutató van, akkor a regresszióelemzés problémája mindegyik esetében önállóan megoldódik.

A regressziós egyenlet lényegét elemezve a következő rendelkezéseket kell megjegyezni. A figyelembe vett megközelítés nem biztosítja az együtthatók külön (független) értékelését - az egyik együttható értékének változása más értékek változását vonja maga után. A kapott együtthatók nem tekinthetők a megfelelő paraméter hozzájárulásának a mutató értékéhez. A regressziós egyenlet csak egy jó analitikus leírása a rendelkezésre álló ED-nek, és nem egy törvény, amely leírja a paraméterek és a mutató közötti kapcsolatot. Ez az egyenlet a mutató értékeinek kiszámítására szolgál egy adott paraméterváltozási tartományban. Korlátozottan használható ezen a tartományon kívüli számításoknál, pl. interpolációs feladatok megoldására, korlátozott mértékben extrapolációra is használható.



Az előrejelzés pontatlanságának fő oka nem annyira a regressziós egyenes extrapolációjának bizonytalansága, hanem a mutató jelentős eltérése a modellben nem vett tényezők miatt. Az előrejelzés lehetőségének korlátja a modellben figyelembe nem vett paraméterek stabilitásának feltétele és a modellben figyelembe vett tényezők hatásának jellege. Ha a külső környezet drámaian megváltozik, akkor a felállított regressziós egyenlet értelmét veszti. Lehetetlen a regressziós egyenletbe behelyettesíteni olyan tényezők értékeit, amelyek jelentősen eltérnek az ED-ben szereplőktől. Javasoljuk, hogy ne lépje túl a paraméterváltozás tartományának egyharmadát, mind a faktor maximális, mind pedig minimális értékénél.

A paraméter várható értékének a regressziós egyenletbe való behelyettesítésével kapott előrejelzés pont előrejelzés. Egy ilyen előrejelzés valóra válásának valószínűsége elhanyagolható. Célszerű meghatározni az előrejelzés konfidencia intervallumát. Az indikátor egyedi értékei esetében az intervallumnak figyelembe kell vennie a regressziós egyenes helyzetében fellépő hibákat és az egyes értékek ettől a vonaltól való eltéréseit. Az y mutató átlagos előrejelzési hibája az x tényezőre lesz

Ahol a regressziós egyenes pozíciójának átlagos hibája az általános sokaságban at x = x k;

– a mutató regressziós egyenestől való eltérése szórásának becslése a teljes sokaságban;

x k a tényező várható értéke.

Az előrejelzés megbízhatósági határait például a (7.14) regressziós egyenlethez a kifejezés határozza meg

Negatív elfogási érték egy 0 az eredeti változók regressziós egyenletében azt jelenti, hogy a mutató létezési területe nem tartalmazza a paraméterek nulla értékét. Ha és 0 > 0, akkor a mutató létezési területe a paraméterek nulla értékeit tartalmazza, és maga az együttható jellemzi a mutató átlagos értékét a paraméterek befolyásolásának hiányában.

Probléma 7.2. Hozzon létre egy regressziós egyenletet a táblázatban megadott minta csatornakapacitásához. 7.1.

Megoldás. A megadott mintára vonatkozóan az analitikai függőség konstrukciója annak fő részében a korrelációelemzés keretein belül történt: az áteresztőképesség csak a "jel-zaj viszony" paramétertől függ. Marad a (7.14) kifejezésbe behelyettesíteni a paraméterek korábban számított értékeit. Az áteresztőképesség egyenlete a következő alakot veszi fel

ŷ = 26,47–0,93×41,68×5,39/6,04+0,93×5,39/6,03× x = – 8,121+0,830x.

A számítási eredményeket a táblázat tartalmazza. 7.5.

7.5. táblázat

N pp Csatorna kapacitása Jel-zaj arány Funkció értéke Hiba
Y x ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

A korrelációs függőségek vizsgálata a változók közötti olyan kapcsolatok vizsgálatán alapul, amelyekben az egyik változó értékei függő változónak tekinthetők, "átlagosan" változnak attól függően, hogy egy másik változó milyen értékeket vesz fel, oknak tekintjük a függő változóval kapcsolatban. Ennek az oknak a hatása különböző tényezők összetett kölcsönhatásában megy végbe, aminek következtében egy minta megnyilvánulása elfedi a véletlenek befolyása által. A kapott attribútum átlagértékeit kiszámítva az attribútum-tényező adott értékcsoportjára, az esélyek befolyása részben megszűnik. Az elméleti kommunikációs vonal paramétereit kiszámítva azokat tovább küszöböljük ki, és egy egyértelmű (formabeli) "y" változást kapunk az "x" tényező változásával.

A sztochasztikus összefüggések vizsgálatára széles körben alkalmazzák a két párhuzamos sorozat összehasonlításának módszerét, az analitikai csoportosítás módszerét, a korrelációanalízist, a regresszióanalízist és néhány nemparaméteres módszert. Általánosságban elmondható, hogy a statisztika feladata a kapcsolatok tanulmányozása terén nem csupán azok jelenlétének, irányának és erősségének számszerűsítése, hanem az is, hogy meghatározza a faktorjellemzők hatásának formáját (analitikai kifejezését) az eredőre. Megoldására korrelációs és regressziós elemzési módszereket alkalmaznak.

1. FEJEZET REGRESSZIÓS EGYENLET: ELMÉLETI ALAPOK

1.1. Regressziós egyenlet: a függvények lényege és típusai

A regresszió (lat. regressio - fordított mozgás, átmenet a fejlesztés bonyolultabb formáiról a kevésbé összetettekre) a valószínűségszámítás és a matematikai statisztika egyik alapfogalma, amely egy valószínűségi változó átlagos értékének az értékektől való függését fejezi ki. egy másik valószínűségi változó vagy több valószínűségi változó. Ezt a koncepciót Francis Galton vezette be 1886-ban.

Az elméleti regressziós egyenes az az egyenes, amely köré a korrelációs mező pontjai csoportosulnak, és amely jelzi a kapcsolat fő irányát, fő trendjét.

Az elméleti regressziós egyenesnek tükröznie kell az "y" effektív attribútum átlagértékeinek változását, ahogy az "x" faktorattribútum értékei megváltoznak, feltéve, hogy az összes többi - az "x" tényezőhöz képest véletlenszerű - az okok kölcsönösen megszűnnek. Ezért ezt az egyenest úgy kell meghúzni, hogy a korrelációs mező pontjainak az elméleti regressziós egyenes megfelelő pontjaitól való eltéréseinek összege nulla legyen, és ezen eltérések négyzetösszege a minimum. érték.

y=f(x) - a regressziós egyenlet a változók közötti statisztikai kapcsolat képlete.

Egy síkon (kétdimenziós térben) lévő egyenest az y=a+b*x egyenlet adja meg. Részletesebben: az y változó kifejezhető egy állandó (a) és egy meredekség (b) szorzatával x változóval. Az állandót néha metszéspontnak is nevezik, a meredekséget pedig regressziónak vagy B-tényezőnek is nevezik.

A regresszióanalízis fontos lépése a függvény típusának meghatározása, amely a tulajdonságok közötti kapcsolatot jellemzi. A fő alap a vizsgált függőség természetének, mechanizmusának értelmes elemzése kell, hogy legyen. Ugyanakkor korántsem mindig lehetséges elméletileg alátámasztani, hogy az egyes tényezők hogyan kapcsolódnak a teljesítménymutatóhoz, mivel a vizsgált társadalmi-gazdasági jelenségek nagyon összetettek, és a szintjüket alkotó tényezők szorosan összefonódnak és kölcsönhatásban állnak. egymással. Ezért az elméleti elemzés alapján sokszor a legáltalánosabb következtetések vonhatók le a kapcsolat irányáról, változásának lehetőségéről a vizsgált sokaságban, a lineáris kapcsolat használatának létjogosultságáról, szélsőséges értékek esetleges jelenlétéről stb. . Az ilyen feltételezésekhez szükséges kiegészítésnek kell lennie konkrét tényadatok elemzésének.

Az empirikus regressziós egyenes alapján hozzávetőleges elképzelést kaphatunk a linkvonalról. Az empirikus regressziós egyenes általában szaggatott vonal, többé-kevésbé jelentős törése van. Ez azzal magyarázható, hogy az effektív attribútum változását befolyásoló egyéb, el nem számolt tényezők hatása a nem kellően nagy számú megfigyelés miatt az átlagban nem kompenzálódik teljes mértékben, ezért az empirikus kommunikációs vonal jól használható. válassza ki és igazolja az elméleti görbe típusát, feltéve, hogy a megfigyelések száma elegendő.

Konkrét vizsgálatok egyik eleme a különböző függőségi egyenletek összehasonlítása minőségi kritériumok felhasználásával az empirikus adatok versengő modellek közelítésére, a gazdasági mutatók összefüggéseinek jellemzésére leggyakrabban a következő típusú függvényeket alkalmazzák:

1. Lineáris:

2. Hiperbolikus:

3. Demonstratív:

4. Parabolikus:

5. Teljesítmény:

6. Logaritmikus:

7. Logisztika:

Az egy magyarázó és egy magyarázó változót tartalmazó modell páros regressziós modell. Ha két vagy több magyarázó (faktoriális) változót használunk, akkor többszörös regressziós modell használatáról beszélünk. Ebben az esetben az ezeket a változókat összekötő lineáris, exponenciális, hiperbolikus, exponenciális és egyéb típusú függvények választhatók.

Az a és b paraméterek megtalálásához a regressziós egyenletek a legkisebb négyzetek módszerét használják. Amikor a legkisebb négyzetek módszerét alkalmazzuk egy olyan függvény megtalálására, amely a legjobban illeszkedik az empirikus adatokhoz, úgy gondoljuk, hogy az empirikus pontok elméleti regressziós egyenesétől való eltéréseinek négyzetes zsákja legyen a minimális érték.

A legkisebb négyzetek módszerének kritériuma a következőképpen írható fel:

Ezért a legkisebb négyzetek módszerének alkalmazása az empirikus adatokhoz legjobban illeszkedő egyenes a és b paramétereinek meghatározására extrémum problémává redukálódik.

Az értékelésekkel kapcsolatban a következő következtetések vonhatók le:

1. A legkisebb négyzetek becslései mintavételi függvények, ami megkönnyíti a kiszámítását.

2. A legkisebb négyzetek becslései az elméleti regressziós együtthatók pontbecslései.

3. Az empirikus regressziós egyenes szükségszerűen átmegy az x, y ponton.

4. Az empirikus regressziós egyenletet úgy állítjuk össze, hogy az eltérések összege

.

Az empirikus és elméleti kommunikációs vonal grafikus ábrázolása az 1. ábrán látható.


Az egyenlet b paramétere a regressziós együttható. Közvetlen korreláció esetén a regressziós együttható pozitív értékű, fordított kapcsolat esetén pedig negatív. A regressziós együttható megmutatja, hogy átlagosan mennyit változik az "y" effektív attribútum értéke, ha az "x" faktorattribútum eggyel változik. Geometriailag a regressziós együttható a korrelációs egyenletet ábrázoló egyenes meredeksége az x tengelyhez képest (az egyenlethez

).

A többváltozós statisztikai elemzésnek a függőségek helyreállításával foglalkozó ágát regressziós elemzésnek nevezzük. A "lineáris regressziós elemzés" kifejezést akkor használjuk, ha a vizsgált függvény lineárisan függ a becsült paraméterektől (a független változóktól való függés tetszőleges lehet). Az értékelés elmélete

Az ismeretlen paraméterek jól fejlettek, pontosan lineáris regressziós elemzés esetén. Ha nincs linearitás, és nem lehet lineáris problémára áttérni, akkor általában nem szabad jó tulajdonságokat várni a becslésektől. Mutassunk be megközelítéseket különféle típusú függőségek esetén. Ha a függőségnek polinom (polinom) alakja van. Ha a korrelációszámítás két változó közötti kapcsolat erősségét jellemzi, akkor a regressziós elemzés a kapcsolat típusának meghatározására szolgál, és lehetővé teszi az egyik (függő) változó értékének előrejelzését egy másik (független) változó értéke alapján. A lineáris regressziós elemzés elvégzéséhez a függő változónak intervallum- (vagy ordinális) skálával kell rendelkeznie. Ugyanakkor a bináris logisztikus regresszió felfedi egy dichotóm változó valamely más, bármely skálához kapcsolódó változótól való függését. Ugyanezek az alkalmazási feltételek érvényesek a probit elemzésre. Ha a függő változó kategorikus, de kettőnél több kategóriája van, akkor itt a multinomiális logisztikus regresszió lesz a megfelelő módszer, és az intervallumskálához tartozó változók közötti nemlineáris kapcsolatok elemezhetők. Erre szolgál a nemlineáris regresszió módszere.

KATEGÓRIÁK

NÉPSZERŰ CIKKEK

2023 "kingad.ru" - az emberi szervek ultrahangvizsgálata