Egyszerű lineáris regressziós gyakorlati példák. Lineáris regressziós paraméterek becslése

Ahogy fentebb említettük, lineáris kapcsolat esetén a regressziós egyenlet egy egyenes egyenlete.

Megkülönböztetni

Y = a u/x + b u/x x

X = a x/y + b x/y Y

Itt AÉs b– együtthatók, vagy paraméterek, amelyeket képletekkel határoznak meg. Együttható értéke b számított

A képletekből jól látható, hogy a regressziós együtthatók b u/xÉs b x/y ugyanolyan előjelű, mint a korrelációs együttható, a dimenzió megegyezik a vizsgált mutatók dimenzióinak arányával xÉs U, és a következő összefüggéssel kapcsolódnak egymáshoz:

Az együttható kiszámításához A elegendő a korrelált változók átlagértékeit behelyettesíteni a regressziós egyenletekbe



Az elméleti regressziós egyenesek grafikonja (17. ábra) így néz ki:

17. ábra Elméleti regressziós egyenesek

A fenti képletekből könnyen igazolható, hogy a regressziós egyenesek meredeksége egyenlő, ill


Mert
, Azt
. Ez azt jelenti, hogy a regressziós egyenes Y tovább x kisebb meredeksége van az x tengelyhez képest, mint a regressziós egyenes x tovább Y.

Minél közelebb egységre, minél kisebb a szög a regressziós egyenesek között. Ezek a sorok csak akkor egyesülnek
.

Nál nél
a közvetlen regressziókat az egyenletek írják le
,
.

Így a regressziós egyenletek lehetővé teszik:

    meghatározza, hogy egy mennyiség mennyit változik a másikhoz képest;

    eredményeket előre jelezni.

2. Számítási és grafikai munka elvégzésének módszertana 2. sz

A számítási és grafikai munka 4 részből áll.

Az első részben:

    A téma megfogalmazódik;

    A munka célja megfogalmazódik.

A második részben:

    A probléma feltétele megfogalmazódik;

    A kezdeti mintaadatok táblázata kitöltésre kerül.

A harmadik részben:

    A mérési eredményeket variációs sorozat formájában mutatjuk be;

    A variációs sorozat grafikus ábrázolása látható.

    Következtetés megfogalmazódik.

A negyedik részben:

    Számos mérés fő statisztikai jellemzőit számítják ki;

    A számítások eredményei alapján következtetést fogalmaznak meg.

Munkavégzés formája:

    A munka külön füzetben vagy kivágott lapokon történik.

    A címlap kitöltése a minta szerint történik.

Orosz Állami Egyetem

testkultúra, sport, ifjúság és turizmus

Természettudományi Tanszék

Korrelációs és regressziós elemzések

Számítási és grafikai munka 2. sz

matematika tanfolyamon

Kitöltötte: tanuló 1 k. 1 fazék. 1g.

Ivanov S.M.

Tanár:

Assoc. az UNM és az IT osztályai

Moszkva – 2012

(Példa a címlap kialakítására)

Példa számítási és grafikai munka elvégzésére 2. sz.

Munka témája: Korrelációs és regressziós elemzések.

A munka célja: Határozza meg két minta mutatói közötti kapcsolatot!

A munka előrehaladása:

    Készítsen két mintát a sportágából, azonos méretű n mérettel.

    Rajzoljon egy korrelációs mezőt, és vonjon le előzetes következtetést.

    Határozza meg a korrelációs együttható megbízhatóságát és vonja le a végső következtetést!

    Szerkesszünk elméleti regressziós egyeneseket a korrelációs mezőn, és mutassuk be a metszéspontjukat.

1. Probléma állapot: A sportolók egy csoportja 100 méteres gátfutásban határozta meg eredményeit x én(c) és távolugrás Y én(m) (táblázat). Ellenőrizze, hogy van-e összefüggés a vizsgált jellemzők között, és határozza meg a korrelációs együttható megbízhatóságát.

Minta forrásadattáblázat: Az eredményeket a kiindulási adatok táblázata mutatja.

6. táblázat

Futás és ugrás eredmények

p/p

x én, Val vel

Y én , m

p/p

x én, Val vel

Y én, m

Megoldás:

2 . Készítsünk korrelációs mezőt (szórásdiagramot), és vonjunk le előzetes következtetést a vizsgált jellemzők kapcsolatára vonatkozóan.

18. ábra Korrelációs mező

Előzetes következtetés:

A teljesítménymutatók kapcsolata 100 méteres gátfutásban x én(c) és távolugrás Y én(cm):

    lineáris;

    negatív;

3 . Számítsuk ki a páros lineáris Bravais–Pearson korrelációs együtthatót, miután előzetesen kiszámítottuk a két minta fő statisztikai mutatóit. Kiszámításukhoz összeállítunk egy táblázatot, amelyben az utolsó előtti és az utolsó oszlop szükséges a szórások kiszámításához, ha azok ismeretlenek. Példánkban ezeket az értékeket az első számítási és grafikai munkában számítottuk ki, de az érthetőség kedvéért a számítást ezen kívül is bemutatjuk.

7. táblázat

Segédtábla az együttható kiszámításához

Bravais–Pearson összefüggések

x én , Val vel

Y én, cm

13,59

x =
,

y =
,

.

A kapott korrelációs együttható értéke lehetővé teszi, hogy megerősítsük az előzetes következtetést és egy végső következtetést - a vizsgált jellemzők közötti kapcsolatot:

    lineáris;

    negatív;

4 . Határozzuk meg a korrelációs együttható megbízhatóságát.

Tegyük fel, hogy nincs összefüggés a 100 m futás eredménye és a távolugrás között ( N O : r= 0).

Következtetés: erős, negatív statisztikailag szignifikáns ( R=0,95) kapcsolat a 100 m-es akadályfutás és a távolugrás között. Ez azt jelenti, hogy a távolugrásban elért eredmény javulásával csökken a 100 m-es táv lefutásához szükséges idő.

5 . Számítsuk ki a determinációs együtthatót:

Ebből következően a 100 méteres gátfutás és a távolugrás eredményei közötti összefüggésnek csak 96%-a magyarázható ezek kölcsönös befolyásával, a többi, azaz 4%-a pedig egyéb nem figyelembe vett tényezők hatására.

6. Számítsuk ki a direkt és inverz regressziós egyenletek együtthatóit a képletekkel, helyettesítsük a számított együtthatók értékeit a megfelelő képletbe, és írjuk fel a direkt és inverz regressziós egyenleteket:

Y= a 1 + b 1 x- közvetlen regressziós egyenlet;

X = a 2 + b 2 Y- inverz regressziós egyenlet.

Használjuk a fenti számítási eredményeket:

x =
; y =
;
;
13,59;
6,4,

Számítsuk ki az együtthatót b 1 , a következő képlet segítségével:

Az együttható kiszámításához A 1 b 1 xÉs Y

A 1 És b 1

Y = 22 - 1,15x

Számítsuk ki az együtthatót b 2 , a következő képlet segítségével:

Az együttható kiszámításához A 2 helyette a közvetlen regressziós egyenletbe b 2 számított érték, és helyette xÉs Y két minta számtani átlagai a táblázatból:

Helyettesítsük be az együtthatók kapott értékeit A 1 És b 1 a közvetlen regressziós egyenletbe, és írja fel az egyenes egyenletet:

X = 18,92 - 0,83Y

Így megkaptuk a direkt és inverz regressziós egyenleteket:

Y = 22 - 1,15x- közvetlen regressziós egyenlet;

X = 18,92 - 0,83Y- inverz regressziós egyenlet.

A számítások helyességének ellenőrzéséhez elegendő az átlagértéket behelyettesíteni a közvetlen egyenletbe és határozza meg az értéket Y. Fogadott érték Y közel kell lennie az átlagos értékhez vagy azzal egyenlő .

Y = 22 - 1,15 = 22 - 1,15 13,59 = 6,4 =.

Ha behelyettesítjük az átlag inverz regressziós egyenletébe , a kapott érték x közel kell lennie az átlagos értékhez vagy azzal egyenlő .

X = 18,92 - 0,83= 18,92 - 0,83 6,4 = 13,6 = .

7. Építsünk regressziós egyeneseket a korrelációs mezőn.

Elméleti regressziós egyenesek grafikus felépítéséhez, valamint bármely egyenes felépítéséhez két pontra van szükség az értéktartományból xÉs Y.

Sőt, a közvetlen regressziós egyenletben a független változó x, és függő Y, ellenkező irányban pedig a független változó Y, és függő X.

Y = 22 - 1,15x

x

Y

X = 18,92 - 0,83Y

Y

x

A közvetlen és inverz regressziós egyenletek metszéspontjának koordinátái két minta számtani átlagának értékei (figyelembe véve a közelítő számítások kerekítési hibáit).

Következtetés: a 100 m-es akadályfutás eredményének ismeretében a közvetlen regressziós egyenlet segítségével elméletileg meghatározhatja a távolugrás eredményét; és fordítva, a távolugrás eredményének ismeretében az inverz regressziós egyenlet segítségével meghatározhatja az akadályfutás eredményét.

Feladat.

A régió könnyűipari vállalkozásaira vonatkozóan információkat szereztek a kibocsátás mennyiségének (Y, millió rubel) a tőkebefektetések volumenétől (Y, millió rubel) való függéséről.

Asztal 1.

A kibocsátás volumenének függősége a tőkebefektetések volumenétől.

x
Y

Kívánt:

1. Határozza meg a lineáris regressziós egyenlet paramétereit, adja meg a regressziós együttható közgazdasági értelmezését!

2. Számítsa ki a maradékokat; keresse meg a maradék négyzetösszeget; becsülje meg a maradékok szórását; ábrázolja a maradékokat.

3. Ellenőrizze az MNC előfeltételeinek teljesülését.

4. Ellenőrizze a regressziós egyenlet paramétereinek szignifikanciáját Student-féle t-próbával (α = 0,05).

5. Számítsa ki a determinációs együtthatót, ellenőrizze a regressziós egyenlet szignifikanciáját Fisher-féle F-próbával (α = 0,05), keresse meg a közelítés átlagos relatív hibáját. Vonjon le következtetést a modell minőségére vonatkozóan.

6. Határozza meg az Y mutató átlagos értékét α = 0,1 szignifikanciaszint mellett, ha az X faktor előrejelzett értéke a maximális érték 80%-a.

7. Mutassa be grafikusan az előrejelzési pont tényleges és modellezett Y értékeit.

8. Hozzon létre nemlineáris regressziós egyenleteket, és ábrázolja azokat:

Hiperbolikus;

Erős;

Tájékoztató jellegű.

9. Keresse meg a megadott modellekhez a determinációs együtthatókat és a közelítés átlagos relatív hibáit! Hasonlítsa össze a modelleket ezen jellemzők alapján, és vonjon le következtetést!

Keressük meg a lineáris regressziós egyenlet paramétereit és adjuk meg a regressziós együttható közgazdasági értelmezését.

A lineáris regressziós egyenlet a következő: ,

Az a és b paraméterek megtalálásához szükséges számításokat a 2. táblázat tartalmazza.

2. táblázat.

Értékek kiszámítása a lineáris regressziós egyenlet paramétereinek megtalálásához.

A regressziós egyenlet így néz ki: y = 13,8951 + 2,4016*x.

A tőkebefektetések volumenének (X) 1 millió rubel növekedésével. a kibocsátás mennyisége (Y) átlagosan 2,4016 millió rubel fog növekedni. Így az előjelek pozitív korrelációja mutatkozik meg, ami a vállalkozások hatékonyságát és a tevékenységükbe történő befektetések jövedelmezőségét jelzi.

2. Számítsa ki a maradékokat; keresse meg a maradék négyzetösszeget; becsüljük meg a maradékok szórását és ábrázoljuk a maradékokat.

A maradékot a következő képlet alapján számítják ki: e i = y i - y prog.

Az eltérések négyzetes maradékösszege: = 207,74.

A maradékok diszperziója: 25.97.

A számításokat a 3. táblázat mutatja.

3. táblázat.

Y x Y=a+b*xi e i = y i - y progn. e i 2
100,35 3,65 13,306
81,14 -4,14 17,131
117,16 -0,16 0,0269
138,78 -1,78 3,1649
136,38 6,62 43,859
143,58 0,42 0,1744
73,93 8,07 65,061
102,75 -1,75 3,0765
136,38 -4,38 19,161
83,54 -6,54 42,78
Összeg 0,00 207,74
Átlagos 111,4 40,6

A mérleg diagram így néz ki:


1. ábra. Egyenleg diagram

3. Ellenőrizzük az MNC előfeltételeinek teljesülését, amely a következő elemeket tartalmazza:

- annak ellenőrzése, hogy a véletlen komponens matematikai elvárása egyenlő-e nullával;

- a maradványok véletlenszerű természete;

- függetlenségi ellenőrzés;

- számos maradék megfelelése a normál eloszlási törvénynek.

Egy maradék sorozat szintjei matematikai elvárásainak egyenlőségének ellenőrzése nullával.

A megfelelő H 0: nullhipotézis tesztelése során végrehajtva. Erre a célra t-statisztikát készítünk, ahol .

, tehát a hipotézist elfogadjuk.

A maradékok véletlenszerű természete.

Ellenőrizzük számos maradék mennyiségének véletlenszerűségét a fordulópont-kritérium segítségével:

A fordulópontok számát a maradékok táblázata határozza meg:

e i = y i - y progn. Fordulópontok e i 2 (e i - e i -1) 2
3,65 13,31
-4,14 * 17,13 60,63
-0,16 * 0,03 15,80
-1,78 * 3,16 2,61
6,62 * 43,86 70,59
0,42 * 0,17 38,50
8,07 * 65,06 58,50
-1,75 * 3,08 96,43
-4,38 19,16 6,88
-6,54 42,78 4,68
Összeg 0,00 207,74 354,62
Átlagos

= 6 > , ezért a maradékok véletlenszerűségi tulajdonsága teljesül.

A maradék függetlensége Durbin-Watson teszttel ellenőrizve:

=4 - 1,707 = 2,293.

Mivel a d 2-től 2-ig terjedő intervallumba esett, így e kritérium alapján azt a következtetést vonhatjuk le, hogy a függetlenségi tulajdonság teljesül. Ez azt jelenti, hogy a dinamikai sorozatban nincs autokorreláció, ezért a modell e kritérium szerint megfelelő.

Számos maradék megfelelése a normál eloszlási törvénynek az R/S kritérium alapján, kritikus szintekkel (2,7-3,7);

Számítsuk ki az RS értéket:

RS = (e max - e min)/ S,

ahol e max a maradékok számának maximális értéke E(t) = 8,07;

e min - a maradékok számának minimális értéke E(t) = -6,54.

S - szórás, = 4,8044.

RS = (e max - e min)/ S = (8,07 + 6,54)/4,8044 = 3,04.

2.7 óta< 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

Így az MNC előfeltételeinek teljesítéséhez szükséges különféle kritériumok mérlegelésével arra a következtetésre jutottunk, hogy az MNC előfeltételei teljesülnek.

4. Ellenőrizzük a regressziós egyenlet paramétereinek szignifikanciáját Student-féle t-próbával α = 0,05.

Az egyes regressziós együtthatók szignifikanciájának ellenőrzése a számított értékek meghatározásához kapcsolódik t-teszt (t-statisztika) a megfelelő regressziós együtthatók esetében:

Ezután a számított értékeket összehasonlítjuk a táblázatos értékekkel t asztal= 2,3060. A kritérium táblázatos értékét a ( n- 2) szabadsági fokok ( n- megfigyelések száma) és a megfelelő a szignifikancia szint (0,05)

Ha a t-próba számított értéke -val (n- 2) a szabadságfokok egy adott szignifikanciaszinten meghaladják annak táblázati értékét, a regressziós együttható szignifikánsnak minősül.

Esetünkben az a 0 regressziós együtthatók jelentéktelenek, az 1 pedig szignifikáns együtthatók.

Páros lineáris regresszió

PRAKTIKUM

Páros lineáris regresszió: Workshop. –

Az ökonometria tanulmányozása során a hallgatók tapasztalatot szereznek ökonometriai modellek felépítésében, a modell specifikációjával és azonosításával kapcsolatos döntések meghozatalában, a modell paramétereinek becslésére szolgáló módszer megválasztásában, minőségi értékelésében, az eredmények értelmezésében, az előrejelzési becslésekben stb. A workshop segítséget nyújt a hallgatóknak. gyakorlati ismereteket szerezzenek ezekben a kérdésekben.

A szerkesztői és kiadói tanács jóváhagyta

Összeállította: M.B. Perova, a közgazdaságtan doktora, professzor

Általános rendelkezések

Az ökonometriai kutatás a jelenségek közötti kapcsolatokat megállapító elmélettel kezdődik. Az effektív tulajdonságot befolyásoló tényezők teljes köréből a legjelentősebb tényezőket emeljük ki. Miután a vizsgált jellemzők között fennáll a kapcsolat, a kapcsolat pontos típusát regressziós elemzéssel határozzuk meg.

Regresszió analízis egy analitikus kifejezés definiálásából áll (függvény meghatározásakor), amelyben egy érték (eredményjellemző) változása egy független érték (faktoriális jellemző) hatására következik be. Ez az összefüggés regressziós egyenlet vagy regressziós függvény felépítésével számszerűsíthető.

Az alap regressziós modell egy páros (egytényezős) regressziós modell. Páros regresszió– két változó közötti kapcsolat egyenlete nál nélÉs x:

Ahol – függő változó (eredményes attribútum);

– független, magyarázó változó (faktoriális jellemző).

A változás természetétől függően nál nél változással x megkülönböztetni a lineáris és nemlineáris regressziót.

Lineáris regresszió

Ezt a regressziós függvényt elsőfokú polinomnak nevezik, és az időben egyenletesen fejlődő folyamatok leírására szolgál.

Véletlenszerű taggal (regressziós hibák) az egyenletben figyelembe nem vett egyéb tényezők függő változóra gyakorolt ​​hatásával, a modell esetleges nemlinearitásával, mérési hibáival, így a megjelenésével kapcsolatos. véletlen hibaegyenlet regresszió oka lehet a következő cél okokból:

1) a minta nem reprezentativitása. A páros regressziós modell tartalmaz egy olyan tényezőt, amely nem tudja teljes mértékben megmagyarázni az eredménytulajdonság változását, amelyet sok más tényező (kihagyott változók) sokkal nagyobb mértékben befolyásolhat. Például a bérek a végzettségen túl függhetnek az iskolai végzettségtől, a munkatapasztalattól, a nemtől stb.;

2) fennáll annak a lehetősége, hogy a modellben szereplő változók hibával mérhetők. Például a háztartások élelmiszer-kiadásaira vonatkozó adatokat a felmérésben résztvevők nyilvántartásaiból állítják össze, akikről feltételezik, hogy gondosan rögzítik napi kiadásaikat. Természetesen előfordulhatnak hibák.

A minta megfigyelése alapján a minta regressziós egyenletét megbecsüljük ( regressziós egyenes):

,

Ahol
– a regressziós egyenlet paramétereinek becslései (
).

A függőség analitikus formája a vizsgált jellemzőpár között (regressziós függvény) az alábbiak segítségével határozzuk meg mód:

    Elméleti és logikai elemzés alapján a vizsgált jelenségek természete, társadalmi-gazdasági lényege. Például, ha megvizsgáljuk a háztartás jövedelme és a háztartások banki betéteinek nagysága közötti kapcsolatot, akkor nyilvánvaló, hogy a kapcsolat közvetlen.

    Grafikus módszer, amikor a kapcsolat jellegét vizuálisan értékeljük.

Ez a függőség jól látható, ha grafikont készít, és az attribútum értékeit az x tengelyen ábrázolja x, és az ordinátán - a jellemző értékei nál nél. Az értékeknek megfelelő pontok ábrázolásával xÉs nál nél, kapunk korrelációs mező:

a) ha a pontok véletlenszerűen vannak elszórva a mezőben, ez azt jelzi, hogy ezek a jellemzők nem függnek egymástól;

b) ha a pontok a bal alsó sarokból a jobb felső sarokból álló tengely köré koncentrálódnak, akkor a jellemzők között közvetlen kapcsolat van;

c) ha a pontok a bal felső sarokból a jobb alsóba tartó tengely köré összpontosulnak – akkor a jellemzők között fordított összefüggés áll fenn.

Ha a korrelációs mező pontjait egyenes szakaszokkal kötjük össze, akkor egy bizonyos növekedési hajlamú szaggatott vonalat kapunk. Ez egy empirikus kommunikációs vonal lesz, ill empirikus regressziós egyenes. Megjelenése alapján nemcsak a jelenlét, hanem a függőség formája is megítélhető a vizsgált jellemzők között.

Páros regressziós egyenlet megalkotása

A regressziós egyenlet felépítése a paramétereinek becslésén múlik. Ezek a paraméterbecslések többféleképpen is megtalálhatók. Ezek egyike a legkisebb négyzetek módszere (LSM). A módszer lényege a következő. Mindegyik érték empirikus (megfigyelt) értéknek felel meg . Regressziós egyenlet, például egyenes egyenlet felépítésével minden egyes értékhez az elméleti (számított) értéknek fog megfelelni . Megfigyelt értékek ne feküdjünk pontosan a regressziós egyenesre, azaz. nem egyeznek . A függő változó tényleges és számított értéke közötti különbséget nevezzük a maradék:

A legkisebb négyzetek módszere lehetővé teszi olyan paraméterbecslések megszerzését, amelyeknél a kapott jellemző tényleges értékeinek négyzetes eltéréseinek összege nál nél elméletiből , azaz a maradékok négyzetösszege minimális:

A lineáris egyenletek és a lineárisra redukálható nemlineáris egyenletek esetében a következő rendszert kell megoldani a AÉs b:

Ahol n- minta nagysága.

Az egyenletrendszer megoldása után megkapjuk az értékeket AÉs b, amely lehetővé teszi, hogy írjunk regressziós egyenlet(regressziós egyenlet):

Ahol – magyarázó (független) változó;

–magyarázott (függő) változó;

A regressziós egyenes átmegy a ponton ( ,) és az egyenlőségek teljesülnek:

Használhat kész képleteket, amelyek ebből az egyenletrendszerből következnek:

Ahol – a függő jellemző átlagos értéke;

–a független jellemző átlagértéke;

– a függő és független jellemzők szorzatának számtani középértéke;

– a független jellemző varianciája;

– kovariancia függő és független jellemzők között.

Minta kovariancia két változó x, nál nél ezeknek a változóknak az átlaguktól való eltéréseinek szorzatának átlagértéke

Paraméter b nál nél x nagy gyakorlati jelentőséggel bír, és regressziós együtthatónak nevezik. Regressziós együttható megmutatja, hogy átlagosan hány egységgel változik az érték nál nél x 1 mértékegységére.

Paraméterjel b páronkénti regressziós egyenletben a kapcsolat irányát jelzi:

Ha
, akkor a vizsgált mutatók közötti kapcsolat közvetlen, azaz. növekvő faktorjellel x az effektív jel is növekszik nál nél, és fordítva;

Ha
, akkor a vizsgált mutatók közötti kapcsolat fordított, azaz. növekvő faktorjellel x eredő jel nál nél csökken, és fordítva.

Paraméter értéke A páros regressziós egyenletben bizonyos esetekben a kapott karakterisztika kezdőértékeként értelmezhető nál nél. A paraméter ezen értelmezése A csak akkor lehetséges, ha az érték
jelentése van.

A regressziós egyenlet felépítése után a megfigyelt értékek y a következőképpen ábrázolható:

Maradék , mint a hibák , véletlenszerű változók, a hibáktól eltérően , megfigyelhető. A maradék a függő változónak az a része y, ami nem magyarázható regressziós egyenlettel.

A regressziós egyenlet alapján kiszámítható elméleti értékek x bármilyen értékre x.

A közgazdasági elemzésben gyakran használják a függvény rugalmasságának fogalmát. Rugalmassági függvény
relatív változásként számítjuk ki y relatív változásra x. A rugalmasság azt mutatja meg, hogy a függvény hány százalékkal változik
amikor a független változó 1%-kal változik.

Mivel egy lineáris függvény rugalmassága
nem állandó érték, hanem attól függ x, akkor a rugalmassági együtthatót általában átlagos rugalmassági mutatóként számítják ki.

Rugalmassági együttható megmutatja, hogy átlagosan hány százalékkal változik az eredményül kapott jellemző értéke átlagosan nál nél amikor egy tényezőjellemző megváltozik xátlagértékének 1%-ával:

Ahol
– a változók átlagértékei xÉs nál nél a mintában.

A felépített regressziós modell minőségének értékelése

Regressziós modell minősége– a megszerkesztett modell megfelelősége az eredeti (megfigyelt) adatoknak.

A csatlakozás szorosságának mérésére, pl. annak mérésére, hogy milyen közel van a funkcionálishoz, meg kell határozni a szórást, ami az eltéréseket méri nál nél tól től nál nél xés az egyéb tényezők hatására bekövetkező reziduális variáció jellemzése. Ezek képezik a regressziós modell minőségét jellemző mutatók alapját.

A páronkénti regresszió minőségét jellemző együtthatók segítségével határozzuk meg

1) kapcsolat szorossága - korrelációs index, páros lineáris korrelációs együttható;

2) közelítési hiba;

3) a regressziós egyenlet minősége és egyedi paraméterei - a regressziós egyenlet egészének és egyes paramétereinek átlagos négyzetes hibái.

Bármilyen típusú regressziós egyenlet esetén meghatározásra kerül korrelációs index, ami csak a korrelációs függés szorosságát jellemzi, i.e. a funkcionális kapcsolathoz való közelítés mértéke:

,

Ahol – faktoriális (elméleti) diszperzió;

– teljes variancia.

A korrelációs index értékeket vesz fel
, ahol,

Ha

Ha
- a jelek közötti kapcsolat xÉs nál nél funkcionális, minél közelebb van 1-hez képest, minél szorosabb a kapcsolat a vizsgált jellemzők között. Ha
, akkor a kapcsolat szorosnak tekinthető

A tengelykapcsoló-tömörségi mutatók kiszámításához szükséges eltérések kiszámítása:

Teljes variancia, amely az összes tényező hatására bekövetkező teljes eltérést méri:

Tényező (elméleti) variancia, a kapott tulajdonság variációjának mérése nál nél faktorjel hatása miatt x:

Maradék variancia, amely a tulajdonság variációját jellemzi nál nél minden tényező miatt, kivéve x(vagyis a kizárással x):

Ezután az eltérések összeadásának szabálya szerint:

A gőzfürdő minősége lineáris regressziót a segítségével is definiálhatjuk pár lineáris korrelációs együttható:

,

Ahol
– a változók kovarianciája xÉs nál nél;

– a független jellemző szórása;

– a függő jellemző szórása.

A lineáris korrelációs együttható a vizsgált jellemzők közötti kapcsolat szorosságát és irányát jellemzi. Mérése [-1; +1]:

Ha
– akkor a jellemzők közötti kapcsolat közvetlen;

Ha
– akkor a jelek közötti kapcsolat fordított;

Ha
– akkor nincs kapcsolat a jellemzők között;

Ha
vagy
– akkor a jellemzők közötti kapcsolat funkcionális, azaz. közötti teljes megfelelés jellemzi xÉs nál nél. Minél közelebb 1-hez képest, minél szorosabb a kapcsolat a vizsgált jellemzők között.

Ha a korrelációs indexet (páros lineáris korrelációs együttható) négyzetre emeljük, megkapjuk a determinációs együtthatót.

Meghatározási együttható– a faktorvariancia részarányát mutatja az összességben, és megmutatja, hogy az eredményül kapott jellemző hány százalékával változik nál nél a faktor jellemző változásával magyarázható x:

Nem jellemzi a teljes variációt nál nél faktor jelből x, hanem csak az a része, amelyik megfelel a lineáris regressziós egyenletnek, pl. azt mutatja, hogy az eredő jellemző változásának mekkora aránya lineárisan kapcsolódik a faktorjellemző változásához.

Nagyságrend
– a regressziós modellben nem tudó eltérések aránya a kapott jellemzőben.

A pontok szórása a korrelációs mezőben nagyon nagy lehet, és a számított regressziós egyenlet nagy hibát adhat az elemzett mutató becslésében.

Átlagos közelítési hiba a számított értékek átlagos eltérését mutatja a tényleges értékektől:

A megengedett legnagyobb érték 12-15%.

A standard hiba a függő változó regressziós egyenes körüli terjedésének mértéke. A megfigyelt értékek teljes halmazára számítjuk szabvány (effektív) regressziós egyenlet hibája, amely a tényleges értékek szórása nál nél a regressziós egyenlet segítségével számított elméleti értékekhez képest nál nél x .

,

Ahol
– szabadsági fokok száma;

m– a regressziós egyenlet paramétereinek száma (az egyenes egyenlethez m=2).

Összehasonlítva megbecsülheti az átlagos négyzetes hiba értékét

a) a kapott jellemző átlagértékével nál nél;

b) a jellemző szórásával nál nél:

Ha
, akkor ennek a regressziós egyenletnek a használata megfelelő.

Külön értékelve alapértelmezett az egyenlet paramétereinek (négyzet átlag) hibái és a korrelációs index:

;
;
.

x– szórás x.

A regressziós egyenlet jelentőségének és a kapcsolat szorosságát jelző mutatók ellenőrzése

Ahhoz, hogy a megszerkesztett modell további gazdasági számításokhoz felhasználható legyen, nem elegendő a megszerkesztett modell minőségének ellenőrzése. Ellenőrizni kell a legkisebb négyzetek módszerével kapott regressziós egyenlet becslések szignifikanciáját (szignifikanciáját) és a kapcsolaterősségi mutatót is, i. ellenőrizni kell, hogy megfelelnek-e a kapcsolat valódi paramétereinek.

Ez annak a ténynek köszönhető, hogy a korlátozott populációból számított mutatók megtartják az attribútum egyedi értékeiben rejlő véletlenszerűséget. Ezért ezek csak egy bizonyos statisztikai minta becslései. Fel kell mérni a regressziós paraméterek pontosságát és szignifikanciáját (megbízhatóságát, szignifikanciáját). Alatt jelentőség megérteni annak valószínűségét, hogy a tesztelt paraméter értéke nem nulla, és nem tartalmazza az ellentétes előjelű értékeket.

Jelentőség ellenőrzése– annak a feltevésének ellenőrzése, hogy a paraméterek nullától eltérőek.

Páros regressziós egyenlet jelentőségének felmérése A regressziós egyenlet egészének és egyes paramétereinek jelentőségére vonatkozó hipotézisek tesztelésére vezet ( a, b), determinációs együttható vagy korrelációs index.

Ebben az esetben a következőket lehet előterjeszteni: fő hipotézisekH 0 :

1)
– a regressziós együtthatók jelentéktelenek és a regressziós egyenlet is jelentéktelen;

2)
– a páros determinációs együttható jelentéktelen és a regressziós egyenlet is jelentéktelen.

A következő hipotézisek alternatívak (vagy fordítottak):

1)
– a regressziós együtthatók szignifikánsan különböznek a nullától, és a megszerkesztett regressziós egyenlet szignifikáns;

2)
– a páros determinációs együttható szignifikánsan különbözik a nullától és a megszerkesztett regressziós egyenlet szignifikáns.

A páros regressziós egyenlet jelentőségére vonatkozó hipotézis tesztelése

A regressziós egyenlet egészének statisztikai jelentéktelenségére és a determinációs együtthatóra vonatkozó hipotézis tesztelésére a F-kritérium(Fisher teszt):

vagy

Ahol k 1 = m–1 ; k 2 = nm – szabadsági fokok száma;

n– lakossági egységek száma;

m– a regressziós egyenlet paramétereinek száma;

–faktor diszperzió;

– maradék variancia.

A hipotézist a következőképpen teszteljük:

1) ha a tényleges (megfigyelt) érték F-kritérium nagyobb, mint ennek a kritériumnak a kritikus (táblázatos) értéke
, akkor valószínűséggel
a regressziós egyenlet vagy páros determinációs együttható jelentéktelenségére vonatkozó fő hipotézist elvetjük, és a regressziós egyenletet szignifikánsnak tekintjük;

2) ha az F-kritérium tényleges (megfigyelt) értéke kisebb, mint ennek a kritériumnak a kritikus értéke
, akkor valószínűséggel (
) a regressziós egyenlet vagy a páros determinációs együttható jelentéktelenségére vonatkozó fő hipotézist elfogadjuk, és a megszerkesztett regressziós egyenletet jelentéktelennek tekintjük.

Kritikus érték F-kritériumok a megfelelő táblázatokban találhatók a szignifikanciaszinttől függően és a szabadsági fokok száma
.

A szabadságfokok száma– indikátor, amely a minta nagysága közötti különbségként definiál n) és egy adott minta becsült paramétereinek száma ( m). Páronkénti regressziós modell esetén a szabadsági fokok számát a következőképpen számítjuk ki
, mivel a mintából két paramétert becsülünk (
).

Jelentősségi szint – érték meghatározása
,

Ahol – annak valószínűsége, hogy a becsült paraméter a konfidenciaintervallumba esik. Általában 0,95 fogadható el. És így annak a valószínűsége, hogy a becsült paraméter nem esik a konfidenciaintervallumba, egyenlő 0,05-tel (5%).

Ezután a páros regressziós egyenlet szignifikanciájának felmérése esetén az F-próba kritikus értékét a következőképpen számítjuk ki:
:

.

A páros regressziós egyenlet és a korrelációs index paramétereinek jelentőségére vonatkozó hipotézis tesztelése

Az egyenlet paramétereinek szignifikanciájának ellenőrzésekor (az a feltételezés, hogy a paraméterek különböznek a nullától), a fő hipotézis a kapott becslések jelentéktelenségére vonatkozik (
. Alternatív (inverz) hipotézist állítunk fel az egyenlet paramétereinek jelentőségéről.
).

A felállított hipotézisek tesztelésére használják t -kritérium (t-statisztika) Tanulói teszt. Megfigyelt érték t-kritériumokat összehasonlítjuk az értékkel t-kritérium, amelyet a Student-eloszlási táblázatból határoztak meg (kritikus érték). Kritikus érték t-kritériumok
két paramétertől függ: szignifikanciaszint és a szabadsági fokok száma
.

A felállított hipotéziseket a következőképpen teszteljük:

1) ha a megfigyelt érték abszolút értéke t-kritikus értéknél nagyobb kritériumok t-kritériumok, pl.
, akkor valószínűséggel
a regressziós paraméterek jelentéktelenségére vonatkozó fő hipotézist elvetik, i.e. a regressziós paraméterek nem egyenlők 0-val;

2) ha a megfigyelt érték abszolút értéke t-kritérium kisebb vagy egyenlő, mint a kritikus érték t-kritériumok, pl.
, akkor valószínűséggel
a regressziós paraméterek jelentéktelenségére vonatkozó fő hipotézist elfogadjuk, i.e. A regressziós paraméterek szinte nem különböznek 0-tól vagy 0-tól.

A regressziós együtthatók szignifikanciájának felmérése a Student-próbával úgy történik, hogy a becsléseiket összevetjük a standard hiba értékével:

;

A korrelációs index (lineáris koefficiens) statisztikai szignifikanciájának értékelésére szintén ezt használják t- Diákok t-próbája.

Néha ez megtörténik: a feladat szinte aritmetikailag megoldható, de mindenféle Lebesgue-integrál és Bessel-függvény jut először eszembe. Tehát elkezd egy neurális hálózat betanítását, majd hozzáad még néhány rejtett réteget, kísérletezik a neuronok számával, az aktiválási funkciókkal, majd eszébe jut az SVM és a Random Forest, és kezdi elölről. Ennek ellenére a szórakoztató statisztikai oktatási módszerek bősége ellenére a lineáris regresszió továbbra is az egyik népszerű eszköz. Ennek pedig megvannak az előfeltételei, nem utolsósorban az intuitívság a modell értelmezésében.

Néhány képlet

A legegyszerűbb esetben a lineáris modell a következőképpen ábrázolható:

Y i = a 0 + a 1 x i + ε i

ahol a 0 az y i függő változó matematikai elvárása, ha az x i változó nullával egyenlő; a 1 az y i függő változó várható változása, ha x i eggyel változik (ezt az együtthatót úgy választjuk meg, hogy a ½Σ(y i -ŷ i) 2 érték minimális legyen - ez az úgynevezett „maradékfüggvény”); ε i - véletlenszerű hiba.
Ebben az esetben az a 1 és a 0 együtthatók Pearson korrelációs együtthatóval, szórással és az x és y változók átlagértékeivel fejezhetők ki:

В 1 = cor(y, x)σ y /σ x

 0 = ȳ - â 1 x̄

Diagnosztikai és modellhibák

Ahhoz, hogy a modell helyes legyen, szükséges a Gauss-Markov feltételek teljesülése, pl. a hibáknak homoszkedasztikusnak kell lenniük, nulla matematikai elvárással. Az e i = y i - ŷ i maradék diagram segít meghatározni, hogy mennyire megfelelő a megszerkesztett modell (e i ε i becslésének tekinthető).
Nézzük meg a reziduumok grafikonját egyszerű y 1 ~ x lineáris összefüggés esetén (a továbbiakban minden példa a nyelven található R):

Rejtett szöveg

halmaz.mag(1) n<- 100 x <- runif(n) y1 <- x + rnorm(n, sd=.1) fit1 <- lm(y1 ~ x) par(mfrow=c(1, 2)) plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9) abline(fit1) plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



A maradékok többé-kevésbé egyenletesen oszlanak el a vízszintes tengely mentén, ami azt jelzi, hogy „nincs szisztematikus kapcsolat a véletlenszerű tag értékei között két megfigyelésben sem”. Most vizsgáljuk meg ugyanazt a grafikont, de egy lineáris modellre építettük, ami valójában nem lineáris:

Rejtett szöveg

y2<- log(x) + rnorm(n, sd=.1) fit2 <- lm(y2 ~ x) plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9) abline(fit2) plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Az y 2 ~ x grafikon alapján úgy tűnik, hogy lineáris kapcsolat feltételezhető, de a reziduumoknak van mintázata, ami azt jelenti, hogy itt nem fog működni a tiszta lineáris regresszió. Íme, mit jelent valójában a heteroszkedaszticitás:

Rejtett szöveg

y3<- x + rnorm(n, sd=.001*x) fit3 <- lm(y3 ~ x) plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9) abline(fit3) plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Az ilyen „felfújt” maradékokat tartalmazó lineáris modell nem helyes. Néha hasznos az is, hogy a maradékok kvantiliseit összevetjük azokkal a kvantisekkel, amelyek akkor várhatóak, ha a maradékok normális eloszlásúak lennének:

Rejtett szöveg

qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(ill2)



A második grafikonon jól látható, hogy a maradékok normalitási feltételezése elvethető (ami ismét azt jelzi, hogy a modell hibás). És vannak ilyen helyzetek is:

Rejtett szöveg

x4<- c(9, x) y4 <- c(3, x + rnorm(n, sd=.1)) fit4 <- lm(y4 ~ x4) par(mfrow=c(1, 1)) plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9) abline(fit4)



Ez az úgynevezett „outlier”, amely nagymértékben torzíthatja az eredményeket, és téves következtetésekhez vezethet. Az R-nek van egy eszköze ennek észlelésére - a szabványos dfbetas és hat értékek segítségével:
> kerek(dfbetas(fit4), 3) (elmetszés) x4 1 15,987 -26,342 2 -0,131 0,062 3 -0,049 0,017 4 0,083 0,000 5 0,023 0,000 5 0,023 0,034 5 0,023 0,034 5 -40,8 . 8 0,027 0,055 .....
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0,810 0,012 0,011 0,010 0,013 0,014 0,013 0,014 0,010 0,010...
Mint látható, az x4 vektor első tagja észrevehetően nagyobb hatással van a regressziós modell paramétereire, mint a többi, így kiugró érték.

Modellválasztás többszörös regresszióhoz

Természetesen többszörös regressziónál felmerül a kérdés: érdemes-e az összes változót figyelembe venni? Egyrészt úgy tűnik, hogy megéri, mert... bármely változó hasznos információt hordozhat. Ráadásul a változók számának növelésével növeljük az R2-t (egyébként éppen ez az oka annak, hogy ez a mérték nem tekinthető megbízhatónak a modell minőségének megítélésekor). Másrészt érdemes szem előtt tartani az olyan dolgokat, mint az AIC és a BIC, amelyek szankciókat vezetnek be a modell összetettsége miatt. Az információs kritérium abszolút értékének önmagában nincs értelme, ezért ezeket az értékeket több modellben is össze kell hasonlítani: esetünkben különböző számú változóval. A minimális információs kritérium értékű modell lesz a legjobb (bár van min vitatkozni).
Nézzük meg az US Crime adatkészletet a MASS könyvtárból:
könyvtár(MASS) adatok(UScrime) stepAIC(lm(y~., data=UScrime))
A legkisebb AIC-értékkel rendelkező modell a következő paraméterekkel rendelkezik:
Hívás: lm(képlet = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, adat = US Crime) Együtthatók: (elfogó) M Ed Po1 M.F U1 U2 Ineq Prob -6426,101 9,332 18,012 10,235 -6235 -10,235 . 6,133 -3796,032
Így az AIC figyelembe vételével az optimális modell a következő lesz:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Együtthatók: Estimate Std. Hiba t értéke Pr(>|t|) (elmetszés) -6426,101 1194,611 -5,379 4,04e-06 *** M 9,332 3,350 2,786 0,00828 ** Szerk. 18,012 5,214 ** Kiad. 18,012 5,214 . 1,5 52 6,613 8,26e-08 ** * M.F 2,234 1,360 1,642 0,10874 U1 -6,087 3,339 -1,823 0,07622 . U2 18,735 7,248 2,585 0,01371 * Ineq 6,133 1,396 4,394 8,63e-05 *** Prob -3796,032 1490,646 -2,547 0,01505 * Signif. kódok: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' 1
Ha alaposan megnézzük, kiderül, hogy az M.F és U1 változók meglehetősen magas p-értékkel rendelkeznek, ami arra utal, hogy ezek a változók nem olyan fontosak. De a p-érték meglehetősen kétértelmű mérőszám egy adott változó statisztikai modell szempontjából való fontosságának értékelésekor. Ezt a tényt egy példa egyértelműen bizonyítja:
adat<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Estimate Std. Hiba t értéke Pr(>|t|) V2 1.1912939 0.1401286 8.501431 3.325404e-17 V3 0.9354776 0.1271192 7.359057 2.56843 V2 2 7,503873 8,816818e-14 V5 1,1644978 0,1385375 8,405652 7,370156e-17 V6 1,0613459 0,1317248 0,1317248 8,017214050 V7 1,0092041 0,1287784 7,836752 7,021785e-15 V8 0,9307010 0,1219609 7,631143 3,391212e-14 V9 0,86290748 3,86294748 362082e-13 V10 0,9763194 0,0879140 11,105393 6,027585e-28
Mindegyik változó p-értéke gyakorlatilag nulla, és feltételezhető, hogy minden változó fontos ennél a lineáris modellnél. De valójában, ha alaposan megnézzük a maradványokat, valami ilyesmi derül ki:

Rejtett szöveg

plot(predict(fit), resid(fit), pch=".")



Egy alternatív megközelítés azonban a varianciaanalízisen alapul, amelyben a p-értékek kulcsszerepet játszanak. Hasonlítsuk össze az M.F változó nélküli modellt a csak AIC figyelembevételével épített modellel:
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Az 1. modell varianciatáblázatának elemzése: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob 2. modell: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Sq összege F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2,6978 0,1087
Ha 0,1087-es P-értéket adunk α=0,05 szignifikanciaszinten, akkor arra a következtetésre juthatunk, hogy nincs statisztikailag szignifikáns bizonyíték az alternatív hipotézis mellett, ti. a modell javára az M.F kiegészítő változóval. Grafikus módszerrel.
Ezzel a módszerrel vizuálisan ábrázolják a vizsgált gazdasági mutatók közötti kapcsolat formáját. Ehhez téglalap alakú koordinátarendszerben grafikont rajzolunk, az eredő Y jellemző egyedi értékeit az ordináta tengelye mentén, az X tényezőkarakterisztika egyedi értékeit pedig az abszcissza tengely mentén ábrázoljuk.
Az eredő és faktor jellemzők ponthalmazát ún korrelációs mező.
A korrelációs mező alapján feltételezhetjük (a sokaságra), hogy az X és Y összes lehetséges értéke közötti kapcsolat lineáris.

Lineáris regressziós egyenlet alakja y = bx + a + ε
Itt ε véletlen hiba (eltérés, zavar).
A véletlenszerű hiba okai:
1. Jelentős magyarázó változók beépítésének elmulasztása a regressziós modellbe;
2. Változók összesítése. Például a teljes fogyasztási függvény az egyéni kiadási döntések aggregátumának általános kifejezésére tett kísérlet. Ez csak a különböző paraméterekkel rendelkező egyedi kapcsolatok közelítése.
3. A modell szerkezetének helytelen leírása;
4. Helytelen funkcionális specifikáció;
5. Mérési hibák.
Mivel az ε i eltérések minden egyes i megfigyelésre véletlenszerűek, és a mintában szereplő értékeik ismeretlenek, akkor:
1) az x i és y i megfigyelésekből csak az α és β paraméterek becslései nyerhetők
2) A regressziós modell α és β paramétereinek becslései az a és b értékek, amelyek természetüknél fogva véletlenszerűek, mert véletlenszerű mintának felel meg;
Ekkor a (mintaadatokból összeállított) becslési regressziós egyenlet y = bx + a + ε alakú lesz, ahol e i az ε i hibák megfigyelt értékei (becslései), a és b pedig becslései a regressziós modell α és β paramétereit, amelyeket meg kell találni.
Az α és β paraméterek becsléséhez a legkisebb négyzetek módszerét (legkisebb négyzetek módszerét) alkalmazzuk.
Normálegyenletrendszer.

Adataink szerint az egyenletrendszer a következőképpen alakul:

10a + 356b = 49
356a + 2135b = 9485

Az első egyenletből kifejezzük a-t és behelyettesítjük a második egyenletbe
Azt kapjuk, hogy b = 68,16, a = 11,17

Regressziós egyenlet:
y = 68,16 x - 11,17

1. Regressziós egyenlet paraméterei.
A minta azt jelenti.



Minta eltérések.


Szórás

1.1. Korrelációs együttható
Kiszámoljuk a kapcsolat szorosságának mutatóját. Ez a mutató a minta lineáris korrelációs együtthatója, amelyet a következő képlettel számítanak ki:

A lineáris korrelációs együttható –1 és +1 közötti értékeket vesz fel.
A jellemzők közötti kapcsolatok lehetnek gyengeek és erősek (szorosak). Kritériumaik értékelése a Chaddock-skála szerint történik:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Példánkban az Y tulajdonság és az X faktor közötti kapcsolat nagyon magas és közvetlen.

1.2. Regressziós egyenlet(regressziós egyenlet becslése).

A lineáris regressziós egyenlet y = 68,16 x -11,17
A lineáris regressziós egyenlet együtthatói közgazdasági jelentéssel bírhatnak. Regressziós egyenlet együtthatója megmutatja, hány egységet. az eredmény megváltozik, ha a tényező 1 egységgel változik.
A b = 68,16 együttható az effektív mutató átlagos változását mutatja (y mértékegységben) az x tényező mérési egységenkénti értékének növekedésével vagy csökkenésével. Ebben a példában 1 egységnyi növekedéssel y átlagosan 68,16-tal nő.
Az a = -11,17 együttható formálisan mutatja y előrejelzett szintjét, de csak akkor, ha x = 0 közel van a mintaértékekhez.
De ha x = 0 messze van x mintaértékeitől, akkor a szó szerinti értelmezés helytelen eredményekhez vezethet, és még ha a regressziós egyenes is meglehetősen pontosan írja le a megfigyelt mintaértékeket, nincs garancia arra, hogy ez is balra vagy jobbra extrapolálásakor.
A megfelelő x értékeket a regressziós egyenletbe behelyettesítve meghatározhatjuk az y(x) teljesítménymutató egymáshoz igazított (előre jelzett) értékeit minden megfigyeléshez.
Az y és x közötti kapcsolat határozza meg a b regressziós együttható előjelét (ha > 0 - közvetlen kapcsolat, egyébként - inverz). Példánkban a kapcsolat közvetlen.

1.3. Rugalmassági együttható.
Nem célszerű regressziós együtthatókat használni (a b példában) a tényezők eredő jellemzőre gyakorolt ​​hatásának közvetlen értékelésére, ha az y eredő mutató és az x faktorkarakterisztika mértékegységei eltérnek.
Ebből a célból kiszámítják a rugalmassági együtthatókat és a béta együtthatókat. A rugalmassági együtthatót a következő képlet határozza meg:


Megmutatja, hogy átlagosan hány százalékkal változik az y effektív attribútum, ha az x faktorattribútum 1%-kal változik. Nem veszi figyelembe a tényezők ingadozásának mértékét.
Példánkban a rugalmassági együttható nagyobb, mint 1. Ezért ha X 1%-kal változik, Y több mint 1%-kal változik. Más szavakkal, X jelentősen befolyásolja Y-t.
Béta együttható megmutatja, hogy a szórása értékének mekkora részével változik az eredményül kapott jellemző átlagértéke, ha a faktorkarakterisztika szórásának értékével változik a fennmaradó független változók állandó szinten rögzített értékével:

Azok. x-nek a mutató szórásával való növelése az átlagos Y 0,9796 szórásával történő növekedéséhez vezet.

1.4. Közelítési hiba.
Értékeljük a regressziós egyenlet minőségét az abszolút közelítés hibájával.


Mivel a hiba több mint 15%, nem célszerű ezt az egyenletet regresszióként használni.

1.6. Meghatározási együttható.
A (többszörös) korrelációs együttható négyzetét determinációs együtthatónak nevezzük, amely megmutatja, hogy az eredő attribútum mekkora hányadát magyarázza a faktorattribútum változása.
Leggyakrabban a determinációs együttható értelmezésekor százalékban fejezik ki.
R2 = 0,982 = 0,9596
azok. az esetek 95,96%-ában x változása y változásához vezet. Más szóval, a regressziós egyenlet kiválasztásának pontossága nagy. Az Y változás fennmaradó 4,04%-át a modellben nem vett tényezők magyarázzák.

x y x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. A regressziós egyenlet paramétereinek becslése.
2.1. A korrelációs együttható jelentősége.

Az α=0,05 szignifikanciaszintű és k=7 szabadságfokú Student-táblázatot használva t crit-et kapunk:
t-krit = (7;0,05) = 1,895
ahol m = 1 a magyarázó változók száma.
Ha t megfigyelt > t kritikus, akkor a kapott korrelációs együttható értéke szignifikánsnak tekinthető (az a nullhipotézis, amely szerint a korrelációs együttható nullával egyenlő, elvetendő).
Mivel t obs > t crit, elvetjük azt a hipotézist, hogy a korrelációs együttható 0. Más szóval, a korrelációs együttható statisztikailag szignifikáns
Páros lineáris regresszióban t 2 r = t 2 b, majd a regressziós és korrelációs együtthatók szignifikanciájára vonatkozó hipotézisek tesztelése egyenértékű a lineáris regressziós egyenlet szignifikanciájára vonatkozó hipotézis tesztelésével.

2.3. A regressziós együttható becslések meghatározásának pontosságának elemzése.
A zavarok szóródásának elfogulatlan becslése a következő érték:


S 2 y = 94,6484 - megmagyarázhatatlan variancia (a függő változó regressziós egyenes körüli terjedésének mértéke).
S y = 9,7287 - a becslés standard hibája (a regresszió standard hibája).
S a - a valószínűségi változó szórása a.


S b - a b valószínűségi változó szórása.

2.4. A függő változó konfidencia intervallumai.
A felépített modellen alapuló közgazdasági előrejelzés feltételezi, hogy a változók között már meglévő kapcsolatok megmaradnak az átfutási idő alatt.
Az eredményül kapott attribútum függő változójának előrejelzéséhez ismerni kell a modellben szereplő összes tényező előrejelzett értékét.
A faktorok előre jelzett értékeit behelyettesítik a modellbe, és megkapják a vizsgált mutató prediktív pontbecsléseit. (a + bx p ± ε)
Ahol

Számítsuk ki annak az intervallumnak a határait, amelyben Y lehetséges értékeinek 95%-a koncentrálódik korlátlan számú megfigyeléssel, és X p = 1 (-11,17 + 68,16*1 ± 6,4554)
(50.53;63.44)

Egyéni konfidencia intervallumok aYadott értékenx.
(a + bx i ± ε)
Ahol

x i y = -11,17 + 68,16x i εi ymin ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

95%-os valószínűséggel garantálható, hogy korlátlan számú megfigyelés esetén az Y érték nem esik a talált intervallumok határain kívülre.

2.5. Lineáris regressziós egyenlet együtthatóira vonatkozó hipotézisek tesztelése.
1) t-statisztika. Diák t teszt.
Ellenőrizzük a H 0 hipotézist az egyes regressziós együtthatók nullával való egyenlőségéről (ha az alternatíva nem egyenlő H 1-gyel) α=0,05 szignifikancia szinten.
t-krit = (7;0,05) = 1,895


Mivel 12,8866 > 1,895, a b regressziós együttható statisztikai szignifikanciája beigazolódik (elvetjük azt a hipotézist, hogy ez az együttható nullával egyenlő).


Mivel 2,0914 > 1,895, az a regressziós együttható statisztikai szignifikanciája beigazolódik (elvetjük azt a hipotézist, hogy ez az együttható nullával egyenlő).

A regressziós egyenlet együtthatóinak konfidencia intervalluma.
Határozzuk meg a regressziós együtthatók konfidencia intervallumait, amelyek 95%-os megbízhatósággal a következők lesznek:
(b - t crit S b ; b + t crit S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
95%-os valószínűséggel kijelenthető, hogy ennek a paraméternek az értéke a talált intervallumban lesz.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
95%-os valószínűséggel kijelenthető, hogy ennek a paraméternek az értéke a talált intervallumban lesz.

2) F-statisztika. Fisher-kritérium.
A regressziós modell szignifikanciájának tesztelése Fisher-féle F-próbával történik, melynek számított értéke a vizsgált indikátor eredeti megfigyelési sorozata szórásának és a reziduális sorozat varianciájának torzítatlan becslésének az aránya. ehhez a modellhez.
Ha a lang=EN-US>n-m-1) szabadságfokkal számított érték egy adott szignifikancia szinten nagyobb, mint a táblázatos érték, akkor a modell szignifikánsnak minősül.

ahol m a modellben szereplő tényezők száma.
A páros lineáris regresszió statisztikai szignifikanciáját a következő algoritmus segítségével értékeljük:
1. Feltételezzük azt a nullhipotézist, hogy az egyenlet egésze statisztikailag jelentéktelen: H 0: R 2 =0 α szignifikancia szinten.
2. Ezután határozza meg az F-kritérium tényleges értékét:


ahol m=1 páronkénti regresszió esetén.
3. A táblázatos értéket a Fisher-eloszlási táblázatokból határozzuk meg egy adott szignifikanciaszinthez, figyelembe véve, hogy a teljes négyzetösszeg (nagyobb variancia) szabadságfokainak száma 1, a maradék szabadságfokainak száma pedig a lineáris regresszió négyzetösszege (kisebb variancia) n-2.
4. Ha az F-próba tényleges értéke kisebb, mint a táblázat értéke, akkor azt mondják, hogy nincs ok a nullhipotézis elutasítására.
Ellenkező esetben a nullhipotézist elvetjük, és az egyenlet egészének statisztikai szignifikanciájáról szóló alternatív hipotézist (1-α) valószínűséggel elfogadjuk.
A k1=1 és k2=7 szabadságfokkal rendelkező kritérium táblázati értéke, Fkp = 5,59
Mivel F > Fkp tényleges értéke, a determinációs együttható statisztikailag szignifikáns (A regressziós egyenlet talált becslése statisztikailag megbízható).

A maradékok autokorrelációjának ellenőrzése.
Az OLS-t használó kvalitatív regressziós modell megalkotásának fontos előfeltétele a véletlen eltérések értékeinek függetlensége az összes többi megfigyelés eltérési értékétől. Ez biztosítja, hogy ne legyen összefüggés az eltérések és különösen a szomszédos eltérések között.
Autokorreláció (soros korreláció) az időben (idősorok) vagy térben (keresztsorok) rendezett megfigyelt mutatók közötti korrelációként definiálható. A reziduumok (varianciák) autokorrelációja gyakori a regressziós elemzésben idősoros adatok használatakor, és nagyon ritka keresztmetszeti adatok használatakor.
A gazdasági problémáknál sokkal gyakoribb pozitív autokorreláció, inkább mint negatív autokorreláció. A legtöbb esetben a pozitív autokorrelációt néhány, a modellben figyelmen kívül hagyott tényező iránykonstans hatása okozza.
Negatív autokorreláció valójában azt jelenti, hogy a pozitív eltérést negatív követi, és fordítva. Ez akkor fordulhat elő, ha az üdítőital-kereslet és a bevétel között azonos összefüggést vesszük figyelembe szezonális adatok szerint (tél-nyár).
Között autokorrelációt okozó fő okok, a következők különböztethetők meg:
1. Specifikációs hibák. Bármely fontos magyarázó változó figyelembevételének elmulasztása a modellben, vagy a függőség formájának helytelen megválasztása általában a megfigyelési pontok rendszerszintű eltéréséhez vezet a regressziós egyenestől, ami autokorrelációhoz vezethet.
2. Tehetetlenség. Számos gazdasági mutató (infláció, munkanélküliség, GNP stb.) rendelkezik bizonyos ciklikussággal, amely az üzleti tevékenység hullámzásához kapcsolódik. Ezért a mutatók változása nem azonnal következik be, hanem bizonyos tehetetlenséggel rendelkezik.
3. Pókháló effektus. Számos termelési és egyéb területen a gazdasági mutatók késéssel (időeltolással) reagálnak a gazdasági feltételek változásaira.
4. Adatsimítás. Gyakran egy bizonyos hosszú időszakra vonatkozó adatokat úgy nyerik, hogy átlagolják az adatokat alkotó intervallumokon. Ez a vizsgált időszakban bekövetkezett ingadozások bizonyos kisimításához vezethet, ami viszont autokorrelációt okozhat.
Az autokorreláció következményei hasonlóak a heteroszkedaszticitás következményeihez: a t- és F-statisztikákból a regressziós együttható és a determinációs együttható szignifikanciáját meghatározó következtetések valószínűleg tévesek.

Autokorreláció észlelése

1. Grafikus módszer
Számos lehetőség van az autokorreláció grafikus meghatározására. Az egyik az e i eltéréseket az átvétel i pillanataival kapcsolja össze. Ebben az esetben az abszcissza tengely mentén vagy a statisztikai adatok megszerzésének időpontja, vagy a megfigyelés sorszáma, az ordináta tengely mentén pedig az e i eltérések (vagy az eltérések becslései) kerülnek ábrázolásra.
Természetes azt feltételezni, hogy ha van bizonyos kapcsolat az eltérések között, akkor autokorreláció megy végbe. A függőség hiánya nagy valószínűséggel az autokorreláció hiányát jelzi.
Az autokorreláció egyértelműbbé válik, ha ábrázoljuk e i függését az e i-1-től.

Durbin-Watson teszt.
Ez a kritérium a legismertebb az autokorreláció kimutatására.
A regressziós egyenletek statisztikai elemzésekor a kezdeti szakaszban gyakran egy előfeltétel megvalósíthatóságát ellenőrzik: az egymástól való eltérések statisztikai függetlenségének feltételeit. Ebben az esetben a szomszédos e i értékek korrelálatlanságát ellenőrizzük.

y y(x) e i = y-y(x) e 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Az eltérések korrelációjának elemzésére Durbin-Watson statisztikát használnak:

A d 1 és d 2 kritikus értékeket speciális táblázatok alapján határozzák meg a szükséges α szignifikanciaszinthez, a megfigyelések számához n = 9 és a magyarázó változók számához m = 1.
Nincs autokorreláció, ha a következő feltétel teljesül:
d 1< DW и d 2 < DW < 4 - d 2 .
A táblázatokra való hivatkozás nélkül használhat egy közelítő szabályt, és feltételezheti, hogy nincs autokorreláció a maradékok között, ha 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.
KATEGÓRIÁK

NÉPSZERŰ CIKKEK

2023 „kingad.ru” - az emberi szervek ultrahangvizsgálata