Stanovenie viacnásobného korelačného koeficientu v MS Excel.

Spočiatku v modeli pri zahŕňajú všetky hlavné komponenty (vypočítané hodnoty sú uvedené v zátvorkách t-kritériá):

Kvalitu modelu charakterizuje: viacnásobný koeficient determinácie r = 0,517, priemerná relatívna chyba aproximácie = 10,4 %, zvyškový rozptyl s 2= 1,79 a F pozorovateľné = 121. Vzhľadom na to, že F obs > F kr = 2,85 pri α = 0,05, v 1 = 6, v 2= 14, regresná rovnica je významná a aspoň jeden z regresných koeficientov - β 1, β 2, β 3, β 4 - sa nerovná nule.

Ak význam regresnej rovnice (hypotéza H 0:β 1 = β 2 = β 3 = β 4 = 0 bola kontrolovaná pri α = 0,05, potom významnosť regresných koeficientov, t.j. hypotéz H0: β j = 0 (j = 1, 2, 3, 4), by sa mali testovať na hladine významnosti väčšej ako 0,05, napríklad pri α = 0,1. Potom pri α = 0,1, v= 14 magnitúda t cr = 1,76 a významné, ako vyplýva z rovnice (53.41), sú regresné koeficienty β 1, β 2, β 3.

Vzhľadom na to, že hlavné zložky nie sú navzájom korelované, môžeme z rovnice okamžite odstrániť všetky nevýznamné koeficienty a rovnica bude mať tvar

(53.42)

Pri porovnaní rovníc (53.41) a (53.42) vidíme, že bez nevýznamných hlavných komponentov f 4 A f 5, neovplyvnil hodnoty koeficientov rovnice b 0 = 9,52, b 1 = 0,93, b2 = 0,66 a zodpovedajúce t j (j = 0, 1, 2, 3).

Je to kvôli nekorelovanej povahe hlavných komponentov. Zaujímavá je tu paralela regresných rovníc pre počiatočné ukazovatele (53.22), (53.23) a hlavné zložky (53.41), (53.42).

Rovnica (53.42) je významná, pretože F obs = 194 > F cr = 3,01, zistené pri α = 0,05, v 1 = 4, v 2= 16. Významné sú aj koeficienty rovnice, keďže tj > t cr . = 1,746, čo zodpovedá α ​​= 0,01, v= 16 za j= 0, 1, 2, 3. Koeficient determinácie r= 0,486 znamená, že 48,6 % variácie pri vplyvom prvých troch hlavných zložiek.

Rovnica (53.42) je charakterizovaná priemernou relatívnou chybou aproximácie = 9,99 % a reziduálnym rozptylom s 2 = 1,91.

Regresná rovnica na hlavných komponentoch (53.42) má o niečo lepšie aproximačné vlastnosti v porovnaní s regresným modelom (53.23) na základe počiatočných ukazovateľov: r= 0,486 > r= 0,469; = 9,99% < (X) = 10,5 % a s2 (f) = 1,91 < s2 (x) = 1,97. Okrem toho v rovnici (53.42) sú hlavnými komponentmi lineárne funkcie všetkých počiatočných ukazovateľov, zatiaľ čo rovnica (53.23) obsahuje iba dve premenné ( x 1 A x 4). V mnohých prípadoch je potrebné vziať do úvahy, že model (53.42) je ťažko interpretovateľný, pretože obsahuje tretiu hlavnú zložku f 3, ktoré sme neinterpretovali a ktorých príspevok k celkovému rozptylu počiatočných ukazovateľov ( x 1, ..., x 5) je len 8,6 %. Avšak výnimka f 3 z rovnice (53.42) výrazne zhoršuje aproximačné vlastnosti modelu: r= 0,349; = 12,4 % a s 2(f) = 2,41. Potom je vhodné zvoliť rovnicu (53.23) ako regresný model výnosu.

Zhluková analýza

V štatistickom výskume je hlavnou rozhodovacou technikou zoskupovanie primárnych údajov problémy s klasifikáciou, a teda základom pre všetku ďalšiu prácu so zozbieranými informáciami.

Tradične sa tento problém rieši nasledovne. Z mnohých funkcií, ktoré popisujú objekt, sa vyberie jedna, ktorá je z pohľadu výskumníka najinformatívnejšia, a údaje sa zoskupia v súlade s hodnotami tejto funkcie. Ak je potrebné vykonať klasifikáciu na základe niekoľkých kritérií, zoradených medzi sebou podľa stupňa dôležitosti, potom sa najskôr vykoná klasifikácia podľa prvej charakteristiky, potom sa každá z výsledných tried rozdelí na podtriedy podľa druhej charakteristiky. , atď. Väčšina kombinačných štatistických zoskupení je konštruovaná podobným spôsobom.

V prípadoch, keď nie je možné usporiadať klasifikačné charakteristiky, sa používa najjednoduchšia metóda viacrozmerného zoskupovania - vytvorenie integrálneho ukazovateľa (indexu), funkčne závislého od počiatočných charakteristík, po ktorom nasleduje klasifikácia podľa tohto ukazovateľa.

Rozvinutím tohto prístupu je možnosť klasifikácie založená na niekoľkých všeobecných ukazovateľoch (hlavných zložkách) získaných pomocou metód faktorovej alebo komponentovej analýzy.

Ak existuje viacero znakov (počiatočných alebo zovšeobecnených), klasifikačný problém možno vyriešiť metódami zhlukovej analýzy, ktoré sa od ostatných viacrozmerných klasifikačných metód líšia absenciou trénovacích vzoriek, t.j. a priori informácie o rozložení obyvateľstva.

Rozdiely medzi schémami riešenia klasifikačného problému sú do značnej miery určené tým, čo sa myslí pod pojmami „podobnosť“ a „stupeň podobnosti“.

Po sformulovaní cieľa práce je prirodzené pokúsiť sa určiť kritériá kvality, objektívnu funkciu, ktorej hodnoty umožnia porovnávať rôzne klasifikačné schémy.

V ekonomických štúdiách by cieľová funkcia spravidla mala minimalizovať niektorý parameter definovaný na súbore objektov (napríklad účelom klasifikácie zariadení môže byť zoskupenie, ktoré minimalizuje celkové náklady na čas a peniaze na opravy).

V prípadoch, keď nie je možné formalizovať cieľ úlohy, môže byť kritériom kvality klasifikácie možnosť zmysluplnej interpretácie nájdených skupín.

Uvažujme o nasledujúcom probléme. Nechajte súbor preštudovať P objekty, z ktorých každý je charakterizovaný k merané znaky. Je potrebné rozdeliť túto totalitu do skupín (tried), ktoré sú v určitom zmysle homogénne. Zároveň prakticky neexistujú žiadne apriórne informácie o charaktere distribúcie k-rozmerný vektor X vnútri tried.

Skupiny získané rozdelením sa zvyčajne nazývajú zhluky* (taxóny**, obrázky), metódy na ich nájdenie sa nazývajú zhluková analýza (respektíve numerická taxonómia alebo rozpoznávanie vzorov so samoučením).

* Cluster(angličtina) – skupina prvkov charakterizovaná nejakou spoločnou vlastnosťou.

**Tahop(angličtina) - systematická skupina akejkoľvek kategórie.

Od samého začiatku je potrebné jasne pochopiť, ktorý z dvoch klasifikačných problémov sa má vyriešiť. Ak sa rieši obvyklý problém typizácie, potom sa súbor pozorovaní rozdelí na relatívne malý počet oblastí zoskupenia (napríklad intervalový variačný rad v prípade jednorozmerných pozorovaní), takže prvky jednej takejto oblasti sú čo najbližšie k sebe.

Riešením ďalšieho problému je určenie prirodzenej stratifikácie výsledkov pozorovania do jasne definovaných zhlukov ležiacich v určitej vzdialenosti od seba.

Ak má prvý typizačný problém vždy riešenie, tak v druhom prípade sa môže ukázať, že súbor pozorovaní nevykazuje prirodzenú stratifikáciu do zhlukov, t.j. tvorí jeden zhluk.

Hoci mnohé metódy klastrovej analýzy sú celkom elementárne, väčšina prác, v ktorých boli navrhnuté, sa datuje do posledného desaťročia. Vysvetľuje to skutočnosť, že efektívne riešenie problémov vyhľadávania klastrov, ktoré si vyžaduje vykonávanie veľkého počtu aritmetických a logických operácií, bolo možné až so vznikom a rozvojom výpočtovej techniky.

Obvyklá forma reprezentácie počiatočných údajov v problémoch klastrovej analýzy je matica

z ktorých každý riadok predstavuje výsledky merania k uvažované znaky v jednom zo skúmaných objektov. V špecifických situáciách môže byť zaujímavé zoskupovanie objektov aj zoskupovanie prvkov. V prípadoch, keď rozdiel medzi týmito dvoma úlohami nie je významný, napríklad pri popise niektorých algoritmov, budeme v tomto koncepte používať iba pojem „objekt“, vrátane pojmu „vlastnosť“.

Matrix X nie je jediným spôsobom, ako prezentovať údaje v problémoch klastrovej analýzy. Niekedy sú počiatočné informácie uvedené vo forme štvorcovej matice

element r ij ktorý určuje mieru blízkosti i-ty objekt j-mu.

Väčšina algoritmov klastrovej analýzy je úplne založená na matici vzdialeností (alebo blízkosti) alebo vyžaduje výpočet jej jednotlivých prvkov, takže ak sú údaje prezentované vo forme X, potom prvou etapou riešenia problému hľadania zhlukov bude výber metódy na výpočet vzdialeností alebo blízkosti medzi objektmi alebo prvkami.

O niečo jednoduchšie sa rieši otázka určenia blízkosti medzi charakteristikami. Klastrová analýza znakov spravidla sleduje rovnaké ciele ako faktorová analýza: identifikuje skupiny súvisiacich znakov, ktoré odrážajú určitý aspekt skúmaných objektov. Meradlom blízkosti sú v tomto prípade rôzne štatistické koeficienty spojenia.


Súvisiace informácie.


Test č.2

Možnosť č.5

Cvičenie 1. Pomocou počítačovej technológie vykonajte korelačnú a regresnú analýzu skúmaných ekonomických ukazovateľov a zostavte regresný model………………………..…..3

1.1 Konštrukcia korelačného poľa………………………………………………………………4

1.2 Konštrukcia matice párových korelačných koeficientov……………6

1.3 Konštrukcia a analýza jednofaktorových regresných modelov lineárnej a exponenciálnej formy pomocou vstavaných funkcií TP MS Excel………………………………………………………………………… ………………………………………………… 6

1.4 Konštrukcia lineárneho jednofaktorového regresného modelu……….10

1.5 Závery……………………………………………………………………………………………… 15

Úloha 2. Pomocou počítačovej techniky vyriešte úlohy lineárneho programovania……………………………………………………………….18

a) Problém optimálneho plánovania výroby ……………….19

1. Matematická formulácia úlohy………………………………………………..19

2. Umiestnenie zdrojových údajov na pracovný list TP MS Excel, výpočet obmedzujúcich hodnôt, výpočet hodnôt objektívnych funkcií…………………...19

3. Formulácia matematického modelu úlohy z hľadiska buniek pracovného listu TP MS Excel………………………………………………..20

4. Hľadajte optimálne riešenie daného problému pomocou doplnku „Search for Solution“…………………………………………………..20

5. Analýza výsledkov……………………………………………………………….21

b) Problém optimalizácie dopravného plánu (dopravný problém)…23

1. Matematická formulácia úlohy………………………………………………..23

2. Umiestňovanie údajov do pracovného hárku TP MS Excel …………………...24

3. Vyjadrenie problému vo forme pracovného hárka programu Excel na použitie pomôcky „Hľadať riešenie“….…………………………25

4. Analýza výsledkov……………………………………………………………….26

Zoznam referencií………………………………………………………………..28

Úloha 1. Pomocou počítačovej technológie vykonajte korelačnú a regresnú analýzu skúmaných ekonomických ukazovateľov a vytvorte regresný model.

Ako výskumné nástroje použite nasledujúce:



Doplnkové nástroje Balík analýzy TP MS Excel;

Zabudované funkcie knižnice Stats (Statistics) CKM Maple.

Podmienky pre úlohu 1:

Pomocou vzorových údajov skúmajte vplyv faktorov X1, X2 a X3 na efektívnu vlastnosť Y.

Zostrojte korelačné pole a urobte predpoklad o prítomnosti a type spojenia medzi skúmanými faktormi;

Po posúdení blízkosti vzťahu medzi skúmanými faktormi vytvorte multifaktoriálny (jednofaktorový) lineárne regresný model tvaru Y=f(X1,X2 X3) alebo typu Y=f(X).

Odhad:

Primeranosť regresnej rovnice podľa hodnoty koeficientu determinácie R 2 ;

Významnosť koeficientov regresnej rovnice podľa Studentovho t-testu pri danej hladine spoľahlivosti p = 0,05;

Stupeň náhodnosti vzťahu medzi každým faktorom X a znakom Y (Fisherovo kritérium);

Vzťah medzi ukazovateľmi X 1, X 2, X 3 dlhodobého majetku a objemom hrubej produkcie podniku v niektorom z odvetví charakterizujú tieto údaje:

Možnosť 5

X 1 1.5 2.6 3.5 4.8 5.9 6.3 7.2 8.9 9.5 11.1 15.0
X 2 10.2 15.3 18.4 20.5 24.7 25.6 27.3 28.3 29.6 30.1 31.0
X 3 1.1 2.3 3.5 4.1 5.7 6.6 7.3 8.5 9.8 10.1 12.0
Y

Riešenie úlohy 1.

Riešenie úlohy 1 predpokladá.

1. Konštrukcia korelačného poľa.

2. Konštrukcia matice párových korelačných koeficientov.

3. Konštrukcia a analýza jednofaktorových regresných modelov lineárneho a exponenciálneho tvaru pomocou vstavaných funkcií TP MS Excel.

4. Konštrukcia lineárnych jednofaktorových regresných modelov pomocou doplnku „Analysis Package“.

5. Závery.

Konštrukcia korelačného poľa.

Umiestnime tabuľku so zdrojovými údajmi do buniek A3:D15 excelového hárka.

Dodatok 1.1
Y X1 X2 X3
1,5 10,2 1,1
2,6 15,3 2,3
3,5 18,4 3,5
4,8 20,5 4,1
5,9 24,7 5,7
6,3 25,6 6,6
7,2 27,3 7,3
8,9 28,3 8,5
9,5 29,6 9,8
11,1 30,1 10,1
?

Pomocou možností sprievodcu grafom MS Excel TP zostrojíme korelačné pole, to znamená, že graficky znázorníme vzťah medzi výsledným znakom Y a každým z faktorov X. Grafy ukazujú, že medzi výsledným znakom Y a každým z faktorov X existuje priamo úmerný vzťah, ktorý sa blíži lineárne.

.

.

Skúmame blízkosť a povahu spojenia medzi faktormi.

Konštrukcia matice párových korelačných koeficientov.

Pomocou doplnku „Analytický balík“ TP MS Excel (Služba – Analýza dát – Korelácia) zostavíme maticu párových korelačných koeficientov. Okno nástroja „Korelácia“ je znázornené na obrázku 1. Matica párových korelačných koeficientov je znázornená na obrázku 2.

Obr.1. - okno "Korelácia"

Obr.2. – Matica párových korelačných koeficientov.

Z tejto matice je zrejmé, že všetky uvažované faktory X1 – X3 majú úzku súvislosť s výslednou charakteristikou Y. Okrem toho sú všetky faktory X navzájom multikolineárne. Preto je konštrukcia viacfaktorového modelu tvaru Y=f(X1,X2,X3) nemožná.

Korelačný koeficient odráža mieru vzťahu medzi dvoma ukazovateľmi. Vždy nadobúda hodnotu od -1 do 1. Ak sa koeficient nachádza okolo 0, potom medzi premennými neexistuje žiadna súvislosť.

Ak je hodnota blízka jednej (napríklad od 0,9), potom medzi pozorovanými objektmi existuje silný priamy vzťah. Ak je koeficient blízko druhého krajného bodu rozsahu (-1), potom medzi premennými existuje silný inverzný vzťah. Keď je hodnota niekde medzi 0 až 1 alebo 0 až -1, potom hovoríme o slabom spojení (priame alebo spätné). Tento vzťah sa zvyčajne neberie do úvahy: verí sa, že neexistuje.

Výpočet korelačného koeficientu v Exceli

Pozrime sa na príklad metód na výpočet korelačného koeficientu, vlastnosti priamych a inverzných vzťahov medzi premennými.

Hodnoty indikátorov x a y:

Y je nezávislá premenná, x je závislá premenná. Je potrebné nájsť silu (silný/slabý) a smer (dopredu/obrátený) spojenia medzi nimi. Vzorec korelačného koeficientu vyzerá takto:


Aby sme to ľahšie pochopili, rozdeľme si to na niekoľko jednoduchých prvkov.

Medzi premennými je určený silný priamy vzťah.

Vstavaná funkcia CORREL zabraňuje zložitým výpočtom. Vypočítajme pomocou neho v Exceli koeficient párovej korelácie. Zavolajte sprievodcu funkciou. Nájdeme toho pravého. Argumenty funkcie sú pole hodnôt y a pole hodnôt x:

Ukážme hodnoty premenných na grafe:


Silné spojenie medzi y a x je viditeľné, pretože čiary prebiehajú takmer paralelne navzájom. Vzťah je priamy: y rastie - x rastie, y klesá - x klesá.



Matica párových korelačných koeficientov v Exceli

Korelačná matica je tabuľka na priesečníku riadkov a stĺpcov, v ktorej sa nachádzajú korelačné koeficienty medzi zodpovedajúcimi hodnotami. Má zmysel stavať ho pre niekoľko premenných.

Matica korelačných koeficientov v Exceli je vytvorená pomocou nástroja „Korelácia“ z balíka „Analýza údajov“.


Medzi hodnotami y a x1 bol nájdený silný priamy vzťah. Medzi x1 a x2 existuje silná spätná väzba. Neexistuje prakticky žiadna súvislosť s hodnotami v stĺpci x3.

1. Vypočítajte maticu párových korelačných koeficientov; analyzovať blízkosť a smer spojenia výslednej charakteristiky Y s každým faktorom X; hodnotiť štatistickú významnosť korelačných koeficientov r(Y,X i); vyberte najinformatívnejší faktor.

2. Zostrojte párový regresný model s najinformatívnejším faktorom; poskytnúť ekonomickú interpretáciu regresného koeficientu.

3. Posúďte kvalitu modelu pomocou priemernej relatívnej chyby aproximácie, koeficientu determinácie a Fisherovho F testu (akceptujte hladinu významnosti α=0,05).

4. S pravdepodobnosťou spoľahlivosti γ=80% predpovedajte priemernú hodnotu ukazovateľa Y(predpovedané hodnoty faktorov sú uvedené v prílohe 6). Prezentujte graficky skutočné a modelové hodnoty Y,predpovedanie výsledkov.

5. Pomocou metódy inklúzie zostavte dvojfaktorové modely a ponechajte v nich najinformatívnejší faktor; zostavte trojfaktorový model s úplným zoznamom faktorov.

6. Vyberte najlepší zo skonštruovaných viacerých modelov. Uveďte ekonomický výklad jeho koeficientov.

7. Skontrolujte význam viacnásobných regresných koeficientov pomocou t–Studentský test (akceptujte hladinu významnosti α=0,05). Zlepšila sa kvalita viacnásobného modelu v porovnaní so spárovaným modelom?

8. Posúdiť vplyv faktorov na výsledok pomocou koeficientov pružnosti, koeficientov beta a delta.

Úloha 2. Modelovanie jednorozmerného časového radu

V prílohe 7 sú uvedené časové rady Y(t) sociálno-ekonomické ukazovatele pre územie Altaj za obdobie rokov 2000 až 2011. Je potrebné preštudovať dynamiku ukazovateľa zodpovedajúceho variantu úlohy.

Možnosť Označenie, názov, merná jednotka ukazovateľa
Y1 Priemerné spotrebiteľské výdavky na obyvateľa (za mesiac), rub.
Y2 Emisie znečisťujúcich látok do ovzdušia, tisíc ton
Y3 Priemerné ceny na sekundárnom trhu s bývaním (na konci roka za meter štvorcový celkovej plochy), rubľov
Y4 Objem platených služieb na obyvateľa, rub
Y5 Priemerný ročný počet ľudí zamestnaných v hospodárstve tisíc osôb
Y6 Počet vlastných osobných áut na 1000 obyvateľov (na konci roka), jednotiek
Y7 Priemerný peňažný príjem na obyvateľa (za mesiac), rub.
Y8 Index spotrebiteľských cien (december v porovnaní s decembrom predchádzajúceho roka), %
Y9 Investície do fixných aktív (v skutočných cenách), milióny rubľov
Y10 Maloobchodný obrat na obyvateľa (v skutočných cenách), rubľoch


Zákazka

1. Zostrojte model lineárneho časového radu, ktorého parametre možno odhadnúť metódou najmenších štvorcov. Vysvetlite význam regresného koeficientu.

2. Posúďte primeranosť zostrojeného modelu pomocou vlastností náhodnosti, nezávislosti a súladu reziduálnej zložky so zákonom normálneho rozdelenia.

3. Posúďte presnosť modelu na základe použitia priemernej relatívnej chyby aproximácie.

4. Predpovedajte uvažovaný ukazovateľ na rok dopredu (interval predpovede vypočítajte s pravdepodobnosťou spoľahlivosti 70 %).

5. Prezentujte graficky aktuálne hodnoty ukazovateľa, výsledky modelovania a prognózovania.

6. Vypočítajte parametre logaritmického, polynómu (polynóm 2. stupňa), mocniny, exponenciálneho a hyperbolického trendu. Na základe grafického zobrazenia a hodnoty determinačného indexu vyberte najvhodnejší typ trendu.

7. Pomocou najlepšieho nelineárneho modelu urobte bodovú predpoveď príslušného ukazovateľa na rok dopredu. Porovnajte získaný výsledok s intervalom predpovede spoľahlivosti vytvoreným pomocou lineárneho modelu.

PRÍKLAD

Vykonanie testu

Problém 1

Firma sa zaoberá predajom ojazdených áut. Názvy ukazovateľov a počiatočné údaje pre ekonometrické modelovanie sú uvedené v tabuľke:

Predajná cena tis. ( Y) Cena nového auta tis. ( X1) Životnosť, roky ( X2) Ľavostranné riadenie - 1, pravostranné riadenie - 0, ( X3)
8,33 13,99 3,8
10,40 19,05 2,4
10,60 17,36 4,5
16,58 25,00 3,5
20,94 25,45 3,0
19,13 31,81 3,5
13,88 22,53 3,0
8,80 16,24 5,0
13,89 16,54 2,0
11,03 19,04 4,5
14,88 22,61 4,6
20,43 27,56 4,0
14,80 22,51 3,3
26,05 31,75 2,3

Požadovaný:

1. Vypočítajte maticu párových korelačných koeficientov; analyzovať blízkosť a smer spojenia medzi výslednou charakteristikou Y a každým z faktorov X; vyhodnotiť štatistickú významnosť korelačných koeficientov r(Y, X i); vyberte najinformatívnejší faktor.

Používame Excel (Údaje / Analýza údajov / KORELOVANIE):

Získame maticu párových korelačných koeficientov medzi všetkými dostupnými premennými:

U X1 X2 X3
U
X1 0,910987
X2 -0,4156 -0,2603
X3 0,190785 0,221927 -0,30308

Poďme analyzovať korelačné koeficienty medzi výslednou charakteristikou Y a každý z faktorov X j:

> 0, teda medzi premennými Y A X 1 existuje priama súvislosť: čím vyššia je cena nového auta, tým vyššia je predajná cena.

> 0,7 – táto závislosť je blízka.

< 0, значит, между переменными Y A X 2 pozorované

inverzná korelácia: predajná cena je pri autách nižšia

mobilné telefóny s dlhou životnosťou.

– táto závislosť je mierna, bližšie k slabej.

> 0, čo znamená medzi premennými Y A X 3 existuje priama súvislosť: predajná cena je vyššia pri autách s ľavostranným riadením.

< 0,4 – эта зависимость слабая.

Na kontrolu významnosti zistených korelačných koeficientov používame Studentov test.

Pre každý korelačný koeficient počítajme t-štatistika podľa vzorca a zadajte výsledky výpočtu do ďalšieho stĺpca korelačnej tabuľky:

U X1 X2 X3 t-štatistika
U
X1 0,910987 7,651524603
X2 -0,4156 -0,2603 1,582847988
X3 0,190785 0,221927 -0,30308 0,673265587

Podľa tabuľky kritických bodov študentského rozdelenia na hladine významnosti a počtu stupňov voľnosti určíme kritickú hodnotu (príloha 1, resp. funkcia STUDARSOBR).Y a životnosť X 2 je spoľahlivý.

< , следовательно, коэффициент не является значимым. На основании выборочных данных нет оснований утверждать, что зависимость между ценой реализации Y a polohu volantu X 3 je spoľahlivý.

Medzi predajnou cenou sa teda pozoruje najužší a najvýznamnejší vzťah Y a cena nového auta X 1; faktor X 1 je najinformatívnejšia.

Analýza matice párových korelačných koeficientov ukazuje, že efektívny ukazovateľ najviac súvisí s ukazovateľom X(4) - množstvo spotrebovaného hnojiva na 1 hektár ().

Zároveň je súvislosť medzi atribútmi-argumentmi dosť úzka. Existuje teda prakticky funkčný vzťah medzi počtom kolesových traktorov ( X(1)) a počet nástrojov na povrchové obrábanie pôdy
.

Prítomnosť multikolinearity je indikovaná aj korelačnými koeficientmi
A
. Vzhľadom na úzky vzťah medzi ukazovateľmi X (1) , X(2) a X(3), len jeden z nich môže byť zahrnutý do výnosového regresného modelu.

Na preukázanie negatívneho vplyvu multikolinearity zvážte regresný model výnosu vrátane všetkých vstupných ukazovateľov:


F obs = 121.

Hodnoty opravených odhadov štandardných odchýlok odhadov koeficientov rovnice sú uvedené v zátvorkách
.

Pod regresnou rovnicou sú uvedené nasledujúce parametre primeranosti: viacnásobný koeficient determinácie
; opravený odhad reziduálneho rozptylu
, priemerná relatívna chyba aproximácie a vypočítaná hodnota kritéria F obs = 121.

Regresná rovnica je významná, pretože F obs = 121 > F kp = 2,85 zistené z tabuľky F-rozdelenia pri=0,05; 1 =6 a 2 =14.

Z toho vyplýva, že 0, t.j. a aspoň jeden z koeficientov rovnice j (j= 0, 1, 2, ..., 5) nie je nula.

Na testovanie hypotézy o významnosti jednotlivých regresných koeficientov H0:  j =0, kde j=1,2,3,4,5, porovnajte kritickú hodnotu t kp = 2,14, zistené z tabuľky t-rozdelenia na hladine významnosti=2 Q=0,05 a počet stupňov voľnosti=14, s vypočítanou hodnotou . Z rovnice vyplýva, že regresný koeficient je štatisticky významný len vtedy, keď X(4) , od t 4  = 2,90 > t kp = 2,14.

Negatívne znaky regresných koeficientov nie sú vhodné na ekonomickú interpretáciu, keď X(1) a X(5) . Zo záporných hodnôt koeficientov vyplýva, že nárast saturácie poľnohospodárstva kolesovými traktormi ( X(1)) a prípravky na ochranu rastlín ( X(5) má negatívny vplyv na výnos. Preto je výsledná regresná rovnica neprijateľná.

Na získanie regresnej rovnice s významnými koeficientmi používame algoritmus regresnej analýzy krok za krokom. Spočiatku používame krokový algoritmus s elimináciou premenných.

Vylúčme premennú z modelu X(1) , čo zodpovedá minimálnej absolútnej hodnote t 1  = 0,01. Pre zostávajúce premenné opäť zostrojíme regresnú rovnicu:

Výsledná rovnica je významná, pretože F pozorované = 155 > F kp = 2,90, zistené na hladine významnosti  = 0,05 a počtoch stupňov voľnosti  1 = 5 a  2 = 15 podľa tabuľky. F-distribúcia, t.j. vektor0. Avšak len regresný koeficient pri X(4) . Odhadované hodnoty t j pre ostatné koeficienty je menej t kr = 2,131, zistené z tabuľky t-rozdelenia pri=2 Q= 0,05 a = 15.

Vylúčením premennej z modelu X(3) , ktorá zodpovedá minimálnej hodnote t 3 = 0,35 a dostaneme regresnú rovnicu:

(2.9)

Vo výslednej rovnici koeficient at X(5) . Vylúčením X(5) dostaneme regresnú rovnicu:

(2.10)

Získali sme významnú regresnú rovnicu s významnými a interpretovateľnými koeficientmi.

Výsledná rovnica však nie je jediným „dobrým“ a nie „najlepším“ výnosovým modelom v našom príklade.

Ukážme to v podmienkach multikolinearity je efektívnejší postupný algoritmus so zahrnutím premenných. Prvý krok vo výnosovom modeli r premenná zahrnutá X(4) , ktorý má najvyšší korelačný koeficient s r, vysvetľuje premenná r(r,X(4)) = 0,58. V druhom kroku vrátane rovnice spolu s X(4) premenné X(1) alebo X(3), získame modely, ktoré z ekonomických dôvodov a štatistických charakteristík presahujú (2.10):

(2.11)

(2.12)

Zahrnutie ktorejkoľvek z troch zostávajúcich premenných do rovnice zhoršuje jej vlastnosti. Pozri napríklad rovnicu (2.9).

Máme teda tri „dobré“ výnosové modely, z ktorých si z ekonomických a štatistických dôvodov musíme vybrať jeden.

Podľa štatistických kritérií je najvhodnejší model (2.11). Zodpovedá minimálnym hodnotám reziduálneho rozptylu = 2,26 a priemerná relatívna chyba aproximácie a najväčšie hodnoty
a F obs = 273.

O niečo horšie ukazovatele primeranosti má model (2.12), za ním nasleduje model (2.10).

Teraz vyberieme to najlepšie z modelov (2.11) a (2.12). Tieto modely sa navzájom líšia z hľadiska premenných X(1) a X(3). Avšak vo výnosových modeloch premenná X(1) (počet kolesových traktorov na 100 ha) je vhodnejší ako variabilný X(3) (počet nástrojov na povrchové obrábanie pôdy na 100 ha), ktorý je do určitej miery sekundárny (alebo odvodený od X (1)).

V tejto súvislosti by sa mal z ekonomických dôvodov uprednostniť model (2.12). Po implementácii algoritmu postupnej regresnej analýzy so zahrnutím premenných a zohľadnením skutočnosti, že do rovnice by mala vstúpiť iba jedna z troch súvisiacich premenných ( X (1) ,X(2) alebo X(3)) vyberte konečnú regresnú rovnicu:

Rovnica je významná pri =0,05, pretože F obs = 266 > F kp = 3,20, zistené z tabuľky F-rozdelenia pri= Q=0,05; 1 = 3 a 2 = 17. Všetky regresné koeficienty sú tiež významné A v rovnici t j> t kp (=2 Q=0,05;=17)=2,11. Regresný koeficient 1 by sa mal považovať za významný ( 1 0) z ekonomických dôvodov, pričom t 1 = 2,09 len o niečo menej t kp = 2,11.

Z regresnej rovnice vyplýva, že zvýšenie počtu traktorov o jeden na 100 hektárov ornej pôdy (pri pevnej hodnote X(4)) vedie k zvýšeniu úrody zrna v priemere o 0,345 c/ha.

Približný výpočet koeficientov elasticity e 1 0,068 a e 2 0,161 ukazuje, že s rastúcimi ukazovateľmi X(1) a X(4) o 1 %, úroda zrna sa zvyšuje v priemere o 0,068 % a 0,161 %.

Viacnásobný koeficient determinácie
naznačuje, že iba 46,9 % variácií výnosov je vysvetlených ukazovateľmi zahrnutými v modeli ( X(1) a X(4), teda nasýtenie rastlinnej výroby traktormi a hnojivami. Zvyšok variácií je spôsobený pôsobením nezapočítaných faktorov ( X (2) ,X (3) ,X(5), poveternostné podmienky atď.). Priemerná relatívna chyba aproximácie charakterizuje primeranosť modelu, ako aj hodnotu reziduálneho rozptylu
. Pri interpretácii regresnej rovnice sú zaujímavé hodnoty relatívnych chýb aproximácie
. Pripomeňme si to - modelová hodnota efektívneho ukazovateľa, charakterizujúca priemernú hodnotu výnosu za celok posudzovaných regiónov za predpokladu, že hodnoty vysvetľujúcich premenných X(1) a X(4) sú stanovené na rovnakej úrovni, tj X (1) =X i(1) a X (4) = x i(4) . Potom podľa hodnôt i Môžete porovnávať regióny podľa výnosu. Oblasti, ktorým hodnoty zodpovedajú i>0, majú nadpriemerný výnos, a i <0 - ниже среднего.

V našom príklade je z hľadiska úrody najefektívnejšia rastlinná výroba na ploche, ktorej zodpovedá  7 =28 %, pričom výnos je o 28 % vyšší ako je regionálny priemer a najmenej efektívny je v regióne s 20 =27,3%.

KATEGÓRIE

POPULÁRNE ČLÁNKY

2023 „kingad.ru“ - ultrazvukové vyšetrenie ľudských orgánov