Hlavným účelom analýzy rozptylu je. Jednosmerná ANOVA

Analýza rozptylu(z lat. Dispersio - disperzia / po anglicky Analysis Of Variance - ANOVA) sa používa na štúdium vplyvu jednej alebo viacerých kvalitatívnych premenných (faktorov) na jednu závislú kvantitatívnu premennú (odpoveď).

Základom analýzy rozptylu je predpoklad, že niektoré premenné možno považovať za príčiny (faktory, nezávislé premenné): a iné za dôsledky (závislé premenné). Nezávislé premenné sa niekedy nazývajú nastaviteľné faktory práve preto, že v experimente má výskumník možnosť ich meniť a analyzovať výsledný výsledok.

Hlavný cieľ analýza rozptylu(ANOVA) je štúdium významnosti rozdielov medzi priemermi pomocou porovnania (analýzy) rozptylov. Rozdelenie celkového rozptylu do viacerých zdrojov umožňuje porovnať rozptyl spôsobený rozdielmi medzi skupinami s rozptylom spôsobeným variáciami v rámci skupiny. Ak je nulová hypotéza (že priemery sú rovnaké v niekoľkých skupinách pozorovaní vybraných z populácie) pravdivá, odhad rozptylu spojeného s variabilitou v rámci skupiny by mal byť blízky odhadu rozptylu medzi skupinami. Ak jednoducho porovnávate priemery v dvoch vzorkách, ANOVA poskytne rovnaký výsledok ako bežný t-test nezávislých vzoriek (ak porovnávate dve nezávislé skupiny subjektov alebo pozorovaní) alebo t-test závislých vzoriek (ak porovnávate dve premenné na tej istej a rovnaký súbor objektov alebo pozorovaní).

Podstatou analýzy rozptylu je rozdeliť celkový rozptyl skúmaného znaku na jednotlivé zložky určené vplyvom špecifických faktorov a testovať hypotézy o významnosti vplyvu týchto faktorov na skúmaný znak. Vzájomným porovnaním komponentov rozptylu pomocou Fisherovho F testu je možné určiť, aký podiel na celkovej variabilite výsledného atribútu je spôsobený pôsobením kontrolovaných faktorov.

Zdrojovým materiálom pre analýzu rozptylu sú údaje zo štúdie troch alebo viacerých vzoriek: , ktorých počet môže byť rovnaký alebo nerovnaký, spojené aj nesúvislé. Podľa počtu identifikovaných regulovaných faktorov môže byť analýza rozptylu jednofaktorový(v tomto prípade sa študuje vplyv jedného faktora na výsledky experimentu), dvojfaktorový(pri štúdiu vplyvu dvoch faktorov) a multifaktoriálny(umožňuje vyhodnotiť nielen vplyv každého faktora samostatne, ale aj ich vzájomné pôsobenie).

Analýza rozptylu patrí do skupiny parametrických metód, a preto by sa mala používať len vtedy, keď sa preukáže, že rozdelenie je normálne.

Analýza rozptylu sa používa, ak sa závislá premenná meria na pomerovej, intervalovej alebo rádovej škále a ovplyvňujúce premenné sú nenumerického charakteru (menná stupnica).

Vzorové problémy

V problémoch, ktoré sa riešia analýzou rozptylu, existuje odozva numerického charakteru, ktorá je ovplyvnená viacerými premennými nominálneho charakteru. Napríklad niekoľko druhov výkrmových dávok hospodárskych zvierat alebo dva spôsoby ich držania atď.

Príklad 1: Počas týždňa fungovalo niekoľko kioskov lekární na troch rôznych miestach. V budúcnosti môžeme nechať len jeden. Je potrebné zistiť, či existuje štatisticky významný rozdiel medzi objemami predaja liekov v kioskoch. Ak áno, vyberieme kiosk s najvyšším priemerným denným objemom predaja. Ak sa rozdiel v objeme predaja ukáže ako štatisticky nevýznamný, základom pre výber kiosku by mali byť iné ukazovatele.

Príklad 2: Porovnanie skupinových priemerných kontrastov. Týchto sedem politických príslušností je usporiadaných od extrémne liberálnej po extrémne konzervatívnu a lineárny kontrast sa používa na testovanie, či existuje nenulová tendencia zvyšovania prostriedkov skupiny – to znamená, či dochádza k významnému lineárnemu zvýšeniu priemerného veku pri zvažovaní usporiadaných skupín. v smere od liberálov ku konzervatívnym.

Príklad 3: Dvojfaktorová analýza rozptylu. Počet predajov produktu okrem veľkosti predajne často ovplyvňuje aj umiestnenie regálov s produktom. Tento príklad obsahuje týždenné údaje o predaji pre štyri rozloženia regálov a tri veľkosti predajní. Výsledky analýzy ukazujú, že obidva faktory – umiestnenie regálov s tovarom a veľkosť predajne – ovplyvňujú počet predajov, ale ich interakcia nie je významná.

Príklad 4: Univariantná ANOVA: Randomizovaný celoblokový dizajn s dvomi úpravami. Skúma sa vplyv všetkých možných kombinácií troch tukov a troch látok na kysnutie cesta na pečenie chleba. Ako blokové faktory slúžili štyri vzorky múky odobraté zo štyroch rôznych zdrojov. Je potrebné určiť význam interakcie tuk-rozrývač. Potom identifikujte rôzne možnosti výberu kontrastov, ktoré vám umožnia zistiť, ktoré kombinácie úrovní faktorov sa líšia.

Príklad 5: Hierarchický (zhlukovaný) model dizajnu so zmiešanými efektmi. Študuje sa vplyv štyroch náhodne vybraných hláv namontovaných na stroji na deformáciu vyrobených držiakov sklenených katód. (Hlavy sú zabudované do stroja, takže rovnakú hlavu nemožno použiť na rôznych strojoch.) Účinok hlavy sa považuje za náhodný faktor. Štatistiky ANOVA ukazujú, že medzi strojmi nie sú žiadne významné rozdiely, ale existujú náznaky, že hlavy sa môžu líšiť. Rozdiel medzi všetkými strojmi nie je výrazný, ale u dvoch z nich je rozdiel medzi typmi hláv výrazný.

Príklad 6: Jednorozmerná analýza opakovaných meraní pomocou návrhu rozdeleného grafu. Tento experiment sa uskutočnil s cieľom určiť vplyv jednotlivých hodnotení úzkosti na výkon skúšky počas štyroch po sebe nasledujúcich pokusov. Údaje sú usporiadané tak, že ich možno zobraziť ako skupiny podmnožín celého súboru údajov („celý graf“). Účinok úzkosti bol nevýznamný, ale účinok pokusu bol významný.

Zoznam metód

  • Faktorové experimentálne modely. Príklady: faktory ovplyvňujúce úspešnosť riešenia matematických úloh; faktory ovplyvňujúce objem predaja.

Dáta pozostávajú z niekoľkých sérií pozorovaní (procesov), ktoré sa považujú za na sebe nezávislé realizácie vzoriek. Prvotná hypotéza tvrdí, že neexistuje rozdiel v liečbe, t.j. predpokladá sa, že všetky pozorovania možno považovať za jednu vzorku z celkovej populácie:

  • Jednofaktorový parametrický model: Scheffeho metóda.
  • Jednofaktorový neparametrický model [Lagutin M.B., 237]: Kruskal-Wallisov test [Hollender M., Wolf D.A., 131], kritérium Jonckheere [Lagutin M.B., 245].
  • Všeobecný prípad modelu s konštantnými faktormi, Cochranova veta [Afifi A., Eisen S., 234].

Údaje predstavujú duplicitné pozorovania:

  • Dvojfaktorový neparametrický model: Friedmanovo kritérium [Lapach, 203], Strana [Lagutin M.B., 263]. Príklady: porovnanie efektívnosti výrobných metód, poľnohospodárskych postupov.
  • Dvojfaktorový neparametrický model pre neúplné údaje

Príbeh

Odkiaľ pochádza názov analýza rozptylu? Môže sa zdať zvláštne, že postup porovnávania priemerov sa nazýva analýza rozptylu. V skutočnosti je to preto, že keď skúmame štatistickú významnosť rozdielu medzi priemermi dvoch (alebo viacerých) skupín, v skutočnosti porovnávame (analyzujeme) rozptyly vzoriek. Je navrhnutý základný koncept analýzy rozptylu Fischer v roku 1920. Možno by bol prirodzenejší termín analýza súčtu štvorcov alebo analýza variácie, ale kvôli tradícii sa používa pojem analýza rozptylu. Spočiatku bola analýza rozptylu vyvinutá na spracovanie údajov získaných počas špeciálne navrhnutých experimentov a bola považovaná za jedinú metódu, ktorá správne skúmala kauzálne vzťahy. Metóda bola použitá na vyhodnotenie experimentov v rastlinnej výrobe. Následne sa ukázal všeobecný vedecký význam analýzy rozptylu pre experimenty v psychológii, pedagogike, medicíne atď.

Literatúra

  1. Sheffe G. Analýza rozptylu. - M., 1980.
  2. Ahrens H. Leuter Yu. Viacrozmerná analýza rozptylu.
  3. Kobzar A.I. Aplikovaná matematická štatistika. - M.: Fizmatlit, 2006.
  4. Lapach S. N., Chubenko A. V., Babich P. N.Štatistika vo vede a obchode. - Kyjev: Morion, 2002.
  5. Lagutin M. B. Vizuálna matematická štatistika. V dvoch zväzkoch. - M.: P-centrum, 2003.
  6. Afifi A., Eisen S.Štatistická analýza: Počítačový prístup.
  7. Hollender M., Wolf D.A. Neparametrické metódy štatistiky.

Odkazy

  • Analýza rozptylu - Elektronická učebnica StatSoft.

Analýza rozptylu je štatistická metóda určená na posúdenie vplyvu rôznych faktorov na výsledok experimentu, ako aj na následné plánovanie podobných experimentov.

Spočiatku (1918) analýzu rozptylu vyvinul anglický matematik a štatistik R.A. Fischera na spracovanie výsledkov agrotechnických pokusov na identifikáciu podmienok na získanie maximálnej úrody rôznych odrôd poľnohospodárskych plodín.

Pri nastavovaní experimentu musia byť splnené nasledujúce podmienky:

    Každý variant pokusu musí byť vykonaný na niekoľkých pozorovacích jednotkách (skupiny zvierat, terénne úseky atď.)

    Rozdelenie pozorovacích jednotiek medzi experimentálne varianty by malo byť náhodné a nie zámerné.

ANOVA používa F-kritérium(kritérium R.A. Fisher), ktoré predstavuje pomer dvoch rozptylov:

kde d fakt, d reziduálne sú faktoriálne (medziskupinové) a reziduálne (vnútroskupinové) rozptyly na stupeň voľnosti.

Faktorové a reziduálne rozptyly sú odhady rozptylu populácie vypočítané z údajov vzorky, pričom sa berie do úvahy počet stupňov voľnosti variácie.

Faktorová (medziskupinová) disperzia vysvetľuje variáciu efektívnej charakteristiky pod vplyvom skúmaného faktora.

Reziduálny rozptyl (v rámci skupiny) vysvetľuje variáciu efektívnej charakteristiky v dôsledku vplyvu iných faktorov (okrem vplyvu skúmaného faktora).

Faktor a reziduálne rozptyly v súhrne dávajú celkový rozptyl, vyjadrujúci vplyv všetkých faktorových charakteristík na výsledný rozptyl.

Postup na vykonanie analýzy rozptylu:

1. Experimentálne údaje sa vložia do výpočtovej tabuľky a stanovia sa množstvá a priemerné hodnoty v každej skupine skúmanej populácie, ako aj celkové množstvo a priemerná hodnota pre celú populáciu (tabuľka 1).

stôl 1

Hodnota výslednej charakteristiky pre i-tú jednotku

v j-tej skupine, x ij

Počet pozorovaní, f j

Priemer (skupinový a celkový), x j

x 11, x 12, …, x 1 n

x 21, x 22, …, x 2 n

x m 1, x m 2, …, x mn

Celkový počet pozorovaní n vypočítané ako súčet počtu pozorovaní f j v každej skupine:

Ak majú všetky skupiny rovnaký počet prvkov, potom celkový priemer sa nachádza zo skupinových priemerov ako jednoduchý aritmetický priemer:

Ak je počet prvkov v skupinách odlišný, potom celkový priemer vypočítané pomocou vzorca váženého aritmetického priemeru:

2. Stanoví sa celkový rozptyl D všeobecne ako súčet štvorcových odchýlok jednotlivých hodnôt výslednej charakteristiky z celkového priemeru :

3. Vypočíta sa faktoriálny (medziskupinový) rozptyl D skutočnosť ako súčet druhých mocnín odchýlok skupinových priemerov z celkového priemeru , vynásobené počtom pozorovaní:

4. Stanoví sa hodnota reziduálneho (vnútroskupinového) rozptylu D ost ako rozdiel medzi celk D všeobecne a faktoriál D skutočnosť odchýlky:

5. Vypočítajte počet stupňov voľnosti faktora
rozptyl ako rozdiel medzi počtom skupín m a jednotka:

6. Stanoví sa počet stupňov voľnosti pre zvyškovú disperziu
ako rozdiel medzi počtom jednotlivých hodnôt charakteristiky n a počet skupín m:

7. Vypočítajte hodnotu rozptylu faktorov na stupeň voľnosti d skutočnosť ako koeficient rozptylu faktorov D skutočnosť na počet stupňov voľnosti rozptylu faktorov
:

8. Stanoví sa hodnota zvyškového rozptylu na jeden stupeň voľnosti d ost ako pomer zvyškovej odchýlky D ost na počet stupňov voľnosti zvyškovej disperzie
:

9. Stanoví sa vypočítaná hodnota F-kritéria F-kalkulácia ako pomer rozptylu faktorov na stupeň voľnosti d skutočnosť na zvyškový rozptyl na stupeň voľnosti d ost :

10. Pomocou testovacej tabuľky Fisher F, berúc do úvahy hladinu významnosti prijatú v štúdii, ako aj berúc do úvahy stupne voľnosti pre variácie faktorov a reziduálnych rozptylov, sa zistí teoretická hodnota F tabuľky .

5 % hladina významnosti zodpovedá 95 % hladine pravdepodobnosti a 1 % hladina významnosti zodpovedá 99 % hladine pravdepodobnosti. Vo väčšine prípadov sa používa 5% hladina významnosti.

Teoretická hodnota F tabuľky na danej hladine významnosti sa určuje z tabuliek na priesečníku riadku a stĺpca, čo zodpovedá dvom stupňom voľnosti rozptylov:

riadkom – zvyškový;

podľa stĺpca – faktoriál.

11. Výsledky výpočtu sú uvedené v tabuľke (tabuľka 2).

Výsledky experimentov a testov môžu závisieť od niektorých faktorov ovplyvňujúcich variabilitu priemerných hodnôt náhodnej premennej. Hodnoty faktorov sa nazývajú úrovne faktorov a veľkosť sa nazýva výsledná charakteristika. Napríklad množstvo práce vykonanej na stavenisku môže závisieť od pracovnej skupiny. V tomto prípade je počet posádky úrovňou faktora a objem práce za zmenu je efektívnym atribútom.

Metóda analýzy rozptylu, alebo ANOVA(Analysis of Variance - analýza rozptylu), slúži na štúdium štatistickej významnosti rozdielu medzi priemermi pre tri a viac vzoriek (hladiny faktorov). Na porovnanie priemerov v dvoch vzorkách použite t-kritérium

Postup porovnávania priemerov sa nazýva analýza rozptylu, pretože pri štúdiu štatistickej významnosti rozdielu medzi priemermi niekoľkých skupín pozorovaní sa vykonáva analýza rozptylov vzoriek. Základný koncept analýzy rozptylu navrhol Fisher.

Podstatou metódy je rozdeliť celkový rozptyl na dve časti, z ktorých jedna je spôsobená náhodnou chybou (tj vnútroskupinová variabilita) a druhá je spojená s rozdielom stredných hodnôt. Posledná zložka rozptylu sa potom použije na analýzu štatistickej významnosti rozdielu medzi priemermi. Ak je rozdiel významný, nulová hypotéza sa zamietne a prijme sa alternatívna hypotéza, že medzi priemermi existuje rozdiel.

Premenné, ktorých hodnoty sú určené meraniami počas experimentu (napríklad ekonomická efektívnosť, výnos, výsledok testu), sa nazývajú závislé premenné alebo charakteristiky. Premenné, ktoré možno v experimente kontrolovať (napr. úroveň hospodárenia, typ pôdy, vyučovacie metódy), sa nazývajú faktory alebo nezávislé premenné.

Pri klasickej analýze rozptylu sa predpokladá, že skúmané hodnoty majú normálnu distribúciu s konštantným rozptylom a strednými hodnotami, ktoré sa môžu líšiť pre rôzne populácie vzoriek. Pomer rozptylu skupinových priemerov a reziduálneho rozptylu sa používa ako kritérium na testovanie nulových hypotéz. Ukázalo sa však, že analýza rozptylu je platná aj pre negaussovské náhodné premenné a pri veľkosti vzorky n > 4 pre každú úroveň faktorov nie je chyba vysoká. Ak sa vyžaduje vysoká presnosť záverov a distribúcia nie je známa, mali by sa použiť neparametrické testy, napríklad pomocou analýzy rozptylu.

Jednosmerná ANOVA

Nech sa to uskutoční m skupiny meraní hodnôt náhodných premenných Y na rôznych úrovniach hodnoty niektorého faktora, a a 1, a 2, a m- matematické očakávanie výslednej charakteristiky na úrovni faktorov A (1) , A (2) , A(m) ( i=1, 2, m), resp.


Predpoklad o nezávislosti efektívnej charakteristiky od faktora vychádza z testovania nulovej hypotézy o rovnosti skupinových matematických očakávaní.

H0: ai = a2 = am (6,12)

Testovanie hypotéz je možné, ak sú pre každú úroveň faktorov splnené nasledujúce požiadavky:

1) pozorovania sú nezávislé a vykonávajú sa za rovnakých podmienok;

2) meraná náhodná veličina má zákon normálneho rozdelenia s konštantným všeobecným rozptylom pre rôzne úrovne faktora σ 2. To znamená, že hypotéza je pravdivá

H0: σ12 = σ22 = σm2.

Na testovanie hypotézy, že rozptyly troch alebo viacerých normálnych rozdelení sú rovnaké, sa používa Bartlettov test.

Ak je hypotéza H0: σ12 = σ22 = σm2 sa potvrdí, potom začneme testovať hypotézu o rovnosti skupinových matematických očakávaní H°: ai = a2 = am, teda k samotnej analýze rozptylu. Analýza rozptylu je založená na predpoklade, že variabilita výsledného znaku je spôsobená tak zmenami hladín faktora A, ako aj variabilitou hodnôt náhodných nekontrolovaných faktorov. Náhodné faktory sa nazývajú reziduálne.

Dá sa dokázať, že celkový výberový rozptyl možno znázorniť ako súčet rozptylu priemerov skupiny a priemeru rozptylov skupín

, Kde

Celkový výberový rozptyl;

Rozptyl skupinových priemerov () vypočítaných pre každú úroveň faktora;

Priemer skupinových rozptylov () vypočítaný pre každú úroveň faktorov. spojené s dopadom na Y zvyškové (náhodné) faktory.

Prechodom od rozšírenia pre všeobecný rozptyl k hodnotám vzorky získame

, (6.13)

Predstavuje vážený súčet štvorcových odchýlok priemerov vzorky pre každú úroveň A(i) zo všeobecného vzorového priemeru,

Priemerná hodnota štvorcových odchýlok v rámci úrovní.

Náhodné premenné , , majú nasledujúce hodnoty stupňov voľnosti, resp. n - 1, m - 1, n - m. Tu n- celkový počet hodnôt vzoriek, m- počet úrovní faktorov.

V matematickej štatistike je dokázané, že ak platí nulová hypotéza o rovnosti priemerov (10.8), potom kvantita

F-rozdelenie s počtom stupňov voľnosti k = m- 1 a l = n-m, teda

(6.14)

Ak je splnená nulová hypotéza, rozptyl v rámci skupiny sa bude prakticky zhodovať s celkovým rozptylom vypočítaným bez zohľadnenia členstva v skupine. Pri analýze rozptylu je spravidla čitateľ väčší ako menovateľ. V opačnom prípade sa má za to, že pozorovania nepotvrdzujú vplyv faktora na výslednú charakteristiku a nevykonáva sa žiadna ďalšia analýza. Výsledné odchýlky v rámci skupiny možno porovnať pomocou F-kritérium, ktoré kontroluje, či je pomer odchýlok výrazne väčší ako 1.

V tomto ohľade na testovanie hypotézy (6.12) pomocou F-kritérium analyzuje pravostrannú kritickú oblasť .

Ak vypočítaná hodnota F spadá do určeného intervalu, potom sa nulová hypotéza zamietne a vplyv faktora sa považuje za preukázaný A na efektívny znak Y.

Uveďme príklad výpočtu súčtu druhých mocnín a výberových rozptylov. Zvážte súbor údajov uvedený v tabuľke 6.2. V tomto príklade chceme zistiť, či existuje významný rozdiel vo výkonnosti tímov.

Tabuľka 6.2. Príklad výpočtu súčtu štvorcov

Analýza rozptylu

Kurz v disciplíne: "Systémová analýza"

Účinkujúci študent gr. 99 ISE-2 Žbanov V.V.

Štátna univerzita v Orenburgu

Fakulta informačných technológií

Katedra aplikovanej informatiky

Orenburg-2003

Úvod

Cieľ práce: zoznámiť sa s takou štatistickou metódou ako je analýza rozptylu.

Disperzná analýza (z latinského Dispersio - disperzia) je štatistická metóda, ktorá umožňuje analyzovať vplyv rôznych faktorov na skúmanú premennú. Metódu vyvinul biológ R. Fischer v roku 1925 a pôvodne slúžila na vyhodnotenie pokusov v rastlinnej výrobe. Následne sa ukázal všeobecný vedecký význam analýzy rozptylu pre experimenty v psychológii, pedagogike, medicíne atď.

Účelom analýzy rozptylu je testovať významnosť rozdielov medzi priemermi porovnaním rozptylov. Rozptyl meranej charakteristiky je rozložený na nezávislé členy, z ktorých každý charakterizuje vplyv konkrétneho faktora alebo ich interakciu. Následné porovnanie takýchto pojmov nám umožňuje posúdiť významnosť každého skúmaného faktora, ako aj ich kombináciu /1/.

Ak je nulová hypotéza (že priemery sú rovnaké v niekoľkých skupinách pozorovaní vybraných z populácie) pravdivá, odhad rozptylu spojeného s variabilitou v rámci skupiny by mal byť blízky odhadu rozptylu medzi skupinami.

Pri realizácii prieskumu trhu často vyvstáva otázka porovnateľnosti výsledkov. Napríklad pri realizácii prieskumov o spotrebe produktu v rôznych regiónoch krajiny je potrebné vyvodiť závery, do akej miery sa údaje prieskumu líšia alebo nelíšia od seba. Nemá zmysel porovnávať jednotlivé ukazovatele, a preto sa porovnávanie a následné hodnotenie vykonáva pomocou niektorých spriemerovaných hodnôt a odchýlok od tohto spriemerovaného hodnotenia. Študuje sa variácia vlastnosti. Disperzia sa môže brať ako miera variácie. Disperzia σ 2 je miera variácie definovaná ako priemer odchýlok štvorca charakteristiky.

V praxi často vznikajú problémy všeobecnejšieho charakteru – problém kontroly významnosti rozdielov priemerov viacerých vzorových populácií. Napríklad je potrebné zhodnotiť vplyv rôznych surovín na kvalitu vyrábaných produktov, vyriešiť problém vplyvu množstva hnojív na úrodu poľnohospodárskych produktov.

Niekedy sa analýza rozptylu používa na stanovenie homogenity niekoľkých populácií (rozptyly týchto populácií sú rovnaké podľa predpokladu; ak analýza rozptylu ukazuje, že matematické očakávania sú rovnaké, potom sú v tomto zmysle populácie homogénne). Homogénne populácie je možné spojiť do jednej a tým získať o nej úplnejšie informácie, a teda aj spoľahlivejšie závery /2/.

1 Analýza rozptylu

1.1 Základné pojmy analýzy rozptylu

V procese pozorovania skúmaného objektu sa ľubovoľne alebo daným spôsobom menia kvalitatívne faktory. Konkrétna implementácia faktora (napríklad určitý teplotný režim, vybrané zariadenie alebo materiál) sa nazýva úroveň faktora alebo metóda spracovania. Analýza rozptylového modelu s pevnými úrovňami faktorov sa nazýva model I, model s náhodnými faktormi sa nazýva model II. Zmenou faktora je možné študovať jeho vplyv na veľkosť odozvy. V súčasnosti bola pre modely I vyvinutá všeobecná teória analýzy rozptylu.

V závislosti od počtu faktorov, ktoré určujú variáciu výslednej charakteristiky, sa analýza rozptylu delí na jednofaktorovú a multifaktorovú.

Hlavné schémy na usporiadanie zdrojových údajov s dvoma alebo viacerými faktormi sú:

Krížová klasifikácia, charakteristická pre modely I, v ktorej sa každá úroveň jedného faktora kombinuje pri plánovaní experimentu s každou gradáciou iného faktora;

Hierarchická (zhluková) klasifikácia, charakteristická pre model II, v ktorej každá náhodná, náhodne vybraná hodnota jedného faktora zodpovedá vlastnej podmnožine hodnôt druhého faktora.

Ak sa súčasne študuje závislosť odpovede od kvalitatívnych a kvantitatívnych faktorov, t.j. faktorov zmiešaného charakteru, potom sa používa kovariančná analýza /3/.

Tieto modely sa teda od seba líšia spôsobom výberu úrovní faktorov, čo samozrejme primárne ovplyvňuje možnosť zovšeobecnenia získaných experimentálnych výsledkov. Pre analýzu rozptylu v jednofaktorových experimentoch nie je rozdiel medzi týmito dvoma modelmi taký významný, ale pri viacrozmernej analýze rozptylu môže byť dosť dôležitý.

Pri vykonávaní analýzy rozptylu musia byť splnené nasledujúce štatistické predpoklady: bez ohľadu na úroveň faktora majú hodnoty odozvy normálny (Gaussov) distribučný zákon a rovnaký rozptyl. Táto rovnosť rozptylov sa nazýva homogenita. Zmena spôsobu spracovania teda ovplyvňuje iba polohu premennej náhodnej odozvy, ktorá je charakterizovaná priemernou hodnotou alebo mediánom. Preto všetky pozorovania odozvy patria do rodiny posunov normálnych rozdelení.

O technike ANOVA sa hovorí, že je „robustná“. Tento termín, ktorý používajú štatistici, znamená, že dané predpoklady môžu byť do určitej miery porušené, no techniku ​​možno stále použiť.

Ak nie je známy zákon rozdelenia hodnôt odozvy, používajú sa neparametrické (najčastejšie poradové) metódy analýzy.

Analýza rozptylu je založená na rozdelení rozptylu na časti alebo komponenty. Variácia spôsobená vplyvom faktora, ktorý je základom zoskupenia, je charakterizovaná medziskupinovou disperziou σ 2. Je to miera variácie čiastkových priemerov medzi skupinami

okolo všeobecného priemeru a určuje sa podľa vzorca: ,

kde k je počet skupín;

n j - počet jednotiek v j-tej skupine;

- čiastočný priemer pre j-tú skupinu; - celkový priemer pre súbor jednotiek.

Variáciu vplyvom iných faktorov charakterizuje v každej skupine vnútroskupinová odchýlka σ j 2 .

.

Medzi celkovým rozptylom σ 0 2, rozptylom v rámci skupiny σ 2 a rozptylom medzi skupinami

existuje vzťah: + σ 2.

Vnútroskupinový rozptyl vysvetľuje vplyv faktorov, ktoré sa pri zoskupovaní nezohľadňujú a medziskupinový rozptyl vysvetľuje vplyv zoskupovacích faktorov na priemer skupiny /2/.

1.2 Jednosmerná analýza rozptylu

Jednofaktorový model rozptylu má tvar:

x ij = μ + F j + ε ij, (1)

kde x ij je hodnota skúmanej premennej získaná na i-tej úrovni faktora (i=1,2,...,t) s j-tým poradovým číslom (j=1,2,.. .,n);

F i – efekt spôsobený vplyvom i-tej úrovne faktora;

ε ij – náhodná zložka, alebo porucha spôsobená vplyvom neovplyvniteľných faktorov, t.j. variácie v rámci určitej úrovne.

Základné predpoklady pre analýzu rozptylu:

Matematické očakávanie poruchy ε ij sa rovná nule pre ľubovoľné i, t.j.

M(e ij) = 0; (2)

Poruchy ε ij sú vzájomne nezávislé;

Rozptyl premennej x ij (alebo poruchy ε ij) je konštantný pre

akékoľvek i, j, t.j.

D(e ij) = a2; (3)

Premenná x ij (alebo porucha ε ij) má normálny zákon

rozdelenie N(0;σ 2).

Vplyv úrovní faktorov môže byť buď fixný alebo systematický (Model I) alebo náhodný (Model II).

Predpokladajme, že je napríklad potrebné zistiť, či sú medzi šaržami výrobkov významné rozdiely z hľadiska nejakého kvalitatívneho ukazovateľa, t.j. skontrolujte vplyv na kvalitu jedného faktora - šarže produktov. Ak do štúdie zahrnieme všetky šarže surovín, potom je vplyv úrovne takéhoto faktora systematický (model I) a získané závery sú aplikovateľné len na tie jednotlivé šarže, ktoré boli do štúdie zapojené. Ak zahrnieme len náhodne vybranú časť strán, tak vplyv faktora je náhodný (model II). V multifaktorových komplexoch je možný zmiešaný model III, v ktorom niektoré faktory majú náhodné úrovne, zatiaľ čo iné majú pevné úrovne.

KATEGÓRIE

POPULÁRNE ČLÁNKY

2024 „kingad.ru“ - ultrazvukové vyšetrenie ľudských orgánov