Se aplică analiza varianței. Analiza multivariată a varianței

Analiza variatiei

1. Conceptul de analiză a varianței

Analiza variatiei este o analiză a variabilității unei trăsături sub influența oricăror factori variabili controlați. În literatura străină, analiza varianței este adesea denumită ANOVA, care este tradusă ca analiză a variabilității (Analysis of Variance).

Problema ANOVA constă în izolarea variabilității de alt fel de variabilitatea generală a unei trăsături:

a) variabilitatea datorată acțiunii fiecăreia dintre variabilele independente studiate;

b) variabilitatea datorată interacţiunii variabilelor independente studiate;

c) variabilitate aleatorie datorată tuturor celorlalte variabile necunoscute.

Variabilitatea datorată acțiunii variabilelor studiate și interacțiunea lor este corelată cu variabilitatea aleatorie. Un indicator al acestei relații este testul F al lui Fisher.

Formula de calcul a criteriului F include estimări ale variațiilor, adică parametrii de distribuție ai atributului, prin urmare criteriul F este un criteriu parametric.

Cu cât variabilitatea unei trăsături se datorează mai mult variabilelor (factorilor) studiate sau interacțiunii acestora, cu atât mai mare valorile criteriului empiric.

Zero ipoteza în analiza varianței va afirma că valorile medii ale caracteristicii efective studiate sunt aceleași în toate gradațiile.

Alternativă ipoteza va afirma că valorile medii ale caracteristicii rezultate în diferite gradații ale factorului studiat sunt diferite.

Analiza varianței ne permite să afirmăm o modificare a unei caracteristici, dar nu indică direcţie aceste schimbari.

Să începem analiza analizei varianței cu cel mai simplu caz, când studiem acțiunea numai unu variabilă (un factor).

2. Analiza unidirecțională a varianței pentru eșantioane neînrudite

2.1. Scopul metodei

Metoda analizei unifactoriale a varianței este utilizată în cazurile în care modificările unei caracteristici eficiente sunt studiate sub influența condițiilor în schimbare sau gradațiile unui factor. În această versiune a metodei, influența fiecăreia dintre gradațiile factorului este diferit mostre de subiecte. Trebuie să existe cel puțin trei gradații ale factorului. (Pot fi două gradații, dar în acest caz nu vom putea stabili dependențe neliniare și pare mai rezonabil să folosim altele mai simple).

O versiune neparametrică a acestui tip de analiză este testul Kruskal-Wallis H.

Ipoteze

H 0: Diferențele dintre gradele factorilor (condiții diferite) nu sunt mai mari decât diferențele aleatorii în cadrul fiecărui grup.

H 1: Diferențele dintre gradele factorilor (condiții diferite) sunt mai mari decât diferențele aleatorii în cadrul fiecărui grup.

2.2. Limitări ale analizei unidirecționale a varianței pentru probele neînrudite

1. Analiza unidirecțională a varianței necesită cel puțin trei gradații ale factorului și cel puțin două subiecte în fiecare gradație.

2. Caracteristica rezultată trebuie să fie distribuită normal în eșantionul studiat.

Adevărat, de obicei nu este indicat dacă vorbim despre distribuția caracteristicii în întregul eșantion chestionat sau în acea parte a acestuia care alcătuiește complexul de dispersie.

3. Un exemplu de rezolvare a unei probleme folosind metoda analizei unidirecționale a varianței pentru eșantioane neînrudite folosind exemplul:

Trei grupuri diferite de șase subiecți au primit liste de zece cuvinte. Cuvintele au fost prezentate primului grup la o viteză mică - 1 cuvânt la 5 secunde, celui de-al doilea grup la o viteză medie - 1 cuvânt la 2 secunde, iar celui de-al treilea grup la o viteză mare - 1 cuvânt pe secundă. Performanța de reproducere a fost estimată să depindă de viteza de prezentare a cuvintelor. Rezultatele sunt prezentate în tabel. 1.

Numărul de cuvinte reproduse tabelul 1

Subiectul nr.

viteza mica

viteza medie

de mare viteză

valoare totală

H 0: Diferențe în intervalul de producție a cuvintelor între grupurile nu sunt mai pronunțate decât diferențele aleatorii interior fiecare grup.

H1: Diferențele în volumul producției de cuvinte între grupurile sunt mai pronunțate decât diferențele aleatorii interior fiecare grup. Folosind valorile experimentale prezentate în tabel. 1, vom stabili câteva valori care vor fi necesare pentru a calcula criteriul F.

Calculul cantităților principale pentru analiza unidirecțională a varianței este prezentat în tabel:

masa 2

Tabelul 3

Secvența de operații în analiza unidirecțională a varianței pentru eșantioane neînrudite

Adesea găsită în acest tabel și în tabelele ulterioare, denumirea SS este o abreviere pentru „sumă de pătrate”. Această abreviere este cel mai des folosită în sursele traduse.

SS faptînseamnă variabilitatea caracteristicii datorită acțiunii factorului studiat;

SS în general- variabilitatea generală a trăsăturii;

S C.A.-variabilitate datorată unor factori necontabilizați, variabilitate „aleatorie” sau „reziduală”.

DOMNIȘOARĂ- „pătrat mediu”, sau așteptarea matematică a sumei pătratelor, valoarea medie a SS corespunzătoare.

df - numărul de grade de libertate, pe care, luând în considerare criteriile neparametrice, le-am notat cu o literă grecească v.

Concluzie: H 0 este respins. H 1 este acceptat. Diferențele în amintirea cuvintelor între grupuri au fost mai mari decât diferențele aleatorii în cadrul fiecărui grup (α=0,05). Deci, viteza de prezentare a cuvintelor afectează volumul reproducerii lor.

Un exemplu de rezolvare a problemei în Excel este prezentat mai jos:

Date inițiale:

Folosind comanda: Tools->Data Analysis->One-way ANOVA, obținem următoarele rezultate:

După cum sa menționat deja, metoda de dispersie este strâns legată de grupările statistice și presupune că populația studiată este împărțită în grupuri în funcție de caracteristicile factorilor, a căror influență ar trebui studiată.

Pe baza analizei varianței, se produce următoarele:

1. evaluarea fiabilității diferențelor în mediile grupului pentru unul sau mai multe caracteristici ale factorilor;

2. evaluarea fiabilității interacțiunilor factorilor;

3. evaluarea diferenţelor parţiale între perechi de medii.

Aplicarea analizei varianței se bazează pe legea de descompunere a variațiilor (variațiilor) unei caracteristici în componente.

Variația totală D o a caracteristicii rezultate în timpul grupării poate fi descompusă în următoarele componente:

1. a intergrupa D m asociat cu o caracteristică de grupare;

2. pentru rezidual(intragrup) D B nu are legătură cu caracteristica de grupare.

Relația dintre acești indicatori se exprimă după cum urmează:

D o = D m + D in. (1,30)

Să ne uităm la utilizarea analizei varianței folosind un exemplu.

Să presupunem că doriți să demonstrați dacă datele de semănat afectează randamentul grâului. Datele experimentale inițiale pentru analiza varianței sunt prezentate în tabel. 8.

Tabelul 8

În acest exemplu, N = 32, K = 4, l = 8.

Să determinăm variația totală totală a randamentului, care este suma abaterilor pătrate ale valorilor individuale ale unei trăsături de la media generală:

unde N este numărul de unități de populație; Y i – valori individuale ale randamentului; Y o este randamentul mediu general pentru întreaga populație.

Pentru a determina variația totală intergrup, care determină variația caracteristicii efective din cauza factorului studiat, este necesar să se cunoască valorile medii ale caracteristicii efective pentru fiecare grup. Această variație totală este egală cu suma abaterilor pătrate ale mediilor grupului de la valoarea medie globală a trăsăturii, ponderată cu numărul de unități de populație din fiecare grup:

Variația totală în interiorul grupului este egală cu suma abaterilor pătrate ale valorilor individuale ale unei trăsături de la mediile de grup pentru fiecare grup, însumate pentru toate grupurile din populație.

Influența unui factor asupra caracteristicii rezultate se manifestă în relația dintre Dm și Dv: cu cât influența factorului asupra valorii caracteristicii studiate este mai puternică, cu atât Dm mai mare și Dv mai mic.

Pentru a efectua analiza varianței, este necesar să se stabilească sursele de variație într-o trăsătură, volumul de variație după sursă și să se determine numărul de grade de libertate pentru fiecare componentă a variației.

Cantitatea de variație a fost deja stabilită; acum este necesar să se determine numărul de grade de libertate de variație. Numărul de grade de libertate este numărul de abateri independente ale valorilor individuale ale unei caracteristici față de valoarea medie a acesteia. Numărul total de grade de libertate, corespunzător sumei totale a abaterilor pătrate din ANOVA, este descompus în componente de variație. Astfel, suma totală a abaterilor pătrate D o corespunde numărului de grade de libertate de variație egal cu N – 1 = 31. Variația de grup D m ​​ corespunde numărului de grade de libertate de variație egal cu K – 1 = 3. Variația reziduală intragrup corespunde numărului de grade de libertate de variație egal cu N – K = 28.


Acum, cunoscând suma abaterilor pătrate și numărul de grade de libertate, putem determina variațiile pentru fiecare componentă. Să notăm aceste varianțe: d m - grup și d în - intragrup.

După calcularea acestor varianțe, vom proceda la stabilirea semnificației influenței factorului asupra atributului rezultat. Pentru a face acest lucru, găsim raportul: d M / d B = F f,

Mărimea F f, numită Criteriul Fisher , comparativ cu tabelul, tabelul F. După cum sa menționat deja, dacă tabelul F f > F, atunci influența factorului asupra atributului efectiv a fost dovedită. Dacă F f< F табл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.

Valoarea teoretică este asociată cu probabilitatea, iar în tabel valoarea acesteia este dată la un anumit nivel de probabilitate al judecății. Anexa conține un tabel care vă permite să setați valoarea F posibilă pentru probabilitatea de judecată, cea mai des folosită: nivelul de probabilitate al „ipotezei nule” este 0,05. În locul probabilităților „ipotezei nule”, tabelul poate fi numit tabelul pentru probabilitatea de 0,95 a semnificației influenței factorului. Creșterea nivelului de probabilitate necesită o valoare F mai mare a tabelului pentru comparație.

Valoarea tabelului F depinde și de numărul de grade de libertate ale celor două dispersii comparate. Dacă numărul de grade de libertate tinde spre infinit, atunci tabelul F tinde spre unitate.

Tabelul cu valorile tabelului F este construit după cum urmează: coloanele tabelului indică gradele de libertate de variație pentru dispersia mai mare, iar rândurile indică gradele de libertate pentru dispersia mai mică (în interiorul grupului). Valoarea lui F se găsește la intersecția coloanei și rândului gradelor de libertate de variație corespunzătoare.

Deci, în exemplul nostru, F f = 21,3/3,8 = 5,6. Valoarea tabelată a tabelului F pentru o probabilitate de 0,95 și grade de libertate, respectiv egale cu 3 și 28, tabelul F = 2,95.

Valoarea lui F f obţinută experimental depăşeşte valoarea teoretică chiar şi pentru o probabilitate de 0,99. În consecință, experiența cu o probabilitate mai mare de 0,99 demonstrează influența factorului studiat asupra randamentului, adică experiența poate fi considerată fiabilă, dovedită și, prin urmare, timpul de semănat are un impact semnificativ asupra randamentului grâului. Perioada optimă de semănat trebuie considerată perioada 10-15 mai, deoarece în această perioadă de semănat s-au obținut cele mai bune rezultate de recoltă.

Am examinat metoda de analiză a varianței atunci când grupăm după o caracteristică și distribuim aleatoriu replicile în cadrul grupului. Cu toate acestea, se întâmplă adesea ca parcela experimentală să aibă unele diferențe în fertilitatea solului etc. Prin urmare, poate apărea o situație ca un număr mai mare de parcele ale uneia dintre opțiuni să cadă în cea mai bună parte, iar indicatorii săi vor fi supraestimați și a celeilalte opțiuni - de partea cea mai proastă, iar rezultatele în acest caz vor fi în mod natural mai rele, adică subestimate.

Pentru a exclude variația care este cauzată de motive care nu sunt legate de experiment, este necesar să se izoleze varianța calculată din replici (blocuri) din varianța în interiorul grupului (reziduală).

Suma totală a abaterilor pătrate este împărțită în acest caz în 3 componente:

D o = D m + D repetare + D rest. (1,33)

Pentru exemplul nostru, suma abaterilor pătrate cauzate de repetări va fi egală cu:

Prin urmare, suma reală aleatorie a abaterilor pătrate va fi egală cu:

D rest = D in – D repetare; D rest = 106 – 44 = 62.

Pentru dispersia reziduală, numărul de grade de libertate va fi egal cu 28 – 7 = 21. Rezultatele analizei de varianță sunt prezentate în tabel. 9.

Tabelul 9

Deoarece valorile reale ale criteriului F pentru o probabilitate de 0,95 le depășesc pe cele din tabel, influența datelor de însămânțare și a repetărilor asupra producției de grâu ar trebui considerată semnificativă. Metoda luată în considerare de construire a unui experiment, atunci când site-ul este împărțit preliminar în blocuri cu condiții relativ aliniate, iar opțiunile testate sunt distribuite în cadrul blocului într-o ordine aleatorie, se numește metoda blocurilor randomizate.

Folosind analiza varianței, puteți studia influența nu numai a unui factor asupra rezultatului, ci a doi sau mai mulți. Analiza varianței în acest caz va fi numită analiza multivariată a varianței .

ANOVA cu două sensuri diferă de două cu un singur factor prin aceea că poate răspunde la următoarele întrebări:

1. 1 Care este efectul ambilor factori împreună?

2. Care este rolul combinației acestor factori?

Să luăm în considerare o analiză a varianței experimentului, în care este necesar să se identifice influența nu numai a datelor de semănat, ci și a soiurilor asupra producției de grâu (Tabelul 10).

Tabelul 10. Date experimentale privind influența datelor de semănat și a soiurilor asupra producției de grâu

este suma abaterilor pătrate ale valorilor individuale de la media generală.

Variația influenței comune a timpului de semănat și a soiului

este suma abaterilor pătrate ale mediilor subgrupului față de media generală, ponderată cu numărul de replicări, adică cu 4.

Calculul variației numai pe baza influenței timpului de semănat:

Variația reziduală este definită ca diferența dintre variația totală și variația influenței comune a factorilor studiați:

D rest = D o – D ps = 170 – 96 = 74.

Toate calculele pot fi prezentate sub forma unui tabel (Tabelul 11).

Tabelul 11. Rezultatele analizei varianței

Rezultatele analizei de varianță arată că influența factorilor studiați, adică timpul și soiul de semănat, asupra producției de grâu este semnificativă, deoarece criteriile F efective pentru fiecare dintre factori le depășesc semnificativ pe cele tabulate găsite pentru gradele corespunzătoare. de libertate, și în același timp cu o probabilitate destul de mare (p = 0,99). Influența unei combinații de factori în acest caz este absentă, deoarece factorii sunt independenți unul de celălalt.

Analiza influenței a trei factori asupra rezultatului se realizează după același principiu ca pentru doi factori, doar în acest caz vor exista trei variații pentru factori și patru variații pentru combinația de factori. Odată cu creșterea numărului de factori, volumul muncii de calcul crește brusc și, în plus, devine dificilă aranjarea informațiilor inițiale într-un tabel combinat. Prin urmare, nu este recomandabil să se studieze influența multor factori asupra rezultatului utilizând analiza varianței; este mai bine să luați un număr mai mic, dar să alegeți cei mai semnificativi factori din punctul de vedere al analizei economice.

Adesea, cercetătorul trebuie să se ocupe de așa-numitele complexe de dispersie disproporționată, adică cele în care proporționalitatea numărului de variante nu este respectată.

În astfel de complexe, variația efectului total al factorilor nu este egală cu suma variației între factori și a variației combinației de factori. Acesta diferă într-o sumă în funcție de gradul de conexiuni între factorii individuali care apar ca urmare a unei încălcări a proporționalității.

În acest caz, apar dificultăți în determinarea gradului de influență al fiecărui factor, deoarece suma influențelor individuale nu este egală cu influența totală.

Una dintre modalitățile de a reduce un complex disproporționat la o singură structură este înlocuirea acestuia cu un complex proporțional, în care frecvențele sunt mediate pe grupuri. Când se face o astfel de înlocuire, problema este rezolvată conform principiilor complexelor proporționale.

Analiza variatiei - Aceasta este o metodă statistică concepută pentru a evalua influența diferiților factori asupra rezultatului unui experiment, precum și pentru planificarea ulterioară a unui experiment similar. Această metodă vă permite să comparați mai multe (mai mult de două) mostre pe o caracteristică măsurată pe o scară metrică. Abrevierea general acceptată pentru analiza varianței este ANOVA (din engleză ANalysis Of VAriance).

Creatorul analizei varianței este remarcabilul cercetător englez Ronald Fisher, care a pus bazele statisticii moderne.

Scopul principal al acestei metode este de a studia semnificația diferenței dintre mijloace. Poate părea ciudat că procedura de comparare a mediilor se numește analiză a varianței. Acest lucru se datorează faptului că, atunci când examinăm semnificația statistică a unei diferențe între mediile a două (sau mai multe) grupuri, comparăm de fapt (adică analizăm) variațiile eșantionului. Poate că termenul mai natural ar fi analiza sumei pătratelor sau analiza variației, dar, datorită tradiției, se folosește termenul de analiză a varianței.

Sunt numite variabile ale căror valori sunt determinate de măsurători în timpul unui experiment (de exemplu, un scor de test). dependent variabile. Variabilele care pot fi controlate într-un experiment (cum ar fi metodele de predare sau alte criterii care permit ca observațiile să fie împărțite în grupuri sau clasificate) sunt numite factori sau variabile independente.

Pe baza numărului de factori a căror influență este studiată, se face o distincție între analiza varianței monofactorială și multifactorială. Vom lua în considerare analiza unidirecțională a varianței.

Ipotezele de bază ale analizei varianței:

  • 1) distribuția variabilei dependente pentru fiecare grup de factori corespunde legii normale (încălcarea acestei ipoteze, după cum au arătat numeroase studii, nu are un impact semnificativ asupra rezultatelor analizei varianței);
  • 2) varianțele eșantioanelor corespunzătoare diferitelor gradații ale factorului sunt egale între ele (această ipoteză este esențială pentru rezultatele analizei varianței dacă eșantioanele comparate diferă ca mărime);
  • 3) eșantioanele corespunzătoare gradațiilor factorilor trebuie să fie independente (îndeplinirea acestei ipoteze este obligatorie în orice caz). Eșantioanele independente sunt eșantioane în care subiecții studiului au fost recrutați independent unul de celălalt, adică probabilitatea de a selecta orice subiect dintr-un eșantion nu depinde de selecția vreunuia dintre subiecții din celălalt eșantion. Dimpotrivă, eșantioanele dependente se caracterizează prin faptul că fiecare subiect dintr-un eșantion este potrivit conform unui anumit criteriu de către un subiect dintr-un alt eșantion (un exemplu tipic de eșantioane dependente este măsurarea unei proprietăți pe același eșantion înainte și după procedura.În acest caz, mostrele sunt dependente deoarece sunt formate din aceiași subiecți.Un alt exemplu de eșantioane dependente: soții sunt un eșantion, soțiile lor sunt un alt eșantion).

Algoritm pentru efectuarea analizei varianței:

  • 1. Propunem o ipoteză H 0- nu există nicio influență a factorului de grupare asupra rezultatului.
  • 2. Găsiți variațiile intergrup (factoriale) și intragrup (reziduale). (al-lea ftȘi Docm).
  • 3. Calculați valoarea observată a criteriului Fisher-Snedecor:

4. Folosind tabelul punctelor critice ale distribuției Fisher - Snedecor sau folosind funcția standard MS Excel „ERASPOBR” găsim

Unde: A- nivelul specificat de semnificație, k xȘi la 2- numărul de grade de libertate a factorului și respectiv dispersia reziduală.

5. Dacă F Ha6ji> F Kp, atunci ipoteza I 0 este respinsă. Aceasta înseamnă că există o influență a factorului de grupare asupra rezultatului.

Dacă FHa6jlF Kp, atunci ipoteza #0 este acceptată. Aceasta înseamnă că nu există nicio influență a factorului de grupare asupra rezultatului.

Astfel, analiza varianței este concepută pentru a determina dacă un anumit factor are un efect semnificativ F, care are R niveluri: F X, F 2 ,..., Fp, la valoarea studiată.

  • Gmurman V.E. Teoria Probabilității și Statistica Matematică. p. 467.

Analiza varianței este un set de metode statistice menite să testeze ipoteze despre relația dintre anumite caracteristici și factorii studiați care nu au o descriere cantitativă, precum și să stabilească gradul de influență a factorilor și interacțiunea acestora. În literatura de specialitate se numește adesea ANOVA (de la denumirea engleză Analysis of Variations). Această metodă a fost dezvoltată pentru prima dată de R. Fischer în 1925.

Tipuri și criterii de analiză a varianței

Această metodă este utilizată pentru a studia relația dintre caracteristicile calitative (nominale) și o variabilă cantitativă (continuă). În esență, testează ipoteza despre egalitatea mediilor aritmetice a mai multor eșantioane. Astfel, poate fi considerat ca un criteriu parametric pentru compararea centrelor mai multor eșantioane simultan. Dacă această metodă este utilizată pentru două eșantioane, rezultatele analizei varianței vor fi identice cu rezultatele testului t Student. Cu toate acestea, spre deosebire de alte criterii, acest studiu ne permite să studiem problema mai detaliat.

Analiza de dispersie în statistică se bazează pe legea: suma abaterilor pătrate ale eșantionului combinat este egală cu suma abaterilor pătrate intragrup și suma abaterilor pătrate intergrup. Studiul folosește testul lui Fisher pentru a stabili semnificația diferenței dintre variațiile intergrup și variațiile în interiorul grupului. Cu toate acestea, premisele necesare pentru aceasta sunt normalitatea distribuției și homoscedasticitatea (egalitatea varianțelor) eșantioanelor. Există analize univariate (un factor) ale varianței și multivariate (multifactoriale). Primul ia în considerare dependența valorii studiate de o caracteristică, al doilea - de multe simultan și, de asemenea, ne permite să identificăm legătura dintre ele.

Factori

Factorii sunt circumstanțe controlate care influențează rezultatul final. Nivelul sau metoda de prelucrare a acestuia este o valoare care caracterizează o manifestare specifică a acestei stări. Aceste numere sunt de obicei prezentate pe o scară de măsurare nominală sau ordinală. Adesea, valorile de ieșire sunt măsurate pe scale cantitative sau ordinale. Apoi se pune problema grupării datelor de ieșire într-un număr de observații care corespund aproximativ aceleași valori numerice. Dacă numărul de grupuri este considerat a fi excesiv de mare, atunci numărul de observații din ele poate fi insuficient pentru a obține rezultate fiabile. Dacă luați numărul prea mic, acest lucru poate duce la pierderea unor caracteristici semnificative ale influenței asupra sistemului. Modul specific de grupare a datelor depinde de cantitatea și natura variației valorilor. Numărul și dimensiunea intervalelor în analiza univariată sunt cel mai adesea determinate de principiul intervalelor egale sau de principiul frecvențelor egale.

Analiza problemelor de varianță

Deci, există cazuri când trebuie să comparați două sau mai multe mostre. Atunci este recomandabil să folosiți analiza varianței. Denumirea metodei indică faptul că concluziile sunt trase pe baza studiului componentelor varianței. Esența studiului este că modificarea generală a indicatorului este împărțită în părți componente care corespund acțiunii fiecărui factor individual. Să luăm în considerare o serie de probleme care sunt rezolvate prin analiza tipică a varianței.

Exemplul 1

Atelierul are o serie de mașini automate care produc o anumită piesă. Dimensiunea fiecărei piese este o variabilă aleatorie care depinde de configurația fiecărei mașini și de abaterile aleatorii care apar în timpul procesului de fabricație a pieselor. Este necesar să se determine, pe baza datelor de măsurare a dimensiunilor pieselor, dacă mașinile sunt configurate în același mod.

Exemplul 2

La fabricarea unui aparat electric se folosesc diverse tipuri de hartie izolatoare: condensator, electrice etc. Aparatul poate fi impregnat cu diverse substante: rasina epoxidica, lac, rasina ML-2 etc. Scurgerile pot fi eliminate sub vid la presiune ridicată, cu încălzire. Impregnarea se poate face prin imersare în lac, sub un flux continuu de lac etc. Aparatul electric în ansamblu este umplut cu un anumit compus, dintre care există mai multe opțiuni. Indicatorii de calitate sunt rezistența electrică a izolației, temperatura de supraîncălzire a înfășurării în modul de funcționare și o serie de altele. În timpul dezvoltării procesului tehnologic de fabricare a dispozitivelor, este necesar să se determine modul în care fiecare dintre factorii enumerați afectează performanța dispozitivului.

Exemplul 3

Depoul de troleibuze deservește mai multe rute de troleibuz. Aceștia operează troleibuze de diferite tipuri, iar 125 de inspectori colectează tarife. Conducerea depozitului este interesată de întrebarea: cum să comparați indicatorii economici ai activității fiecărui controlor (venit), luând în considerare diferite rute și diferite tipuri de troleibuze? Cum se determină fezabilitatea economică a producerii de troleibuze de un anumit tip pe o anumită rută? Cum se stabilesc cerințe rezonabile pentru suma de venituri pe care un conductor îl aduce pe fiecare rută în diferite tipuri de troleibuze?

Sarcina alegerii unei metode este de a obține informații maxime cu privire la influența fiecărui factor asupra rezultatului final, de a determina caracteristicile numerice ale unei astfel de influențe, de fiabilitatea acestora la costuri minime și în cel mai scurt timp posibil. Metodele de analiză a varianței permit rezolvarea unor astfel de probleme.

Analiza univariată

Scopul studiului este de a evalua amploarea influenței unui anumit caz asupra revizuirii analizate. Un alt scop al analizei univariate poate fi acela de a compara două sau mai multe circumstanțe între ele pentru a determina diferența în impactul lor asupra reamintirii. Dacă ipoteza nulă este respinsă, atunci următorul pas este cuantificarea și construirea intervalelor de încredere pentru caracteristicile obținute. În cazul în care ipoteza nulă nu poate fi respinsă, aceasta este de obicei acceptată și se trage o concluzie despre natura influenței.

Analiza unidirecțională a varianței poate deveni un analog neparametric al metodei de rang Kruskal-Wallis. A fost dezvoltat de matematicianul american William Kruskal și economistul Wilson Wallis în 1952. Acest criteriu este conceput pentru a testa ipoteza nulă a egalității efectelor asupra eșantioanelor studiate cu valori medii necunoscute, dar egale. În acest caz, numărul de probe trebuie să fie mai mare de două.

Criteriul Jonckheere-Terpstra a fost propus independent de matematicianul olandez T. J. Terpstra în 1952 și de psihologul britanic E. R. Jonckheere în 1954. Este folosit atunci când se știe dinainte că grupurile de rezultate existente sunt ordonate după creșterea influenței factor studiat, care este măsurat pe o scară ordinală.

M - Testul lui Bartlett, propus de statisticianul britanic Maurice Stevenson Bartlett în 1937, este folosit pentru a testa ipoteza nulă despre egalitatea varianțelor mai multor populații normale din care sunt prelevate eșantioanele studiate, având în general dimensiuni diferite (numărul fiecărei eșantionul trebuie să fie de cel puțin patru).

G - testul lui Cochran, care a fost descoperit de americanul William Gemmell Cochran în 1941. Este folosit pentru a testa ipoteza nulă despre egalitatea varianțelor populațiilor normale în eșantioane independente de dimensiuni egale.

Testul Levene neparametric, propus de matematicianul american Howard Levene în 1960, este o alternativă la testul Bartlett în condițiile în care nu există încredere că eșantioanele studiate sunt supuse unei distribuții normale.

În 1974, statisticienii americani Morton B. Brown și Alan B. Forsythe au propus un test (testul Brown-Forsyth) care este ușor diferit de testul lui Levene.

Analiza cu doi factori

Analiza bidirecțională a varianței este utilizată pentru eșantioanele conexe distribuite normal. În practică, sunt adesea folosite tabele complexe ale acestei metode, în special cele în care fiecare celulă conține un set de date (măsurători repetate) corespunzătoare unor valori de nivel fixe. Dacă nu sunt îndeplinite ipotezele necesare pentru aplicarea analizei bidirecționale a varianței, atunci utilizați testul de rang Friedman neparametric (Friedman, Kendall și Smith), dezvoltat de economistul american Milton Friedman la sfârșitul anului 1930. Acest test nu depinde de tip de distributie.

Se presupune doar că distribuția valorilor este identică și continuă și că ele însele sunt independente unele de altele. La testarea ipotezei nule, datele de ieșire sunt prezentate sub forma unei matrice dreptunghiulare, în care rândurile corespund nivelurilor factorului B, iar coloanele corespund nivelurilor lui A. Fiecare celulă a tabelului (blocului) poate fi rezultatul măsurătorilor parametrilor pe un obiect sau pe un grup de obiecte cu valori constante ale nivelurilor ambilor factori. În acest caz, datele corespunzătoare sunt prezentate ca valori medii ale unui anumit parametru pentru toate dimensiunile sau obiectele eșantionului studiat. Pentru a aplica criteriul de ieșire, este necesar să treceți de la rezultatele directe ale măsurătorilor la rangul lor. Clasificarea se realizează pentru fiecare rând separat, adică valorile sunt ordonate pentru fiecare valoare fixă.

Testul lui Page (testul L), propus de statisticianul american E. B. Page în 1963, este conceput pentru a testa ipoteza nulă. Pentru mostre mari, se folosește aproximarea lui Page. Ele, supuse realității ipotezelor nule corespunzătoare, se supun distribuției normale standard. În cazul în care rândurile tabelului sursă au aceleași valori, este necesar să se utilizeze ranguri medii. În acest caz, acuratețea concluziilor va fi mai proastă, cu cât numărul de astfel de meciuri va fi mai mare.

Q - Criteriul lui Cochran, propus de W. Cochran în 1937. Se folosește în cazurile în care grupuri de subiecți omogene sunt expuși la influențe, al căror număr depășește două și pentru care sunt posibile două opțiuni de feedback - condiționat negativ (0) și conditionat pozitiv (1) . Ipoteza nulă constă în egalitatea efectelor tratamentului. Analiza bidirecțională a varianței face posibilă determinarea existenței efectelor tratamentului, dar nu face posibilă determinarea pentru ce coloane specifice există acest efect. Pentru a rezolva această problemă, se utilizează metoda ecuațiilor Scheffe multiple pentru eșantioane înrudite.

Analiza multivariată

Problema analizei multivariate a varianței apare atunci când trebuie să determinați efectul a două sau mai multe condiții asupra unei anumite variabile aleatoare. Studiul implică prezența unei variabile aleatoare dependente, măsurată pe o scară de diferență sau raport, și mai multe variabile independente, fiecare dintre acestea fiind exprimată pe o scală de denumire sau de rang. Analiza varianței datelor este o secțiune destul de dezvoltată a statisticilor matematice, care are o mulțime de opțiuni. Conceptul de cercetare este comun atât pentru un singur factor, cât și pentru multifactor. Esența sa constă în faptul că varianța totală este împărțită în componente, ceea ce corespunde unei anumite grupări de date. Fiecare grupare de date are propriul său model. Aici vom lua în considerare doar prevederile de bază necesare pentru înțelegerea și utilizarea practică a opțiunilor sale cele mai utilizate.

Analiza varianței factorilor necesită o atitudine destul de atentă față de colectarea și prezentarea datelor de intrare și mai ales față de interpretarea rezultatelor. Spre deosebire de un test cu un singur factor, ale cărui rezultate pot fi plasate condiționat într-o anumită secvență, rezultatele unui test cu doi factori necesită o prezentare mai complexă. Situația devine și mai complicată atunci când sunt trei, patru sau mai multe circumstanțe. Din această cauză, este destul de rar să includeți mai mult de trei (patru) condiții într-un model. Un exemplu ar fi apariția rezonanței la o anumită valoare a capacității și inductanței unui cerc electric; manifestarea unei reacții chimice cu un anumit set de elemente din care este construit sistemul; apariția unor efecte anormale în sisteme complexe într-o anumită coincidență de circumstanțe. Prezența interacțiunii poate schimba radical modelul sistemului și poate duce uneori la o regândire a naturii fenomenelor cu care se confruntă experimentatorul.

Analiza multivariată a varianței cu experimente repetate

Datele de măsurare pot fi adesea grupate nu în doi, ci după un număr mai mare de factori. Astfel, dacă luăm în considerare analiza de dispersie a duratei de viață a anvelopelor pentru roți de troleibuz ținând cont de circumstanțe (uzina de producție și traseul pe care sunt operate anvelopele), atunci putem evidenția ca o condiție separată sezonul în care se actioneaza anvelopele (si anume: functionare iarna si vara). Ca urmare, vom avea o problemă a metodei cu trei factori.

Dacă există mai multe condiții, abordarea este aceeași ca în analiza cu doi factori. În toate cazurile, ei încearcă să simplifice modelul. Fenomenul de interacțiune a doi factori nu apare atât de des, iar interacțiunea triplă apare doar în cazuri excepționale. Includeți acele interacțiuni pentru care există informații anterioare și motive întemeiate să le luați în considerare în model. Procesul de identificare a factorilor individuali și luarea în considerare a acestora este relativ simplu. Prin urmare, există adesea dorința de a evidenția mai multe circumstanțe. Nu ar trebui să te lași dus de asta. Cu cât sunt mai multe condiții, cu atât modelul devine mai puțin fiabil și probabilitatea de eroare este mai mare. Modelul în sine, care include un număr mare de variabile independente, devine destul de complex de interpretat și incomod pentru utilizare practică.

Ideea generală a analizei varianței

Analiza varianței în statistici este o metodă de obținere a rezultatelor observaționale dependente de diferite circumstanțe de funcționare simultană și de evaluare a influenței acestora. O variabilă controlată care corespunde metodei de influențare a obiectului de studiu și dobândește o anumită valoare într-o anumită perioadă de timp se numește factor. Ele pot fi calitative și cantitative. Nivelurile condiţiilor cantitative capătă o anumită semnificaţie la scară numerică. Exemple sunt temperatura, presiunea de presare, cantitatea de substanță. Factorii calitativi sunt diferite substanțe, diferite metode tehnologice, dispozitive, materiale de umplutură. Nivelurile lor corespund unei scale de nume.

Calitatea poate include, de asemenea, tipul de material de ambalare și condițiile de depozitare ale formei de dozare. De asemenea, este rațional să se includă și gradul de măcinare a materiilor prime, compoziția fracționată a granulelor, care au semnificație cantitativă, dar sunt greu de reglat dacă se utilizează o scară cantitativă. Numărul de factori calitativi depinde de tipul formei de dozare, precum și de proprietățile fizice și tehnologice ale substanțelor medicamentoase. De exemplu, tabletele pot fi obținute din substanțe cristaline prin compresie directă. În acest caz, este suficient să selectați substanțe de alunecare și lubrifiere.

Exemple de factori de calitate pentru diferite tipuri de forme de dozare

  • Tincturi. Compoziția extractantului, tipul extractorului, metoda de preparare a materiei prime, metoda de producție, metoda de filtrare.
  • Extracte (lichid, gros, uscat). Compoziția extractantului, metoda de extracție, tipul instalației, modalitatea de îndepărtare a extractantului și a substanțelor de balast.
  • Pastile. Compoziția excipienților, materiale de umplutură, dezintegranți, lianți, lubrifianți și lubrifianți. Mod de obținere a tabletelor, tip de echipament tehnologic. Tipul de înveliș și componentele sale, formatori de peliculă, pigmenți, coloranți, plastifianți, solvenți.
  • Soluții injectabile. Tipul solventului, metoda de filtrare, natura stabilizatorilor și conservanților, condițiile de sterilizare, metoda de umplere a fiolelor.
  • Supozitoare. Compoziția bazei supozitoarelor, metoda de producere a supozitoarelor, umpluturi, ambalare.
  • Unguente. Compoziția bazei, componentele structurale, metoda de preparare a unguentului, tipul de echipament, ambalajul.
  • Capsule. Tipul materialului învelișului, metoda de producere a capsulelor, tipul de plastifiant, conservant, colorant.
  • Linimente. Mod de preparare, compoziție, tip de echipament, tip de emulgator.
  • Suspensii. Tip de solvent, tip de stabilizator, metoda de dispersie.

Exemple de factori de calitate și nivelurile acestora studiate în timpul procesului de fabricație a tabletei

  • Praf de copt. Amidon de cartofi, argilă albă, un amestec de bicarbonat de sodiu cu acid citric, carbonat de magneziu bazic.
  • Soluție de legare. Apă, pastă de amidon, sirop de zahăr, soluție de metilceluloză, soluție de hidroxipropilmetilceluloză, soluție de polivinilpirolidonă, soluție de alcool polivinilic.
  • Substanță de alunecare. Aerosil, amidon, talc.
  • Material de umplutură. Zahăr, glucoză, lactoză, clorură de sodiu, fosfat de calciu.
  • Lubrifiant. Acid stearic, polietilen glicol, parafină.

Modele de analiză a varianței în studiul nivelului de competitivitate a statului

Unul dintre cele mai importante criterii de apreciere a stării unui stat, prin care se apreciază nivelul de bunăstare și de dezvoltare socio-economică a acestuia, este competitivitatea, adică un ansamblu de proprietăți inerente economiei naționale care determină starea statului. capacitatea de a concura cu alte țări. După ce a determinat locul și rolul statului pe piața mondială, este posibil să se stabilească o strategie clară pentru asigurarea securității economice la scară internațională, deoarece este cheia relațiilor pozitive dintre Rusia și toți actorii de pe piața mondială: investitorii , creditorii și guvernele.

Pentru a compara nivelul de competitivitate al statelor, țările sunt clasate folosind indici complecși care includ diverși indicatori ponderați. Acești indici se bazează pe factori cheie care influențează situația economică, politică etc. Un set de modele pentru studierea competitivității statului implică utilizarea metodelor de analiză statistică multivariată (în special, analiza varianței (statistică), modelarea econometrică, luarea deciziilor) și include următoarele etape principale:

  1. Formarea unui sistem de indicatori.
  2. Evaluarea și prognozarea indicatorilor de competitivitate a statului.
  3. Compararea indicatorilor de competitivitate a statelor.

Acum să ne uităm la conținutul modelelor fiecăreia dintre etapele acestui complex.

La prima etapă folosind metode de studiu expert, se formează un set bine fundamentat de indicatori economici pentru evaluarea competitivității statului, ținând cont de specificul dezvoltării acestuia pe baza evaluărilor internaționale și a datelor de la departamentele de statistică, care reflectă starea sistemului în ansamblu. și procesele sale. Alegerea acestor indicatori este justificată de necesitatea selectării celor care, din punct de vedere practic, ne permit să determinăm cel mai pe deplin nivelul statului, atractivitatea investițională a acestuia și posibilitatea de localizare relativă a amenințărilor potențiale și reale existente.

Principalii indicatori ai sistemelor internaționale de rating sunt indici:

  1. Competitivitate globală (GC).
  2. Libertatea economică (IES).
  3. Dezvoltarea umană (IDU).
  4. Percepțiile corupției (CPC).
  5. Amenințări interne și externe (IETH).
  6. Potenţialul de influenţă internaţională (IPIP).

Faza a doua prevede evaluarea și prognozarea indicatorilor de competitivitate a statului conform ratingurilor internaționale pentru cele 139 de țări ale lumii studiate.

A treia etapă prevede o comparație a condițiilor de competitivitate a statelor folosind metode de corelare și analiză de regresie.

Cu ajutorul rezultatelor studiului, este posibilă determinarea naturii proceselor în general și pentru componentele individuale ale competitivității statului; testați ipoteza despre influența factorilor și relațiile acestora la nivelul de semnificație corespunzător.

Implementarea setului de modele propus va permite nu numai evaluarea situației actuale a nivelului de competitivitate și atractivitate investițională a statelor, ci și analiza deficiențelor de management, prevenirea erorilor de decizii greșite și prevenirea dezvoltării unei crize în stat.

Rezultatele experimentelor și testelor pot depinde de unii factori care influențează variabilitatea valorilor medii ale unei variabile aleatorii. Valorile factorilor se numesc niveluri ale factorilor, iar mărimea se numește caracteristica rezultată. De exemplu, cantitatea de muncă efectuată pe un șantier poate depinde de echipajul de lucru. În acest caz, numărul echipajului este nivelul factorului, iar volumul de muncă pe tură este atributul efectiv.

Metoda analizei varianței, sau ANOVA(Analysis of Variance - analiza varianței), servește la studiul semnificației statistice a diferenței dintre medii pentru trei sau mai multe eșantioane (nivele de factori). Pentru a compara mediile din două eșantioane, utilizați t-criteriu

Procedura de comparare a mediilor se numește analiză a varianței, deoarece atunci când se studiază semnificația statistică a diferenței dintre mediile mai multor grupuri de observații, se efectuează o analiză a variațiilor eșantionului. Conceptul fundamental de analiză a varianței a fost propus de Fisher.

Esența metodei este de a împărți varianța totală în două părți, dintre care una se datorează erorii aleatorii (adică variabilitatea intragrup), iar a doua este asociată cu diferența de valori medii. Ultima componentă a varianței este apoi utilizată pentru a analiza semnificația statistică a diferenței dintre medii. Dacă această diferență este semnificativă, se respinge ipoteza nulă și se acceptă ipoteza alternativă că există o diferență între medii.

Variabilele ale căror valori sunt determinate de măsurători în timpul unui experiment (de exemplu, eficiența economică, randamentul, rezultatul testului) se numesc variabile sau caracteristici dependente. Variabilele care pot fi controlate într-un experiment (de exemplu, nivelul de management, tipul de sol, metodele de predare) se numesc factori sau variabile independente.

În analiza clasică a varianței, se presupune că valorile studiate au o distribuție normală cu varianță constantă și valori medii, care pot diferi pentru diferite populații de eșantion. Raportul dintre varianța mediilor de grup și varianța reziduală este utilizat ca criteriu pentru testarea ipotezelor nule. Cu toate acestea, s-a demonstrat că analiza varianței este valabilă și pentru variabile aleatoare non-Gauss, iar cu o dimensiune a eșantionului de n > 4 pentru fiecare nivel de factor, eroarea nu este mare. Dacă este necesară o precizie ridicată a inferențelor și distribuția este necunoscută, atunci ar trebui utilizate teste neparametrice, de exemplu, folosind analiza de rang a varianței.

ANOVA unidirecțională

Lasă-l să se realizeze m grupuri de măsurători ale valorilor variabile aleatoare Y la diferite niveluri de valoare a unui factor și a 1 , a 2 , a m- așteptarea matematică a caracteristicii efective la niveluri de factori A (1) , A (2) , A(m) ( i=1, 2, m) respectiv.


Ipoteza despre independența caracteristicii efective față de factor se rezumă la testarea ipotezei nule despre egalitatea așteptărilor matematice de grup

H 0: a 1 = a 2 = a m (6,12)

Testarea ipotezelor este posibilă dacă sunt îndeplinite următoarele cerințe pentru fiecare nivel de factor:

1) observațiile sunt independente și efectuate în aceleași condiții;

2) variabila aleatoare măsurată are o lege de distribuție normală cu o varianță generală constantă pentru diferite niveluri ale factorului σ 2. Adică ipoteza este adevărată

H 0: σ 1 2 = σ 2 2 = σ m 2.

Pentru a testa ipoteza conform căreia varianțele a trei sau mai multe distribuții normale sunt egale, se folosește testul Bartlett.

Dacă ipoteza H 0: σ 1 2 = σ 2 2 = σ m 2 se confirmă, apoi începem să testăm ipoteza despre egalitatea așteptărilor matematice de grup H 0: a 1 = a 2 = a m, adică la analiza varianței în sine. Baza analizei varianței este poziția conform căreia variabilitatea trăsăturii rezultate este cauzată atât de modificările nivelurilor factorului A, cât și de variabilitatea valorilor factorilor aleatori necontrolați. Factorii aleatori sunt numiți reziduali.

Se poate dovedi că varianța totală a eșantionului poate fi reprezentată ca suma varianței mediilor de grup și a mediei variațiilor de grup

, Unde

Varianța totală a eșantionului;

Varianța mediilor de grup () calculată pentru fiecare nivel de factor;

Media variațiilor de grup () calculată pentru fiecare nivel de factor. asociat cu impactul asupra Y factori reziduali (aleatori).

Trecând de la expansiunea pentru variația generală la valorile eșantionului, obținem

, (6.13)

Reprezintă suma ponderată a abaterilor pătrate ale mediilor eșantionului pentru fiecare nivel A(i) din media generală a eșantionului,

Valoarea medie a abaterilor pătrate în cadrul nivelurilor.

Variabilele aleatoare , , au următoarele valori pentru gradele de libertate, respectiv: n - 1, m - 1, n - m. Aici n- numărul total de valori ale probei, m- numărul de niveluri de factori.

În statistica matematică se dovedește că dacă ipoteza nulă despre egalitatea mediilor (10.8) este adevărată, atunci cantitatea

Are F-distributie cu numarul de grade de libertate k = m- 1 și l = n-m, acesta este

(6.14)

Dacă ipoteza nulă este satisfăcută, varianța în interiorul grupului va coincide practic cu varianța totală calculată fără a lua în considerare apartenența la grup. În analiza varianței, de regulă, numărătorul este mai mare decât numitorul. În caz contrar, se consideră că observațiile nu confirmă influența factorului asupra caracteristicii rezultate și nu se efectuează nicio analiză ulterioară. Varianțele rezultate în cadrul grupului pot fi comparate folosind F-criteriu care verifică dacă raportul varianțelor este semnificativ mai mare decât 1.

În acest sens, pentru a testa ipoteza (6.12) folosind F-criteriul analizează regiunea critică din dreapta .

Dacă valoarea calculată F se încadrează în intervalul specificat, atunci ipoteza nulă este respinsă, iar influența factorului este considerată stabilită A la semnul efectiv Y.

Să dăm un exemplu de calcul a sumelor pătratelor și a variațiilor eșantionului. Luați în considerare setul de date prezentat în Tabelul 6.2. În acest exemplu, dorim să stabilim dacă există o diferență semnificativă în performanța echipelor.

Tabelul 6.2. Exemplu de calculare a sumelor de pătrate

CATEGORII

ARTICOLE POPULARE

2023 „kingad.ru” - examinarea cu ultrasunete a organelor umane