Stosowana jest analiza wariancji. Wieloczynnikowa analiza wariancji

Analiza wariancji

1. Pojęcie analizy wariancji

Analiza wariancji to analiza zmienności cechy pod wpływem dowolnych kontrolowanych czynników zmiennych. W literaturze zagranicznej analizę wariancji często określa się mianem ANOVA, co tłumaczy się jako analizę zmienności (Analiza wariancji).

Problem z ANOVĄ polega na wyodrębnieniu zmienności innego rodzaju od ogólnej zmienności cechy:

a) zmienność wynikająca z działania każdej z badanych zmiennych niezależnych;

b) zmienność wynikająca z interakcji badanych zmiennych niezależnych;

c) zmienność losowa spowodowana wszystkimi innymi nieznanymi zmiennymi.

Zmienność wynikająca z działania badanych zmiennych i ich interakcji jest skorelowana ze zmiennością losową. Wskaźnikiem tej zależności jest test F Fishera.

Wzór na obliczenie kryterium F uwzględnia estymatory wariancji, czyli parametrów rozkładu cechy, dlatego też kryterium F jest kryterium parametrycznym.

Im bardziej zmienność cechy wynika z badanych zmiennych (czynników) lub ich interakcji, tym większa empiryczne wartości kryterialne.

Zero hipoteza w analizie wariancji będzie stwierdzać, że średnie wartości badanej efektywnej cechy są takie same we wszystkich gradacjach.

Alternatywny hipoteza będzie stwierdzać, że średnie wartości wynikowej cechy w różnych gradacjach badanego czynnika są różne.

Analiza wariancji pozwala stwierdzić zmianę cechy, ale jej nie wskazuje kierunek te zmiany.

Rozpocznijmy nasze rozważania na temat analizy wariancji od najprostszego przypadku, kiedy badamy działanie tylko jeden zmienna (jeden czynnik).

2. Jednoczynnikowa analiza wariancji dla niepowiązanych próbek

2.1. Cel metody

Metodę jednoczynnikowej analizy wariancji stosuje się w przypadkach, gdy bada się zmiany efektywnej charakterystyki pod wpływem zmieniających się warunków lub gradacji czynnika. W tej wersji metody wpływ każdej z gradacji współczynnika wynosi różny próbki tematów. Muszą istnieć co najmniej trzy stopnie współczynnika. (Mogą istnieć dwie gradacje, ale w tym przypadku nie uda nam się ustalić zależności nieliniowych i rozsądniej wydaje się zastosowanie prostszych).

Nieparametryczną wersją tego typu analizy jest test Kruskala-Wallisa H.

Hipotezy

H 0: Różnice pomiędzy stopniami czynników (różne warunki) nie są większe niż różnice losowe w obrębie każdej grupy.

H 1: Różnice pomiędzy stopniami czynników (różne warunki) są większe niż różnice losowe w obrębie każdej grupy.

2.2. Ograniczenia jednokierunkowej analizy wariancji dla niepowiązanych próbek

1. Jednoczynnikowa analiza wariancji wymaga co najmniej trzech gradacji czynnika i co najmniej dwóch podmiotów w każdej gradacji.

2. Otrzymana cecha musi mieć rozkład normalny w badanej próbie.

Co prawda zwykle nie jest wskazane, czy mówimy o rozkładzie cechy w całej badanej próbie, czy w jej części tworzącej kompleks dyspersyjny.

3. Przykład rozwiązania problemu metodą jednokierunkowej analizy wariancji dla niepowiązanych próbek na przykładzie:

Trzy różne grupy składające się z sześciu osób otrzymały listy zawierające dziesięć słów. Grupie pierwszej słowa były prezentowane z małą szybkością – 1 słowo na 5 sekund, grupie drugiej ze średnią szybkością – 1 słowo na 2 sekundy, a grupie trzeciej z dużą szybkością – 1 słowo na sekundę. Przewidywano, że wydajność reprodukcji będzie zależała od szybkości prezentacji słów. Wyniki przedstawiono w tabeli. 1.

Liczba powtórzonych słów Tabela 1

Temat nr.

niska prędkość

średnia prędkość

duża prędkość

Całkowita kwota

H 0: Różnice w zakresie produkcji słów między grupy nie są bardziej widoczne niż różnice losowe wewnątrz każda grupa.

H1: Różnice w wielkości produkcji słów między grupy są bardziej widoczne niż różnice losowe wewnątrz każda grupa. Korzystając z wartości eksperymentalnych przedstawionych w tabeli. 1 ustalimy pewne wartości, które będą niezbędne do obliczenia kryterium F.

Obliczenie głównych wielkości dla jednoczynnikowej analizy wariancji przedstawiono w tabeli:

Tabela 2

Tabela 3

Kolejność operacji w jednokierunkowej analizie wariancji dla niepowiązanych próbek

Często spotykane w tej i kolejnych tabelach oznaczenie SS jest skrótem od „suma kwadratów”. Skrót ten jest najczęściej używany w źródłach tłumaczonych.

SS fakt oznacza zmienność cechy wynikającą z działania badanego czynnika;

SS ogólnie- ogólna zmienność cechy;

S CA-zmienność spowodowana czynnikami nieuwzględnionymi, zmienność „przypadkowa” lub „resztkowa”.

SM- „średni kwadrat” lub matematyczne oczekiwanie sumy kwadratów, średniej wartości odpowiedniego SS.

zm - liczba stopni swobody, którą przy rozpatrywaniu kryteriów nieparametrycznych oznaczyliśmy literą grecką w.

Wniosek: H 0 zostaje odrzucony. H 1 jest akceptowany. Różnice w zapamiętywaniu słów pomiędzy grupami były większe niż różnice losowe w obrębie każdej grupy (α=0,05). Zatem szybkość prezentacji słów wpływa na wielkość ich reprodukcji.

Poniżej przedstawiono przykład rozwiązania problemu w programie Excel:

Dane początkowe:

Używając polecenia: Narzędzia->Analiza danych->Jednokierunkowa ANOVA, otrzymujemy następujące wyniki:

Jak już wspomniano, metoda rozproszenia jest ściśle powiązana z grupowaniami statystycznymi i zakłada, że ​​badaną populację dzieli się na grupy według charakterystyk czynnikowych, których wpływ należy badać.

Na podstawie analizy wariancji oblicza się:

1. ocena wiarygodności różnic średnich grupowych dla jednej lub kilku cech czynnikowych;

2. ocena wiarygodności interakcji czynników;

3. ocena różnic cząstkowych pomiędzy parami średnich.

Zastosowanie analizy wariancji opiera się na prawie rozkładu wariancji (wariacji) cechy na składowe.

Całkowitą zmianę D o wynikowej charakterystyki podczas grupowania można rozłożyć na następujące składniki:

1. do międzygrupy D m powiązany z cechą grupującą;

2. dla pozostałości(wewnątrzgrupowy) D B niezwiązany z cechą grupującą.

Zależność między tymi wskaźnikami wyraża się w następujący sposób:

re o = re m + re in. (1,30)

Przyjrzyjmy się zastosowaniu analizy wariancji na przykładzie.

Załóżmy, że chcesz sprawdzić, czy terminy siewu wpływają na plony pszenicy. Wstępne dane eksperymentalne do analizy wariancji przedstawiono w tabeli. 8.

Tabela 8

W tym przykładzie N = 32, K = 4, l = 8.

Wyznaczmy całkowite całkowite zróżnicowanie plonu, które jest sumą kwadratów odchyleń wartości poszczególnych cech od średniej ogólnej:

gdzie N jest liczbą jednostek populacji; Y i – poszczególne wartości plastyczności; Yo to ogólny średni plon dla całej populacji.

Aby określić całkowitą zmienność międzygrupową, która określa zmienność efektywnej charakterystyki ze względu na badany czynnik, konieczne jest poznanie średnich wartości efektywnej charakterystyki dla każdej grupy. Ta całkowita zmienność jest równa sumie kwadratów odchyleń średnich grupowych od ogólnej średniej wartości cechy, ważonej liczbą jednostek populacji w każdej grupie:

Całkowita zmienność wewnątrzgrupowa jest równa sumie kwadratów odchyleń poszczególnych wartości cechy od średnich grupowych dla każdej grupy, zsumowanych po wszystkich grupach w populacji.

Wpływ czynnika na wynikową charakterystykę przejawia się w zależności pomiędzy Dm i Dv: im silniejszy wpływ czynnika na wartość badanej cechy, tym większy Dm i mniejszy Dv.

Aby przeprowadzić analizę wariancji, należy ustalić źródła zmienności cechy, wielkość zmienności według źródła oraz określić liczbę stopni swobody dla każdego składnika zmienności.

Wielkość zmienności została już ustalona; teraz należy określić liczbę stopni swobody zmienności. Liczba stopni swobody to liczba niezależnych odchyleń poszczególnych wartości cechy od jej wartości średniej. Całkowita liczba stopni swobody, odpowiadająca całkowitej sumie kwadratów odchyleń w ANOVA, jest rozkładana na składniki wariancji. Zatem całkowita suma kwadratów odchyleń Do o odpowiada liczbie stopni swobody zmienności równej N – 1 = 31. Zmienność grupowa D m ​​odpowiada liczbie stopni swobody zmienności równej K – 1 = 3. Wewnątrzgrupowa zmienność reszt odpowiada liczbie stopni swobody zmienności równej N – K = 28.


Znając teraz sumę kwadratów odchyleń i liczbę stopni swobody, możemy wyznaczyć wariancje dla każdej składowej. Oznaczmy te wariancje: d m - grupa i d in - wewnątrzgrupa.

Po obliczeniu tych wariancji przystąpimy do ustalenia znaczenia wpływu czynnika na wynikową charakterystykę. Aby to zrobić, znajdujemy stosunek: d M / d B = F f,

Wielkość F f, tzw Kryterium Fishera , w porównaniu z tabelą, tabelą F. Jak już wspomniano, jeśli tabela F f > F, to udowodniono wpływ czynnika na atrybut efektywny. Jeśli Ff< F табл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.

Wartość teoretyczna jest powiązana z prawdopodobieństwem, a w tabeli podano jej wartość przy pewnym poziomie prawdopodobieństwa wyroku. W załączniku znajduje się tabela, która pozwala ustawić możliwą wartość F dla prawdopodobieństwa wyroku, najczęściej stosowaną: poziom prawdopodobieństwa „hipotezy zerowej” wynosi 0,05. Zamiast prawdopodobieństw „hipotezy zerowej” tabelę można nazwać tabelą dla prawdopodobieństwa 0,95 znaczenia wpływu czynnika. Zwiększenie poziomu prawdopodobieństwa wymaga wyższej wartości F tabeli do porównania.

Wartość tabeli F zależy również od liczby stopni swobody dwóch porównywanych dyspersji. Jeśli liczba stopni swobody dąży do nieskończoności, wówczas tabela F dąży do jedności.

Tabela wartości tabeli F jest skonstruowana w następujący sposób: kolumny tabeli wskazują stopnie swobody zmienności dla większego rozproszenia, a wiersze wskazują stopnie swobody dla mniejszego rozproszenia (wewnątrzgrupowego). Wartość F znajduje się na przecięciu kolumny i wiersza odpowiednich stopni swobody zmienności.

Zatem w naszym przykładzie F f = 21,3/3,8 = 5,6. Tabelaryczna wartość tabeli F dla prawdopodobieństwa 0,95 i stopni swobody odpowiednio równych 3 i 28, tabela F = 2,95.

Wartość F f otrzymana eksperymentalnie przekracza wartość teoretyczną nawet dla prawdopodobieństwa 0,99. W konsekwencji doświadczenie z prawdopodobieństwem większym niż 0,99 świadczy o wpływie badanego czynnika na plon, czyli doświadczenie można uznać za rzetelne, sprawdzone, a zatem terminy siewu mają istotny wpływ na plon pszenicy. Za optymalny okres siewu należy uznać okres od 10 do 15 maja, gdyż właśnie w tym okresie siewu uzyskano najlepsze wyniki plonowania.

Zbadaliśmy metodę analizy wariancji przy grupowaniu według jednej cechy i losowym rozmieszczeniu replik w obrębie grupy. Często jednak zdarza się, że poletka doświadczalne wykazują pewne różnice w żyzności gleby itp. Może zatem zaistnieć sytuacja, że ​​większa liczba działek jednej z opcji wpadnie do najlepszej części, a jej wskaźniki zostaną zawyżone, a drugiej opcji - w najgorszej części, a wyniki w tym przypadku będą oczywiście gorsze, czyli niedoszacowane.

Aby wykluczyć wariancję spowodowaną przyczynami niezwiązanymi z eksperymentem, konieczne jest oddzielenie wariancji obliczonej z powtórzeń (bloków) od wariancji wewnątrzgrupowej (resztowej).

Całkowita suma kwadratów odchyleń jest w tym przypadku dzielona na 3 składowe:

D o = re m + re powtórzenie + re przerwa. (1,33)

W naszym przykładzie suma kwadratów odchyleń spowodowanych powtórzeniami będzie równa:

Dlatego rzeczywista losowa suma kwadratów odchyleń będzie równa:

D reszta = D w – D powtórzenie; D reszta = 106 – 44 = 62.

Dla dyspersji resztkowej liczba stopni swobody będzie wynosić 28 – 7 = 21. Wyniki analizy wariancji przedstawiono w tabeli. 9.

Tabela 9

Ponieważ rzeczywiste wartości kryterium F dla prawdopodobieństwa 0,95 przekraczają wartości tabelaryczne, wpływ terminów i powtórzeń siewu na plon pszenicy należy uznać za istotny. Rozważana metoda konstruowania eksperymentu, w której obiekt jest wstępnie podzielony na bloki o względnie wyrównanych warunkach, a badane opcje są rozmieszczone w obrębie bloku w losowej kolejności, nazywa się metodą bloków losowych.

Korzystając z analizy wariancji, możesz badać wpływ nie tylko jednego czynnika na wynik, ale dwóch lub więcej. W tym przypadku zostanie wywołana analiza wariancji wieloczynnikowa analiza wariancji .

Dwukierunkowa ANOVA różni się od dwóch jednoczynnikowych tym, że potrafi odpowiedzieć na następujące pytania:

1. 1Jaki jest wpływ obu czynników razem?

2. Jaka jest rola kombinacji tych czynników?

Rozważmy analizę wariancji doświadczenia, w której należy określić wpływ nie tylko terminu siewu, ale także odmiany na plon pszenicy (tab. 10).

Tabela 10. Dane doświadczalne dotyczące wpływu terminów i odmian siewu na plon pszenicy

to suma kwadratów odchyleń poszczególnych wartości od średniej ogólnej.

Zróżnicowanie łącznego wpływu terminu siewu i odmiany

jest sumą kwadratów odchyleń średnich podgrup od średniej ogólnej, ważonej liczbą powtórzeń, tj. przez 4.

Obliczanie zmienności na podstawie wpływu samego terminu siewu:

Zmienność resztową definiuje się jako różnicę między zmiennością całkowitą a zmiennością wynikającą z łącznego wpływu badanych czynników:

D reszta = Do o – D ps = 170 – 96 = 74.

Wszystkie obliczenia można przedstawić w formie tabeli (Tabela 11).

Tabela 11. Wyniki analizy wariancji

Wyniki analizy wariancji wskazują, że wpływ badanych czynników, tj. terminu siewu i odmiany, na plon pszenicy jest istotny, gdyż rzeczywiste kryteria F dla każdego z czynników znacznie przekraczają wartości tabelaryczne znalezione dla odpowiednich stopni swobody. , a jednocześnie z dość dużym prawdopodobieństwem (p = 0,99). W tym przypadku nie ma wpływu kombinacji czynników, ponieważ czynniki są od siebie niezależne.

Analizę wpływu trzech czynników na wynik przeprowadza się według tej samej zasady, co dla dwóch czynników, z tą różnicą, że w tym przypadku wystąpią trzy wariancje dla czynników i cztery wariancje dla kombinacji czynników. Wraz ze wzrostem liczby czynników objętość prac obliczeniowych gwałtownie wzrasta, a ponadto trudno jest uporządkować początkowe informacje w tabeli kombinacji. Dlatego też niewskazane jest badanie wpływu wielu czynników na wynik za pomocą analizy wariancji; lepiej przyjąć mniejszą liczbę, ale wybrać czynniki najbardziej istotne z punktu widzenia analizy ekonomicznej.

Często badacz ma do czynienia z tzw. kompleksami o nieproporcjonalnej dyspersji, czyli takimi, w których nie jest zachowana proporcjonalność liczby wariantów.

W takich kompleksach zmienność całkowitego efektu czynników nie jest równa sumie zmienności między czynnikami i zmienności kombinacji czynników. Różni się ona kwotowo w zależności od stopnia powiązania poszczególnych czynników powstałych w wyniku naruszenia zasady proporcjonalności.

W takim przypadku pojawiają się trudności w określeniu stopnia wpływu każdego czynnika, ponieważ suma poszczególnych wpływów nie jest równa całkowitemu wpływowi.

Jednym ze sposobów sprowadzenia nieproporcjonalnego kompleksu do pojedynczej struktury jest zastąpienie go kompleksem proporcjonalnym, w którym częstości są uśredniane w grupach. Po dokonaniu takiego zastąpienia problem rozwiązuje się zgodnie z zasadami kompleksów proporcjonalnych.

Analiza wariancji - Jest to metoda statystyczna przeznaczona do oceny wpływu różnych czynników na wynik eksperymentu, a także do późniejszego planowania podobnego eksperymentu. Metoda ta umożliwia porównanie kilku (więcej niż dwóch) próbek pod względem charakterystyki mierzonej w skali metrycznej. Ogólnie przyjętym skrótem analizy wariancji jest ANOVA (z angielskiego ANalytics Of VAriance).

Twórcą analizy wariancji jest wybitny angielski badacz Ronald Fisher, który położył podwaliny współczesnej statystyki.

Głównym celem tej metody jest badanie istotności różnicy pomiędzy średnimi. Może wydawać się dziwne, że procedura porównywania średnich nazywana jest analizą wariancji. Dzieje się tak dlatego, że kiedy badamy istotność statystyczną różnicy między średnimi dwóch (lub więcej) grup, w rzeczywistości porównujemy (tj. analizujemy) wariancje próbek. Być może bardziej naturalnym terminem byłaby analiza sumy kwadratów lub analiza wariancji, ale zgodnie z tradycją używa się terminu analiza wariancji.

Nazywa się zmienne, których wartości są określane na podstawie pomiarów podczas eksperymentu (na przykład wyniku testu). zależny zmienne. Zmienne, którymi można sterować w eksperymencie (takie jak metody nauczania lub inne kryteria umożliwiające podział obserwacji na grupy lub klasyfikację) nazywane są czynniki Lub zmienne niezależne.

W oparciu o liczbę czynników, których wpływ jest badany, dokonuje się rozróżnienia pomiędzy jednoczynnikową i wieloczynnikową analizą wariancji. Rozważymy jednokierunkową analizę wariancji.

Podstawowe założenia analizy wariancji:

  • 1) rozkład zmiennej zależnej dla każdej grupy czynników odpowiada prawu normalnemu (naruszenie tego założenia, jak wykazały liczne badania, nie ma istotnego wpływu na wyniki analizy wariancji);
  • 2) wariancje próbek odpowiadające różnym stopniom współczynnika są sobie równe (założenie to jest istotne dla wyników analizy wariancji, jeżeli porównywane próbki różnią się wielkością);
  • 3) próbki odpowiadające gradacji współczynników muszą być niezależne (spełnienie tego założenia jest w każdym przypadku obowiązkowe). Próby niezależne to próby, w których osoby objęte badaniem zostały dobrane niezależnie od siebie, co oznacza, że ​​prawdopodobieństwo wybrania dowolnego podmiotu w jednej próbie nie zależy od doboru któregokolwiek z podmiotów w drugiej próbie. Natomiast próbki zależne charakteryzują się tym, że każdemu podmiotowi jednej próbki dopasowuje się według określonego kryterium podmiot z innej próby (typowym przykładem próbek zależnych jest pomiar pewnej właściwości na tej samej próbie przed i po procedura. W tym przypadku próby są zależne, ponieważ składają się z tych samych podmiotów. Inny przykład próbek zależnych: mężowie to jedna próba, ich żony to druga próba).

Algorytm wykonywania analizy wariancji:

  • 1. Stawiamy hipotezę H 0- nie ma wpływu czynnika grupującego na wynik.
  • 2. Znajdź wariancję międzygrupową (czynniczą) i wewnątrzgrupową (resztową). (pt I Dokument).
  • 3. Oblicz zaobserwowaną wartość kryterium Fishera-Snedecora:

4. Korzystając z tabeli punktów krytycznych rozkładu Fishera – Snedecora lub korzystając ze standardowej funkcji MS Excel „ERASPOBR” znajdujemy

Gdzie: A- określony poziom istotności, k x I do 2- liczba stopni swobody współczynnika i dyspersji resztkowej.

5. Jeśli F Ha6ji> F Kp, wówczas hipoteza I 0 zostaje odrzucona. Oznacza to, że na wynik ma wpływ czynnik grupujący.

Jeśli FHa6jlF Kp, wówczas przyjęta zostaje hipoteza nr 0. Oznacza to, że na wynik nie ma wpływu czynnik grupujący.

Zatem analiza wariancji ma na celu ustalenie, czy dany czynnik ma znaczący wpływ F, który ma R poziomy: F X, F 2 ,..., Fp, do badanej wartości.

  • Gmurman VE Teoria prawdopodobieństwa i statystyka matematyczna. s. 467.

Analiza wariancji to zestaw metod statystycznych, których zadaniem jest testowanie hipotez dotyczących związku między określonymi cechami a badanymi czynnikami, które nie mają opisu ilościowego, a także ustalanie stopnia wpływu czynników i ich interakcji. W literaturze specjalistycznej często nazywa się ją ANOVA (od angielskiej nazwy Analysis of Variations). Metodę tę po raz pierwszy opracował R. Fischer w 1925 roku.

Rodzaje i kryteria analizy wariancji

Metodę tę stosuje się do badania zależności pomiędzy cechami jakościowymi (nominalnymi) a zmienną ilościową (ciągłą). W istocie testuje hipotezę o równości średnich arytmetycznych kilku próbek. Można zatem uznać, że jest to parametryczne kryterium porównywania środków kilku próbek jednocześnie. Jeżeli zastosujemy tę metodę dla dwóch próbek, wyniki analizy wariancji będą identyczne z wynikami testu t-Studenta. Jednak w odróżnieniu od innych kryteriów, badanie to pozwala nam na bardziej szczegółowe zbadanie problemu.

Analiza dyspersji w statystyce opiera się na zasadzie: suma kwadratów odchyleń połączonej próby jest równa sumie kwadratów odchyleń wewnątrzgrupowych i sumie kwadratów odchyleń międzygrupowych. W badaniu wykorzystano test Fishera w celu ustalenia istotności różnicy pomiędzy wariancjami międzygrupowymi i wariancjami wewnątrzgrupowymi. Jednakże niezbędnymi warunkami wstępnymi są normalność rozkładu i homoskedastyczność (równość wariancji) próbek. Wyróżnia się jednoczynnikową (jednoczynnikową) analizę wariancji i wieloczynnikową (wieloczynnikową). Pierwsza uwzględnia zależność badanej wartości od jednej cechy, druga od wielu na raz, a także pozwala zidentyfikować związek między nimi.

Czynniki

Czynniki to kontrolowane okoliczności, które wpływają na wynik końcowy. Jego poziom lub sposób przetwarzania to wartość charakteryzująca konkretny przejaw tego stanu. Liczby te są zwykle przedstawiane w nominalnej lub porządkowej skali pomiarowej. Często wartości wyjściowe mierzone są w skalach ilościowych lub porządkowych. Powstaje wówczas problem grupowania danych wyjściowych w szereg obserwacji, które odpowiadają w przybliżeniu tym samym wartościom liczbowym. Jeżeli liczbę grup uznamy za zbyt dużą, wówczas liczba obserwacji w nich może być niewystarczająca do uzyskania wiarygodnych wyników. Jeśli przyjmiesz zbyt małą liczbę, może to prowadzić do utraty znaczących cech wpływu na system. Konkretny sposób grupowania danych zależy od ilości i charakteru zmienności wartości. Liczbę i wielkość przedziałów w analizie jednoczynnikowej określa się najczęściej na podstawie zasady równych przedziałów lub zasady jednakowych częstotliwości.

Analiza problemów wariancyjnych

Zdarzają się więc przypadki, gdy trzeba porównać dwie lub więcej próbek. Warto wtedy skorzystać z analizy wariancji. Nazwa metody wskazuje, że wnioski wyciąga się na podstawie badania składowych wariancyjnych. Istota badania polega na tym, że ogólną zmianę wskaźnika podzielono na części składowe, które odpowiadają działaniu każdego pojedynczego czynnika. Rozważmy szereg problemów, które można rozwiązać za pomocą typowej analizy wariancji.

Przykład 1

W warsztacie znajduje się szereg automatów, które wytwarzają określoną część. Rozmiar każdej części jest zmienną losową zależną od konfiguracji każdej maszyny i przypadkowych odchyleń występujących podczas procesu produkcyjnego części. Na podstawie danych pomiarowych wymiarów części należy określić, czy maszyny są skonfigurowane w ten sam sposób.

Przykład 2

Podczas produkcji urządzenia elektrycznego stosuje się różne rodzaje papieru izolacyjnego: kondensatorowy, elektryczny itp. Urządzenie można impregnować różnymi substancjami: żywicą epoksydową, lakierem, żywicą ML-2 itp. Wycieki można eliminować pod próżnią w temperaturze podwyższone ciśnienie, z ogrzewaniem. Impregnację można wykonać poprzez zanurzenie w lakierze, pod ciągłym strumieniem lakieru itp. Aparat elektryczny jako całość jest wypełniony określonym związkiem, którego istnieje kilka opcji. Wskaźnikami jakości są wytrzymałość elektryczna izolacji, temperatura przegrzania uzwojenia w trybie pracy i wiele innych. Podczas opracowywania procesu technologicznego wytwarzania urządzeń konieczne jest określenie, jak każdy z wymienionych czynników wpływa na wydajność urządzenia.

Przykład 3

Zajezdnia trolejbusowa obsługuje kilka linii trolejbusowych. Obsługują trolejbusy różnego typu, a opłaty pobiera 125 inspektorów. Dyrekcję zajezdni interesuje pytanie: jak porównać wskaźniki ekonomiczne każdego kontrolera (przychody) biorąc pod uwagę różne trasy i różne typy trolejbusów? Jak określić ekonomiczną wykonalność produkcji trolejbusów określonego typu na określonej trasie? Jak ustalić rozsądne wymagania co do wysokości przychodów, jakie konduktor osiąga na każdej trasie w różnych typach trolejbusów?

Zadaniem wyboru metody jest uzyskanie maksymalnej informacji o wpływie każdego czynnika na wynik końcowy, określenie liczbowych charakterystyk tego wpływu, ich wiarygodności przy minimalnych kosztach i w jak najkrótszym czasie. Metody analizy wariancji pozwalają na rozwiązanie takich problemów.

Analiza jednoczynnikowa

Celem badania jest ocena wielkości wpływu konkretnego przypadku na analizowany przegląd. Innym celem analizy jednowymiarowej może być porównanie ze sobą dwóch lub większej liczby okoliczności w celu określenia różnicy w ich wpływie na zapamiętywanie. W przypadku odrzucenia hipotezy zerowej kolejnym krokiem jest ilościowe określenie i skonstruowanie przedziałów ufności dla uzyskanych cech. W przypadku, gdy nie można odrzucić hipotezy zerowej, zazwyczaj zostaje ona przyjęta i wyciągany jest wniosek na temat charakteru wpływu.

Jednokierunkowa analiza wariancji może stać się nieparametrycznym odpowiednikiem metody rang Kruskala-Wallisa. Zostało opracowane przez amerykańskiego matematyka Williama Kruskala i ekonomistę Wilsona Wallisa w 1952 roku. Kryterium to ma na celu sprawdzenie hipotezy zerowej o równości efektów na badanych próbach o nieznanych, ale równych wartościach średnich. W takim przypadku liczba próbek musi być większa niż dwie.

Kryterium Jonckheere-Terpstry zostało zaproponowane niezależnie przez holenderskiego matematyka T. J. Terpstrę w 1952 r. i brytyjskiego psychologa E. R. Jonckheere'a w 1954 r. Stosuje się je, gdy z góry wiadomo, że istniejące grupy wyników są uporządkowane według wzrostu wpływu kryterium badanego czynnika, mierzonego w skali porządkowej.

M – test Bartletta, zaproponowany przez brytyjskiego statystyka Maurice’a Stevensona Bartletta w 1937 roku, służy do testowania hipotezy zerowej o równości wariancji kilku normalnych populacji, z których pobierane są badane próbki, na ogół o różnej wielkości (liczba każdej próbka musi być co najmniej cztery).

G – test Cochrana, który został odkryty przez Amerykanina Williama Gemmella Cochrana w 1941 roku. Służy do testowania hipotezy zerowej o równości wariancji populacji normalnych w próbach niezależnych o jednakowej liczebności.

Nieparametryczny test Levene’a, zaproponowany przez amerykańskiego matematyka Howarda Levene’a w 1960 roku, stanowi alternatywę dla testu Bartletta w warunkach, w których nie ma pewności, że badane próbki mają rozkład normalny.

W 1974 roku amerykańscy statystycy Morton B. Brown i Alan B. Forsythe zaproponowali test (test Browna-Forsytha), który nieznacznie różni się od testu Levene'a.

Analiza dwuczynnikowa

W przypadku powiązanych próbek o rozkładzie normalnym stosuje się dwukierunkową analizę wariancji. W praktyce często stosuje się skomplikowane tabele tej metody, w szczególności takie, w których każda komórka zawiera zbiór danych (powtórzonych pomiarów) odpowiadający ustalonym wartościom. Jeżeli nie są spełnione założenia wymagane do zastosowania dwukierunkowej analizy wariancji, należy skorzystać z nieparametrycznego testu rang Friedmana (Friedmana, Kendalla i Smitha), opracowanego przez amerykańskiego ekonomistę Miltona Friedmana pod koniec 1930 roku. Test ten nie jest zależny od rodzaju dystrybucji.

Zakłada się jedynie, że rozkład wartości jest identyczny i ciągły, a one same są od siebie niezależne. Podczas testowania hipotezy zerowej dane wyjściowe prezentowane są w postaci macierzy prostokątnej, w której wiersze odpowiadają poziomom czynnika B, a kolumny poziomom A. Każdą komórkę tabeli (bloku) można wynik pomiarów parametrów na jednym obiekcie lub na grupie obiektów o stałych wartościach poziomów obu czynników. W tym przypadku odpowiednie dane są prezentowane jako średnie wartości określonego parametru dla wszystkich wymiarów lub obiektów badanej próbki. Aby zastosować kryterium wyjściowe, należy przejść od bezpośrednich wyników pomiarów do ich rangi. Ranking przeprowadza się dla każdego wiersza osobno, to znaczy wartości są porządkowane dla każdej ustalonej wartości.

Test Page’a (test L), zaproponowany przez amerykańskiego statystyka E. B. Page’a w 1963 roku, ma na celu sprawdzenie hipotezy zerowej. W przypadku dużych próbek stosuje się przybliżenie Page’a. Pod warunkiem, że odpowiadają im hipotezy zerowe, podlegają one standardowemu rozkładowi normalnemu. W przypadku, gdy wiersze tabeli źródłowej mają te same wartości, należy zastosować rangi średnie. W tym przypadku trafność wniosków będzie tym gorsza, im większa będzie liczba takich dopasowań.

Q – kryterium Cochrana, zaproponowane przez W. Cochrana w 1937 r. Stosuje się je w przypadkach, gdy grupy jednorodnych podmiotów narażone są na wpływy, których liczba przekracza dwa i dla których możliwe są dwie opcje informacji zwrotnej – warunkowo negatywna (0) i warunkowo dodatni (1) . Hipoteza zerowa zakłada równość efektów leczenia. Dwukierunkowa analiza wariancji pozwala określić istnienie efektów leczenia, ale nie pozwala określić, dla jakich konkretnych kolumn ten efekt występuje. Aby rozwiązać ten problem, stosuje się metodę wielokrotnych równań Scheffa dla powiązanych próbek.

Analiza wielowymiarowa

Problem wielowymiarowej analizy wariancji pojawia się, gdy trzeba określić wpływ dwóch lub więcej warunków na pewną zmienną losową. W badaniu bierze się pod uwagę obecność jednej zależnej zmiennej losowej, mierzonej na skali różnic lub ilorazów, oraz kilku zmiennych niezależnych, z których każda wyrażana jest na skali nazewnictwa lub rangi. Analiza wariancji danych to dość rozwinięta sekcja statystyki matematycznej, która ma wiele możliwości. Koncepcja badań jest wspólna zarówno dla jednoczynnikowego, jak i wieloczynnikowego. Jej istota polega na tym, że wariancja całkowita jest dzielona na składowe, co odpowiada pewnemu grupowaniu danych. Każde grupowanie danych ma swój własny model. Tutaj rozważymy tylko podstawowe przepisy niezbędne do zrozumienia i praktycznego wykorzystania najczęściej używanych opcji.

Analiza wariancji czynników wymaga dość ostrożnego podejścia do gromadzenia i prezentacji danych wejściowych, a zwłaszcza do interpretacji wyników. W odróżnieniu od testu jednoczynnikowego, którego wyniki można warunkowo ułożyć w określonej kolejności, wyniki testu dwuczynnikowego wymagają bardziej złożonego przedstawienia. Sytuacja staje się jeszcze bardziej skomplikowana, gdy zachodzą trzy, cztery lub więcej okoliczności. Z tego powodu dość rzadko uwzględnia się w modelu więcej niż trzy (cztery) warunki. Przykładem może być wystąpienie rezonansu przy określonej wartości pojemności i indukcyjności koła elektrycznego; przejaw reakcji chemicznej z pewnym zestawem elementów, z których zbudowany jest system; występowanie anomalnych efektów w złożonych systemach w wyniku pewnego zbiegu okoliczności. Obecność interakcji może radykalnie zmienić model układu, a czasami doprowadzić do ponownego przemyślenia natury zjawisk, z którymi ma do czynienia eksperymentator.

Wielowymiarowa analiza wariancji z powtarzanymi eksperymentami

Dane pomiarowe można często grupować nie według dwóch, ale większej liczby czynników. Jeśli więc weźmiemy pod uwagę analizę dyspersji trwałości opon kół trolejbusowych z uwzględnieniem okoliczności (zakład produkcyjny i trasa, na której opony są eksploatowane), to jako odrębny warunek wyodrębnimy sezon, w którym opona jest eksploatowana. eksploatowane są opony (tj. eksploatacja zimą i latem). W rezultacie będziemy mieli problem metody trójczynnikowej.

Jeżeli warunków jest więcej, podejście jest takie samo, jak w przypadku analizy dwuczynnikowej. We wszystkich przypadkach starają się uprościć model. Zjawisko oddziaływania dwóch czynników nie występuje tak często, a potrójne oddziaływanie występuje jedynie w wyjątkowych przypadkach. Obejmują one te interakcje, dla których istnieją wcześniejsze informacje i dobre powody, aby uwzględnić je w modelu. Proces identyfikacji poszczególnych czynników i uwzględnienia ich jest stosunkowo prosty. Dlatego często istnieje potrzeba podkreślenia większej liczby okoliczności. Nie powinieneś się tym przejmować. Im więcej warunków, tym mniej niezawodny staje się model i tym większe prawdopodobieństwo błędu. Sam model, który zawiera dużą liczbę zmiennych niezależnych, staje się dość skomplikowany w interpretacji i niewygodny w praktycznym zastosowaniu.

Ogólna koncepcja analizy wariancji

Analiza wariancji statystyki jest metodą uzyskiwania wyników obserwacji zależnych od różnych jednocześnie występujących okoliczności i oceny ich wpływu. Zmienna kontrolowana, która odpowiada sposobowi oddziaływania na przedmiot badań i przyjmuje określoną wartość w określonym czasie, nazywana jest czynnikiem. Mogą być jakościowe i ilościowe. Poziomy warunków ilościowych nabierają określonej wartości na skali numerycznej. Przykładami są temperatura, ciśnienie prasowania, ilość substancji. Czynnikami jakościowymi są różne substancje, różne metody technologiczne, urządzenia, wypełniacze. Ich poziomy odpowiadają skali nazw.

Jakość może również obejmować rodzaj materiału opakowaniowego i warunki przechowywania postaci dawkowania. Racjonalne jest także uwzględnienie stopnia rozdrobnienia surowców, składu frakcyjnego granulatów, które mają znaczenie ilościowe, ale są trudne do regulowania w skali ilościowej. Liczba czynników jakościowych zależy od rodzaju postaci dawkowania, a także właściwości fizycznych i technologicznych substancji leczniczych. Na przykład tabletki można otrzymać z substancji krystalicznych poprzez bezpośrednie prasowanie. W tym przypadku wystarczy dobrać substancje ślizgowe i smarujące.

Przykłady czynników jakościowych dla różnych typów postaci dawkowania

  • Nalewki. Skład ekstrahenta, rodzaj ekstraktora, metoda przygotowania surowca, metoda produkcji, metoda filtracji.
  • Ekstrakty (płynne, gęste, suche). Skład ekstrahenta, metoda ekstrakcji, rodzaj instalacji, sposób usuwania ekstrahenta i substancji balastowych.
  • Pigułki. Skład substancji pomocniczych, wypełniaczy, substancji rozsadzających, spoiw, substancji smarujących i smarujących. Sposób otrzymywania tabletek, rodzaj wyposażenia technologicznego. Rodzaj otoczki i jej składniki, substancje błonotwórcze, pigmenty, barwniki, plastyfikatory, rozpuszczalniki.
  • Roztwory wtryskowe. Rodzaj rozpuszczalnika, metoda filtracji, rodzaj stabilizatorów i konserwantów, warunki sterylizacji, sposób napełniania ampułek.
  • Czopki. Skład bazy czopków, sposób wytwarzania czopków, wypełniacze, opakowanie.
  • Maści. Skład bazy, składniki strukturalne, sposób przygotowania maści, rodzaj sprzętu, opakowanie.
  • Kapsułki. Rodzaj materiału otoczki, sposób wytwarzania kapsułek, rodzaj plastyfikatora, konserwant, barwnik.
  • Mazidła. Sposób przygotowania, skład, rodzaj sprzętu, rodzaj emulgatora.
  • Zawieszenia. Rodzaj rozpuszczalnika, rodzaj stabilizatora, metoda dyspersyjna.

Przykłady czynników jakości i ich poziomów badanych podczas procesu produkcji tabletek

  • Proszek do pieczenia. Skrobia ziemniaczana, glinka biała, mieszanina wodorowęglanu sodu z kwasem cytrynowym, zasadowy węglan magnezu.
  • Rozwiązanie wiążące. Woda, pasta skrobiowa, syrop cukrowy, roztwór metylocelulozy, roztwór hydroksypropylometylocelulozy, roztwór poliwinylopirolidonu, roztwór alkoholu poliwinylowego.
  • Substancja ślizgowa. Aerosil, skrobia, talk.
  • Podsadzkarz. Cukier, glukoza, laktoza, chlorek sodu, fosforan wapnia.
  • Smar. Kwas stearynowy, glikol polietylenowy, parafina.

Modele analizy wariancji w badaniu poziomu konkurencyjności państwa

Jednym z najważniejszych kryteriów oceny stanu państwa, za pomocą którego ocenia się poziom jego dobrobytu i rozwoju społeczno-gospodarczego, jest konkurencyjność, czyli zespół właściwości właściwych gospodarce narodowej, które decydują o kondycji państwa. zdolność do konkurowania z innymi krajami. Po ustaleniu miejsca i roli państwa na rynku światowym można ustalić jasną strategię zapewnienia bezpieczeństwa gospodarczego w skali międzynarodowej, ponieważ jest to klucz do pozytywnych relacji Rosji ze wszystkimi uczestnikami rynku światowego: inwestorami , wierzycieli i rządów.

Aby porównać poziom konkurencyjności państw, kraje są klasyfikowane przy użyciu złożonych wskaźników, które obejmują różne wskaźniki ważone. Wskaźniki te opierają się na kluczowych czynnikach wpływających na sytuację gospodarczą, polityczną itp. Zestaw modeli do badania konkurencyjności państwa obejmuje wykorzystanie metod wielowymiarowej analizy statystycznej (w szczególności analizę wariancji (statystyka), modelowanie ekonometryczne, podejmowanie decyzji) i obejmuje następujące główne etapy:

  1. Utworzenie systemu wskaźników.
  2. Ocena i prognozowanie wskaźników konkurencyjności państwa.
  3. Porównanie wskaźników konkurencyjności państw.

Przyjrzyjmy się teraz zawartości modeli każdego z etapów tego kompleksu.

Na pierwszym etapie wykorzystując metody badań eksperckich tworzony jest ugruntowany zestaw wskaźników ekonomicznych do oceny konkurencyjności państwa, uwzględniający specyfikę jego rozwoju w oparciu o międzynarodowe rankingi i dane z urzędów statystycznych, odzwierciedlające stan systemu jako całości i jego procesy. Wybór tych wskaźników uzasadniony jest koniecznością wybrania tych, które najpełniej z praktycznego punktu widzenia pozwalają określić poziom państwa, jego atrakcyjność inwestycyjną oraz możliwość względnej lokalizacji istniejących potencjalnych i rzeczywistych zagrożeń.

Głównymi wskaźnikami międzynarodowych systemów ratingowych są indeksy:

  1. Globalna konkurencyjność (GC).
  2. Wolność gospodarcza (IES).
  3. Rozwój Człowieka (HDI).
  4. Postrzeganie korupcji (CPC).
  5. Zagrożenia wewnętrzne i zewnętrzne (IETH).
  6. Międzynarodowy Potencjał Wpływu (IPIP).

Drugi etap przewiduje ocenę i prognozowanie wskaźników konkurencyjności państwa według międzynarodowych rankingów dla 139 badanych krajów świata.

Trzeci etap przewiduje porównanie warunków konkurencyjności państw z wykorzystaniem metod analizy korelacji i regresji.

Wykorzystując wyniki badania można określić charakter procesów w ogóle i dla poszczególnych komponentów konkurencyjności państwa; przetestować hipotezę o wpływie czynników i ich związkach na odpowiednim poziomie istotności.

Wdrożenie proponowanego zestawu modeli umożliwi nie tylko ocenę aktualnej sytuacji poziomu konkurencyjności i atrakcyjności inwestycyjnej państw, ale także analizę niedociągnięć w zarządzaniu, zapobieganie błędom w błędnych decyzjach i zapobieganie rozwojowi kryzysu w stanie.

Wyniki eksperymentów i testów mogą zależeć od niektórych czynników wpływających na zmienność średnich wartości zmiennej losowej. Wartości czynników nazywane są poziomami współczynników, a wielkość nazywana jest charakterystyką wynikową. Przykładowo ilość pracy wykonywanej na budowie może być uzależniona od ekipy roboczej. Poziomem czynnika jest w tym przypadku liczba załogi, a atrybutem efektywnym jest ilość pracy na zmianę.

Metoda analizy wariancji, Lub ANOVA(Analiza wariancji - analiza wariancji) służy do badania istotności statystycznej różnicy pomiędzy średnimi dla trzech lub więcej próbek (poziomów czynników). Aby porównać średnie w dwóch próbach, użyj T-kryterium

Procedurę porównywania średnich nazywa się analizą wariancji, ponieważ badając istotność statystyczną różnicy między średnimi kilku grup obserwacji, przeprowadza się analizę wariancji próbki. Podstawową koncepcję analizy wariancji zaproponował Fisher.

Istotą metody jest podzielenie wariancji całkowitej na dwie części, z których jedna wynika z błędu losowego (czyli zmienności wewnątrzgrupowej), a druga jest związana z różnicą wartości średnich. Ostatnią składową wariancji wykorzystuje się następnie do analizy istotności statystycznej różnicy pomiędzy średnimi. Jeżeli różnica jest znacząca, hipoteza zerowa jest odrzucana i akceptowana jest hipoteza alternatywna, że ​​istnieje różnica między średnimi.

Zmienne, których wartości są określane na podstawie pomiarów podczas eksperymentu (na przykład efektywność ekonomiczna, wydajność, wynik testu), nazywane są zmiennymi zależnymi lub cechami. Zmienne, które można kontrolować w eksperymencie (np. poziom zarządzania, rodzaj gleby, metody nauczania) nazywane są czynnikami lub zmiennymi niezależnymi.

W klasycznej analizie wariancji zakłada się, że badane wartości mają rozkład normalny ze stałą wariancją oraz wartości średnie, które mogą różnić się dla różnych populacji prób. Stosunek wariancji średnich grupowych i wariancji resztowej służy jako kryterium testowania hipotez zerowych. Wykazano jednak, że analiza wariancji jest ważna także dla niegaussowskich zmiennych losowych, a przy liczebności próby n > 4 dla każdego poziomu czynnika błąd nie jest duży. Jeżeli wymagana jest duża dokładność wnioskowania, a rozkład jest nieznany, należy zastosować testy nieparametryczne, np. wykorzystując analizę rang wariancji.

Jednokierunkowa ANOVA

Niech to zostanie zrealizowane M grupy pomiarów wartości zmiennych losowych Y na różnych poziomach wartości jakiegoś czynnika, oraz za 1, za 2, m- matematyczne oczekiwanie efektywnej charakterystyki na poziomach czynników A (1) , A (2) , A(M) ( I=1, 2, M) odpowiednio.


Założenie o niezależności charakterystyki efektywnej od czynnika sprowadza się do sprawdzenia hipotezy zerowej o równości grupowych oczekiwań matematycznych

H 0: za 1 = za 2 = za m (6.12)

Testowanie hipotez jest możliwe, jeśli dla każdego poziomu czynników zostaną spełnione następujące wymagania:

1) obserwacje są niezależne i prowadzone w tych samych warunkach;

2) mierzona zmienna losowa ma rozkład normalny ze stałym rozproszeniem ogólnym dla różnych poziomów współczynnika σ 2. Oznacza to, że hipoteza jest prawdziwa

H 0: σ 1 2 = σ 2 2 = σ m 2.

Aby przetestować hipotezę, że wariancje trzech lub więcej rozkładów normalnych są równe, stosuje się test Bartletta.

Jeżeli hipoteza H 0: σ 1 2 = σ 2 2 = σ m 2 zostanie potwierdzona, wówczas przystępujemy do testowania hipotezy o równości grupowych oczekiwań matematycznych H 0: za 1 = za 2 = za m, czyli do samej analizy wariancji. Analiza wariancji opiera się na założeniu, że zmienność uzyskanej cechy jest spowodowana zarówno zmianami poziomów czynnika A, jak i zmiennością wartości losowych czynników niekontrolowanych. Czynniki losowe nazywane są resztkami.

Można udowodnić, że całkowitą wariancję próbki można przedstawić jako sumę wariancji średnich grupowych i średniej wariancji grupowych

, Gdzie

Całkowita wariancja próbki;

Wariancja średnich grupowych () obliczona dla każdego poziomu czynnika;

Średnia wariancji grupowych () obliczona dla każdego poziomu czynnika. związane z wpływem na Y czynniki resztkowe (losowe).

Przechodząc od rozwinięcia wariancji ogólnej do wartości próbek, otrzymujemy

, (6.13)

Reprezentuje ważoną sumę kwadratów odchyleń średnich z próby dla każdego poziomu A(i) z ogólnej średniej próbki,

Średnia wartość kwadratów odchyleń w obrębie poziomów.

Zmienne losowe , , mają odpowiednio następujące wartości stopni swobody: N - 1, M - 1, n - m. Tutaj N- całkowita liczba wartości próbek, M- liczba poziomów czynników.

W statystyce matematycznej udowodniono, że jeśli prawdziwa jest hipoteza zerowa o równości średnich (10.8), to wielkość

ma F-rozkład z liczbą stopni swobody k = M- 1 i l = n-m, to jest

(6.14)

Jeżeli hipoteza zerowa jest spełniona, wariancja wewnątrzgrupowa będzie praktycznie pokrywać się z wariancją całkowitą obliczoną bez uwzględnienia przynależności do grupy. W analizie wariancji licznik jest z reguły większy od mianownika. W przeciwnym razie uważa się, że obserwacje nie potwierdzają wpływu czynnika na wynikową charakterystykę i nie przeprowadza się dalszej analizy. Powstałe wariancje wewnątrzgrupowe można porównać za pomocą F- test sprawdzający, czy iloraz wariancji jest istotnie większy od 1.

W związku z tym, aby przetestować hipotezę (6.12) za pomocą F-kryterium analizuje obszar krytyczny po prawej stronie .

Jeżeli obliczona wartość F mieści się w określonym przedziale, wówczas hipotezę zerową odrzuca się i uznaje się, że wpływ czynnika został ustalony A do znaku skutecznego Y.

Podajmy przykład obliczania sum kwadratów i wariancji próbek. Rozważmy zbiór danych przedstawiony w tabeli 6.2. W tym przykładzie chcemy ustalić, czy istnieje znacząca różnica w wynikach zespołów.

Tabela 6.2. Przykład obliczania sum kwadratów



KATEGORIE

POPULARNE ARTYKUŁY

2024 „kingad.ru” - badanie ultrasonograficzne narządów ludzkich