A tanuló t tesztjének táblázatos értéke. Alapstatisztika és Student-féle t-próba

Mikor használható a Student-féle t-próba?

A Student-féle t-próba alkalmazásához szükséges, hogy az eredeti adatok rendelkezzenek normális eloszlás. Független minták kétmintás vizsgálatának alkalmazása esetén is szükséges a feltétel teljesítése varianciaegyenlőség (homoscedaszticitás)..

Ha ezek a feltételek nem teljesülnek, a mintaátlagok összehasonlításakor hasonló módszereket kell alkalmazni. nem paraméteres statisztika, amelyek közül a leghíresebbek Mann-Whitney U-teszt(kétmintás tesztként független mintákhoz), és előjel kritériumés Wilcoxon teszt(függő minták esetén használatos).

Az átlagok összehasonlításához a Student-féle t-próbát a következő képlet segítségével számítjuk ki:

ahol M 1- az első összehasonlított sokaság (csoport) számtani átlaga, M 2- a második összehasonlított sokaság (csoport) számtani átlaga, m 1- az első számtani átlag átlagos hibája, m2- a második számtani átlag átlagos hibája.

Hogyan értelmezzük a Student-féle t-próbát?

A Student-féle t-próba eredő értékét helyesen kell értelmezni. Ehhez tudnunk kell az egyes csoportok tantárgyainak számát (n 1 és n 2). A szabadságfokok számának meghatározása f a következő képlet szerint:

f \u003d (n 1 + n 2) - 2

Ezt követően meghatározzuk a Student-féle t-próba kritikus értékét a szükséges szignifikanciaszintre (például p=0,05) és adott számú szabadsági fokra. f táblázat szerint ( lásd lejjebb).

Összehasonlítjuk a kritérium kritikus és számított értékeit:

Ha a Student-féle t-próba számított értéke egyenlő vagy nagyobb kritikus, a táblázatban található, arra a következtetésre jutottunk, hogy az összehasonlított értékek közötti különbségek statisztikailag szignifikánsak.

Ha a számított Student-féle t-próba értéke Kevésbé táblázatos, ami azt jelenti, hogy az összehasonlított értékek közötti különbségek statisztikailag nem szignifikánsak.

Student-féle t-próba példa

Egy új vaskészítmény hatékonyságának vizsgálatára két vérszegény betegcsoportot választottak ki. Az első csoportban a betegek két hétig új gyógyszert, a második csoportban placebót kaptak. Ezt követően megmérjük a perifériás vér hemoglobinszintjét. Az első csoportban az átlagos hemoglobinszint 115,4±1,2 g/l volt, a másodikban pedig 103,7±2,3 g/l (az adatok a formátumban vannak feltüntetve M±m), az összehasonlított populációk normális eloszlásúak. Az első csoport száma 34, a második 40 beteg volt. Következtetést kell levonni a kapott különbségek statisztikai szignifikanciájáról és az új vaskészítmény hatékonyságáról.

Megoldás: A különbségek szignifikanciájának felmérésére Student-féle t-próbát használunk, amelyet úgy számítunk ki, hogy az átlagok különbségét osztjuk a hibák négyzetével:

A számítások elvégzése után a t-próba értéke 4,51 volt. A szabadságfokok számát a következőképpen kapjuk: (34 + 40) - 2 = 72. A Student-féle t-próba 4,51 kapott értékét összehasonlítjuk a táblázatban feltüntetett p=0,05 kritikus értékkel: 1,993. Mivel a kritérium számított értéke nagyobb, mint a kritikus érték, arra a következtetésre jutottunk, hogy a megfigyelt különbségek statisztikailag szignifikánsak (p szignifikancia szint<0,05).

A Fisher-eloszlás egy valószínűségi változó eloszlása

ahol a valószínűségi változók X 1és X 2 függetlenek és chi-eloszlásaik vannak – a szabadságfok számának négyzete k 1és k2 illetőleg. Ugyanakkor egy pár (k 1, k 2) a Fisher-eloszlás "szabadsági fokszámainak" párja, nevezetesen, k 1 a számláló szabadságfokainak száma, és k2 a nevező szabadságfokainak száma. Valószínűségi változó eloszlása F R. Fisher (1890-1962) nagy angol statisztikusról nevezték el, aki aktívan alkalmazta munkájában.

A Fisher-eloszlás a modell megfelelőségére vonatkozó hipotézisek tesztelésére szolgál a regressziós elemzésben, a varianciaegyenlőségről és az alkalmazott statisztika egyéb problémáiban.

Tanulói kritikus értékek táblázata.

Űrlap indítása

A szabadságfokok száma, f Student-féle t-próba értéke p=0,05-nél
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
40-41 2.021
42-43 2.018
44-45 2.015
46-47 2.013
48-49 2.011
50-51 2.009
52-53 2.007
54-55 2.005
56-57 2.003
58-59 2.002
60-61 2.000
62-63 1.999
64-65 1.998
66-67 1.997
68-69 1.995
70-71 1.994
72-73 1.993
74-75 1.993
76-77 1.992
78-79 1.991
80-89 1.990
90-99 1.987
100-119 1.984
120-139 1.980
140-159 1.977
160-179 1.975
180-199 1.973
1.972
1.960

A Student-féle t-próba a hipotézisek statisztikai tesztelésére szolgáló módszerek (statisztikai tesztek) általános elnevezése a Student-féle eloszláson alapulva. A t-próba alkalmazásának leggyakoribb esetei két mintában az átlagok egyenlőségének ellenőrzéséhez kapcsolódnak.

1. A t-próba kialakulásának története

Ezt a kritériumot dolgozták ki William Gosset hogy felmérje a sör minőségét a Guinnessnél. Az üzleti titkok felfedésének tilalmával kapcsolatos kötelezettségekkel kapcsolatban Gosset cikke 1908-ban jelent meg a Biometrics folyóiratban „Student” (Student) álnéven.

2. Mire használható a Student-féle t-próba?

Az átlagkülönbségek statisztikai szignifikanciájának meghatározására Student-féle t-próbát használunk. Független minták összehasonlításakor egyaránt használható ( például cukorbetegek csoportjai és egészségesek csoportjai), és a kapcsolódó halmazok összehasonlításakor ( például ugyanazon betegek átlagos pulzusszáma egy antiarrhythmiás gyógyszer bevétele előtt és után).

3. Mikor használható a Student-féle t-próba?

A Student-féle t-próba alkalmazásához szükséges, hogy az eredeti adatok rendelkezzenek normális eloszlás. Független minták kétmintás vizsgálatának alkalmazása esetén is szükséges a feltétel teljesítése varianciaegyenlőség (homoscedaszticitás)..

Ha ezek a feltételek nem teljesülnek, a mintaátlagok összehasonlításakor hasonló módszereket kell alkalmazni. nem paraméteres statisztika, amelyek közül a leghíresebbek Mann-Whitney U-teszt(kétmintás tesztként független mintákhoz), és előjel kritériumés Wilcoxon teszt(függő minták esetén használatos).

4. Hogyan számítsuk ki a Student-féle t-próbát?

Az átlagok összehasonlításához a Student-féle t-próbát a következő képlet segítségével számítjuk ki:

ahol M 1- az első összehasonlított sokaság (csoport) számtani átlaga, M 2- a második összehasonlított sokaság (csoport) számtani átlaga, m 1- az első számtani átlag átlagos hibája, m2- a második számtani átlag átlagos hibája.

5. Hogyan értelmezzük a Student-féle t-próba értékét?

A Student-féle t-próba eredő értékét helyesen kell értelmezni. Ehhez tudnunk kell az egyes csoportok tantárgyainak számát (n 1 és n 2). A szabadságfokok számának meghatározása f a következő képlet szerint:

f \u003d (n 1 + n 2) - 2

Ezt követően meghatározzuk a Student-féle t-próba kritikus értékét a szükséges szignifikanciaszintre (például p=0,05) és adott számú szabadsági fokra. f táblázat szerint ( lásd lejjebb).

Összehasonlítjuk a kritérium kritikus és számított értékeit:

  • Ha a Student-féle t-próba számított értéke egyenlő vagy nagyobb kritikus, a táblázatban található, arra a következtetésre jutottunk, hogy az összehasonlított értékek közötti különbségek statisztikailag szignifikánsak.
  • Ha a számított Student-féle t-próba értéke Kevésbé táblázatos, ami azt jelenti, hogy az összehasonlított értékek közötti különbségek statisztikailag nem szignifikánsak.

6. Példa a Student-féle t-próba kiszámítására

Egy új vaskészítmény hatékonyságának vizsgálatára két vérszegény betegcsoportot választottak ki. Az első csoportban a betegek két hétig új gyógyszert, a második csoportban placebót kaptak. Ezt követően megmérjük a perifériás vér hemoglobinszintjét. Az első csoportban az átlagos hemoglobinszint 115,4±1,2 g/l volt, a másodikban pedig 103,7±2,3 g/l (az adatok a formátumban vannak feltüntetve M±m), az összehasonlított populációk normális eloszlásúak. Az első csoport száma 34, a második 40 beteg volt. Következtetést kell levonni a kapott különbségek statisztikai szignifikanciájáról és az új vaskészítmény hatékonyságáról.

Megoldás: A különbségek szignifikanciájának felmérésére Student-féle t-próbát használunk, amelyet úgy számítunk ki, hogy az átlagok különbségét osztjuk a hibák négyzetével:

A számítások elvégzése után a t-próba értéke 4,51 volt. A szabadságfokok számát a következőképpen kapjuk: (34 + 40) - 2 = 72. A Student-féle t-próba 4,51 kapott értékét összehasonlítjuk a táblázatban feltüntetett p=0,05 kritikus értékkel: 1,993. Mivel a kritérium számított értéke nagyobb, mint a kritikus érték, arra a következtetésre jutottunk, hogy a megfigyelt különbségek statisztikailag szignifikánsak (p szignifikancia szint<0,05).

A statisztikai hipotézis tesztelése lehetővé teszi, hogy a mintaadatok alapján szigorú következtetést vonjon le az általános sokaság jellemzőiről. A hipotézisek különbözőek. Az egyik az átlag hipotézise (matematikai elvárás). Lényege, hogy csak a rendelkezésre álló minta alapján helyes következtetést levonjunk arról, hogy az általános átlag hol lehet vagy nem (a pontos igazságot sosem fogjuk megtudni, de szűkíthetjük a keresési kört).

Le van írva a hipotézisek tesztelésének általános megközelítése, tehát egyenesen a lényegre. Tételezzük fel először, hogy a mintát a valószínűségi változók normál halmazából vettük xáltalános átlaggal μ és diszperzió σ2(Tudom, tudom, hogy ez nem történik meg, de nem kell félbeszakítanod!). Ennek a mintának a számtani átlaga nyilvánvalóan maga egy valószínűségi változó. Ha sok ilyen mintát kinyerünk, és kiszámítjuk az átlagokat, akkor azok is megfelelnek a matematikai elvárásnak. μ és

Aztán a valószínűségi változó

Felmerül a kérdés: az általános átlag 95%-os valószínűséggel ±1,96-on belül lesz? s x̅. Más szóval, a valószínűségi változók eloszlásai

egyenértékű.

Ezt a kérdést először egy vegyész vetette fel (és oldotta meg), aki a dublini (Írország) Guinness sörgyárban dolgozott. A vegyészt William Seeley Gossetnek hívták, és sörmintákat vett a kémiai elemzéshez. Valamikor úgy tűnik, Williamnek homályos kétségei támadtak az átlagok eloszlását illetően. Kicsit szétterítettebbnek bizonyult, mint egy normál eloszlásnak lennie kellene.

Miután összegyűjtötte a matematikai indoklást és kiszámította az általa felfedezett eloszlási függvény értékeit, William Gosset dublini kémikus jegyzetet írt, amely a Biometrics folyóirat 1908. márciusi számában jelent meg (főszerkesztő - Karl Pearson). . Mert A Guinness szigorúan megtiltotta a sörfőzés titkainak kiszolgáltatását, Gosset Student álnéven írt alá.

Annak ellenére, hogy K. Pearson már feltalálta az elosztást, ennek ellenére a normalitás általános elképzelése továbbra is dominált. Senki sem gondolta volna, hogy a mintabecslések eloszlása ​​esetleg nem normális. Ezért W. Gosset cikke gyakorlatilag észrevétlen és feledésbe merült. És csak Ronald Fisher értékelte Gosset felfedezését. Fischer az új disztribúciót használta munkájában, és adta a nevet Diák t-eloszlása. A hipotézisek tesztelésének kritériuma, ill Student-féle t-próba. Tehát a statisztikában "forradalom" következett be, amely a mintaadatok elemzésének korszakába lépett. Ez egy rövid kitérő volt a történelembe.

Lássuk, mit láthatott W. Gosset. Generáljunk 20 ezer normál mintát 6 megfigyelésből átlaggal ( X) 50 és szórás ( σ ) 10. Ezután normalizáljuk a mintaátlagokat a segítségével általános variancia:

Az így kapott 20 ezer átlagot 0,1 hosszúságú intervallumokba csoportosítjuk, és kiszámítjuk a gyakoriságokat. Ábrázoljuk diagramon a mintaátlagok tényleges (Norm) és elméleti (ENorm) frekvenciaeloszlását.

A pontok (megfigyelt frekvenciák) majdnem egybeesnek az egyenessel (elméleti frekvenciák). Ez érthető, mert az adatok ugyanabból az általános sokaságból származnak, és a különbségek csak mintavételi hibák.

Végezzünk egy új kísérletet. Ezzel normalizáljuk az átlagokat minta variancia.

Számoljuk meg újra a frekvenciákat, és ábrázoljuk a diagramon pontok formájában, a standard normál eloszlás vonalát hagyjuk összehasonlításra. Jelöljük az átlagok empirikus gyakoriságát mondjuk betűn keresztül t.

Látható, hogy az eloszlások ezúttal nem nagyon hasonlítanak egymásra. Közel, igen, de nem ugyanaz. A farok "nehezebb" lett.

Gosset-Student nem rendelkezett az MS Excel legújabb verziójával, de pontosan ezt a hatást vette észre. Miért van ez így? A magyarázat az, hogy a valószínűségi változó

nemcsak a mintavételi hibától (számlálótól) függ, hanem az átlag (nevező) standard hibájától is, amely szintén egy valószínűségi változó.

Nézzük meg egy kicsit, hogy milyen eloszlású legyen egy ilyen valószínűségi változó. Először is emlékeznie kell (vagy tanulnia kell) valamit a matematikai statisztikákból. Van egy ilyen Fisher-tétel, amely azt mondja, hogy egy normál eloszlásból származó mintában:

1. közepes Xés a minta variancia s2 független mennyiségek;

2. A minta és az általános variancia hányadosa, szorozva a szabadságfokok számával, eloszlású χ 2(khi-négyzet) azonos számú szabadságfokkal, azaz.

ahol k- a szabadságfokok száma (angolul fokozatok szabadsága (d.f.))

A normál modellek statisztikáiban sok más eredmény is ezen a törvényen alapul.

Térjünk vissza az átlag eloszlásához. Osszuk el a kifejezés számlálóját és nevezőjét!

a σX̅. Kap

A számláló egy szabványos normál valószínűségi változó (jelöljük ξ (xi)). A nevező a Fisher-tételből fejezhető ki.

Ekkor az eredeti kifejezés alakját veszi fel

Ez általánosságban (Diák aránya). Eloszlásfüggvénye már közvetlenül származtatható, mert mindkét valószínűségi változó eloszlása ​​ebben a kifejezésben ismert. Hagyjuk ezt az élvezetet a matematikusokra.

A Student-féle t-eloszlásfüggvénynek elég nehezen érthető képlete van, ezért nincs értelme elemezni. Amúgy senki nem használja, mert. a valószínűségeket a Student-féle eloszlás speciális táblázataiban adjuk meg (néha Student-együttható táblázatnak is nevezik), vagy PC-képletekbe kalapálják.

Így új ismeretekkel felvértezve képes lesz arra, hogy megértse a Student elosztásának hivatalos meghatározását.
Egy valószínűségi változó, amely engedelmeskedik a Student eloszlásának k szabadsági fok a független valószínűségi változók aránya

ahol ξ szabványos normál törvény szerint elosztva, és χ 2 k terjesztés alá tartozik χ 2 c k szabadsági fokokat.

Így a számtani átlag Student-kritériumának képlete

Van egy speciális esete a hallgatói kapcsolatnak

A képletből és a definícióból következik, hogy a Student-féle t-próba eloszlása ​​csak a szabadságfokok számától függ.

Nál nél k> 30 t-próba gyakorlatilag nem tér el a standard normál eloszlástól.

A khi-négyzettől eltérően a t-próba lehet egy- vagy kétfarkú. Általában kétoldali módszert alkalmazunk, feltételezve, hogy az átlagtól való eltérés mindkét irányban előfordulhat. De ha a probléma feltétele csak egy irányba enged eltérést, akkor indokolt egy egyoldalú kritérium alkalmazása. Ez kissé növeli a teljesítményt, tk. rögzített szignifikanciaszinten a kritikus érték kissé megközelíti a nullát.

A Student-féle t-próba alkalmazásának feltételei

Annak ellenére, hogy Student felfedezése egy időben forradalmat hozott a statisztikákban, a t-próba még mindig meglehetősen korlátozottan alkalmazható, mert maga az eredeti adatok normális eloszlásának feltételezéséből származik. Ha az adatok nem normálisak (ami általában így van), akkor a t-próbának többé nem lesz Student-féle eloszlása. A centrális határtétel működése miatt azonban az átlag még nem normál adatok esetén is gyorsan harang alakú eloszlást kap.

Tekintsük például azokat az adatokat, amelyek határozottan jobbra ferdítenek, például egy 5 szabadságfokú khi-négyzet eloszlást.

Most hozzunk létre 20 ezer mintát, és figyeljük meg, hogyan változik az átlagok eloszlása ​​a méretüktől függően.

A különbség egészen észrevehető kis mintákban, 15-20 megfigyelésig. De aztán gyorsan eltűnik. Így az eloszlás abnormalitása természetesen nem jó, de nem is kritikus.

Leginkább a t-kritérium „fél” a kiugró értékektől, pl. kóros eltérések. Vegyünk 20 ezer normál mintát 15 megfigyelésből, és adjunk hozzá egy véletlenszerű kiugró értéket néhányhoz.

A kép boldogtalan. Az átlagok tényleges gyakorisága nagyon eltér az elméletitől. A t-elosztás alkalmazása ilyen helyzetben nagyon kockázatos vállalkozássá válik.

Tehát nem túl kis mintákban (15 megfigyelésből) a t-próba viszonylag ellenálló a kiindulási adatok nem normális eloszlásával szemben. Az adatok kiugró értékei azonban erősen torzítják a t-próba eloszlását, ami viszont statisztikai következtetési hibákhoz vezethet, ezért az anomális megfigyeléseket ki kell küszöbölni. Gyakran minden olyan érték, amely az átlagtól ±2 szóráson kívül esik, kikerül a mintából.

Példa a matematikai elvárás hipotézisének tesztelésére Student-féle t-próbával MS Excelben

Az Excelnek számos, a t-eloszlással kapcsolatos funkciója van. Tekintsük őket.

STUDENT.DIST - "klasszikus" baloldali Student-féle t-eloszlás. A bemenet a t-kritérium értéke, a szabadságfokok száma és az opció (0 vagy 1), amely meghatározza, hogy mit kell kiszámítani: a sűrűséget vagy a függvény értékét. A kimeneten megkapjuk a sűrűséget, illetve annak valószínűségét, hogy a valószínűségi változó kisebb lesz, mint az argumentumban megadott t-kritérium.

STUDENT.DIST.2X - kétirányú elosztás. A t-kritérium abszolút értékét (modulo) és a szabadságfokok számát adjuk meg argumentumként. A kimenetnél azt a valószínűséget kapjuk, hogy megkapjuk a t-kritériumnak ezt, vagy még több értékét, azaz. tényleges szignifikancia szint (p-szint).

STUDENT.DIST.RH - jobbkezes t-eloszlás. Tehát 1-HALLGATÓ.ELOSZTÁL Ha a t-próba pozitív, akkor a kapott valószínűség p-szintű.

STUDENT.INV - a t-eloszlás bal oldali reciprokának kiszámítására szolgál. Az érv a valószínűség és a szabadsági fokok száma. A kimeneten megkapjuk az ennek a valószínűségnek megfelelő t-kritérium értékét. A valószínűséget balra számoljuk. Ezért magára a szignifikanciaszintre van szükség a bal farok számára α , jobb oldalra pedig 1 - α .

STUDENT.ORD.2X a kétoldali Student-eloszlás reciproka, azaz. t-teszt értéke (modulo). Bemenetként a szignifikanciaszint is megadásra kerül. α . Csak ezúttal a visszaszámlálás mindkét oldalról egyszerre történik, így a valószínűség két farok között oszlik el. Tehát, STUDENT.OBR (1-0,025; 5) \u003d STUDENT. OBR. 2X (0,05; 5) \u003d 2,57058

A STUDENT.TESZT egy függvény a matematikai elvárások egyenlőségére vonatkozó hipotézis tesztelésére két mintában. Egy csomó számítást helyettesít, mert. elég csak két tartományt megadni adatokkal és még pár paraméterrel. A kimenet p-szintű.

DIÁK BIZALMA - az átlag konfidenciaintervallumának kiszámítása, figyelembe véve a t-eloszlást.

Vegyünk egy ilyen képzési példát. A cég 50 kg-os zsákokba csomagolja a cementet. A véletlennek köszönhetően egyetlen zsákban megengedett némi eltérés a várt tömegtől, de az általános átlag 50 kg maradjon. A minőség-ellenőrzési osztály véletlenszerűen mért le 9 zsákot, és a következő eredményeket kapta: átlagos súly ( X) 50,3 kg-ot tett ki, a szórás ( s) - 0,5 kg.

Az eredmény összhangban van azzal a nullhipotézissel, hogy az általános átlag 50 kg? Vagyis lehet-e véletlenül ilyen eredményt elérni, ha a berendezés megfelelően működik és átlagosan 50 kg-os tölteléket produkál? Ha a hipotézist nem utasítjuk el, akkor a kapott különbség belefér a véletlenszerű ingadozások tartományába, de ha a hipotézist elvetjük, akkor nagy valószínűséggel a zacskókat kitöltő berendezés beállításaiban történt hiba. Ellenőrizni és beállítani kell.

Egy rövid feltétel az általánosan elfogadott jelölésben így néz ki.

H0: μ = 50 kg

H1: μ ≠ 50 kg

Van okunk feltételezni, hogy a zsákok foglaltságának eloszlása ​​normális eloszlást követ (vagy nem sokban tér el attól). Tehát a matematikai elvárás hipotézisének teszteléséhez használhatja a Student-féle t-próbát. Véletlenszerű eltérések mindkét irányban előfordulhatnak, ezért kétirányú t-próbára van szükség.

Először az özönvíz előtti eszközöket alkalmazzuk: a t-próba manuális kiszámítása és összehasonlítása egy kritikus táblázati értékkel. Becsült t-teszt:

Most határozzuk meg, hogy a kapott szám meghaladja-e a szignifikanciaszinten a kritikus szintet α = 0,05. Használjuk a Student-féle t-eloszlási táblázatot (amely bármely statisztikai tankönyvben elérhető).

Az oszlopok az eloszlás jobb oldalának valószínűségét, a sorok a szabadságfokok számát mutatják. Egy kétoldalas t-próba érdekel bennünket, amelynek szignifikanciaszintje 0,05, ami a jobb oldali szignifikanciaszint felének t-értékével ekvivalens: 1 - 0,05 / 2 = 0,975. A szabadságfokok száma a mintanagyság mínusz 1, azaz. 9 - 1 = 8. A metszéspontban megtaláljuk a t-próba táblázatos értékét - 2,306. Ha a standard normál eloszlást használnánk, akkor a kritikus pont 1,96 lenne, de itt több, mert kis mintákon a t-eloszlás laposabb formája van.

Összehasonlítjuk a tényleges (1,8) és a táblázatos értéket (2,306). A számított kritérium kisebbnek bizonyult, mint a táblázatos. A rendelkezésre álló adatok tehát nem mondanak ellent annak a H 0 hipotézisnek, hogy az általános átlag 50 kg (de nem is igazolják). Ennyit tudhatunk meg a táblázatok segítségével. Természetesen továbbra is megpróbálhatja megtalálni a p-szintet, de ez hozzávetőleges lesz. És általában a p-szintet használják a hipotézisek tesztelésére. Tehát térjünk át az Excelre.

Az Excelben nincs kész függvény a t-próba kiszámítására. De ez nem ijesztő, mert a Student-féle t-teszt képlete meglehetősen egyszerű, és könnyen beépíthető közvetlenül egy Excel cellába.

Ugyanaz az 1.8. Először keressük meg a kritikus értéket. Alfát 0,05-öt veszünk, a kritérium kétoldalú. A STUDENT.OBR.2X kétoldali hipotézishez szükségünk van a t-eloszlás inverz értékének függvényére.

A kapott érték levágja a kritikus tartományt. A megfigyelt t-próba nem esik bele, így a hipotézist nem utasítják el.

Ez azonban ugyanaz a hipotézis tesztelésének módja egy táblázatértékkel. Tájékoztatóbb lesz a p-szint kiszámítása, pl. annak a valószínűsége, hogy megkapjuk a megfigyelt vagy még nagyobb eltérést az 50 kg-os átlagtól, ha ez a hipotézis helyes. Szüksége lesz egy Student-féle eloszlásfüggvényre a STUDENT.DIST.2X kétirányú hipotézishez.

A P-szint 0,1096, ami több, mint a megengedett 0,05-ös szignifikanciaszint – nem utasítjuk el a hipotézist. De most már meg tudjuk ítélni a bizonyítékok mértékét. Kiderült, hogy a P-szint nagyon közel van ahhoz a szinthez, amikor a hipotézist elvetjük, és ez eltérő gondolatokhoz vezet. Például, hogy a minta túl kicsi volt ahhoz, hogy jelentős eltérést észleljünk.

Tegyük fel, hogy egy idő után az ellenőrzési osztály ismét úgy döntött, hogy megvizsgálja, hogyan tartják be a zacskótöltési szabványt. Ezúttal a nagyobb megbízhatóság érdekében nem 9, hanem 25 zsákot választottak ki. Intuitív módon egyértelmű, hogy az átlag szórása csökkenni fog, és így nagyobb az esélye annak, hogy a rendszerben meghibásodást találjanak.

Tegyük fel, hogy a minta átlagának és szórásának ugyanazokat az értékeket kaptuk, mint az első alkalommal (50,3 és 0,5). Számítsuk ki a t-próbát.


A 24 szabadságfok és α = 0,05 kritikus értéke 2,064. Az alábbi képen látható, hogy a t-próba a hipotézis elutasításának területére esik.

Megállapítható, hogy 95%-ot meghaladó megbízhatósági valószínűséggel az általános átlag eltér az 50 kg-tól. Hogy meggyőzőbb legyünk, nézzük a p-szintet (a táblázat utolsó sora). Az 50-től ekkora vagy még nagyobb eltéréssel átlagot kapni, ha a hipotézis helyes, 0,0062, azaz 0,62%, ami egyetlen méréssel szinte lehetetlen. Általában véve a hipotézist elutasítjuk, mint valószínűtlen.

Konfidenciaintervallum kiszámítása Student-féle t-eloszlás segítségével

Egy másik, a hipotézisvizsgálathoz szorosan kapcsolódó statisztikai módszer az konfidencia intervallumok számítása. Ha a nullhipotézisnek megfelelő érték a kapott intervallumba esik, akkor ez egyenértékű azzal, hogy a nullhipotézist nem utasítják el. Ellenkező esetben a hipotézist a megfelelő megbízhatósági szint mellett elvetjük. Egyes esetekben az elemzők egyáltalán nem tesztelik a hipotéziseket klasszikus formában, hanem csak konfidenciaintervallumokat számolnak. Ez a megközelítés lehetővé teszi még több hasznos információ kinyerését.

Számítsuk ki a konfidencia intervallumokat az átlaghoz 9 és 25 megfigyelés esetén. Ehhez az Excel TRUST.STUDENT függvényét fogjuk használni. Furcsa módon itt minden nagyon egyszerű. A függvény argumentumában csak a szignifikancia szintjét kell megadni α , a minta szórása és a minta mérete. A kimeneten megkapjuk a konfidenciaintervallum félszélességét, vagyis azt az értéket, amelyet az átlag mindkét oldalán félre kell tenni. A számítások elvégzése és a vizuális diagram elkészítése után a következőket kapjuk.

Mint látható, egy 9 megfigyelésből álló mintánál az 50-es érték a konfidenciaintervallumba esik (a hipotézist nem utasítják el), 25 megfigyelésnél pedig nem (a hipotézist elvetjük). Ugyanakkor a 25 zacskós kísérletben kijelenthető, hogy 97,5%-os valószínűséggel az általános átlag meghaladja az 50,1 kg-ot (a konfidencia intervallum alsó határa 50,094 kg). És ez nagyon értékes információ.

Így ugyanazt a problémát háromféleképpen oldottuk meg:

1. Ősi megközelítés, a t-kritérium számított és táblázatos értékének összehasonlítása
2. Korszerűbb, a p-szint kiszámításával, a hipotézis elvetésének bizonyos fokú bizalmával.
3. Még informatívabb, ha kiszámítjuk a konfidencia intervallumot és megkapjuk az általános átlag minimális értékét.

Fontos megjegyezni, hogy a t-próba paraméteres módszerekre vonatkozik, mert normál eloszláson alapul (két paramétere van: átlag és variancia). Ezért a sikeres alkalmazásához legalább a kiindulási adatok hozzávetőleges normalitása és a kiugró értékek hiánya fontos.

Végül azt javaslom, hogy nézzen meg egy videót a Student-féle t-próbával kapcsolatos számítások elvégzéséről Excelben.

Diákosztó táblázat

A valószínűségi integráltáblázatokat végtelenül nagy sokaságból származó nagy mintákhoz használják. De már (n)< 100 получается Несоответствие между

táblázatos adatok és határvalószínűség; pontban (n)< 30 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в гене-

Az általános sokaságra ez nem számít, hiszen a mintamutató általános jellemzőtől való eltéréseinek eloszlása ​​nagy mintánál mindig normálisnak bizonyul.

nym. Kis méretű mintákban (n)< 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из со-

normális eloszlású populáció. A kis minták elméletét W. Gosset angol statisztikus (aki Student álnéven írta) dolgozta ki a 20. század elején. NÁL NÉL

1908-ban egy speciális eloszlást szerkesztett, amely kis minták esetén is lehetővé teszi (t) és az F(t) konfidenciavalószínűség korrelációját. (n) > 100 esetén a Student-eloszlási táblázatok ugyanazokat az eredményeket adják, mint a Laplace-féle valószínűségi integráltáblázatok 30 esetén< (n ) <

100 eltérés kicsi. Ezért a gyakorlatban a kis minták közé tartoznak a 30 egységnél kisebb térfogatú minták (természetesen a 100 egységnél nagyobb térfogatú mintát tekintjük nagynak).

A kis minták használata bizonyos esetekben a vizsgált sokaság jellegéből adódik. Így a tenyésztési munkában a "tiszta" tapasztalat könnyebben szerezhető kis számmal

telkek. A gazdasági költségekkel járó termelési és gazdasági kísérletet is kis számú próbával végzik el. Mint már említettük, kis minta esetén csak egy normális eloszlású általános sokaságra lehet kiszámítani mind a konfidenciavalószínűséget, mind az általános átlag konfidenciahatárait.

A Student-féle eloszlás valószínűségi sűrűségét függvény írja le.

1 + t2

f (t ,n) := Bn

n − 1

t - áram változó, n - minta mérete;

B olyan érték, amely csak (n)-től függ.

A Student-féle eloszlásnak csak egy paramétere van: (d.f. ) - a szabadságfokok száma (néha (k)-vel jelöljük). Ez az eloszlás a normálhoz hasonlóan szimmetrikus a (t) = 0 ponthoz képest, de laposabb. A minta méretének és ennek következtében a szabadságfokok számának növekedésével a Student-eloszlás gyorsan megközelíti a normálisat. A szabadsági fokok száma megegyezik a tulajdonságok azon egyedi értékeinek számával, amelyeknek meg kell lenniük

tegyük fel, hogy meghatározzuk a kívánt jellemzőt. Tehát a variancia kiszámításához ismerni kell az átlagértéket. Ezért a diszperzió kiszámításakor a (d.f.) = n - 1 értéket használjuk.

A tanulói eloszlási táblázatok két változatban jelentek meg:

1. a valószínűségi integrál táblázataihoz hasonlóan az értékek ( t ) és

F(t) kumulatív valószínűségek különböző számú szabadsági fokra;

2. A (t) értékeket a leggyakrabban használt megbízhatósági valószínűségekre adjuk meg

0,70; 0,75; 0,80; 0,85; 0,90; 0,95 és 0,99 vagy 1-0,70 = 0,3; 1 - 0,80 = 0,2; …… 1 - 0,99 = 0,01.

3. különböző számú szabadságfokkal. Egy ilyen táblázat a mellékletben található.

(1 - 20. táblázat), valamint a (t) érték - Student-féle teszt 0,7-es szignifikanciaszinten

A példa során fiktív információkat fogunk használni, hogy az olvasó önállóan elvégezhesse a szükséges átalakításokat.

Így például a kutatás során tanulmányoztuk az A gyógyszer hatását a B anyag tartalmára (mmol / g-ban) a C szövetben és a D anyag koncentrációjára a vérben (mmol / l-ben) betegeknél. valamilyen E kritérium szerint 3 egyenlő térfogatú csoportra osztva (n = 10). Ennek a fiktív tanulmánynak az eredményei a táblázatban láthatók:

B anyagtartalom, mmol/g

D anyag, mmol/l

koncentráció növekedés


Figyelmeztetjük, hogy a 10-es méretű mintákat az adatok és a számítások megkönnyítése érdekében figyelembe vesszük, a gyakorlatban ez a mintanagyság általában nem elegendő a statisztikai következtetés levonásához.

Példaként vegyük a táblázat 1. oszlopának adatait.

Leíró statisztika

minta átlag

A számtani átlagot, amelyet nagyon gyakran egyszerűen "átlagnak" neveznek, úgy kapjuk meg, hogy az összes értéket összeadjuk, és ezt az összeget elosztjuk a készletben lévő értékek számával. Ez egy algebrai képlet segítségével mutatható ki. Egy x változó n megfigyelésének halmaza ábrázolható x 1 , x 2 , x 3 , ..., x n

A megfigyelések számtani átlagának meghatározására szolgáló képlet ("X-nek kötőjellel" ejtve):

\u003d (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Minta variancia

Az adatok szórásának mérésének egyik módja annak meghatározása, hogy az egyes megfigyelések mennyivel térnek el a számtani átlagtól. Nyilvánvaló, hogy minél nagyobb az eltérés, annál nagyobb a változékonyság, a megfigyelések változékonysága. Ezeknek az eltéréseknek az átlagát azonban nem tudjuk használni szóródás mértékeként, mert a pozitív eltérések kompenzálják a negatív eltéréseket (összegük nulla). A probléma megoldásához minden eltérést négyzetre emelünk, és megkeressük az eltérések négyzetes átlagát; ezt a mennyiséget variációnak vagy diszperziónak nevezzük. Végezzen n megfigyelést x 1, x 2, x 3, ..., x n, átlag ami egyenlő. Kiszámoljuk a diszperziót ezt általában úgy emlegetiks2,ezek a megfigyelések:

Ennek a mutatónak a mintavarianciája s 2 = 3,2.

Szórás

A szórás (négyzetgyökérték) a variancia pozitív négyzetgyöke. Például n megfigyelés így néz ki:

A szórást úgy tekinthetjük, mint a megfigyelések átlagos eltérését. Kiszámítása az eredeti adatokkal azonos mértékegységekben (dimenziókban) történik.

s = négyzetméter (s 2) = négyzetméter (3,2) = 1,79.

A variációs együttható

Ha a szórást elosztjuk a számtani átlaggal, és az eredményt százalékban fejezzük ki, akkor megkapjuk a variációs együtthatót.

CV = (1,79 / 13,1) * 100% = 13,7

Minta átlag hiba

1,79/sqrt(10) = 0,57;

Student-féle t együttható (egymintás t-próba)

Az átlagérték és valamilyen ismert m érték különbségére vonatkozó hipotézis tesztelésére szolgál

A szabadsági fokok számát a következőképpen számítjuk ki: f=n-1.

Ebben az esetben az átlag konfidenciaintervalluma a 11,87 és 14,39 közötti határok között van.

95%-os megbízhatósági szint esetén m=11,87 vagy m=14,39, azaz = |13,1-11,82| = |13,1-14,38| = 1,28

Ennek megfelelően ebben az esetben a szabadsági fokok száma f = 10 - 1 = 9 és a 95%-os konfidenciaszint t=2,26.

Dialógus alapstatisztikák és táblázatok

A modulban Alapstatisztika és táblázatok választ Leíró statisztika.

Megnyílik egy párbeszédpanel Leíró statisztika.

A terepen Változók választ 1. csoport.

Megnyomása rendben, eredménytáblázatokat kapunk a kiválasztott változók leíró statisztikai adataival.

Megnyílik egy párbeszédpanel Egymintás t-próba.

Tegyük fel, hogy tudjuk, hogy a B anyag átlagos tartalma a C szövetben 11.

Az eredménytáblázat leíró statisztikákkal és Student-féle t-próbával a következő:

El kellett vetnünk azt a hipotézist, hogy a C szövetben a B anyag átlagos tartalma 11.

Mivel a kritérium számított értéke nagyobb, mint a táblázatos (2,26), a nullhipotézist a kiválasztott szignifikancia szinten elvetjük, és a minta és az ismert érték közötti különbségeket statisztikailag szignifikánsnak ismerjük el. Így a különbségek létezésére vonatkozó, a Student-féle kritérium alapján levont következtetést ezzel a módszerrel megerősítjük.

KATEGÓRIÁK

NÉPSZERŰ CIKKEK

2022 "kingad.ru" - az emberi szervek ultrahangvizsgálata