Tablična vrijednost studentovog t testa. Osnovna statistika i Studentov t-test

U kojim slučajevima se može koristiti Studentov t-test?

Za primjenu Studentovog t-testa potrebno je imati izvorne podatke normalna distribucija. U slučaju primjene kriterija dva uzorka za neovisne uzorke također je potrebno zadovoljiti uvjet jednakost (homoskedastičnost) varijanci.

Ako ovi uvjeti nisu ispunjeni, treba koristiti slične metode pri usporedbi srednjih vrijednosti uzorka. neparametarska statistika, među kojima su najpoznatiji Mann-Whitney U test(kao test s dva uzorka za neovisne uzorke), i kriterij predznaka I Wilcoxonov test(koristi se u slučajevima zavisnih uzoraka).

Za usporedbu prosječnih vrijednosti, Studentov t-test izračunava se pomoću sljedeće formule:

Gdje M 1- aritmetička sredina prve uspoređivane populacije (skupine), M 2- aritmetička sredina druge uspoređivane populacije (skupine), m 1- prosječna pogreška prve aritmetičke sredine, m 2- prosječna pogreška druge aritmetičke sredine.

Kako protumačiti vrijednost Studentovog t-testa?

Rezultirajuća vrijednost Studentovog t-testa mora se ispravno interpretirati. Da bismo to učinili, moramo znati broj ispitanika u svakoj skupini (n 1 i n 2). Određivanje broja stupnjeva slobode f prema sljedećoj formuli:

f = (n 1 + n 2) - 2

Nakon toga određujemo kritičnu vrijednost Studentovog t-testa za traženu razinu značajnosti (na primjer, p = 0,05) i za zadani broj stupnjeva slobode. f prema tablici ( Pogledaj ispod).

Uspoređujemo kritične i izračunate vrijednosti kriterija:

· Ako je izračunata vrijednost Studentovog t-testa jednak ili veći kritične, nađene iz tablice, zaključujemo da su razlike između uspoređivanih vrijednosti statistički značajne.

· Ako je vrijednost izračunatog Studentovog t-testa manje tablično, što znači da razlike između uspoređivanih vrijednosti nisu statistički značajne.

Primjer izračuna Studentovog t-testa

Za proučavanje učinkovitosti novog pripravka željeza odabrane su dvije skupine bolesnika s anemijom. U prvoj skupini pacijenti su dva tjedna primali novi lijek, a u drugoj skupini placebo. Nakon toga je izmjerena razina hemoglobina u perifernoj krvi. U prvoj skupini prosječna razina hemoglobina bila je 115,4±1,2 g/l, au drugoj skupini 103,7±2,3 g/l (podaci su prikazani u obliku M±m), populacije koje se uspoređuju imaju normalnu distribuciju. Brojnost prve skupine bila je 34, a druge 40 pacijenata. Potrebno je izvesti zaključak o statističkoj značajnosti dobivenih razlika i učinkovitosti novog pripravka željeza.

Riješenje: Za procjenu značajnosti razlika koristimo Studentov t-test, izračunat kao razlika srednjih vrijednosti podijeljena sa zbrojem kvadrata pogrešaka:

Nakon izvođenja izračuna, pokazalo se da je t-test vrijednost 4,51. Nalazimo broj stupnjeva slobode kao (34 + 40) - 2 = 72. Uspoređujemo dobivenu Studentovu vrijednost t-testa od 4,51 s kritičnom vrijednošću pri p = 0,05 naznačenom u tablici: 1,993. Budući da je izračunata vrijednost kriterija veća od kritične vrijednosti, zaključujemo da su uočene razlike statistički značajne (razina značajnosti p<0,05).

Fisherova distribucija je distribucija slučajne varijable

gdje su slučajne varijable X 1 I X 2 neovisni su i imaju hi-kvadrat distribuciju s brojem stupnjeva slobode k 1 I k 2 odnosno. U isto vrijeme, par (k 1 , k 2)– par “stupnjeva slobode” Fisherove distribucije, naime, k 1 je broj stupnjeva slobode brojnika, i k 2– broj stupnjeva slobode nazivnika. Distribucija slučajne varijable F nazvan po velikom engleskom statističaru R. Fisheru (1890.-1962.), koji ga je aktivno koristio u svojim djelima.

Fisherova se distribucija koristi pri testiranju hipoteza o primjerenosti modela u regresijskom analizi, jednakosti varijanci i drugim problemima primijenjene statistike.

Tablica Studentovih kritičnih vrijednosti.

Početak forme

Broj stupnjeva slobode, f Vrijednost Studentovog t-testa pri p=0,05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
40-41 2.021
42-43 2.018
44-45 2.015
46-47 2.013
48-49 2.011
50-51 2.009
52-53 2.007
54-55 2.005
56-57 2.003
58-59 2.002
60-61 2.000
62-63 1.999
64-65 1.998
66-67 1.997
68-69 1.995
70-71 1.994
72-73 1.993
74-75 1.993
76-77 1.992
78-79 1.991
80-89 1.990
90-99 1.987
100-119 1.984
120-139 1.980
140-159 1.977
160-179 1.975
180-199 1.973
1.972
1.960

​ Studentov t-test je opći naziv za klasu metoda za statističku provjeru hipoteza (statističkih testova) temeljenih na Studentovoj distribuciji. Najčešće upotrebe t-testa uključuju testiranje jednakosti srednjih vrijednosti u dva uzorka.

1. Povijest razvoja t-testa

Ovaj kriterij je razvijen William Gossett za procjenu kvalitete piva u tvrtki Guinness. Zbog obveza prema tvrtki u vezi s neobjavljivanjem poslovnih tajni, Gossetov je članak objavljen 1908. godine u časopisu Biometrics pod pseudonimom "Student".

2. Za što se koristi Studentov t-test?

Studentov t test koristi se za određivanje statističke značajnosti razlika u sredinama. Može se koristiti iu slučajevima usporedbe neovisnih uzoraka ( primjerice skupine dijabetičara i zdrave skupine), a kada se uspoređuju povezane populacije ( na primjer, prosječni broj otkucaja srca kod istih pacijenata prije i nakon uzimanja antiaritmika).

3. U kojim slučajevima se može koristiti Studentov t-test?

Za primjenu Studentovog t-testa potrebno je imati izvorne podatke normalna distribucija. U slučaju primjene kriterija dva uzorka za neovisne uzorke također je potrebno zadovoljiti uvjet jednakost (homoskedastičnost) varijanci.

Ako ovi uvjeti nisu ispunjeni, treba koristiti slične metode pri usporedbi srednjih vrijednosti uzorka. neparametarska statistika, među kojima su najpoznatiji Mann-Whitney U test(kao test s dva uzorka za neovisne uzorke), i kriterij predznaka I Wilcoxonov test(koristi se u slučajevima zavisnih uzoraka).

4. Kako izračunati Studentov t-test?

Za usporedbu prosječnih vrijednosti, Studentov t-test izračunava se pomoću sljedeće formule:

Gdje M 1- aritmetička sredina prve uspoređivane populacije (skupine), M 2- aritmetička sredina druge uspoređivane populacije (skupine), m 1- prosječna pogreška prve aritmetičke sredine, m 2- prosječna pogreška druge aritmetičke sredine.

5. Kako interpretirati vrijednost Studentovog t-testa?

Rezultirajuća vrijednost Studentovog t-testa mora se ispravno interpretirati. Da bismo to učinili, moramo znati broj ispitanika u svakoj skupini (n 1 i n 2). Određivanje broja stupnjeva slobode f prema sljedećoj formuli:

f = (n 1 + n 2) - 2

Nakon toga određujemo kritičnu vrijednost Studentovog t-testa za traženu razinu značajnosti (na primjer, p = 0,05) i za zadani broj stupnjeva slobode. f prema tablici ( Pogledaj ispod).

Uspoređujemo kritične i izračunate vrijednosti kriterija:

  • Ako je izračunata vrijednost Studentovog t-testa jednak ili veći kritične, nađene iz tablice, zaključujemo da su razlike između uspoređivanih vrijednosti statistički značajne.
  • Ako vrijednost izračunatog Studentovog t-testa manje tablično, što znači da razlike između uspoređivanih vrijednosti nisu statistički značajne.

6. Primjer izračuna Studentovog t-testa

Za proučavanje učinkovitosti novog pripravka željeza odabrane su dvije skupine bolesnika s anemijom. U prvoj skupini pacijenti su dva tjedna primali novi lijek, a u drugoj skupini placebo. Nakon toga je izmjerena razina hemoglobina u perifernoj krvi. U prvoj skupini prosječna razina hemoglobina bila je 115,4±1,2 g/l, au drugoj skupini 103,7±2,3 g/l (podaci su prikazani u obliku M±m), populacije koje se uspoređuju imaju normalnu distribuciju. Brojnost prve skupine bila je 34, a druge 40 pacijenata. Potrebno je izvesti zaključak o statističkoj značajnosti dobivenih razlika i učinkovitosti novog pripravka željeza.

Riješenje: Za procjenu značajnosti razlika koristimo Studentov t-test, izračunat kao razlika srednjih vrijednosti podijeljena sa zbrojem kvadrata pogrešaka:

Nakon izvođenja izračuna, pokazalo se da je t-test vrijednost 4,51. Nalazimo broj stupnjeva slobode kao (34 + 40) - 2 = 72. Uspoređujemo dobivenu Studentovu vrijednost t-testa od 4,51 s kritičnom vrijednošću pri p = 0,05 naznačenom u tablici: 1,993. Budući da je izračunata vrijednost kriterija veća od kritične vrijednosti, zaključujemo da su uočene razlike statistički značajne (razina značajnosti p<0,05).

Testiranje statističkih hipoteza omogućuje nam da donesemo čvrste zaključke o karakteristikama populacije na temelju podataka uzorka. Postoje različite hipoteze. Jedna od njih je hipoteza o prosjeku (matematičko očekivanje). Njegova je bit da se samo na temelju dostupnog uzorka izvede ispravan zaključak o tome gdje se generalni prosjek može ili ne mora nalaziti (nikada nećemo saznati točnu istinu, ali možemo suziti potragu).

Opći pristup testiranju hipoteza je opisan, pa prijeđimo odmah na stvar. Pretpostavimo prvo da je uzorak izvučen iz normalne populacije slučajnih varijabli x s općim prosjekom μ i varijanca σ 2(Znam, znam da se to ne događa, ali nemoj me prekidati!). Aritmetička sredina ovog uzorka očito je i sama slučajna varijabla. Ako izdvojite mnogo takvih uzoraka i izračunate njihove prosjeke, tada će oni također imati matematičko očekivanje μ I

Zatim slučajna varijabla

Postavlja se pitanje hoće li opći prosjek s vjerojatnošću od 95% biti unutar ±1,96? s x̅. Drugim riječima, to su distribucije slučajnih varijabli

ekvivalent.

Ovo pitanje prvi je postavio (i riješio) kemičar koji je radio u tvornici piva Guinness u Dublinu (Irska). Kemičar se zvao William Seely Gossett i uzeo je uzorke piva za kemijsku analizu. U nekom trenutku, očito, Williama su počele mučiti nejasne sumnje o raspodjeli prosjeka. Ispalo je malo više razmazano nego što bi trebala biti normalna distribucija.

Nakon što je prikupio matematičku osnovu i izračunao vrijednosti funkcije raspodjele koju je otkrio, dublinski kemičar William Gosset napisao je bilješku koja je objavljena u ožujku 1908. godine u časopisu Biometrics (glavni urednik - Karl Pearson). Jer Guinness je strogo zabranio odavanje pivarskih tajni, Gossett se potpisivao pseudonimom Student.

Unatoč činjenici da je K. Pearson već izumio distribuciju, opća ideja normalnosti i dalje je dominirala. Nitko nije mislio da distribucija rezultata uzoraka možda nije normalna. Stoga je članak W. Gosseta ostao praktički nezapažen i zaboravljen. A samo je Ronald Fisher cijenio Gossetovo otkriće. Fischer je koristio novu distribuciju u svom radu i dao joj ime Studentova t-distribucija. Kriterij za testiranje hipoteza, prema tome, postao je Studentov t-test. Tako se dogodila “revolucija” u statistici koja je zakoračila u eru analize uzoraka podataka. Ovo je bio kratki izlet u povijest.

Da vidimo što je W. Gosset mogao vidjeti. Generirajmo 20 tisuća normalnih uzoraka iz 6 opažanja s prosjekom ( X) 50 i standardna devijacija ( σ ) 10. Zatim normaliziramo uzorke pomoću opća varijanca:

Grupirati ćemo dobivenih 20 tisuća prosjeka u intervale duljine 0,1 i izračunati frekvencije. Prikažimo na dijagramu stvarnu (Norm) i teorijsku (ENorm) distribuciju učestalosti uzoraka srednjih vrijednosti.

Točke (promatrane frekvencije) praktički se poklapaju s linijom (teorijske frekvencije). To je i razumljivo, jer su podaci uzeti iz iste opće populacije, a razlike su samo pogreške uzorkovanja.

Provedimo novi eksperiment. Prosjeke normaliziramo pomoću varijanca uzorka.

Ponovno prebrojimo frekvencije i iscrtajmo ih na dijagramu u obliku točaka, ostavljajući standardnu ​​liniju normalne distribucije za usporedbu. Označimo empirijsku učestalost prosjeka, recimo, slovom t.

Vidi se da se raspodjele ovoga puta baš i ne poklapaju. Blizu, da, ali nije isto. Repovi su postali "teži".

Gosset-Student nije imao najnoviju verziju MS Excela, ali je upravo takav učinak primijetio. Zašto se to događa? Objašnjenje je da slučajna varijabla

ne ovisi samo o pogrešci uzorkovanja (brojnik), već i o standardnoj pogrešci srednje vrijednosti (nazivnik), koja je također slučajna varijabla.

Pogledajmo malo kakvu distribuciju treba imati takva slučajna varijabla. Prvo, morat ćete zapamtiti (ili naučiti) nešto iz matematičke statistike. Postoji Fisherov teorem, koji kaže da u uzorku iz normalne distribucije:

1. srednje X i varijanca uzorka s 2 su nezavisne veličine;

2. omjer varijance uzorka i populacije, pomnožen s brojem stupnjeva slobode, ima distribuciju χ 2(hi-kvadrat) s istim brojem stupnjeva slobode, tj.

Gdje k– broj stupnjeva slobode (na engleskom degrees of freedom (d.f.))

Mnogi drugi rezultati u statistici normalnih modela temelje se na ovom zakonu.

Vratimo se distribuciji prosjeka. Podijelite brojnik i nazivnik izraza

na σ X̅. Dobivamo

Brojnik je standardna normalna slučajna varijabla (označavamo ξ (xi)). Izrazimo nazivnik iz Fisherovog teorema.

Tada će izvorni izraz poprimiti oblik

To je ono što je u općem obliku (odnos učenika). Njegovu funkciju distribucije možete izvesti izravno, jer poznate su raspodjele obiju slučajnih varijabli u ovom izrazu. Ostavimo ovo zadovoljstvo matematičarima.

Studentova funkcija t-distribucije ima formulu koju je dosta teško razumjeti, pa je nema smisla analizirati. Ionako ga nitko ne koristi jer... vjerojatnosti su dane u posebnim tablicama Studentovih distribucija (ponekad zvanim tablice Studentovih koeficijenata), ili su uključene u PC formule.

Dakle, naoružani ovim novim znanjem, možete razumjeti službenu definiciju Studentove distribucije.
Slučajna varijabla podložna Studentovoj distribuciji s k stupnjevi slobode je omjer nezavisnih slučajnih varijabli

Gdje ξ raspodijeljen prema standardnom normalnom zakonu, i χ 2 k pokorava se distribuciji χ 2 c k stupnjevi slobode.

Dakle, Studentova t test formula za aritmetičku sredinu

Postoji poseban slučaj studentskog odnosa

Iz formule i definicije proizlazi da distribucija Studentovog t-testa ovisi samo o broju stupnjeva slobode.

Na k> 30 t-test praktički se ne razlikuje od standardne normalne distribucije.

Za razliku od hi-kvadrata, t-test može biti jednostran ili dvostran. Obično koriste dvostrano, pod pretpostavkom da se odstupanje može pojaviti u oba smjera od prosjeka. Ali ako uvjet problema dopušta odstupanje samo u jednom smjeru, tada je razumno koristiti jednostrani kriterij. Ovo malo povećava snagu, jer... na fiksnoj razini značajnosti, kritična vrijednost lagano se približava nuli.

Uvjeti za korištenje Studentovog t-testa

Unatoč činjenici da je Studentovo otkriće svojedobno revolucioniralo statistiku, t-test je još uvijek prilično ograničen u mogućnostima primjene, jer dolazi od pretpostavke normalne distribucije izvornih podataka. Ako podaci nisu normalni (što je obično slučaj), tada t-test više neće imati Studentovu distribuciju. Međutim, zbog djelovanja središnjeg graničnog teorema, prosjek čak i za abnormalne podatke brzo poprima raspodjelu u obliku zvona.

Razmotrimo, na primjer, podatke koji su jasno iskrivljeni udesno, kao što je hi-kvadrat distribucija s 5 stupnjeva slobode.

Kreirajmo sada 20 tisuća uzoraka i promatrajmo kako se distribucija prosjeka mijenja ovisno o njihovom volumenu.

Razlika je prilično uočljiva u malim uzorcima do 15-20 promatranja. Ali onda brzo nestane. Dakle, nenormalnost distribucije, naravno, nije dobra, ali nije kritična.

Najviše od svega, t-test se "boji" outliera, tj. abnormalna odstupanja. Uzmimo 20 tisuća normalnih uzoraka od po 15 promatranja i nekima od njih dodajmo jedan nasumični outlier.

Slika ispada sumorna. Stvarne učestalosti prosjeka jako se razlikuju od teoretskih. Korištenje t-distribucije u takvoj situaciji postaje vrlo riskantan pothvat.

Dakle, u ne baš malim uzorcima (od 15 opažanja), t-test je relativno otporan na nenormalnu distribuciju izvornih podataka. Ali odstupanja u podacima uvelike iskrivljuju distribuciju t-testa, što zauzvrat može dovesti do pogrešaka u statističkom zaključivanju, pa bi nenormalna opažanja trebala biti eliminirana. Često se iz uzorka uklanjaju sve vrijednosti koje padaju unutar ±2 standardne devijacije od srednje vrijednosti.

Primjer testiranja hipoteze o matematičkom očekivanju pomoću Studentovog t-testa u MS Excelu

Excel ima nekoliko funkcija povezanih s t-distribucijom. Pogledajmo ih.

STUDENT.DIST – “klasična” lijevostrana Studentova t-distribucija. Ulaz je vrijednost t-kriterija, broj stupnjeva slobode i opcija (0 ili 1) koja određuje što treba izračunati: gustoću ili vrijednost funkcije. Na izlazu dobivamo, odnosno, gustoću ili vjerojatnost da će slučajna varijabla biti manja od t-kriterija navedenog u argumentu.

STUDENT.DIST.2X – dvosmjerna distribucija. Argument je apsolutna vrijednost (modulo) t-testa i broj stupnjeva slobode. Kao rezultat toga dobivamo vjerojatnost dobivanja iste ili čak veće vrijednosti t-kriterija, tj. stvarna razina značajnosti (p-razina).

STUDENT.DIST.PH – desna t-distribucija. Dakle, 1-STUDENT.DIST(2;5;1) = STUDENT.DIST.PH(2;5) = 0,05097. Ako je t-test pozitivan, tada je rezultirajuća vjerojatnost p-razine.

STUDENT.INR – koristi se za izračunavanje lijevostranog inverza t-distribucije. Argument je vjerojatnost i broj stupnjeva slobode. Na izlazu dobivamo vrijednost t-kriterija koja odgovara ovoj vjerojatnosti. Broj vjerojatnosti je na lijevoj strani. Stoga lijevi rep zahtijeva samu razinu značajnosti α , a za desnu 1 - α .

STUDENT.OBR.2X – inverzna vrijednost za dvostranu Studentovu distribuciju, tj. vrijednost t-testa (modulo). Razina značajnosti također se dostavlja ulazu α . Samo što se ovaj put brojanje provodi s obje strane istovremeno, tako da je vjerojatnost raspoređena na dva repa. Dakle, STUDENT.ARV(1-0,025;5) = STUDENT.ARV.2X(0,05;5) = 2,57058

STUDENT.TEST je funkcija za provjeru hipoteze o jednakosti matematičkih očekivanja u dva uzorka. Zamjenjuje hrpu kalkulacija, jer Dovoljno je navesti samo dva raspona s podacima i još par parametara. Izlaz je p-razina.

POVJERENJE.STUDENT – izračun intervala pouzdanosti prosjeka uzimajući u obzir t-distribuciju.

Razmotrimo ovaj primjer obuke. U poduzeću se cement pakira u vreće od 50 kg. Zbog nasumičnosti dopušteno je određeno odstupanje od očekivane mase u jednoj vreći, ali opći prosjek treba ostati 50 kg. Odjel kontrole kvalitete nasumično je izvagao 9 vrećica i dobio sljedeće rezultate: prosječna težina ( X) bila je 50,3 kg, standardna devijacija ( s) – 0,5 kg.

Je li ovaj rezultat u skladu s nultom hipotezom da je opći prosjek 50 kg? Drugim riječima, je li moguće dobiti takav rezultat pukim slučajem ako oprema ispravno radi i proizvodi prosječno punjenje od 50 kg? Ako se hipoteza ne odbaci, tada se dobivena razlika uklapa u raspon slučajnih fluktuacija, ali ako se hipoteza odbaci, tada je najvjerojatnije došlo do kvara u postavkama stroja koji puni vrećice. Potrebno ga je provjeriti i konfigurirati.

Kratki uvjet u općeprihvaćenoj notaciji izgleda ovako.

H0: μ = 50 kg

H1: μ ≠ 50 kg

Postoji razlog za pretpostavku da raspodjela punjenja vreća slijedi normalnu raspodjelu (ili se ne razlikuje mnogo od nje). To znači da za testiranje hipoteze o matematičkom očekivanju možete koristiti Studentov t-test. Slučajna odstupanja mogu se pojaviti u bilo kojem smjeru, što znači da je potreban dvostrani t-test.

Prvo ćemo koristiti pretpotopna sredstva: ručno izračunavanje t-kriterija i njegovu usporedbu s kritičnom vrijednošću tablice. Izračunati t-test:

Sada odredimo prelazi li dobiveni broj kritičnu razinu na razini značajnosti α = 0,05. Upotrijebimo Studentovu tablicu t-distribucije (dostupnu u svakom udžbeniku statistike).

U stupcima je prikazana vjerojatnost desne strane distribucije, a u redovima broj stupnjeva slobode. Zanima nas dvostrani t-test s razinom značajnosti od 0,05, što je ekvivalentno t-vrijednosti za polovicu razine značajnosti s desne strane: 1 - 0,05/2 = 0,975. Broj stupnjeva slobode je veličina uzorka minus 1, tj. 9 - 1 = 8. Na raskrižju nalazimo tabličnu vrijednost t-testa - 2,306. Ako bismo koristili standardnu ​​normalnu distribuciju, tada bi kritična točka bila 1,96, ali ovdje je veća, jer T-distribucija u malim uzorcima ima spljošteniji izgled.

Usporedimo stvarnu (1,8) i tabličnu vrijednost (2,306). Pokazalo se da je izračunati kriterij manji od tabličnog. Prema tome, dostupni podaci ne proturječe hipotezi H 0 da je opći prosjek 50 kg (ali je niti ne dokazuju). To je sve što možemo naučiti pomoću tablica. Možete, naravno, također pokušati pronaći p-razinu, ali to će biti približno. I, u pravilu, p-razina se koristi za provjeru hipoteza. Stoga, sljedeći put prelazimo na Excel.

Ne postoji gotova funkcija za izračunavanje t-testa u Excelu. Ali to nije zastrašujuće, jer je Studentova t-test formula prilično jednostavna i može se lako izgraditi izravno u Excel ćeliji.

Dobili smo isti 1.8. Najprije pronađimo kritičnu vrijednost. Uzimamo alfa 0,05, kriterij je dvostran. Potrebna nam je inverzna funkcija t-distribucije za dvostranu hipotezu STUDENT.OBR.2X.

Dobivena vrijednost odsijeca kritično područje. Promatrani t-test ne spada u njega, pa se hipoteza ne odbacuje.

Međutim, ovo je isti način testiranja hipoteze pomoću tablične vrijednosti. Bilo bi informativnije izračunati p-razinu, tj. vjerojatnost dobivanja promatranog ili čak većeg odstupanja od prosjeka od 50 kg, ako je ova hipoteza točna. Trebat će vam funkcija Studentove distribucije za dvostranu hipotezu STUDENT.DIST.2X.

P-razina je 0,1096, što je više od prihvatljive razine značajnosti od 0,05 – ne odbacujemo hipotezu. Ali sada možemo prosuditi stupanj dokaza. Pokazalo se da je P-razina prilično blizu razine kada se hipoteza odbacuje, a to navodi na drugačija razmišljanja. Na primjer, da je uzorak premalen da bi se otkrilo značajno odstupanje.

Nakon nekog vremena, kontrolni odjel ponovno je odlučio provjeriti kako se održava standard punjenja vrećica. Ovaj put, za veću pouzdanost, odabrano je ne 9, već 25 vrećica. Intuitivno je jasno da će se širenje prosjeka smanjiti, a time i šanse da se pronađe kvar u sustavu postaju veće.

Recimo da su dobivene iste vrijednosti srednje i standardne devijacije za uzorak kao i prvi put (50,3 odnosno 0,5). Izračunajmo t-test.


Kritična vrijednost za 24 stupnja slobode i α = 0,05 je 2,064. Slika ispod pokazuje da t-test spada u raspon odbacivanja hipoteze.

Možemo zaključiti da se uz vjerojatnost pouzdanosti veću od 95% opći prosjek razlikuje od 50 kg. Da budemo uvjerljiviji, pogledajmo p-razinu (posljednji red u tablici). Vjerojatnost dobivanja prosjeka s istim ili čak većim odstupanjem od 50, ako je hipoteza točna, iznosi 0,0062, odnosno 0,62%, što je praktički nemoguće s jednim mjerenjem. Općenito, odbacujemo hipotezu kao malo vjerojatnu.

Izračunavanje intervala pouzdanosti korištenjem Studentove t-distribucije

Još jedna statistička metoda usko je povezana s testiranjem hipoteza - izračun intervala pouzdanosti. Ako rezultirajući interval sadrži vrijednost koja odgovara nultoj hipotezi, tada je to ekvivalentno činjenici da nulta hipoteza nije odbačena. U suprotnom, hipoteza se odbacuje s odgovarajućom razinom pouzdanosti. U nekim slučajevima analitičari uopće ne testiraju hipoteze u klasičnom obliku, već samo izračunavaju intervale pouzdanosti. Ovaj vam pristup omogućuje izvlačenje još korisnijih informacija.

Izračunajmo intervale pouzdanosti za srednju vrijednost za 9 i 25 promatranja. Za to ćemo koristiti Excel funkciju CONFIDENT.STUDENT. Ovdje je, začudo, sve vrlo jednostavno. Argumenti funkcije trebaju samo naznačiti razinu značajnosti α , standardna devijacija uzorka i veličina uzorka. Na izlazu dobivamo poluširinu intervala pouzdanosti, odnosno vrijednost koju treba smjestiti s obje strane prosjeka. Nakon što smo izvršili izračune i nacrtali vizualni dijagram, dobivamo sljedeće.

Kao što vidite, kod uzorka od 9 opažanja vrijednost 50 spada u interval pouzdanosti (hipoteza nije odbačena), a kod 25 opažanja ne spada u interval pouzdanosti (hipoteza je odbačena). Štoviše, u eksperimentu s 25 vreća može se ustvrditi da s vjerojatnošću od 97,5% opći prosjek prelazi 50,1 kg (donja granica intervala pouzdanosti je 50,094 kg). A ovo je vrlo vrijedan podatak.

Stoga smo isti problem riješili na tri načina:

1. Koristeći drevni pristup, uspoređujući izračunate i tablične vrijednosti t-testa
2. Moderniji, izračunavanjem p-razine, dodavanjem stupnja pouzdanosti pri odbacivanju hipoteze.
3. Još informativniji izračunom intervala pouzdanosti i dobivanjem minimalne vrijednosti općeg prosjeka.

Važno je zapamtiti da se t-test odnosi na parametarske metode, jer temelji se na normalnoj distribuciji (ima dva parametra: srednju vrijednost i varijancu). Stoga je za njegovu uspješnu primjenu važna barem približna normalnost početnih podataka i nepostojanje outliera.

Na kraju, predlažem da pogledate video o tome kako izvesti izračune vezane uz Studentov t-test u Excelu.

Tablica raspodjele učenika

Tablice integrala vjerojatnosti koriste se za velike uzorke iz beskonačno velike populacije. Ali već u (n)< 100 получается Несоответствие между

tablični podaci i granična vjerojatnost; na (n)< 30 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в гене-

opća populacija nije bitna, budući da se distribucija odstupanja pokazatelja uzorka od opće karakteristike s velikim uzorkom uvijek pokaže normalnom.

ne m. U malim uzorcima (n)< 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из со-

populacije koja ima normalan raspored. Teoriju malih uzoraka razvio je engleski statističar W. Gosset (koji je pisao pod pseudonimom Student) početkom 20. stoljeća. U

Godine 1908. konstruirao je posebnu distribuciju koja omogućuje, čak i s malim uzorcima, korelaciju (t) i vjerojatnosti pouzdanosti F(t). Za (n) > 100, tablice Studentove distribucije daju iste rezultate kao Laplaceove tablice integrala vjerojatnosti za 30< (n ) <

100 razlika je zanemarivo. Stoga se u praktički male uzorke ubrajaju uzorci s volumenom manjim od 30 jedinica (naravno, velikim se smatra uzorak s volumenom većim od 100 jedinica).

Upotreba malih uzoraka u nekim je slučajevima posljedica prirode populacije koja se ispituje. Dakle, u uzgojnom radu, “čisto” iskustvo je lakše postići s malim brojem

parcele. Proizvodno-ekonomski eksperiment vezan uz ekonomske troškove također se provodi na malom broju pokusa. Kao što je već navedeno, u slučaju malog uzorka, i vjerojatnosti pouzdanosti i granice pouzdanosti opće sredine mogu se izračunati samo za normalno raspoređenu populaciju.

Gustoća vjerojatnosti Studentove distribucije opisana je funkcijom.

1 + t2

f (t ,n) := Bn

n − 1

t - trenutna varijabla, n - veličina uzorka;

B je veličina koja ovisi samo o (n).

Studentova raspodjela ima samo jedan parametar: (d.f.) - broj stupnjeva slobode (ponekad označen (k)). Ova je distribucija, kao i normalna, simetrična oko točke (t) = 0, ali je ravnija. Kako se veličina uzorka povećava, a time i broj stupnjeva slobode, Studentova se distribucija brzo približava normalnoj. Broj stupnjeva slobode jednak je broju onih pojedinačnih vrijednosti značajki koje je potrebno rasporediti

pretpostavljaju odrediti željenu karakteristiku. Dakle, da bi se izračunala varijanca, mora biti poznata prosječna vrijednost. Stoga, kada izračunavate varijancu, koristite (d.f.) = n - 1.

Tablice raspodjele učenika objavljuju se u dvije verzije:

1. slično tablicama integrala vjerojatnosti, vrijednosti ( t ) i odgovarajuće

trenutne vjerojatnosti F(t) za različite brojeve stupnjeva slobode;

2. vrijednosti (t) dane su za najčešće korištene vjerojatnosti pouzdanosti

0,70; 0,75; 0,80; 0,85; 0,90; 0,95 i 0,99 ili za 1 - 0,70 = 0,3; 1 - 0,80 = 0,2; …… 1 - 0,99 = 0,01.

3. pri različitom broju stupnjeva slobode. Ovakva tablica data je u prilogu

(Tablica 1 - 20), kao i vrijednost (t) - Studentov test na razini značajnosti 0,7

U cijelom primjeru koristit ćemo se fiktivnim informacijama kako bi čitatelj mogao sam napraviti potrebne transformacije.

Tako smo, recimo, tijekom istraživanja proučavali učinak lijeka A na sadržaj tvari B (u mmol/g) u tkivu C i koncentraciju tvari D u krvi (u mmol/l) kod pacijenata. podijeljeni prema nekom kriteriju E u 3 skupine jednakog volumena (n = 10). Rezultati takve fiktivne studije prikazani su u tablici:

Sadržaj tvari B, mmol/g

Tvar D, mmol/l

povećanje koncentracije


Upozoravamo vas da zbog lakše prezentacije podataka i izračuna uzimamo u obzir uzorke veličine 10. U praksi takva veličina uzorka obično nije dovoljna za donošenje statističkog zaključka.

Kao primjer, razmotrite podatke u 1. stupcu tablice.

Opisne statistike

Srednja vrijednost uzorka

Aritmetička sredina, često jednostavno nazvana "srednja vrijednost", dobiva se zbrajanjem svih vrijednosti i dijeljenjem tog zbroja s brojem vrijednosti u skupu. To se može pokazati pomoću algebarske formule. Skup od n opažanja varijable x može se predstaviti kao x 1 , x 2 , x 3 , ..., x n

Formula za određivanje aritmetičke sredine opažanja (izgovara se "X s crtom"):

= (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Varijanca uzorka

Jedan od načina mjerenja disperzije podataka je određivanje stupnja do kojeg svako opažanje odstupa od aritmetičke sredine. Očito, što je veće odstupanje, veća je varijabilnost, varijabilnost opažanja. Međutim, ne možemo koristiti prosjek tih odstupanja kao mjera disperzije, jer pozitivna odstupanja kompenziraju negativna odstupanja (njihov zbroj je nula). Da bismo riješili ovaj problem, kvadriramo svako odstupanje i nalazimo prosjek kvadrata odstupanja; ta se veličina naziva varijacija ili disperzija. Uzmimo n opažanja x 1, x 2, x 3, ..., x n, prosjek koji je jednak. Izračunavanje varijance ovo, obično se nazivas2,ova zapažanja:

Varijanca uzorka ovog pokazatelja je s 2 = 3,2.

Standardna devijacija

Standardna (srednja kvadratna) devijacija je pozitivan kvadratni korijen varijance. Koristeći n opažanja kao primjer, to izgleda ovako:

Standardnu ​​devijaciju možemo zamisliti kao neku vrstu prosječnog odstupanja opažanja od srednje vrijednosti. Izračunava se u istim jedinicama (dimenzijama) kao izvorni podaci.

s = sqrt (s 2) = sqrt (3,2) = 1,79.

Koeficijent varijacije

Ako standardnu ​​devijaciju podijelite s aritmetičkom sredinom i rezultat izrazite u postocima, dobit ćete koeficijent varijacije.

CV = (1,79 / 13,1) * 100% = 13,7

Pogreška srednje vrijednosti uzorka

1,79/sqrt(10) = 0,57;

Studentov t koeficijent (t-test jednog uzorka)

Koristi se za testiranje hipoteze o razlici između prosječne vrijednosti i neke poznate vrijednosti m

Broj stupnjeva slobode izračunava se kao f=n-1.

U ovom slučaju, interval pouzdanosti za srednju vrijednost je između granica od 11,87 i 14,39.

Za 95%-tnu razinu pouzdanosti m=11,87 ili m=14,39, to je = |13,1-11,82| = |13.1-14.38| = 1,28

Prema tome, u ovom slučaju za broj stupnjeva slobode f = 10 - 1 = 9 i 95%-tnu razinu pouzdanosti t = 2,26.

Dijalog Osnovna statistika i tablice

U modulu Osnovne statistike i tablice izaberimo Opisne statistike.

Otvorit će se dijaloški okvir Opisne statistike.

U polju Varijable izaberimo Grupa 1.

Pritiskom u redu, dobivamo tablice rezultata s deskriptivnom statistikom odabranih varijabli.

Otvorit će se dijaloški okvir T-test jednog uzorka.

Pretpostavimo da znamo da je prosječni sadržaj tvari B u tkivu C 11.

Tablica rezultata s deskriptivnom statistikom i Studentovim t-testom je sljedeća:

Morali smo odbaciti hipotezu da je prosječni sadržaj tvari B u tkivu C 11.

Budući da je izračunata vrijednost kriterija veća od tablične vrijednosti (2.26), nulta hipoteza se odbacuje na odabranoj razini značajnosti, a razlike između uzorka i poznate vrijednosti smatraju se statistički značajnim. Dakle, zaključak o postojanju razlika donesen pomoću Studentovog testa potvrđuje se ovom metodom.

KATEGORIJE

POPULARNI ČLANCI

2023 “kingad.ru” - ultrazvučni pregled ljudskih organa