Valoarea tabelară a testului t student. Statistici de bază și testul t Student

În ce cazuri poate fi folosit testul t al Studentului?

Pentru a aplica testul t Student, este necesar ca datele originale să aibă distributie normala. În cazul aplicării unui criteriu de două eșantioane pentru probe independente, este, de asemenea, necesară îndeplinirea condiției egalitatea (homoscedasticitatea) varianţelor.

Dacă aceste condiții nu sunt îndeplinite, ar trebui utilizate metode similare atunci când se compară mediile eșantionului. statistici neparametrice, printre care cele mai cunoscute sunt Testul U Mann-Whitney(ca un test cu două eșantioane pentru probe independente) și criteriul semnuluiȘi testul Wilcoxon(utilizat în cazul probelor dependente).

Pentru a compara valorile medii, testul t al lui Student este calculat folosind următoarea formulă:

Unde M 1- media aritmetică a primei populații (grup) comparate; M 2- media aritmetică a celei de-a doua populații (grup) comparate; m 1- eroarea medie a primei medii aritmetice, m 2- eroarea medie a celei de-a doua medii aritmetice.

Cum se interpretează valoarea testului t a Studentului?

Valoarea testului t Student rezultată trebuie interpretată corect. Pentru a face acest lucru, trebuie să cunoaștem numărul de subiecți din fiecare grupă (n 1 și n 2). Aflarea numărului de grade de libertate f după următoarea formulă:

f = (n 1 + n 2) - 2

După aceasta, determinăm valoarea critică a testului t al Studentului pentru nivelul necesar de semnificație (de exemplu, p = 0,05) și pentru un număr dat de grade de libertate f conform tabelului ( vezi mai jos).

Comparăm valorile critice și calculate ale criteriului:

· Dacă valoarea calculată a testului t Student egală sau mai mare critice, constatate din tabel, concluzionăm că diferențele dintre valorile comparate sunt semnificative statistic.

· Dacă valoarea testului t Student calculat Mai puțin tabelar, ceea ce înseamnă că diferențele dintre valorile comparate nu sunt semnificative statistic.

Exemplu de calcul al testului t Student

Pentru a studia eficacitatea unui nou preparat de fier, au fost selectate două grupuri de pacienți cu anemie. În primul grup, pacienții au primit un nou medicament timp de două săptămâni, iar în al doilea grup au primit un placebo. După aceasta, au fost măsurate nivelurile de hemoglobină din sângele periferic. În primul grup, nivelul mediu de hemoglobină a fost de 115,4±1,2 g/l, iar în al doilea grup - 103,7±2,3 g/l (datele sunt prezentate în format M±m), populațiile comparate au o distribuție normală. Numărul primului grup a fost de 34, iar al doilea - 40 de pacienți. Este necesar să se tragă o concluzie despre semnificația statistică a diferențelor obținute și eficacitatea noului preparat de fier.

Soluţie: Pentru a evalua semnificația diferențelor, folosim testul t al lui Student, calculat ca diferența de valori medii împărțită la suma erorilor pătrate:

După efectuarea calculelor, valoarea t-test s-a dovedit a fi 4,51. Găsim numărul de grade de libertate ca (34 + 40) - 2 = 72. Comparăm valoarea testului t Student rezultată de 4,51 cu valoarea critică la p = 0,05 indicată în tabel: 1,993. Deoarece valoarea calculată a criteriului este mai mare decât valoarea critică, concluzionăm că diferențele observate sunt semnificative statistic (nivel de semnificație p<0,05).

Distribuția Fisher este distribuția unei variabile aleatoare

unde sunt variabilele aleatoare X 1Și X 2 sunt independente și au distribuții chi-pătrat cu numărul de grade de libertate k 1Și k 2 respectiv. În același timp, cuplul (k 1 , k 2)– o pereche de „grade de libertate” ale distribuției Fisher și anume, k 1 este numărul de grade de libertate ale numărătorului și k 2– numărul de grade de libertate al numitorului. Distribuția unei variabile aleatoare F numit după marele statistician englez R. Fisher (1890-1962), care l-a folosit activ în lucrările sale.

Distribuția Fisher este utilizată atunci când se testează ipoteze despre adecvarea modelului în analiza de regresie, egalitatea varianțelor și în alte probleme de statistică aplicată.

Tabelul valorilor critice ale Studentului.

Începutul formei

Numărul de grade de libertate, f Valoarea testului t a lui Student la p=0,05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
40-41 2.021
42-43 2.018
44-45 2.015
46-47 2.013
48-49 2.011
50-51 2.009
52-53 2.007
54-55 2.005
56-57 2.003
58-59 2.002
60-61 2.000
62-63 1.999
64-65 1.998
66-67 1.997
68-69 1.995
70-71 1.994
72-73 1.993
74-75 1.993
76-77 1.992
78-79 1.991
80-89 1.990
90-99 1.987
100-119 1.984
120-139 1.980
140-159 1.977
160-179 1.975
180-199 1.973
1.972
1.960

​ Testul t al lui Student este un nume general pentru o clasă de metode de testare statistică a ipotezelor (teste statistice) bazate pe distribuția Student. Cele mai frecvente utilizări ale testului t implică testarea egalității mediilor în două eșantioane.

1. Istoricul dezvoltării testului t

Acest criteriu a fost elaborat William Gossett pentru a evalua calitatea berii în compania Guinness. Din cauza obligațiilor față de companie privind nedezvăluirea secretelor comerciale, articolul lui Gosset a fost publicat în 1908 în revista Biometrics sub pseudonimul „Student”.

2. Pentru ce este folosit testul t Student?

Testul t al lui Student este utilizat pentru a determina semnificația statistică a diferențelor de medii. Poate fi utilizat atât în ​​cazuri de comparare a probelor independente ( de exemplu, grupuri de diabetici și grupuri sănătoase), și la compararea populațiilor înrudite ( de exemplu, frecvența cardiacă medie la aceiași pacienți înainte și după administrarea unui medicament antiaritmic).

3. În ce cazuri poate fi folosit testul t al Studentului?

Pentru a aplica testul t Student, este necesar ca datele originale să aibă distributie normala. În cazul aplicării unui criteriu de două eșantioane pentru probe independente, este, de asemenea, necesară îndeplinirea condiției egalitatea (homoscedasticitatea) varianţelor.

Dacă aceste condiții nu sunt îndeplinite, ar trebui utilizate metode similare atunci când se compară mediile eșantionului. statistici neparametrice, printre care cele mai cunoscute sunt Testul U Mann-Whitney(ca un test cu două eșantioane pentru probe independente) și criteriul semnuluiȘi testul Wilcoxon(utilizat în cazul probelor dependente).

4. Cum se calculează testul t al lui Student?

Pentru a compara valorile medii, testul t al lui Student este calculat folosind următoarea formulă:

Unde M 1- media aritmetică a primei populații (grup) comparate; M 2- media aritmetică a celei de-a doua populații (grup) comparate; m 1- eroarea medie a primei medii aritmetice, m 2- eroarea medie a celei de-a doua medii aritmetice.

5. Cum se interpretează valoarea testului t a Studentului?

Valoarea testului t Student rezultată trebuie interpretată corect. Pentru a face acest lucru, trebuie să cunoaștem numărul de subiecți din fiecare grupă (n 1 și n 2). Aflarea numărului de grade de libertate f după următoarea formulă:

f = (n 1 + n 2) - 2

După aceasta, determinăm valoarea critică a testului t al Studentului pentru nivelul necesar de semnificație (de exemplu, p = 0,05) și pentru un număr dat de grade de libertate f conform tabelului ( vezi mai jos).

Comparăm valorile critice și calculate ale criteriului:

  • Dacă valoarea calculată a testului t Student egală sau mai mare critice, constatate din tabel, concluzionăm că diferențele dintre valorile comparate sunt semnificative statistic.
  • Dacă valoarea testului t Student calculat Mai puțin tabelar, ceea ce înseamnă că diferențele dintre valorile comparate nu sunt semnificative statistic.

6. Exemplu de calcul al testului t Student

Pentru a studia eficacitatea unui nou preparat de fier, au fost selectate două grupuri de pacienți cu anemie. În primul grup, pacienții au primit un nou medicament timp de două săptămâni, iar în al doilea grup au primit un placebo. După aceasta, au fost măsurate nivelurile de hemoglobină din sângele periferic. În primul grup, nivelul mediu de hemoglobină a fost de 115,4±1,2 g/l, iar în al doilea grup - 103,7±2,3 g/l (datele sunt prezentate în format M±m), populațiile comparate au o distribuție normală. Numărul primului grup a fost de 34, iar al doilea - 40 de pacienți. Este necesar să se tragă o concluzie despre semnificația statistică a diferențelor obținute și eficacitatea noului preparat de fier.

Soluţie: Pentru a evalua semnificația diferențelor, folosim testul t al lui Student, calculat ca diferența de valori medii împărțită la suma erorilor pătrate:

După efectuarea calculelor, valoarea t-test s-a dovedit a fi 4,51. Găsim numărul de grade de libertate ca (34 + 40) - 2 = 72. Comparăm valoarea testului t Student rezultată de 4,51 cu valoarea critică la p = 0,05 indicată în tabel: 1,993. Deoarece valoarea calculată a criteriului este mai mare decât valoarea critică, concluzionăm că diferențele observate sunt semnificative statistic (nivel de semnificație p<0,05).

Testarea ipotezelor statistice ne permite să facem inferențe puternice despre caracteristicile unei populații pe baza datelor eșantionului. Există diferite ipoteze. Una dintre ele este ipoteza despre medie (aşteptarea matematică). Esența sa este de a trage o concluzie corectă, bazată doar pe eșantionul disponibil, despre unde poate fi situată sau nu media generală (nu vom ști niciodată adevărul exact, dar putem restrânge căutarea).

A fost descrisă abordarea generală a testării ipotezelor, așa că să trecem direct la subiect. Să presupunem mai întâi că eșantionul este extras dintr-o populație normală de variabile aleatoare X cu media generală μ si varianta σ 2(Știu, știu că asta nu se întâmplă, dar nu mă întrerupe!). Media aritmetică a acestui eșantion este în mod evident ea însăși o variabilă aleatorie. Dacă extrageți multe astfel de mostre și calculați mediile lor, atunci vor avea și o așteptare matematică μ Și

Apoi variabila aleatoare

Apare întrebarea: media generală cu o probabilitate de 95% va fi în ±1,96? s x. Cu alte cuvinte, sunt distribuțiile variabilelor aleatoare

echivalent.

Această întrebare a fost pusă (și rezolvată) pentru prima dată de un chimist care a lucrat la fabrica de bere Guinness din Dublin (Irlanda). Numele chimistului era William Seely Gossett și a luat mostre de bere pentru analiză chimică. La un moment dat, se pare, William a început să fie chinuit de îndoieli vagi cu privire la distribuția mediilor. S-a dovedit a fi puțin mai murdară decât ar trebui să fie o distribuție normală.

După ce a colectat baza matematică și a calculat valorile funcției de distribuție pe care a descoperit-o, chimistul din Dublin William Gosset a scris o notă care a fost publicată în numărul din martie 1908 al revistei Biometrics (redactor-șef - Karl Pearson). Deoarece Guinness a interzis cu strictețe să dezvălui secrete de fabricare a berii; Gossett a semnat cu pseudonimul Student.

În ciuda faptului că K. Pearson inventase deja distribuția, ideea generală a normalității încă domina. Nimeni nu avea să creadă că distribuția scorurilor eșantionului ar putea să nu fie normală. Prin urmare, articolul lui W. Gosset a rămas practic neobservat și uitat. Și doar Ronald Fisher a apreciat descoperirea lui Gosset. Fischer a folosit noua distribuție în lucrarea sa și i-a dat numele Distribuția t a studentului. Criteriul de testare a ipotezelor, în consecință, a devenit Testul t al elevului. Așa a avut loc o „revoluție” în statistică, care a pășit în era analizei datelor eșantionului. Aceasta a fost o scurtă excursie în istorie.

Să vedem ce a putut vedea W. Gosset. Să generăm 20 de mii de mostre normale din 6 observații cu o medie ( X) 50 și abaterea standard ( σ ) 10. Apoi normalizăm mediile eșantionului folosind varianță generală:

Vom grupa cele 20 de mii de medii rezultate în intervale de lungime 0,1 și vom calcula frecvențele. Să descriem pe diagramă distribuția reală (Normă) și teoretică (ENorm) a frecvenței mediilor eșantionului.

Punctele (frecvențele observate) practic coincid cu linia (frecvențele teoretice). Acest lucru este de înțeles, deoarece datele sunt preluate de la aceeași populație generală, iar diferențele sunt doar erori de eșantionare.

Să facem un nou experiment. Normalizăm mediile folosind varianța eșantionului.

Să numărăm din nou frecvențele și să le trasăm pe diagramă sub formă de puncte, lăsând o linie de distribuție normală standard pentru comparație. Să notăm frecvența empirică a mediilor, să zicem, prin literă t.

Se vede că distribuțiile de această dată nu coincid prea mult. Aproape, da, dar nu la fel. Cozile au devenit mai „grele”.

Gosset-Student nu avea cea mai recentă versiune de MS Excel, dar exact acesta este efectul pe care l-a observat. De ce se întâmplă asta? Explicația este că variabila aleatoare

depinde nu numai de eroarea de eșantionare (numărător), ci și de eroarea standard a mediei (numitorul), care este și o variabilă aleatorie.

Să ne uităm puțin la ce distribuție ar trebui să aibă o astfel de variabilă aleatoare. În primul rând, va trebui să vă amintiți (sau să învățați) ceva din statisticile matematice. Există teorema lui Fisher, care afirmă că într-un eșantion dintr-o distribuție normală:

1. mediu Xși varianța eșantionului s 2 sunt mărimi independente;

2. raportul dintre eșantionul și varianța populației, înmulțit cu numărul de grade de libertate, are o distribuție χ 2(chi-pătrat) cu același număr de grade de libertate, i.e.

Unde k– numărul de grade de libertate (în engleză degrees of freedom (d.f.))

Multe alte rezultate din statistica modelelor normale se bazează pe această lege.

Să revenim la distribuția mediei. Împărțiți numărătorul și numitorul expresiei

pe σ X̅. Primim

Numătorul este o variabilă aleatorie normală standard (notăm ξ (xi)). Să exprimăm numitorul din teorema lui Fisher.

Apoi expresia originală va lua forma

Acesta este ceea ce este în formă generală (Relația elevului). Puteți deriva funcția de distribuție directă, deoarece sunt cunoscute distribuțiile ambelor variabile aleatoare din această expresie. Să lăsăm această plăcere în seama matematicienilor.

Funcția de distribuție t Student are o formulă destul de greu de înțeles, așa că nu are rost să o analizăm. Oricum, nimeni nu o folosește, pentru că... probabilitățile sunt date în tabele speciale ale distribuțiilor Student (uneori numite tabele cu coeficienții Student) sau sunt incluse în formule PC.

Deci, înarmați cu aceste noi cunoștințe, puteți înțelege definiția oficială a distribuției Student.
O variabilă aleatorie supusă distribuției Student cu k gradele de libertate este raportul dintre variabile aleatoare independente

Unde ξ distribuite conform legii normale standard și χ 2 k se supune distribuţiei χ 2 c k grade de libertate.

Astfel, formula testului t a lui Student pentru media aritmetică

Există un caz special al relației studenților

Din formula și definiție rezultă că distribuția testului t al lui Student depinde numai de numărul de grade de libertate.

La k Testul > 30 t practic nu diferă de distribuția normală standard.

Spre deosebire de chi-pătrat, testul t poate fi cu o coadă sau cu două cozi. De obicei, folosesc două fețe, presupunând că abaterea poate apărea în ambele direcții de la medie. Dar dacă starea problemei permite abaterea doar într-o direcție, atunci este rezonabil să se folosească un criteriu unilateral. Acest lucru crește ușor puterea, deoarece... la un nivel de semnificație fix, valoarea critică se apropie ușor de zero.

Condiții de utilizare a testului t Student

În ciuda faptului că descoperirea lui Student a revoluționat la un moment dat statisticile, testul t este încă destul de limitat în posibilitățile sale de aplicare, deoarece în sine provine din presupunerea unei distribuții normale a datelor originale. Dacă datele nu sunt normale (ceea ce este de obicei cazul), atunci testul t nu va mai avea o distribuție Student. Cu toate acestea, datorită acțiunii teoremei limitei centrale, media chiar și pentru datele anormale capătă rapid o distribuție în formă de clopot.

Luați în considerare, de exemplu, date care sunt în mod clar denaturate spre dreapta, cum ar fi o distribuție chi-pătrat cu 5 grade de libertate.

Acum să creăm 20 de mii de mostre și să observăm cum se modifică distribuția mediilor în funcție de volumul acestora.

Diferența este destul de vizibilă în eșantioane mici de până la 15-20 de observații. Dar apoi dispare repede. Astfel, nenormalitatea distribuției este, desigur, nu bună, dar nu critică.

Cel mai mult, testul t este „frică” de valori aberante, de exemplu. abateri anormale. Să luăm 20 de mii de eșantioane normale a câte 15 observații fiecare și să adăugăm la unele dintre ele o valoare anormală aleatorie.

Imaginea se dovedește a fi sumbră. Frecvențele reale ale mediilor sunt foarte diferite de cele teoretice. Utilizarea distribuției t într-o astfel de situație devine o întreprindere foarte riscantă.

Deci, în eșantioane nu foarte mici (din 15 observații), testul t este relativ rezistent la distribuția nenormală a datelor originale. Dar valorile aberante din date distorsionează foarte mult distribuția testului t, care, la rândul său, poate duce la erori în inferența statistică, astfel încât observațiile anormale ar trebui eliminate. Adesea, toate valorile care se încadrează în ± 2 abateri standard de la medie sunt eliminate din probă.

Un exemplu de testare a unei ipoteze despre așteptările matematice folosind testul t Student în MS Excel

Excel are mai multe funcții legate de distribuția t. Să ne uităm la ele.

STUDENT.DIST – distribuție t student „clasică” din stânga. Intrarea este valoarea criteriului t, numărul de grade de libertate și o opțiune (0 sau 1) care determină ceea ce trebuie calculat: densitatea sau valoarea funcției. La ieșire obținem, respectiv, densitatea sau probabilitatea ca variabila aleatoare să fie mai mică decât criteriul t specificat în argument.

STUDENT.DIST.2X – distribuție în două sensuri. Argumentul este valoarea absolută (modulo) a testului t și numărul de grade de libertate. Ca urmare, obținem probabilitatea de a obține aceeași valoare sau chiar mai mare a criteriului t, adică. nivelul de semnificație real (p-level).

STUDENT.DIST.PH – distribuție t pe partea dreaptă. Deci, 1-STUDENT.DIST(2;5;1) = STUDENT.DIST.PH(2;5) = 0,05097. Dacă testul t este pozitiv, atunci probabilitatea rezultată este de nivel p.

STUDENT.INR – folosit pentru a calcula inversul din stânga distribuției t. Argumentul este probabilitatea și numărul de grade de libertate. La ieșire obținem valoarea criteriului t corespunzătoare acestei probabilități. Numărul de probabilități este în stânga. Prin urmare, coada stângă necesită nivelul de semnificație în sine α , iar pentru cel potrivit 1 - α .

STUDENT.OBR.2X – valoarea inversă pentru distribuția Student pe două fețe, i.e. valoarea t-test (modulo). Nivelul de semnificație este de asemenea furnizat intrării α . Numai că de această dată numărarea se efectuează din ambele părți simultan, astfel încât probabilitatea este distribuită în două cozi. Deci, STUDENT.ARV(1-0,025;5) = STUDENT.ARV.2X(0,05;5) = 2,57058

STUDENT.TEST este o funcție de testare a ipotezei despre egalitatea așteptărilor matematice în două eșantioane. Înlocuiește o grămadă de calcule, pentru că Este suficient să specificați doar două intervale cu date și încă câțiva parametri. Ieșirea este p-level.

ÎNCREDERE.STUDENT – calculul intervalului de încredere al mediei ținând cont de distribuția t.

Să luăm în considerare acest exemplu de antrenament. La întreprindere, cimentul este ambalat în saci de 50 kg. Din cauza aleatoriei, o anumită abatere de la masa așteptată este permisă într-un singur sac, dar media generală ar trebui să rămână de 50 kg. Departamentul de control al calității a cântărit aleatoriu 9 saci și a obținut următoarele rezultate: greutate medie ( X) a fost de 50,3 kg, abatere standard ( s) – 0,5 kg.

Este acest rezultat în concordanță cu ipoteza nulă că media generală este de 50 kg? Cu alte cuvinte, este posibil să se obțină un astfel de rezultat din pură întâmplare dacă echipamentul funcționează corect și produce o umplere medie de 50 kg? Dacă ipoteza nu este respinsă, atunci diferența rezultată se încadrează în intervalul de fluctuații aleatorii, dar dacă ipoteza este respinsă, atunci cel mai probabil a existat o defecțiune în setările mașinii care umple pungile. Trebuie verificat și configurat.

O condiție scurtă în notație general acceptată arată astfel.

H0: μ = 50 kg

H1: μ ≠ 50 kg

Există motive să presupunem că distribuția umplerilor de sac urmează o distribuție normală (sau nu diferă mult de aceasta). Aceasta înseamnă că pentru a testa ipoteza despre așteptările matematice, puteți utiliza testul t Student. Abaterile aleatorii pot apărea în orice direcție, ceea ce înseamnă că este necesar un test t cu două fețe.

În primul rând, vom folosi mijloace antediluviane: calcularea manuală a criteriului t și compararea acestuia cu valoarea critică a tabelului. Testul t calculat:

Acum să determinăm dacă numărul rezultat depășește nivelul critic la nivelul semnificației α = 0,05. Să folosim tabelul de distribuție t al Studentului (disponibil în orice manual de statistică).

Coloanele arată probabilitatea părții drepte a distribuției, iar rândurile arată numărul de grade de libertate. Ne interesează un test t cu două cozi cu un nivel de semnificație de 0,05, care este echivalent cu valoarea t pentru jumătate din nivelul de semnificație din dreapta: 1 - 0,05/2 = 0,975. Numărul de grade de libertate este dimensiunea eșantionului minus 1, adică. 9 - 1 = 8. La intersecție găsim valoarea tabelului testului t - 2,306. Dacă am folosi distribuția normală standard, atunci punctul critic ar fi 1,96, dar aici este mai mare, deoarece Distribuția t în eșantioane mici are un aspect mai aplatizat.

Să comparăm valoarea reală (1,8) și valoarea tabelului (2,306). Criteriul calculat s-a dovedit a fi mai mic decât cel tabulat. În consecință, datele disponibile nu contrazic ipoteza H 0 că media generală este de 50 kg (dar nici nu o dovedesc). Asta este tot ce putem învăța folosind tabele. Puteți, desigur, să încercați și să găsiți nivelul p, dar va fi aproximativ. Și, de regulă, nivelul p este folosit pentru a testa ipotezele. Prin urmare, trecem în continuare la Excel.

Nu există nicio funcție gata făcută pentru calcularea testului t în Excel. Dar acest lucru nu este înfricoșător, deoarece formula t-test a Studentului este destul de simplă și poate fi construită cu ușurință chiar într-o celulă Excel.

Avem același 1.8. Să găsim mai întâi valoarea critică. Luăm alfa 0,05, criteriul este cu două fețe. Avem nevoie de funcția de distribuție t inversă pentru ipoteza cu două fețe STUDENT.OBR.2X.

Valoarea rezultată taie regiunea critică. Testul t observat nu se încadrează în el, așa că ipoteza nu este respinsă.

Totuși, acesta este același mod de a testa o ipoteză folosind o valoare de tabel. Ar fi mai informativ să se calculeze p-level, de exemplu. probabilitatea de a obține abaterea observată sau chiar mai mare de la media de 50 kg, dacă această ipoteză este corectă. Veți avea nevoie de funcția de distribuție Student pentru ipoteza cu două fețe STUDENT.DIST.2X.

Nivelul P este 0,1096, care este mai mare decât nivelul de semnificație acceptabil de 0,05 – nu respingem ipoteza. Dar acum putem judeca gradul de dovezi. Nivelul P s-a dovedit a fi destul de aproape de nivelul atunci când ipoteza este respinsă, iar acest lucru duce la gânduri diferite. De exemplu, eșantionul era prea mic pentru a detecta o abatere semnificativă.

După ceva timp, departamentul de control a decis din nou să verifice cum este menținut standardul de umplere a pungilor. De data aceasta, pentru o mai mare fiabilitate, au fost selectate nu 9, ci 25 de saci. Este intuitiv clar că răspândirea mediei va scădea și, prin urmare, șansele de a găsi o defecțiune în sistem devin mai mari.

Să presupunem că au fost obținute aceleași valori ale mediei și abaterii standard pentru eșantion ca prima dată (50,3 și, respectiv, 0,5). Să calculăm testul t.


Valoarea critică pentru 24 de grade de libertate și α = 0,05 este 2,064. Imaginea de mai jos arată că testul t se încadrează în intervalul de respingere a ipotezei.

Putem concluziona că, cu o probabilitate de încredere de peste 95%, media generală diferă de 50 kg. Pentru a fi mai convingător, să ne uităm la nivelul p (ultima linie din tabel). Probabilitatea de a obține o medie cu aceeași abatere sau chiar mai mare de la 50, dacă ipoteza este corectă, este de 0,0062, sau 0,62%, ceea ce este practic imposibil cu o singură măsurare. În general, respingem ipoteza ca fiind improbabilă.

Calcularea unui interval de încredere utilizând distribuția t a studentului

O altă metodă statistică este strâns legată de testarea ipotezelor - calculul intervalelor de încredere. Dacă intervalul rezultat conține o valoare corespunzătoare ipotezei nule, atunci aceasta este echivalentă cu faptul că ipoteza nulă nu este respinsă. În caz contrar, ipoteza este respinsă cu nivelul de încredere corespunzător. În unele cazuri, analiștii nu testează deloc ipotezele în forma clasică, ci calculează doar intervale de încredere. Această abordare vă permite să extrageți și mai multe informații utile.

Să calculăm intervalele de încredere pentru media pentru 9 și 25 de observații. Pentru a face acest lucru, vom folosi funcția Excel CONFIDENT.STUDENT. Aici, destul de ciudat, totul este destul de simplu. Argumentele funcției trebuie doar să indice nivelul de semnificație α , abaterea standard a eșantionului și dimensiunea eșantionului. La ieșire obținem jumătatea lățimii intervalului de încredere, adică valoarea care trebuie plasată de ambele părți ale mediei. După ce am efectuat calculele și am desenat o diagramă vizuală, obținem următoarele.

După cum puteți vedea, la un eșantion de 9 observații, valoarea 50 se încadrează în intervalul de încredere (ipoteza nu este respinsă), iar cu 25 de observații nu se încadrează în intervalul de încredere (ipoteza este respinsă). Mai mult, într-un experiment cu 25 de saci, se poate afirma că cu o probabilitate de 97,5% media generală depășește 50,1 kg (limita inferioară a intervalului de încredere este de 50,094 kg). Și aceasta este o informație destul de valoroasă.

Astfel, am rezolvat aceeași problemă în trei moduri:

1. Utilizând o abordare antică, comparând valorile calculate și tabulate ale testului t
2. Mai modern, prin calcularea nivelului p, adăugând un grad de încredere la respingerea ipotezei.
3. Și mai informativ prin calcularea intervalului de încredere și obținerea valorii minime a mediei generale.

Este important de reținut că testul t se referă la metode parametrice, deoarece se bazează pe o distribuție normală (are doi parametri: medie și varianță). Prin urmare, pentru aplicarea sa cu succes, cel puțin normalitatea aproximativă a datelor inițiale și absența valorilor aberante sunt importante.

În cele din urmă, vă sugerez să vizionați un videoclip despre cum să efectuați calcule legate de testul t Student în Excel.

Tabel de repartizare a elevilor

Tabelele integrale de probabilitate sunt utilizate pentru eșantioane mari dintr-o populație infinit de mare. Dar deja la (n)< 100 получается Несоответствие между

date tabelare și probabilitate limită; la (n)< 30 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в гене-

populația generală nu contează, deoarece distribuția abaterilor indicatorului eșantionului de la caracteristica generală cu un eșantion mare se dovedește întotdeauna a fi normală.

nom. În eșantioane mici (n)< 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из со-

populație având o distribuție normală. Teoria eșantioanelor mici a fost dezvoltată de statisticianul englez W. Gosset (care a scris sub pseudonimul Student) la începutul secolului al XX-lea. ÎN

În 1908, el a construit o distribuție specială care permite, chiar și cu eșantioane mici, să se coreleze (t) și probabilitatea de încredere F(t). Pentru (n) > 100, tabelele de distribuție Student dau aceleași rezultate ca tabelele integrale de probabilitate Laplace pentru 30< (n ) <

100 de diferențe sunt neglijabile. Prin urmare, eșantioanele practic mici includ mostre cu un volum mai mic de 30 de unități (desigur, o probă cu un volum mai mare de 100 de unități este considerată mare).

Utilizarea de eșantioane mici în unele cazuri se datorează naturii populației care face obiectul anchetei. Astfel, în munca de reproducere, experiența „pură” este mai ușor de realizat cu un număr mic

parcele. Experimentul de producție și economic legat de costurile economice se desfășoară și pe un număr mic de încercări. După cum sa menționat deja, în cazul unui eșantion mic, atât probabilitățile de încredere, cât și limitele de încredere ale mediei generale pot fi calculate numai pentru o populație distribuită normal.

Densitatea de probabilitate a distribuției Student este descrisă de funcție.

1 + t2

f (t,n) := Bn

n - 1

t - variabilă curentă n - dimensiunea eșantionului;

B este o mărime care depinde numai de (n).

Distribuția Student are un singur parametru: (d.f.) - numărul de grade de libertate (notat uneori (k)). Această distribuție, ca și cea normală, este simetrică față de punctul (t) = 0, dar este mai plată. Pe măsură ce dimensiunea eșantionului crește și, în consecință, numărul de grade de libertate, distribuția Student se apropie rapid de normal. Numărul de grade de libertate este egal cu numărul acelor valori individuale ale caracteristicilor care trebuie distribuite

presupune pentru a determina caracteristica dorită. Astfel, pentru a calcula varianța, trebuie cunoscută valoarea medie. Prin urmare, atunci când calculați varianța, utilizați (d.f.) = n - 1.

Tabelele de distribuție pentru studenți sunt publicate în două versiuni:

1. în mod similar cu tabelele cu integrale de probabilitate, valorile ( t ) și corespunzătoare

probabilitățile curente F(t) pentru diferite numere de grade de libertate;

2. valorile (t) sunt date pentru probabilitățile de încredere cele mai frecvent utilizate

0,70; 0,75; 0,80; 0,85; 0,90; 0,95 și 0,99 sau pentru 1 - 0,70 = 0,3; 1 - 0,80 = 0,2; …… 1 - 0,99 = 0,01.

3. la un număr diferit de grade de libertate. Acest tip de tabel este prezentat în anexă

(Tabelul 1 - 20), precum și valoarea (t) - testul Student la un nivel de semnificație de 0,7

Pe tot parcursul exemplului, vom folosi informații fictive pentru ca cititorul să poată face singur transformările necesare.

Deci, să spunem, în cursul cercetării, am studiat efectul medicamentului A asupra conținutului de substanță B (în mmol/g) în țesutul C și concentrația substanței D în sânge (în mmol/l) la pacienți. împărțit după un criteriu E în 3 grupe de volum egal (n = 10). Rezultatele unui astfel de studiu fictiv sunt prezentate în tabel:

Conținut de substanță B, mmol/g

Substanța D, mmol/l

creșterea concentrației


Dorim să vă avertizăm că luăm în considerare eșantioanele de dimensiunea 10 pentru ușurința prezentării datelor și a calculelor; în practică, o astfel de dimensiune a eșantionului nu este de obicei suficientă pentru a forma o concluzie statistică.

Ca exemplu, luați în considerare datele din prima coloană a tabelului.

Statisticile descriptive

Eșantion mediu

Media aritmetică, adesea numită pur și simplu „medie”, se obține prin adăugarea tuturor valorilor și împărțirea acelei sume la numărul de valori din mulțime. Acest lucru poate fi arătat folosind o formulă algebrică. Un set de n observații ale unei variabile x poate fi reprezentat ca x 1 , x 2 , x 3 , ..., x n

Formula pentru determinarea mediei aritmetice a observațiilor (pronunțată „X cu o linie”):

= (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Varianta eșantionului

O modalitate de a măsura dispersia datelor este de a determina gradul în care fiecare observație se abate de la media aritmetică. Evident, cu cât abaterea este mai mare, cu atât variabilitatea, variabilitatea observațiilor este mai mare. Cu toate acestea, nu putem folosi media acestor abateri ca măsură de dispersie, deoarece abaterile pozitive compensează abaterile negative (suma lor este zero). Pentru a rezolva această problemă, pătratăm fiecare abatere și găsim media abaterilor pătrate; această cantitate se numește variație sau dispersie. Să luăm n observații x 1, x 2, x 3, ..., x n, medie care este egal cu. Calcularea varianței aceasta, denumită de obicei cas2,aceste observatii:

Varianța eșantionului acestui indicator este s 2 = 3,2.

Deviație standard

Abaterea standard (pătrată medie) este rădăcina pătrată pozitivă a varianței. Folosind n observații ca exemplu, arată astfel:

Ne putem gândi la abaterea standard ca la un fel de abatere medie a observațiilor de la medie. Se calculează în aceleași unități (dimensiuni) ca și datele originale.

s = sqrt (s 2) = sqrt (3,2) = 1,79.

Coeficientul de variație

Dacă împărțiți abaterea standard la media aritmetică și exprimați rezultatul ca procent, obțineți coeficientul de variație.

CV = (1,79 / 13,1) * 100% = 13,7

Eroare medie eșantion

1,79/sqrt(10) = 0,57;

Coeficientul t al studentului (testul t pentru un eșantion)

Folosit pentru a testa ipoteza despre diferența dintre valoarea medie și o valoare cunoscută m

Numărul de grade de libertate se calculează ca f=n-1.

În acest caz, intervalul de încredere pentru medie este între limitele 11,87 și 14,39.

Pentru nivelul de încredere de 95% m=11,87 sau m=14,39, adică= |13,1-11,82| = |13,1-14,38| = 1,28

În consecință, în acest caz, pentru numărul de grade de libertate f = 10 - 1 = 9 și nivelul de încredere de 95% t = 2,26.

Dialog Statistici de bază și tabele

În modul Statistici de bază și tabele hai sa alegem Statisticile descriptive.

Se va deschide o casetă de dialog Statisticile descriptive.

În câmp Variabile hai sa alegem Grupa 1.

Presare Bine, obținem tabele de rezultate cu statistici descriptive ale variabilelor selectate.

Se va deschide o casetă de dialog Testul t cu un eșantion.

Să presupunem că știm că conținutul mediu de substanță B în țesutul C este 11.

Tabelul de rezultate cu statistici descriptive și testul t Student este următorul:

A trebuit să respingem ipoteza că conținutul mediu de substanță B în țesutul C este 11.

Deoarece valoarea calculată a criteriului este mai mare decât valoarea tabelată (2.26), ipoteza nulă este respinsă la nivelul de semnificație selectat, iar diferențele dintre eșantion și valoarea cunoscută sunt considerate semnificative statistic. Astfel, concluzia despre existența diferențelor făcute cu ajutorul testului Student se confirmă prin această metodă.

CATEGORII

ARTICOLE POPULARE

2023 „kingad.ru” - examinarea cu ultrasunete a organelor umane