Valoarea tabelară a testului t al elevului. Statistici de bază și testul t Student

Când poate fi folosit testul t al Studentului?

Pentru a aplica testul t al Studentului, este necesar ca datele originale să aibă distributie normala. În cazul aplicării unui test cu două eșantioane pentru probe independente, este, de asemenea, necesară îndeplinirea condiției egalitatea (homoscedasticitatea) varianţelor.

Dacă aceste condiții nu sunt îndeplinite, atunci când se compară mediile eșantionului, ar trebui utilizate metode similare. statistici neparametrice, printre care cele mai cunoscute sunt Testul U Mann-Whitney(ca un test cu două eșantioane pentru probe independente) și criteriul semnuluiȘi testul Wilcoxon(utilizat în cazul probelor dependente).

Pentru a compara mediile, testul t al lui Student este calculat folosind următoarea formulă:

Unde M 1- media aritmetică a primei populații (grup) comparate; M 2- media aritmetică a celei de-a doua populații (grup) comparate; m 1- eroarea medie a primei medii aritmetice, m2- eroarea medie a celei de-a doua medii aritmetice.

Cum se interpretează valoarea testului t al lui Student?

Valoarea rezultată a testului t al lui Student trebuie interpretată corect. Pentru a face acest lucru, trebuie să cunoaștem numărul de subiecți din fiecare grupă (n 1 și n 2). Aflarea numărului de grade de libertate f după următoarea formulă:

f \u003d (n 1 + n 2) - 2

După aceea, determinăm valoarea critică a testului t Student pentru nivelul necesar de semnificație (de exemplu, p=0,05) și pentru un număr dat de grade de libertate f conform tabelului ( vezi mai jos).

Comparăm valorile critice și calculate ale criteriului:

Dacă valoarea calculată a testului t Student egală sau mai mare critice, găsite în tabel, concluzionăm că diferențele dintre valorile comparate sunt semnificative statistic.

Dacă valoarea testului t Student calculat Mai puțin tabelar, ceea ce înseamnă că diferențele dintre valorile comparate nu sunt semnificative statistic.

Exemplul testului t al elevului

Pentru a studia eficacitatea unui nou preparat de fier, au fost selectate două grupuri de pacienți cu anemie. În primul grup, pacienții au primit un nou medicament timp de două săptămâni, iar în al doilea grup au primit un placebo. După aceea, a fost măsurat nivelul hemoglobinei din sângele periferic. În primul grup, nivelul mediu de hemoglobină a fost de 115,4±1,2 g/l, iar în al doilea - 103,7±2,3 g/l (datele sunt prezentate în format M±m), populațiile comparate au o distribuție normală. Numărul primului grup a fost de 34, iar al doilea - 40 de pacienți. Este necesar să se tragă o concluzie despre semnificația statistică a diferențelor obținute și eficacitatea noului preparat de fier.

Soluţie: Pentru a evalua semnificația diferențelor, folosim testul t al lui Student, calculat ca diferența dintre medii împărțite la suma erorilor pătrate:

După efectuarea calculelor, valoarea testului t a fost egală cu 4,51. Găsim numărul de grade de libertate ca (34 + 40) - 2 = 72. Comparăm valoarea obținută a testului t Student 4,51 cu valoarea critică la p=0,05 indicată în tabel: 1,993. Deoarece valoarea calculată a criteriului este mai mare decât valoarea critică, concluzionăm că diferențele observate sunt semnificative statistic (nivel de semnificație p<0,05).

Distribuția Fisher este distribuția unei variabile aleatoare

unde variabile aleatorii X 1Și X 2 sunt independente și au distribuții chi - pătratul cu numărul de grade de libertate k 1Și k2 respectiv. În același timp, un cuplu (k 1 , k 2) este o pereche de „numere de grade de libertate” ale distribuției Fisher, și anume, k 1 este numărul de grade de libertate ale numărătorului și k2 este numărul de grade de libertate ale numitorului. Distribuția unei variabile aleatoare F numit după marele statistician englez R. Fisher (1890-1962), care l-a folosit activ în lucrarea sa.

Distribuția Fisher este utilizată pentru a testa ipoteze despre adecvarea modelului în analiza de regresie, despre egalitatea varianțelor și în alte probleme de statistică aplicată.

Tabelul de valori critice al elevului.

Începutul formularului

Numărul de grade de libertate, f Valoarea testului t a lui Student la p=0,05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
40-41 2.021
42-43 2.018
44-45 2.015
46-47 2.013
48-49 2.011
50-51 2.009
52-53 2.007
54-55 2.005
56-57 2.003
58-59 2.002
60-61 2.000
62-63 1.999
64-65 1.998
66-67 1.997
68-69 1.995
70-71 1.994
72-73 1.993
74-75 1.993
76-77 1.992
78-79 1.991
80-89 1.990
90-99 1.987
100-119 1.984
120-139 1.980
140-159 1.977
160-179 1.975
180-199 1.973
1.972
1.960

​ Testul t al lui Student este un nume general pentru o clasă de metode de testare statistică a ipotezelor (teste statistice) bazate pe distribuția lui Student. Cele mai frecvente cazuri de aplicare a testului t sunt legate de verificarea egalității mediilor în două eșantioane.

1. Istoricul dezvoltării testului t

Acest criteriu a fost elaborat William Gosset pentru a evalua calitatea berii la Guinness. În legătură cu obligațiile față de companie de a nu dezvălui secrete comerciale, articolul lui Gosset a fost publicat în 1908 în revista Biometrics sub pseudonimul „Student” (Student).

2. Pentru ce este folosit testul t Student?

Testul t al lui Student este utilizat pentru a determina semnificația statistică a diferențelor medii. Poate fi folosit atât în ​​cazurile de comparare a probelor independente ( de exemplu, grupuri de pacienţi cu diabet zaharat şi grupuri de sănătoşi), și când se compară seturi înrudite ( de exemplu, frecvența cardiacă medie la aceiași pacienți înainte și după administrarea unui medicament antiaritmic).

3. Când poate fi folosit testul t al Studentului?

Pentru a aplica testul t al Studentului, este necesar ca datele originale să aibă distributie normala. În cazul aplicării unui test cu două eșantioane pentru probe independente, este, de asemenea, necesară îndeplinirea condiției egalitatea (homoscedasticitatea) varianţelor.

Dacă aceste condiții nu sunt îndeplinite, atunci când se compară mediile eșantionului, ar trebui utilizate metode similare. statistici neparametrice, printre care cele mai cunoscute sunt Testul U Mann-Whitney(ca un test cu două eșantioane pentru probe independente) și criteriul semnuluiȘi testul Wilcoxon(utilizat în cazul probelor dependente).

4. Cum se calculează testul t al lui Student?

Pentru a compara mediile, testul t al lui Student este calculat folosind următoarea formulă:

Unde M 1- media aritmetică a primei populații (grup) comparate; M 2- media aritmetică a celei de-a doua populații (grup) comparate; m 1- eroarea medie a primei medii aritmetice, m2- eroarea medie a celei de-a doua medii aritmetice.

5. Cum se interpretează valoarea testului t Student?

Valoarea rezultată a testului t al lui Student trebuie interpretată corect. Pentru a face acest lucru, trebuie să cunoaștem numărul de subiecți din fiecare grupă (n 1 și n 2). Aflarea numărului de grade de libertate f după următoarea formulă:

f \u003d (n 1 + n 2) - 2

După aceea, determinăm valoarea critică a testului t Student pentru nivelul necesar de semnificație (de exemplu, p=0,05) și pentru un număr dat de grade de libertate f conform tabelului ( vezi mai jos).

Comparăm valorile critice și calculate ale criteriului:

  • Dacă valoarea calculată a testului t Student egală sau mai mare critice, găsite în tabel, concluzionăm că diferențele dintre valorile comparate sunt semnificative statistic.
  • Dacă valoarea testului t Student calculat Mai puțin tabelar, ceea ce înseamnă că diferențele dintre valorile comparate nu sunt semnificative statistic.

6. Un exemplu de calcul al testului t Student

Pentru a studia eficacitatea unui nou preparat de fier, au fost selectate două grupuri de pacienți cu anemie. În primul grup, pacienții au primit un nou medicament timp de două săptămâni, iar în al doilea grup au primit un placebo. După aceea, a fost măsurat nivelul hemoglobinei din sângele periferic. În primul grup, nivelul mediu de hemoglobină a fost de 115,4±1,2 g/l, iar în al doilea - 103,7±2,3 g/l (datele sunt prezentate în format M±m), populațiile comparate au o distribuție normală. Numărul primului grup a fost de 34, iar al doilea - 40 de pacienți. Este necesar să se tragă o concluzie despre semnificația statistică a diferențelor obținute și eficacitatea noului preparat de fier.

Soluţie: Pentru a evalua semnificația diferențelor, folosim testul t al lui Student, calculat ca diferența dintre medii împărțite la suma erorilor pătrate:

După efectuarea calculelor, valoarea testului t a fost egală cu 4,51. Găsim numărul de grade de libertate ca (34 + 40) - 2 = 72. Comparăm valoarea obținută a testului t Student 4,51 cu valoarea critică la p=0,05 indicată în tabel: 1,993. Deoarece valoarea calculată a criteriului este mai mare decât valoarea critică, concluzionăm că diferențele observate sunt semnificative statistic (nivel de semnificație p<0,05).

Testarea unei ipoteze statistice vă permite să faceți o concluzie riguroasă despre caracteristicile populației generale pe baza datelor eșantionului. Ipotezele sunt diferite. Una dintre ele este ipoteza despre medie (aşteptarea matematică). Esența sa este de a face o concluzie corectă despre unde media generală poate sau nu să se bazeze doar pe eșantionul disponibil (nu vom ști niciodată adevărul exact, dar putem restrânge cercul de căutare).

Este descrisă abordarea generală a testării ipotezelor, deci direct la obiect. Să presupunem mai întâi că eșantionul este extras dintr-un set normal de variabile aleatoare X cu media generală μ și dispersie σ2(Știu, știu că acest lucru nu se întâmplă, dar nu trebuie să mă întrerupeți!). Media aritmetică a acestui eșantion este în mod evident ea însăși o variabilă aleatorie. Dacă extragem multe astfel de eșantioane și calculăm mediile pentru ele, atunci vor avea și așteptările matematice μ Și

Apoi variabila aleatoare

Se pune întrebarea: media generală cu o probabilitate de 95% va fi în ±1,96 s x. Cu alte cuvinte, sunt distribuțiile variabilelor aleatoare

echivalent.

Pentru prima dată această întrebare a fost ridicată (și rezolvată) de un chimist care lucra la fabrica de bere Guinness din Dublin (Irlanda). Numele chimistului era William Seeley Gosset și a luat mostre de bere pentru analiză chimică. La un moment dat, se pare, William a început să aibă îndoieli vagi cu privire la distribuția mediilor. S-a dovedit a fi puțin mai răspândit decât ar trebui să fie o distribuție normală.

După ce a strâns o justificare matematică și a calculat valorile funcției de distribuție pe care a descoperit-o, chimistul din Dublin William Gosset a scris o notă care a fost publicată în numărul din martie 1908 al revistei Biometrics (editor-șef - Karl Pearson) . Deoarece Guinness a interzis cu strictețe să dezvăluie secretele fabricării berii, Gosset a semnat sub pseudonimul Student.

În ciuda faptului că K. Pearson inventase deja distribuția, totuși, ideea generală a normalității încă domina. Nimeni nu avea să creadă că distribuția estimărilor eșantionului ar putea să nu fie normală. Prin urmare, articolul lui W. Gosset a rămas practic neobservat și uitat. Și doar Ronald Fisher a apreciat descoperirea lui Gosset. Fischer a folosit noua distribuție în lucrarea sa și i-a dat numele Distribuția t a studentului. Criteriul de testare a ipotezelor, respectiv, a devenit Testul t al elevului. Deci a avut loc o „revoluție” în statistică, care a pășit în era analizei datelor eșantionului. A fost o scurtă digresiune în istorie.

Să vedem ce a putut vedea W. Gosset. Să generăm 20 de mii de eșantioane normale din 6 observații cu medie ( X) 50 și abaterea standard ( σ ) 10. Apoi normalizăm mediile eșantionului folosind varianță generală:

Grupăm cele 20 de mii de medii rezultate în intervale de 0,1 lungime și calculăm frecvențele. Să reprezentăm pe o diagramă distribuțiile de frecvență actuale (Normă) și teoretice (ENorm) ale mijloacelor eșantionului.

Punctele (frecvențele observate) aproape coincid cu linia (frecvențele teoretice). Acest lucru este de înțeles, deoarece datele sunt preluate de la aceeași populație generală, iar diferențele sunt doar erori de eșantionare.

Să facem un nou experiment. Normalizăm mediile folosind varianța eșantionului.

Să numărăm din nou frecvențele și să le trasăm pe diagramă sub formă de puncte, lăsând linia distribuției normale standard pentru comparație. Să notăm frecvența empirică a mediilor, să zicem, prin scrisoare t.

Se poate observa că distribuțiile de data aceasta nu sunt foarte asemănătoare. Aproape, da, dar nu la fel. Cozile au devenit mai „grele”.

Gosset-Student nu avea cea mai recentă versiune de MS Excel, dar exact acesta este efectul pe care l-a observat. De ce este așa? Explicația este că variabila aleatoare

depinde nu numai de eroarea de eșantionare (numerator), ci și de eroarea standard a mediei (numitorul), care este și o variabilă aleatorie.

Să ne dăm seama puțin ce distribuție ar trebui să aibă o astfel de variabilă aleatoare. În primul rând, trebuie să vă amintiți (sau să învățați) ceva din statisticile matematice. Există o astfel de teoremă Fisher, care spune că într-un eșantion dintr-o distribuție normală:

1. mediu Xși varianța eșantionului s2 sunt mărimi independente;

2. Raportul dintre eșantion și varianța generală, înmulțit cu numărul de grade de libertate, are o distribuție χ 2(chi-pătrat) cu același număr de grade de libertate, i.e.

Unde k- numărul de grade de libertate (în engleză degrees of freedom (d.f.))

Multe alte rezultate din statistica modelelor normale se bazează pe această lege.

Să revenim la distribuția mediei. Împărțiți numărătorul și numitorul expresiei

pe σX̅. obține

Numătorul este o variabilă aleatorie normală standard (notăm ξ (xi)). Numitorul poate fi exprimat din teorema Fisher.

Apoi expresia originală va lua forma

Aceasta este în termeni generali (raportul studentului). Este deja posibil să derivăm direct funcția de distribuție, deoarece sunt cunoscute distribuțiile ambelor variabile aleatoare din această expresie. Să lăsăm această plăcere în seama matematicienilor.

Funcția de distribuție t a Studentului are o formulă destul de greu de înțeles, așa că nu are sens să o analizăm. Oricum, nimeni nu-l folosește, pentru că. probabilitățile sunt date în tabele speciale de distribuție a lui Student (uneori numite tabele de coeficienți ai lui Student) sau sunt transformate în formule PC.

Deci, înarmat cu noi cunoștințe, veți putea înțelege definiția oficială a distribuției Student.
O variabilă aleatoare care se supune distribuției Studentului cu k gradele de libertate este raportul dintre variabile aleatoare independente

Unde ξ distribuite conform legii normale standard și χ 2k supuse distribuirii χ 2 c k grade de libertate.

Astfel, formula criteriului Studentului pentru media aritmetică

Există un caz special al relației studenților

Din formula și definiție rezultă că distribuția testului t al lui Student depinde numai de numărul de grade de libertate.

La k Testul > 30 t practic nu diferă de distribuția normală standard.

Spre deosebire de chi-pătrat, testul t poate fi cu una sau două cozi. De obicei, se utilizează două fețe, presupunând că abaterea poate apărea în ambele direcții de la medie. Dar dacă starea problemei permite abaterea doar într-o direcție, atunci este rezonabil să se aplice un criteriu unilateral. Acest lucru crește puțin puterea, tk. la un nivel de semnificație fix, valoarea critică se apropie ușor de zero.

Condiții de aplicare a testului t Student

În ciuda faptului că descoperirea lui Student a făcut la un moment dat o revoluție în statistică, testul t este încă destul de limitat în aplicabilitatea sa, deoarece în sine provine din presupunerea unei distribuții normale a datelor originale. Dacă datele nu sunt normale (ceea ce este de obicei cazul), atunci testul t nu va mai avea o distribuție Student. Cu toate acestea, datorită funcționării teoremei limitei centrale, media, chiar și pentru datele nenormale, capătă rapid o distribuție în formă de clopot.

Luați în considerare, de exemplu, datele care au o înclinare pronunțată spre dreapta, cum ar fi o distribuție chi-pătrat cu 5 grade de libertate.

Acum să creăm 20 de mii de eșantioane și să observăm cum se modifică distribuția mijloacelor în funcție de mărimea acestora.

Diferența este destul de vizibilă în eșantioane mici de până la 15-20 de observații. Dar apoi dispare repede. Astfel, anormalitatea distribuției este, desigur, nu bună, dar nu critică.

Cel mai mult, criteriul t este „frică” de valori aberante, de exemplu. abateri anormale. Să luăm 20 de mii de eșantioane normale din 15 observații și să adăugăm la unele dintre ele o valoare anormală.

Poza este nefericită. Frecvențele reale ale mediilor sunt foarte diferite de cele teoretice. Utilizarea distribuției t într-o astfel de situație devine o întreprindere foarte riscantă.

Deci, în eșantioane nu foarte mici (din 15 observații), testul t este relativ rezistent la distribuția nenormală a datelor inițiale. Dar valorile aberante din date distorsionează puternic distribuția testului t, care, la rândul său, poate duce la erori de inferență statistică, astfel încât observațiile anormale ar trebui eliminate. Adesea, toate valorile care se încadrează în afara ±2 abateri standard de la medie sunt eliminate din eșantion.

Un exemplu de testare a ipotezei așteptărilor matematice folosind testul t Student în MS Excel

Excel are mai multe funcții legate de distribuția t. Să le luăm în considerare.

STUDENT.DIST - distribuția t a Studentului pe partea stângă „clasică”. Intrarea este valoarea criteriului t, numărul de grade de libertate și opțiunea (0 sau 1) care determină ceea ce trebuie calculat: densitatea sau valoarea funcției. La ieșire, obținem, respectiv, densitatea sau probabilitatea ca variabila aleatoare să fie mai mică decât criteriul t specificat în argument.

STUDENT.DIST.2X - distribuție în două sensuri. Valoarea absolută (modulo) a criteriului t și numărul de grade de libertate sunt date ca argument. La ieșire, obținem probabilitatea de a obține această valoare sau chiar mai multă valoare a criteriului t, adică nivelul de semnificație real (p-level).

STUDENT.DIST.RH - distributie t dreptaci. Deci, 1-STUDENT.DIST(2;5;1) = STUDENT.DIST.PX(2;5) = 0,05097. Dacă testul t este pozitiv, atunci probabilitatea rezultată este de nivel p.

STUDENT.INV - folosit pentru a calcula inversul din partea stângă a distribuției t. Argumentul este probabilitatea și numărul de grade de libertate. La ieșire, obținem valoarea criteriului t corespunzătoare acestei probabilități. Probabilitatea este numărată la stânga. Prin urmare, nivelul de semnificație în sine este necesar pentru coada stângă α , iar pentru dreapta 1 - α .

STUDENT.ORD.2X este reciproca distribuției Studentului cu două cozi, adică. valoarea t-test (modulo). Nivelul de semnificație este, de asemenea, dat ca intrare. α . Numai că de această dată, numărătoarea inversă este din ambele părți în același timp, deci probabilitatea este distribuită pe două cozi. Deci, STUDENT.OBR (1-0,025; 5) \u003d STUDENT. OBR. 2X (0,05; 5) \u003d 2,57058

STUDENT.TEST este o funcție de testare a ipotezei despre egalitatea așteptărilor matematice în două eșantioane. Înlocuiește o grămadă de calcule, pentru că. este suficient să specificați doar două intervale cu date și încă câțiva parametri. Ieșirea este p-level.

ÎNCREDEREA STUDENTULUI - calculul intervalului de încredere al mediei, ținând cont de distribuția t.

Să luăm în considerare un astfel de exemplu de antrenament. Compania ambalează ciment în saci de 50 kg. Din cauza întâmplării, într-un singur sac, este permisă o oarecare abatere de la masa așteptată, dar media generală ar trebui să rămână de 50 kg. Departamentul de control al calității a cântărit aleatoriu 9 saci și a obținut următoarele rezultate: greutate medie ( X) s-a ridicat la 50,3 kg, abaterea standard ( s) - 0,5 kg.

Este rezultatul în concordanță cu ipoteza nulă că media generală este de 50 kg? Cu alte cuvinte, este posibil să obțineți un astfel de rezultat din pură întâmplare, dacă echipamentul funcționează corect și produce o umplere medie de 50 kg? Dacă ipoteza nu este respinsă, atunci diferența rezultată se încadrează în intervalul de fluctuații aleatorii, dar dacă ipoteza este respinsă, atunci, cel mai probabil, a avut loc o defecțiune în setările aparatului care umple pungile. Trebuie verificat și reglat.

O condiție scurtă în notația general acceptată arată astfel.

H0: μ = 50 kg

H1: μ ≠ 50 kg

Există motive să presupunem că distribuția ocupării bagajelor urmează o distribuție normală (sau nu diferă mult de aceasta). Deci, pentru a testa ipoteza așteptărilor matematice, puteți utiliza testul t al lui Student. Pot apărea abateri aleatorii în orice direcție, deci este necesar un test t cu două cozi.

În primul rând, aplicăm mijloace antediluviane: calculul manual al testului t și compararea acestuia cu o valoare critică de tabel. Testul t estimat:

Acum să determinăm dacă numărul rezultat depășește nivelul critic la nivelul semnificației α = 0,05. Să folosim tabelul de distribuție t al Studentului (disponibil în orice manual de statistică).

Coloanele arată probabilitatea părții drepte a distribuției, rândurile indică numărul de grade de libertate. Ne interesează un test t cu două fețe cu un nivel de semnificație de 0,05, care este echivalent cu valoarea t pentru jumătate din nivelul de semnificație din dreapta: 1 - 0,05 / 2 = 0,975. Numărul de grade de libertate este dimensiunea eșantionului minus 1, adică. 9 - 1 = 8. La intersecție, găsim valoarea tabelară a testului t - 2,306. Dacă am folosi distribuția normală standard, atunci punctul critic ar fi 1,96, dar aici este mai mult, deoarece distribuția t pe eșantioane mici are o formă mai aplatizată.

Comparăm valoarea reală (1,8) și valoarea tabelară (2,306). Criteriul calculat s-a dovedit a fi mai mic decât cel tabelar. Prin urmare, datele disponibile nu contrazic ipoteza H 0 conform căreia media generală este de 50 kg (dar nici nu o dovedesc). Asta este tot ce putem afla folosind tabelele. Puteți, desigur, să încercați în continuare să găsiți nivelul p, dar va fi aproximativ. Și, de regulă, p-level este folosit pentru a testa ipotezele. Deci, să trecem la Excel.

Nu există nicio funcție gata făcută pentru calcularea testului t în Excel. Dar acest lucru nu este înfricoșător, deoarece formula t-test a Studentului este destul de simplă și poate fi construită cu ușurință chiar într-o celulă Excel.

Am primit același 1.8. Să găsim mai întâi valoarea critică. Luăm alfa 0,05, criteriul este cu două fețe. Avem nevoie de o funcție a valorii inverse a distribuției t pentru ipoteza cu două cozi STUDENT.OBR.2X.

Valoarea rezultată taie regiunea critică. Testul t observat nu se încadrează în el, așa că ipoteza nu este respinsă.

Totuși, acesta este același mod de a testa o ipoteză cu o valoare de tabel. Va fi mai informativ să se calculeze nivelul p, adică. probabilitatea de a obține abaterea observată sau chiar mai mare de la media de 50 kg dacă această ipoteză este corectă. Veți avea nevoie de o funcție de distribuție a Studentului pentru ipoteza cu două cozi STUDENT.DIST.2X.

Nivelul P este egal cu 0,1096, care este mai mult decât nivelul de semnificație permis de 0,05 - nu respingem ipoteza. Dar acum putem judeca gradul de dovezi. Nivelul P s-a dovedit a fi destul de aproape de nivelul atunci când ipoteza este respinsă, iar acest lucru duce la gânduri diferite. De exemplu, eșantionul era prea mic pentru a detecta o abatere semnificativă.

Să presupunem că, după un timp, departamentul de control a decis din nou să verifice cum a fost menținut standardul de umplere a sacului. De data aceasta, pentru o mai mare fiabilitate, au fost selectate nu 9, ci 25 de saci. Este intuitiv clar că răspândirea mediei va scădea și, prin urmare, șansele de a găsi o defecțiune în sistem devin mai mari.

Să presupunem că au fost obținute aceleași valori ale mediei și abaterii standard pentru eșantion ca prima dată (50,3 și, respectiv, 0,5). Să calculăm testul t.


Valoarea critică pentru 24 de grade de libertate și α = 0,05 este 2,064. Imaginea de mai jos arată că testul t se încadrează în zona respingerii ipotezei.

Se poate concluziona că, cu o probabilitate de încredere de peste 95%, media generală diferă de 50 kg. Pentru a fi mai convingător, să ne uităm la p-level (ultima linie din tabel). Probabilitatea de a obține o medie cu această abatere sau chiar mai mare de la 50, dacă ipoteza este corectă, este de 0,0062, sau 0,62%, ceea ce este aproape imposibil cu o singură măsurare. În general, respingem ipoteza ca fiind improbabilă.

Calcularea unui interval de încredere utilizând distribuția t a studentului

O altă metodă statistică strâns legată de testarea ipotezelor este calculul intervalelor de încredere. Dacă valoarea corespunzătoare ipotezei nule se încadrează în intervalul obținut, atunci aceasta este echivalentă cu faptul că ipoteza nulă nu este respinsă. În caz contrar, ipoteza este respinsă cu nivelul de încredere corespunzător. În unele cazuri, analiștii nu testează deloc ipotezele în forma clasică, ci calculează doar intervale de încredere. Această abordare vă permite să extrageți și mai multe informații utile.

Să calculăm intervalele de încredere pentru media la 9 și 25 de observații. Pentru a face acest lucru, vom folosi funcția Excel ÎNCREDERE.STUDENT. Aici, destul de ciudat, totul este destul de simplu. În argumentele funcției, trebuie să specificați doar nivelul de semnificație α , abaterea standard a eșantionului și dimensiunea eșantionului. La ieșire, obținem jumătatea lățimii intervalului de încredere, adică valoarea care trebuie pusă deoparte de ambele părți ale mediei. După ce facem calculele și desenăm o diagramă vizuală, obținem următoarele.

După cum se poate observa, la un eșantion de 9 observații, valoarea lui 50 se încadrează în intervalul de încredere (ipoteza nu este respinsă), iar la 25 de observații nu se încadrează (ipoteza este respinsă). Totodată, în experimentul cu 25 de saci, se poate argumenta că, cu o probabilitate de 97,5%, media generală depășește 50,1 kg (limita inferioară a intervalului de încredere este de 50,094 kg). Și acestea sunt informații destul de valoroase.

Astfel, am rezolvat aceeași problemă în trei moduri:

1. O abordare străveche, comparând valoarea calculată și tabelară a criteriului t
2. Mai modern, prin calcularea nivelului p, adăugând un grad de încredere în respingerea ipotezei.
3. Și mai informativ prin calcularea intervalului de încredere și obținerea valorii minime a mediei generale.

Este important de reținut că testul t se referă la metode parametrice, deoarece bazată pe o distribuție normală (are doi parametri: medie și varianță). Prin urmare, pentru aplicarea sa cu succes, cel puțin normalitatea aproximativă a datelor inițiale și absența valorilor aberante sunt importante.

În sfârșit, vă propun să vizionați un videoclip despre cum să efectuați calcule legate de testul t Student în Excel.

Tabel de repartizare a elevilor

Tabelele integrale de probabilitate sunt utilizate pentru eșantioane mari dintr-o populație infinit de mare. Dar deja la (n)< 100 получается Несоответствие между

date tabelare și probabilitate limită; la (n)< 30 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в гене-

Nu contează pentru populația generală, deoarece distribuția abaterilor indicatorului eșantionului de la caracteristica generală cu un eșantion mare se dovedește întotdeauna a fi normală.

nym. În eșantioane de dimensiuni mici (n)< 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из со-

o populație care are o distribuție normală. Teoria eșantioanelor mici a fost dezvoltată de statisticianul englez W. Gosset (care a scris sub pseudonimul Student) la începutul secolului al XX-lea. ÎN

În 1908, el a construit o distribuție specială care permite, chiar și cu eșantioane mici, să se coreleze (t) și probabilitatea de încredere F(t). Pentru (n) > 100, tabelele de distribuție Student dau aceleași rezultate ca tabelele integrale de probabilitate Laplace pentru 30< (n ) <

100 de diferențe sunt minore. Prin urmare, în practică, eșantioanele mici includ mostre cu un volum mai mic de 30 de unități (desigur, o probă cu un volum mai mare de 100 de unități este considerată mare).

Utilizarea de eșantioane mici în unele cazuri se datorează naturii populației chestionate. Astfel, în munca de reproducere, experiența „pură” este mai ușor de realizat pe un număr mic de

parcele. Experimentul de producție și economic, asociat cu costurile economice, se desfășoară și pe un număr mic de încercări. După cum sa menționat deja, în cazul unui eșantion mic, numai pentru o populație generală distribuită normal pot fi calculate atât probabilitățile de încredere, cât și limitele de încredere ale mediei generale.

Densitatea de probabilitate a distribuției lui Student este descrisă de o funcție.

1 + t2

f (t,n) := Bn

n - 1

t - variabilă curentă n - dimensiunea eșantionului;

B este o valoare care depinde numai de (n).

Distribuția lui Student are un singur parametru: (d.f. ) - numărul de grade de libertate (notat uneori cu (k)). Această distribuție este, ca și cea normală, simetrică față de punctul (t) = 0, dar este mai plată. Odată cu creșterea dimensiunii eșantionului și, în consecință, a numărului de grade de libertate, distribuția Studentului se apropie rapid de normal. Numărul de grade de libertate este egal cu numărul acelor valori individuale ale caracteristicilor care trebuie să fie

presupunem să determinăm caracteristica dorită. Deci, pentru a calcula varianța, trebuie cunoscută valoarea medie. Prin urmare, la calcularea dispersiei, se utilizează (d.f.) = n - 1.

Tabelele de distribuție pentru studenți sunt publicate în două versiuni:

1. similar cu tabelele integralei de probabilitate, valorile ( t) și

probabilități cumulate F(t) pentru diferite numere de grade de libertate;

2. valorile (t) sunt date pentru probabilitățile de încredere cele mai frecvent utilizate

0,70; 0,75; 0,80; 0,85; 0,90; 0,95 și 0,99 sau pentru 1 - 0,70 = 0,3; 1 - 0,80 = 0,2; …… 1 - 0,99 = 0,01.

3. cu un număr diferit de grade de libertate. Un astfel de tabel este prezentat în anexă.

(Tabelul 1 - 20), precum și valoarea (t) - testul Student la un nivel de semnificație de 0,7

Pe parcursul exemplului, vom folosi informații fictive pentru ca cititorul să poată face singur transformările necesare.

Deci, de exemplu, în cursul cercetărilor, am studiat efectul medicamentului A asupra conținutului de substanță B (în mmol / g) în țesutul C și concentrația de substanță D în sânge (în mmol / l) la pacienți. împărțit după un anumit criteriu E în 3 grupe de volum egal (n = 10). Rezultatele acestui studiu fictiv sunt prezentate în tabel:

Conținut de substanță B, mmol/g

Substanța D, mmol/l

cresterea concentratiei


Dorim să vă avertizăm că eșantioanele de dimensiunea 10 sunt considerate de noi pentru ușurința prezentării datelor și a calculelor; în practică, o astfel de dimensiune a eșantionului nu este de obicei suficientă pentru a forma o concluzie statistică.

Ca exemplu, luați în considerare datele primei coloane a tabelului.

Statisticile descriptive

eșantion mediu

Media aritmetică, care este deseori denumită pur și simplu „medie”, se obține prin adăugarea tuturor valorilor și împărțirea acestei sume la numărul de valori din mulțime. Acest lucru poate fi arătat folosind o formulă algebrică. Un set de n observații ale unei variabile x poate fi reprezentat ca x 1 , x 2 , x 3 , ..., x n

Formula pentru determinarea mediei aritmetice a observațiilor (pronunțată „X cu liniuță”):

\u003d (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Varianta eșantionului

O modalitate de a măsura împrăștierea datelor este de a determina cât de departe se abate fiecare observație de la media aritmetică. Evident, cu cât abaterea este mai mare, cu atât este mai mare variabilitatea, variabilitatea observațiilor. Cu toate acestea, nu putem folosi media acestor abateri ca măsură de dispersie, deoarece abaterile pozitive compensează abaterile negative (suma lor este zero). Pentru a rezolva această problemă, pătratăm fiecare abatere și găsim media abaterilor pătrate; această cantitate se numește variație sau dispersie. Luați n observații x 1, x 2, x 3, ..., x n, medie care este egal. Calculăm dispersia acesta, denumit de obicei cas2,aceste observatii:

Varianța eșantionului acestui indicator este s 2 = 3,2.

Deviație standard

Abaterea standard (rădăcină pătrată medie) este rădăcina pătrată pozitivă a varianței. De exemplu, n observații, arată astfel:

Ne putem gândi la abaterea standard ca la un fel de abatere medie a observațiilor de la medie. Se calculează în aceleași unități (dimensiuni) ca și datele originale.

s = sqrt (s 2) = sqrt (3,2) = 1,79 .

Coeficientul de variație

Dacă împărțiți abaterea standard la media aritmetică și exprimați rezultatul ca procent, obțineți coeficientul de variație.

CV = (1,79 / 13,1) * 100% = 13,7

Eroare medie eșantion

1,79/sqrt(10) = 0,57;

Coeficientul Student t (testul t pentru un eșantion)

Este folosit pentru a testa ipoteza despre diferența dintre valoarea medie și o valoare cunoscută m

Numărul de grade de libertate se calculează ca f=n-1.

În acest caz, intervalul de încredere pentru medie este între limitele 11,87 și 14,39.

Pentru nivelul de încredere de 95%, m=11,87 sau m=14,39, adică = |13,1-11,82| = |13,1-14,38| = 1,28

În consecință, în acest caz, pentru numărul de grade de libertate f = 10 - 1 = 9 și nivelul de încredere de 95% t=2,26.

Dialog Statistici de bază și tabele

În modul Statistici de bază și tabele alege Statisticile descriptive.

Se va deschide o casetă de dialog Statisticile descriptive.

În câmp Variabile alege Grupa 1.

Presare Bine, obținem tabele de rezultate cu statistici descriptive ale variabilelor selectate.

Se va deschide o casetă de dialog Testul t cu un eșantion.

Să presupunem că știm că conținutul mediu de substanță B în țesutul C este 11.

Tabelul cu rezultate cu statistici descriptive și testul t Student este următorul:

A trebuit să respingem ipoteza că conținutul mediu de substanță B în țesutul C este 11.

Întrucât valoarea calculată a criteriului este mai mare decât cea tabelară (2.26), ipoteza nulă este respinsă la nivelul de semnificație ales, iar diferențele dintre eșantion și valoarea cunoscută sunt recunoscute ca semnificative statistic. Astfel, concluzia despre existența diferențelor, făcută folosind criteriul Studentului, se confirmă prin această metodă.

CATEGORII

ARTICOLE POPULARE

2023 "kingad.ru" - examinarea cu ultrasunete a organelor umane