Deoarece noua variabilă este distribuită în mod normal, limitele inferioare și superioare ale intervalului de încredere de 95% pentru variabila φ vor fi φ-1,96 și φ+1,96 stânga">

În loc de 1,96 pentru probele mici, se recomandă înlocuirea valorii lui t cu N - 1 grade de libertate. Această metodă nu oferă valori negative și vă permite să estimați mai precis intervalele de încredere pentru frecvențe decât metoda Wald. În plus, este descris în multe cărți interne de referință privind statistica medicală, ceea ce, totuși, nu a condus la utilizarea pe scară largă în cercetarea medicală. Calcularea intervalelor de încredere folosind o transformare unghiulară nu este recomandată pentru frecvențele care se apropie de 0 sau 1.

Aici se termină de obicei descrierea metodelor de estimare a intervalelor de încredere în majoritatea cărților despre bazele statisticii pentru cercetătorii medicali, iar această problemă este tipică nu numai pentru literatura națională, ci și pentru literatura străină. Ambele metode se bazează pe teorema limită centrală, care implică un eșantion mare.

Având în vedere neajunsurile estimării intervalelor de încredere folosind metodele de mai sus, Clopper (Clopper) și Pearson (Pearson) au propus în 1934 o metodă de calcul a așa-numitului interval de încredere exact, ținând cont de distribuția binomială a trăsăturii studiate. Această metodă este disponibilă în multe calculatoare online, totuși, intervalele de încredere obținute în acest fel sunt în majoritatea cazurilor prea largi. În același timp, această metodă este recomandată pentru utilizare în cazurile în care este necesară o estimare conservatoare. Gradul de conservativitate al metodei crește pe măsură ce dimensiunea eșantionului scade, în special pentru N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Potrivit multor statisticieni, cea mai optimă estimare a intervalelor de încredere pentru frecvențe este realizată prin metoda Wilson, propusă încă din 1927, dar practic neutilizată în cercetarea biomedicală internă. Această metodă nu numai că face posibilă estimarea intervalelor de încredere atât pentru frecvențe foarte mici, cât și pentru frecvențe foarte înalte, dar este și aplicabilă unui număr mic de observații. În general, intervalul de încredere conform formulei Wilson are forma de la

Care este probabilitatea intervalului de încredere. Interval de încredere

Mintea nu este doar în cunoaștere, ci și în capacitatea de a aplica cunoștințele în practică. (Aristotel)

Intervale de încredere

revizuire generală

Luând un eșantion din populație, vom obține o estimare punctuală a parametrului care ne interesează și vom calcula eroarea standard pentru a indica acuratețea estimării.

Cu toate acestea, pentru majoritatea cazurilor, eroarea standard ca atare nu este acceptabilă. Este mult mai util să combinați această măsură de precizie cu o estimare de interval pentru parametrul populației.

Acest lucru se poate face prin utilizarea cunoștințelor distribuției teoretice de probabilitate a statisticii (parametrului) eșantionului pentru a calcula un interval de încredere (CI - Intervalul de încredere, CI - Intervalul de încredere) pentru parametru.

În general, intervalul de încredere extinde estimările în ambele direcții cu un anumit multiplu al erorii standard (a unui parametru dat); cele două valori (limitele de încredere) care definesc intervalul sunt de obicei separate prin virgulă și cuprinse între paranteze.

Interval de încredere pentru medie

Folosind distribuția normală

Media eșantionului are o distribuție normală dacă dimensiunea eșantionului este mare, astfel încât cunoașterea distribuției normale poate fi aplicată atunci când se ia în considerare media eșantionului.

În special, 95% din distribuția mediilor eșantionului se află în 1,96 deviații standard (SD) ale mediei populației.

Când avem un singur eșantion, numim aceasta eroare standard a mediei (SEM) și calculăm intervalul de încredere de 95% pentru medie după cum urmează:

Dacă acest experiment este repetat de mai multe ori, atunci intervalul va conține media reală a populației în 95% din timp.

Acesta este de obicei un interval de încredere, cum ar fi intervalul de valori în care se află media reală a populației (media generală) cu un nivel de încredere de 95%.

Deși nu este destul de strict (media populației este o valoare fixă ​​și, prin urmare, nu poate avea o probabilitate legată de aceasta) să interpretăm intervalul de încredere în acest fel, este conceptual mai ușor de înțeles.

Utilizare t- distributie

Puteți folosi distribuția normală dacă cunoașteți valoarea varianței în populație. De asemenea, atunci când dimensiunea eșantionului este mică, media eșantionului urmează o distribuție normală dacă datele care stau la baza populației sunt distribuite normal.

Dacă datele care stau la baza populației nu sunt distribuite în mod normal și/sau varianța generală (varianța populației) este necunoscută, media eșantionului se supune Distribuția t a studentului.

Calculați intervalul de încredere de 95% pentru media populației după cum urmează:

Unde - punct procentual (percentilă) t- Distribuție student cu (n-1) grade de libertate, care dă o probabilitate cu două cozi de 0,05.

În general, oferă un interval mai larg decât atunci când se utilizează o distribuție normală, deoarece ține cont de incertitudinea suplimentară care este introdusă prin estimarea abaterii standard a populației și/sau datorită dimensiunii reduse a eșantionului.

Când dimensiunea eșantionului este mare (de ordinul a 100 sau mai mult), diferența dintre cele două distribuții ( t-studentși normal) este neglijabilă. Cu toate acestea, folosiți întotdeauna t- distribuția la calcularea intervalelor de încredere, chiar dacă dimensiunea eșantionului este mare.

De obicei este indicat 95% CI. Alte intervale de încredere pot fi calculate, cum ar fi 99% CI pentru medie.

În loc de produsul erorii standard și valoarea tabelului t- distribuția care corespunde unei probabilități cu două cozi de 0,05 înmulțiți-o (eroarea standard) cu o valoare care corespunde unei probabilități cu două cozi de 0,01. Acesta este un interval de încredere mai larg decât cazul de 95%, deoarece reflectă o încredere crescută că intervalul include într-adevăr media populației.

Interval de încredere pentru proporție

Distribuția de eșantionare a proporțiilor are o distribuție binomială. Cu toate acestea, dacă dimensiunea eșantionului n relativ mare, atunci distribuția eșantionului proporțional este aproximativ normală cu media .

Estimare prin raport de eșantionare p=r/n(Unde r- numărul de indivizi din eșantion cu caracteristicile care ne interesează), iar eroarea standard este estimată:

Intervalul de încredere de 95% pentru proporție este estimat:

Dacă dimensiunea eșantionului este mică (de obicei când np sau n(1-p) Mai puțin 5 ), atunci distribuția binomială trebuie utilizată pentru a calcula intervalele exacte de încredere.

Rețineți că dacă p exprimat ca procent, atunci (1-p) inlocuit de (100p).

Interpretarea intervalelor de încredere

Când interpretăm intervalul de încredere, ne interesează următoarele întrebări:

Cât de larg este intervalul de încredere?

Un interval larg de încredere indică faptul că estimarea este imprecisă; îngust indică o estimare bună.

Lățimea intervalului de încredere depinde de mărimea erorii standard, care, la rândul său, depinde de dimensiunea eșantionului și, atunci când se ia în considerare o variabilă numerică din variabilitatea datelor, oferă intervale de încredere mai largi decât studiile unui set mare de date. de câteva variabile.

CI include valori de interes deosebit?

Puteți verifica dacă valoarea probabilă pentru un parametru de populație se încadrează într-un interval de încredere. Dacă da, atunci rezultatele sunt în concordanță cu această valoare probabilă. Dacă nu, atunci este puțin probabil (pentru un interval de încredere de 95%, șansa este de aproape 5%) ca parametrul să aibă această valoare.

„Katren-Style” continuă să publice un ciclu al lui Konstantin Kravchik despre statisticile medicale. În două articole anterioare, autorul a atins explicația unor concepte precum și.

Constantin Kravcik

Matematician-analist. Specialist în domeniul cercetării statistice în medicină și științe umaniste

Orașul Moscova

Foarte des în articolele despre studiile clinice poți găsi o frază misterioasă: „interval de încredere” (95% CI sau 95% CI - interval de încredere). De exemplu, un articol ar putea spune: „Testul studentului a fost folosit pentru a evalua semnificația diferențelor, cu un interval de încredere de 95% calculat”.

Care este valoarea „intervalului de încredere 95%” și de ce să-l calculăm?

Ce este un interval de încredere? - Acesta este intervalul în care se încadrează adevăratele valori medii în populație. Și ce, există medii „neadevărate”? Într-un fel, da, o fac. În am explicat că este imposibil să se măsoare parametrul de interes în întreaga populație, așa că cercetătorii se mulțumesc cu un eșantion limitat. În această probă (de exemplu, după greutatea corporală) există o valoare medie (o anumită greutate), după care judecăm valoarea medie în întreaga populație generală. Cu toate acestea, este puțin probabil ca ponderea medie în eșantion (în special una mică) să coincidă cu ponderea medie în populația generală. Prin urmare, este mai corect să se calculeze și să se utilizeze intervalul de valori medii ale populației generale.

De exemplu, să presupunem că intervalul de încredere de 95% (IC 95%) pentru hemoglobină este între 110 și 122 g/L. Aceasta înseamnă că, cu o probabilitate de 95 %, adevărata valoare medie a hemoglobinei în populația generală va fi în intervalul de la 110 la 122 g/l. Cu alte cuvinte, nu cunoaștem hemoglobina medie în populația generală, dar putem indica intervalul de valori pentru această caracteristică cu o probabilitate de 95%.

Intervalele de încredere sunt deosebit de relevante pentru diferența de medii între grupuri sau ceea ce se numește mărimea efectului.

Să presupunem că am comparat eficacitatea a două preparate de fier: unul care este pe piață de mult timp și unul care tocmai a fost înregistrat. După cursul terapiei, a fost evaluată concentrația de hemoglobină în grupurile studiate de pacienți, iar programul statistic a calculat pentru noi că diferența dintre valorile medii ale celor două grupuri cu o probabilitate de 95% este în intervalul de la 1,72 până la 14,36 g/l (Tabelul 1).

Tab. 1. Criteriu pentru probe independente
(grupurile sunt comparate în funcție de nivelul hemoglobinei)

Acest lucru ar trebui interpretat după cum urmează: la o parte dintre pacienții din populația generală care iau un medicament nou, hemoglobina va fi mai mare în medie cu 1,72-14,36 g/l decât la cei care au luat un medicament deja cunoscut.

Cu alte cuvinte, în populația generală, diferența dintre valorile medii ale hemoglobinei în grupuri cu o probabilitate de 95% se află în aceste limite. Va rămâne la latitudinea cercetătorului să judece dacă este mult sau puțin. Ideea tuturor acestor lucruri este că nu lucrăm cu o valoare medie, ci cu o gamă de valori, prin urmare, estimăm mai fiabil diferența unui parametru între grupuri.

În pachetele statistice, la discreția cercetătorului, se pot îngusta sau extinde în mod independent granițele intervalului de încredere. Scăzând probabilitățile intervalului de încredere, restrângem intervalul de medii. De exemplu, la 90% IC, intervalul de medii (sau diferențele medii) va fi mai restrâns decât la 95% IC.

În schimb, creșterea probabilității la 99% mărește gama de valori. Când se compară grupuri, limita inferioară a CI poate depăși marcajul zero. De exemplu, dacă am extins limitele intervalului de încredere la 99 %, atunci limitele intervalului au variat între –1 și 16 g/L. Aceasta înseamnă că în populația generală există grupuri, diferența dintre mediile dintre care pentru trăsătura studiată este 0 (M=0).

Intervalele de încredere pot fi folosite pentru a testa ipotezele statistice. Dacă intervalul de încredere depășește valoarea zero, atunci ipoteza nulă, care presupune că grupurile nu diferă în parametrul studiat, este adevărată. Un exemplu este descris mai sus, când am extins limitele la 99%. Undeva în populația generală, am găsit grupuri care nu diferă în niciun fel.

Interval de încredere de 95% al ​​diferenței de hemoglobină, (g/l)


Figura arată intervalul de încredere de 95% al ​​diferenței medii de hemoglobină dintre cele două grupuri ca o linie. Linia trece de marcajul zero, prin urmare, există o diferență între medii egală cu zero, ceea ce confirmă ipoteza nulă că grupurile nu diferă. Diferența dintre grupuri variază de la -2 la 5 g/l, ceea ce înseamnă că hemoglobina poate fie să scadă cu 2 g/l, fie să crească cu 5 g/l.

Intervalul de încredere este un indicator foarte important. Datorită acesteia, puteți vedea dacă diferențele dintre grupuri s-au datorat într-adevăr diferenței de medii sau datorită unui eșantion mare, deoarece la un eșantion mare, șansele de a găsi diferențe sunt mai mari decât la unul mic.

În practică, ar putea arăta așa. Am luat un eșantion de 1000 de persoane, am măsurat nivelul hemoglobinei și am constatat că intervalul de încredere pentru diferența de medii este de la 1,2 la 1,5 g/L. Nivelul semnificației statistice în acest caz p

Vedem că concentrația de hemoglobină a crescut, dar aproape imperceptibil, prin urmare, semnificația statistică a apărut tocmai datorită dimensiunii eșantionului.

Intervalele de încredere pot fi calculate nu numai pentru medii, ci și pentru proporții (și rapoarte de risc). De exemplu, ne interesează intervalul de încredere al proporțiilor de pacienți care au obținut remisie în timp ce luau medicamentul dezvoltat. Să presupunem că IC de 95% pentru proporții, adică pentru proporția de astfel de pacienți, este în intervalul 0,60-0,80. Astfel, putem spune că medicamentul nostru are un efect terapeutic în 60 până la 80% din cazuri.

Orice eșantion oferă doar o idee aproximativă a populației generale, iar toate caracteristicile statistice ale eșantionului (medie, mod, varianță ...) sunt o aproximare sau spunem o estimare a parametrilor generali, care în majoritatea cazurilor nu pot fi calculate din cauza inaccesibilitatea populaţiei generale (Figura 20) .

Figura 20. Eroare de eșantionare

Dar se poate preciza intervalul în care, cu un anumit grad de probabilitate, se află valoarea adevărată (generală) a caracteristicii statistice. Acest interval se numește d interval de încredere (IC).

Deci media generală cu o probabilitate de 95% se află în interior

de la până la, (20)

Unde t - valoarea tabelară a criteriului Student pt α =0,05 și f= n-1

Poate fi găsit și 99% CI, în acest caz t ales pentru α =0,01.

Care este semnificația practică a unui interval de încredere?

    Un interval larg de încredere indică faptul că media eșantionului nu reflectă cu acuratețe media populației. Acest lucru se datorează de obicei unei dimensiuni insuficiente a eșantionului sau eterogenității acestuia, de exemplu. dispersie mare. Ambele dau o eroare mare în medie și, în consecință, un CI mai larg. Și acesta este motivul pentru a reveni la etapa de planificare a cercetării.

    Limitele superioare și inferioare ale CI evaluează dacă rezultatele vor fi semnificative clinic

Să ne oprim mai în detaliu asupra chestiunii semnificației statistice și clinice a rezultatelor studiului proprietăților grupului. Amintiți-vă că sarcina statisticilor este de a detecta cel puțin unele diferențe în populația generală, pe baza datelor din eșantion. Este sarcina clinicianului să găsească astfel de diferențe (nu orice) care să ajute la diagnostic sau tratament. Și nu întotdeauna concluziile statistice stau la baza concluziilor clinice. Astfel, o scădere semnificativă statistic a hemoglobinei cu 3 g/l nu este un motiv de îngrijorare. Și, invers, dacă o problemă din corpul uman nu are un caracter de masă la nivelul întregii populații, acesta nu este un motiv pentru a nu face față acestei probleme.

Vom lua în considerare această poziție în exemplu.

Cercetătorii s-au întrebat dacă băieții care au avut un fel de boală infecțioasă au rămas în urmă față de semenii lor în creștere. În acest scop, a fost realizat un studiu selectiv, la care au participat 10 băieți care aveau această boală. Rezultatele sunt prezentate în tabelul 23.

Tabelul 23. Rezultate statistice

limita inferioara

Limita superioară

Specificații (cm)

mijloc

Din aceste calcule rezultă că înălțimea medie selectivă a băieților de 10 ani care au avut un fel de boală infecțioasă este aproape de normal (132,5 cm). Cu toate acestea, limita inferioară a intervalului de încredere (126,6 cm) indică faptul că există o probabilitate de 95% ca înălțimea medie adevărată a acestor copii să corespundă conceptului de „statură mică”, adică. acești copii sunt pipernici.

În acest exemplu, rezultatele calculelor intervalului de încredere sunt semnificative clinic.

INTERVALE DE ÎNCREDERE PENTRU FRECVENȚE ȘI PĂRȚI

© 2008

Institutul Național de Sănătate Publică, Oslo, Norvegia

Articolul descrie și discută calculul intervalelor de încredere pentru frecvențe și proporții folosind metodele Wald, Wilson, Klopper-Pearson, folosind transformarea unghiulară și metoda Wald cu corecție Agresti-Cowll. Materialul prezentat oferă informații generale despre metodele de calculare a intervalelor de încredere pentru frecvențe și proporții și are scopul de a trezi interesul cititorilor revistei nu numai pentru utilizarea intervalelor de încredere în prezentarea rezultatelor propriilor cercetări, ci și în citirea literaturii de specialitate înainte de a începe. lucrează la viitoarele publicații.

Cuvinte cheie: interval de încredere, frecvență, proporție

Într-una din publicațiile anterioare a fost menționată pe scurt descrierea datelor calitative și s-a raportat că estimarea intervalului acestora este de preferat unei estimări punctuale pentru descrierea frecvenței de apariție a caracteristicii studiate în populația generală. Într-adevăr, întrucât studiile sunt efectuate folosind date eșantionului, proiecția rezultatelor asupra populației generale trebuie să conțină un element de inexactitate în estimarea eșantionului. Intervalul de încredere este o măsură a acurateței parametrului estimat. Este interesant că în unele cărți despre bazele statisticii pentru medici, subiectul intervalelor de încredere pentru frecvențe este complet ignorat. În acest articol, vom lua în considerare mai multe moduri de a calcula intervalele de încredere pentru frecvențe, presupunând caracteristici ale eșantionului, cum ar fi nerecurența și reprezentativitatea, precum și independența observațiilor unele față de altele. Frecvența din acest articol nu este înțeleasă ca un număr absolut care arată de câte ori aceasta sau acea valoare apare în agregat, ci o valoare relativă care determină proporția de participanți la studiu care au trăsătura studiată.

În cercetarea biomedicală, intervalele de încredere de 95% sunt cel mai frecvent utilizate. Acest interval de încredere este regiunea în care proporția reală se încadrează în 95% din timp. Cu alte cuvinte, se poate spune cu 95% certitudine că adevărata valoare a frecvenței de apariție a unei trăsături în populația generală va fi în intervalul de încredere de 95%.

Majoritatea manualelor de statistică pentru cercetătorii medicali raportează că eroarea de frecvență este calculată folosind formula

unde p este frecvența de apariție a caracteristicii în eșantion (valoare de la 0 la 1). În majoritatea articolelor științifice interne, este indicată valoarea frecvenței de apariție a unei caracteristici în eșantion (p), precum și eroarea (e) acesteia sub formă de p ± s. Cu toate acestea, este mai oportun să se prezinte un interval de încredere de 95% pentru frecvența de apariție a unei trăsături în populația generală, care va include valori de la

inainte de.

În unele manuale, pentru mostre mici, se recomandă înlocuirea valorii de 1,96 cu valoarea lui t pentru N - 1 grade de libertate, unde N este numărul de observații din eșantion. Valoarea lui t se găsește în tabelele pentru distribuția t, care sunt disponibile în aproape toate manualele de statistică. Utilizarea distribuției lui t pentru metoda Wald nu oferă avantaje vizibile față de alte metode discutate mai jos și, prin urmare, nu este binevenită de unii autori.

Metoda de mai sus pentru calcularea intervalelor de încredere pentru frecvențe sau fracții este numită după Abraham Wald (Abraham Wald, 1902–1950), deoarece a început să fie utilizată pe scară largă după publicarea lui Wald și Wolfowitz în 1939. Cu toate acestea, metoda în sine a fost propusă de Pierre Simon Laplace (1749–1827) încă din 1812.

Metoda Wald este foarte populară, dar aplicarea ei este asociată cu probleme semnificative. Metoda nu este recomandată pentru eșantioane de dimensiuni mici, precum și în cazurile în care frecvența de apariție a unei caracteristici tinde spre 0 sau 1 (0% sau 100%) și pur și simplu nu este posibilă pentru frecvențele de 0 și 1. În plus, aproximarea distribuției normale, care este utilizată la calcularea erorii, „nu funcționează” în cazurile în care n p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.



unde ia valoarea 1,96 atunci când se calculează intervalul de încredere de 95%, N este numărul de observații și p este frecvența caracteristicii din eșantion. Această metodă este disponibilă în calculatoarele online, deci aplicarea ei nu este problematică. și nu recomandăm utilizarea acestei metode pentru n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Pe lângă metoda Wilson, se crede că metoda Wald corectată de Agresti-Caull oferă o estimare optimă a intervalului de încredere pentru frecvențe. Corecția Agresti-Coulle este o înlocuire în formula Wald a frecvenței de apariție a unei trăsături în eșantion (p) cu p`, la calculul care 2 se adaugă la numărător, iar 4 se adaugă la numitor, adică , p` = (X + 2) / (N + 4), unde X este numărul de participanți la studiu care au trăsătura în studiu și N este dimensiunea eșantionului. Această modificare produce rezultate foarte asemănătoare cu cele ale formulei Wilson, cu excepția cazului în care rata de evenimente se apropie de 0% sau 100% și eșantionul este mic. Pe lângă metodele de mai sus pentru calcularea intervalelor de încredere pentru frecvențe, au fost propuse corecții de continuitate atât pentru metoda Wald, cât și pentru metoda Wilson pentru eșantioane mici, dar studiile au arătat că utilizarea lor este inadecvată.

Luați în considerare aplicarea metodelor de mai sus pentru calcularea intervalelor de încredere folosind două exemple. În primul caz, studiem un eșantion mare de 1.000 de participanți la studiu selectați aleatoriu, dintre care 450 au trăsătura studiată (fie că este un factor de risc, un rezultat sau orice altă trăsătură), care este o frecvență de 0,45 sau 45%. În al doilea caz, studiul se desfășoară folosind un eșantion mic, să zicem doar 20 de persoane și doar 1 participant la studiu (5%) are trăsătura studiată. Intervalele de încredere pentru metoda Wald, pentru metoda Wald cu corecție Agresti-Coll, pentru metoda Wilson au fost calculate folosind un calculator online dezvoltat de Jeff Sauro (http://www./wald.htm). Intervalele de încredere Wilson corectate în funcție de continuitate au fost calculate folosind calculatorul furnizat de Wassar Stats: Web Site for Statistical Computation (http://faculty.vassar.edu/lowry/prop1.html). Calculele folosind transformarea unghiulară Fisher au fost efectuate „manual” folosind valoarea critică a t pentru 19 și, respectiv, 999 grade de libertate. Rezultatele calculului sunt prezentate în tabel pentru ambele exemple.

Intervale de încredere calculate în șase moduri diferite pentru cele două exemple descrise în text

Metoda de calcul al intervalului de încredere

P=0,0500 sau 5%

95% CI pentru X=450, N=1000, P=0,4500 sau 45%

–0,0455–0,2541

Walda cu corectie Agresti-Coll

<,0001–0,2541

Wilson cu corecție de continuitate

„Metoda exactă” a lui Klopper-Pearson

Transformare unghiulară

<0,0001–0,1967

După cum se poate observa din tabel, pentru primul exemplu, intervalul de încredere calculat prin metoda Wald „general acceptată” merge în regiunea negativă, ceea ce nu poate fi cazul frecvențelor. Din păcate, astfel de incidente nu sunt neobișnuite în literatura rusă. Modul tradițional de reprezentare a datelor ca frecvență și eroarea acesteia maschează parțial această problemă. De exemplu, dacă frecvența de apariție a unei trăsături (în procente) este prezentată ca 2,1 ± 1,4, atunci aceasta nu este la fel de „iritantă” ca 2,1% (IC 95%: –0,7; 4,9), deși și înseamnă același lucru. Metoda Wald cu corecția Agresti-Coulle și calculul folosind transformarea unghiulară dau o limită inferioară care tinde spre zero. Metoda Wilson cu corecție de continuitate și „metoda exactă” oferă intervale de încredere mai largi decât metoda Wilson. Pentru al doilea exemplu, toate metodele dau aproximativ aceleași intervale de încredere (diferențele apar doar în miimi), ceea ce nu este surprinzător, deoarece frecvența evenimentului din acest exemplu nu diferă mult de 50%, iar dimensiunea eșantionului este destul de mare .

Pentru cititorii interesați de această problemă, putem recomanda lucrările lui R. G. Newcombe și Brown, Cai și Dasgupta, care oferă avantajele și dezavantajele utilizării a 7 și, respectiv, 10 metode diferite pentru calcularea intervalelor de încredere. Din manualele interne, se recomandă cartea și, în care, pe lângă o descriere detaliată a teoriei, sunt prezentate metodele Wald și Wilson, precum și o metodă de calcul a intervalelor de încredere, ținând cont de distribuția binomială a frecvenței. Pe lângă calculatoarele online gratuite (http://www./wald.htm și http://faculty.vassar.edu/lowry/prop1.html), intervalele de încredere pentru frecvențe (și nu numai!) pot fi calculate folosind Programul CIA (Confidence Intervals Analysis), care poate fi descărcat de pe http://www. scoala medicala. soton. ac. uk/cia/ .

Următorul articol va analiza modalități univariate de a compara datele calitative.

Bibliografie

Banerjee A. Statistica medicală în limbaj simplu: un curs introductiv / A. Banerzhi. - M. : Medicină practică, 2007. - 287 p. Statistici medicale / . - M. : Agenţia de Informaţii Medicale, 2007. - 475 p. Glanz S. Statistica medico-biologică / S. Glants. - M. : Practică, 1998. Tipuri de date, verificare distribuție și statistică descriptivă / // Ecologie umană - 2008. - Nr. 1. - P. 52–58. Zhizhin K.S.. Statistici medicale: manual / . - Rostov n/D: Phoenix, 2007. - 160 p. Statistica Medicala Aplicata / , . - St.Petersburg. : Folio, 2003. - 428 p. Lakin G. F. Biometrie / . - M. : Şcoala superioară, 1990. - 350 p. Medicul V.A. Statistica matematică în medicină / , . - M. : Finanțe și statistică, 2007. - 798 p. Statistica matematică în cercetarea clinică / , . - M. : GEOTAR-MED, 2001. - 256 p. Junkerov V. Și. Prelucrarea medico-statistică a datelor de cercetare medicală /,. - St.Petersburg. : VmedA, 2002. - 266 p. Agresti A. Aproximat este mai bine decât exact pentru estimarea pe intervale a proporțiilor binomiale / A. Agresti, B. Coull // Statistician american. - 1998. - N 52. - S. 119-126. Altman D. Statistici cu încredere // D. Altman, D. Machin, T. Bryant, M. J. Gardner. - Londra: BMJ Books, 2000. - 240 p. Brown L.D. Estimarea intervalului pentru o proporție binomială / L. D. Brown, T. T. Cai, A. Dasgupta // Statistical science. - 2001. - N 2. - P. 101-133. Clopper C.J. Utilizarea limitelor de încredere sau fiduciale ilustrate în cazul binomului / C. J. Clopper, E. S. Pearson // Biometrika. - 1934. - N 26. - P. 404-413. Garcia-Perez M.A. Despre intervalul de încredere pentru parametrul binom / M. A. Garcia-Perez // Calitate și cantitate. - 2005. - N 39. - P. 467-481. Motulsky H. Biostatistică intuitivă // H. Motulsky. - Oxford: Oxford University Press, 1995. - 386 p. Newcombe R.G. Intervale de încredere pe două părți pentru o singură proporție: comparație a șapte metode / R. G. Newcombe // Statistics in Medicine. - 1998. - N. 17. - P. 857–872. Sauro J. Estimarea ratelor de finalizare din eșantioane mici folosind intervale de încredere binomiale: comparații și recomandări / J. Sauro, J. R. Lewis // Proceedings of the human factors and ergonomics society annual meeting. – Orlando, FL, 2005. Wald A. Limite de încredere pentru funcțiile de distribuție continuă // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. - 1939. - N 10. - P. 105–118. Wilson E.B. Inferență probabilă, legea succesiunii și inferență statistică / E. B. Wilson // Journal of American Statistical Association. - 1927. - N 22. - P. 209-212.

INTERVALE DE ÎNCREDERE PENTRU PROPORȚII

A. M. Grjibovski

Institutul Național de Sănătate Publică, Oslo, Norvegia

Articolul prezintă mai multe metode de calcul a intervalelor de încredere pentru proporții binomiale, și anume, metodele Wald, Wilson, arcsinus, Agresti-Coull și exacte Clopper-Pearson. Lucrarea oferă doar o introducere generală a problemei estimării intervalului de încredere a unei proporții binomiale și scopul său este nu numai de a stimula cititorii să folosească intervalele de încredere atunci când prezintă rezultatele propriilor intervale de cercetare empirice, ci și de a-i încuraja să consulte cărțile de statistică înainte la analiza datelor proprii și pregătirea manuscriselor.

Cuvinte cheie: interval de încredere, proporție

Informatii de contact:

Consilier principal, Institutul Național de Sănătate Publică, Oslo, Norvegia

În subsecțiunile anterioare, am luat în considerare problema estimării parametrului necunoscut A un numar. O astfel de evaluare se numește „punct”. Într-o serie de sarcini, este necesar nu numai să găsiți parametrul A valoare numerică adecvată, dar și evaluează acuratețea și fiabilitatea acesteia. Este necesar să se cunoască la ce erori poate duce înlocuirea parametrilor A estimarea sa punctuală Ași cu ce grad de încredere ne putem aștepta ca aceste erori să nu depășească limitele cunoscute?

Probleme de acest fel sunt deosebit de relevante pentru un număr mic de observații, atunci când estimarea punctuală si in este în mare parte aleatorie și o înlocuire aproximativă a lui a cu a poate duce la erori grave.

Pentru a da o idee despre acuratețea și fiabilitatea estimării A,

în statistica matematică se folosesc așa-numitele intervale de încredere și probabilități de încredere.

Lăsați pentru parametru A derivat din estimare imparțială din experiență A. Dorim să estimăm eroarea posibilă în acest caz. Să atribuim o probabilitate p suficient de mare (de exemplu, p = 0,9, 0,95 sau 0,99), astfel încât un eveniment cu probabilitatea p poate fi considerat practic sigur și să găsim o valoare a lui s pentru care

Apoi, intervalul de valori practic posibile ale erorii care apare la înlocuire A pe A, va fi ± s; erori absolute mari vor apărea numai cu o probabilitate mică a = 1 - p. Să rescriem (14.3.1) ca:

Egalitatea (14.3.2) înseamnă că cu probabilitatea p valoarea necunoscută a parametrului A se încadrează în interval

În acest caz, trebuie reținută o circumstanță. Anterior, am luat în considerare în mod repetat probabilitatea ca o variabilă aleatorie să se încadreze într-un interval non-aleatoriu dat. Aici situația este diferită: A nu întâmplător, ci interval aleator / r. În mod aleatoriu, poziția sa pe axa x, determinată de centrul său A; în general, lungimea intervalului 2s este de asemenea aleatorie, deoarece valoarea lui s este calculată, de regulă, din date experimentale. Prin urmare, în acest caz, ar fi mai bine să interpretăm valoarea lui p nu ca probabilitatea de a „lovi” punctul Aîn intervalul / p, ci ca probabilitatea ca un interval aleator / p să acopere punctul A(Fig. 14.3.1).

Orez. 14.3.1

Probabilitatea p se numește nivel de încredere, iar intervalul / p - interval de încredere. Limite de interval dacă. a x \u003d a- s și a 2 = a +și sunt chemați limitele de încredere.

Să mai dăm o interpretare conceptului de interval de încredere: acesta poate fi considerat ca un interval de valori ale parametrilor A, compatibile cu datele experimentale și necontrazicându-le. Într-adevăr, dacă suntem de acord să considerăm un eveniment cu o probabilitate a = 1-p practic imposibil, atunci acele valori ale parametrului a pentru care a - a> s trebuie recunoscute ca fiind în contradicție cu datele experimentale, iar cele pentru care |a - A a t na 2 .

Lăsați pentru parametru A există o estimare imparțială A. Dacă am cunoaște legea distribuției cantității A, problema găsirii intervalului de încredere ar fi destul de simplă: ar fi suficient să găsim o valoare a lui s pentru care

Dificultatea constă în faptul că legea de distribuție a devizului A depinde de legea distribuţiei cantităţii Xși, în consecință, asupra parametrilor săi necunoscuți (în special, asupra parametrului în sine A).

Pentru a ocoli această dificultate, se poate aplica următorul truc aproximativ aproximativ: înlocuiți parametrii necunoscuți din expresia pentru s cu estimările lor punctuale. Cu un număr relativ mare de experimente P(aproximativ 20 ... 30) această tehnică dă de obicei rezultate satisfăcătoare din punct de vedere al preciziei.

Ca exemplu, luați în considerare problema intervalului de încredere pentru așteptarea matematică.

Lăsați produs P X, ale căror caracteristici sunt așteptarea matematică t si varianta D- necunoscut. Pentru acești parametri s-au obținut următoarele estimări:

Este necesar să se construiască un interval de încredere / р, corespunzător probabilității de încredere р, pentru așteptarea matematică t cantități X.

În rezolvarea acestei probleme, folosim faptul că cantitatea t este suma P variabile aleatoare independente distribuite identic X h iar conform teoremei limitei centrale pentru suficient de mare P legea sa de distribuție este aproape de normal. În practică, chiar și cu un număr relativ mic de termeni (de ordinul a 10 ... 20), legea de distribuție a sumei poate fi considerată aproximativ normală. Vom presupune că valoarea t distribuite conform legii normale. Caracteristicile acestei legi - așteptarea și, respectiv, varianța matematică - sunt egale tși

(a se vedea capitolul 13 subsecțiunea 13.3). Să presupunem că valoarea D ne este cunoscută şi vom găsi o asemenea valoare Ep pentru care

Aplicând formula (6.3.5) din capitolul 6, exprimăm probabilitatea din partea stângă a (14.3.5) în termenii funcției de distribuție normală

unde este abaterea standard a estimării t.

Din ecuație

găsiți valoarea Sp:

unde arg Ф* (x) este funcția inversă a lui Ф* (X), acestea. o astfel de valoare a argumentului pentru care funcția de distribuție normală este egală cu X.

Dispersia D, prin care se exprimă valoarea A 1P, nu știm exact; ca valoare aproximativă, puteți utiliza estimarea D(14.3.4) și puneți aproximativ:

Astfel, problema construirii unui interval de încredere este aproximativ rezolvată, care este egal cu:

unde gp este definit prin formula (14.3.7).

Pentru a evita interpolarea inversă în tabelele funcției Ф * (l) atunci când se calculează s p, este convenabil să se întocmească un tabel special (Tabelul 14.3.1), care listează valorile cantității

in functie de r. Valoarea (p determină pentru legea normală numărul de abateri standard care trebuie puse deoparte la dreapta și la stânga centrului de dispersie, astfel încât probabilitatea de a cădea în zona rezultată să fie egală cu p.

Prin valoarea lui 7 p, intervalul de încredere se exprimă astfel:

Tabelul 14.3.1

Exemplul 1. Au fost efectuate 20 de experimente asupra valorii X; rezultatele sunt prezentate în tabel. 14.3.2.

Tabelul 14.3.2

Este necesar să se găsească o estimare pentru așteptarea matematică a cantității Xși construiți un interval de încredere corespunzător unui nivel de încredere p = 0,8.

Soluţie. Avem:

Alegând pentru originea n: = 10, conform celei de-a treia formule (14.2.14) găsim estimarea nepărtinitoare D :

Conform tabelului 14.3.1 găsim

Limite de încredere:

Interval de încredere:

Valorile parametrilor t, situate în acest interval sunt compatibile cu datele experimentale date în tabel. 14.3.2.

Într-un mod similar, se poate construi un interval de încredere pentru varianță.

Lăsați produs P experimente independente pe o variabilă aleatorie X cu parametri necunoscuți de la și A și pentru varianță D estimarea imparțială se obține:

Este necesar să se construiască aproximativ un interval de încredere pentru varianță.

Din formula (14.3.11) se poate observa că valoarea D reprezintă

Cantitate P variabile aleatorii de forma . Aceste valori nu sunt

independent, deoarece oricare dintre ele include cantitatea t, dependent de toți ceilalți. Cu toate acestea, se poate demonstra că ca P legea de distribuție a sumei lor este, de asemenea, apropiată de normal. Aproape la P= 20...30 poate fi deja considerat normal.

Să presupunem că așa este și să găsim caracteristicile acestei legi: așteptarea și varianța matematică. De la scor D- nepărtinitoare, atunci M[D] = D.

Calculul variației D D este asociat cu calcule relativ complexe, deci îi dăm expresia fără derivare:

unde c 4 - al patrulea moment central al mărimii X.

Pentru a utiliza această expresie, trebuie să înlocuiți în ea valorile lui 4 și D(cel putin aproximativ). În loc de D puteți folosi evaluarea D.În principiu, al patrulea moment central poate fi înlocuit și cu estimarea sa, de exemplu, cu o valoare de forma:

dar o astfel de înlocuire va oferi o precizie extrem de scăzută, deoarece, în general, cu un număr limitat de experimente, momentele de ordin înalt sunt determinate cu erori mari. Cu toate acestea, în practică se întâmplă adesea ca forma legii de distribuție a cantității X cunoscut dinainte: doar parametrii săi sunt necunoscuți. Apoi putem încerca să exprimăm u4 în termeni de D.

Să luăm cel mai frecvent caz, când valoarea X distribuite conform legii normale. Apoi, al patrulea moment central al său este exprimat în termeni de varianță (vezi Capitolul 6 Subsecțiunea 6.2);

iar formula (14.3.12) dă sau

Înlocuind în (14.3.14) necunoscutul D evaluarea lui D, obținem: de unde

Momentul u 4 poate fi exprimat în termeni de D de asemenea, în alte cazuri, când distribuția cantității X nu este normal, dar aspectul ei este cunoscut. De exemplu, pentru legea densității uniforme (vezi capitolul 5) avem:

unde (a, P) este intervalul pe care este dată legea.

Prin urmare,

Conform formulei (14.3.12) obținem: de unde găsim aproximativ

În cazurile în care forma legii de distribuție a valorii lui 26 este necunoscută, la estimarea valorii lui a /) se recomandă totuși utilizarea formulei (14.3.16), dacă nu există motive speciale pentru a crede că aceasta legea este foarte diferită de cea normală (are o curtoză pozitivă sau negativă vizibilă).

Dacă valoarea aproximativă a lui a /) este obținută într-un fel sau altul, atunci este posibil să construim un interval de încredere pentru varianță în același mod în care l-am construit pentru așteptarea matematică:

unde valoarea în funcție de probabilitatea dată p se găsește în tabel. 14.3.1.

Exemplul 2. Găsiți un interval de încredere de aproximativ 80% pentru varianța unei variabile aleatorii Xîn condiţiile exemplului 1, dacă se ştie că valoarea X distribuite după o lege apropiată de normal.

Soluţie. Valoarea rămâne aceeași ca în tabel. 14.3.1:

Conform formulei (14.3.16)

Conform formulei (14.3.18) găsim intervalul de încredere:

Intervalul corespunzător de valori ale abaterii standard: (0,21; 0,29).

14.4. Metode exacte de construire a intervalelor de încredere pentru parametrii unei variabile aleatoare distribuite conform legii normale

În subsecțiunea anterioară, am luat în considerare metode aproximativ aproximative pentru construirea intervalelor de încredere pentru medie și varianță. Aici vă oferim o idee despre metodele exacte de rezolvare a aceleiași probleme. Subliniem că pentru a găsi cu exactitate intervalele de încredere este absolut necesar să se cunoască în prealabil forma legii de distribuție a cantității. X,întrucât acest lucru nu este necesar pentru aplicarea metodelor aproximative.

Ideea metodelor exacte pentru construirea intervalelor de încredere este următoarea. Orice interval de încredere se găsește din condiția care exprimă probabilitatea îndeplinirii unor inegalități, care includ estimarea care ne interesează A. Legea distribuirii gradelor Aîn cazul general depinde de parametrii necunoscuți ai mărimii X. Cu toate acestea, uneori este posibil să treci inegalități dintr-o variabilă aleatoare A la o altă funcție a valorilor observate X p X 2, ..., X p. a cărui lege de distribuție nu depinde de parametri necunoscuți, ci depinde doar de numărul de experimente și de forma legii de distribuție a cantității X. Variabile aleatoare de acest fel joacă un rol important în statistica matematică; au fost studiate în cel mai detaliu pentru cazul unei distribuţii normale a cantităţii X.

De exemplu, s-a dovedit că sub o distribuție normală a cantității X valoare aleatorie

supuse așa-zisului Legea distribuirii elevilor Cu P- 1 grad de libertate; densitatea acestei legi are forma

unde G(x) este funcția gamma cunoscută:

De asemenea, se demonstrează că variabila aleatoare

are „distribuție % 2” cu P- 1 grad de libertate (vezi capitolul 7), a cărui densitate este exprimată prin formula

Fără să ne oprim asupra derivărilor distribuțiilor (14.4.2) și (14.4.4), vom arăta cum acestea pot fi aplicate la construirea intervalelor de încredere pentru parametri. Ty D.

Lăsați produs P experimente independente pe o variabilă aleatorie X, distribuite conform legii normale cu parametri necunoscuți TIO. Pentru acești parametri, estimări

Este necesar să se construiască intervale de încredere pentru ambii parametri corespunzători probabilității de încredere p.

Să construim mai întâi un interval de încredere pentru așteptarea matematică. Este firesc să luăm acest interval simetric în raport cu t; notăm cu s p jumătate din lungimea intervalului. Valoarea lui sp trebuie aleasă astfel încât condiția

Să încercăm să trecem pe partea stângă a egalității (14.4.5) dintr-o variabilă aleatoare t la o variabilă aleatorie T, distribuite conform legii Studentului. Pentru a face acest lucru, înmulțim ambele părți ale inegalității |m-w?|

la o valoare pozitivă: sau, folosind notația (14.4.1),

Să găsim un număr / p astfel încât valoarea / p poate fi găsită din condiție

Din formula (14.4.2) se poate observa că (1) este o funcție pară, deci (14.4.8) dă

Egalitatea (14.4.9) determină valoarea / p în funcție de p. Daca aveti la dispozitie un tabel de valori integrale

atunci valoarea / p poate fi găsită prin interpolare inversă în tabel. Cu toate acestea, este mai convenabil să compilați un tabel de valori / p în avans. Un astfel de tabel este prezentat în Anexă (Tabelul 5). Acest tabel prezintă valorile în funcție de probabilitatea de încredere p și de numărul de grade de libertate P- 1. După ce a determinat / p conform tabelului. 5 și presupunând

găsim jumătate din lățimea intervalului de încredere / p și intervalul în sine

Exemplul 1. S-au efectuat 5 experimente independente pe o variabilă aleatorie X, distribuite în mod normal cu parametri necunoscuți tși despre. Rezultatele experimentelor sunt prezentate în tabel. 14.4.1.

Tabelul 14.4.1

Găsiți o estimare t pentru așteptarea matematică și construiți un interval de încredere de 90% / p pentru acesta (adică intervalul corespunzător probabilității de încredere p \u003d 0,9).

Soluţie. Avem:

Conform tabelului 5 al cererii pentru P - 1 = 4 și p = 0,9 găsim Unde

Intervalul de încredere va fi

Exemplul 2. Pentru condițiile exemplului 1 al subsecțiunii 14.3, presupunând valoarea X distribuite în mod normal, găsiți intervalul de încredere exact.

Soluţie. Conform tabelului 5 al cererii, găsim la P - 1 = 19ir =

0,8/p = 1,328; de aici

Comparând cu soluția exemplului 1 din subsecțiunea 14.3 (e p = 0,072), vedem că discrepanța este foarte mică. Dacă păstrăm acuratețea la a doua zecimală, atunci intervalele de încredere găsite prin metodele exacte și aproximative sunt aceleași:

Să trecem la construirea unui interval de încredere pentru varianță. Luați în considerare estimarea varianței nepărtinitoare

și exprimă variabila aleatoare D prin valoare V(14.4.3) având distribuția x 2 (14.4.4):

Cunoașterea legii de distribuție a cantității V, se poate găsi intervalul / (1 ) în care se încadrează cu o probabilitate dată p.

legea distributiei k n _ x (v) valoarea lui I 7 are forma prezentată în fig. 14.4.1.

Orez. 14.4.1

Apare întrebarea: cum să alegeți intervalul / p? Dacă legea distribuţiei cantităţii V era simetric (ca o lege normală sau distribuția lui Student), ar fi firesc să luăm intervalul /p simetric în raport cu așteptarea matematică. În acest caz, legea k n _ x (v) asimetric. Să fim de acord să alegem intervalul /p astfel încât probabilitățile de ieșire a cantității Vîn afara intervalului la dreapta și la stânga (zonele umbrite din Fig. 14.4.1) au fost aceleași și egale

Pentru a construi un interval / p cu această proprietate, folosim Table. 4 aplicații: conține numere y) astfel încât

pentru cantitate V, având x 2 -distribuţie cu r grade de libertate. În cazul nostru r = n- 1. Fix r = n- 1 și găsiți în linia corespunzătoare a tabelului. 4 două valori x 2 - unul corespunzând unei probabilităţi celălalt - probabilităţi Să le desemnăm pe acestea

valorile la 2și xl? Intervalul are y 2 , cu stânga și y~ capătul drept.

Acum găsim intervalul de încredere necesar /| pentru varianța cu granițele D și D2, care acoperă punctul D cu probabilitatea p:

Să construim un astfel de interval / (, = (?> b A), care acoperă punctul D dacă și numai dacă valoarea V se încadrează în intervalul / r. Să arătăm că intervalul

indeplineste aceasta conditie. Într-adevăr, inegalitățile sunt echivalente cu inegalitățile

iar aceste inegalități sunt valabile cu probabilitatea p. Astfel, intervalul de încredere pentru dispersie este găsit și este exprimat prin formula (14.4.13).

Exemplul 3. Găsiți intervalul de încredere pentru varianță în condițiile exemplului 2 din subsecțiunea 14.3, dacă se știe că valoarea X distribuite normal.

Soluţie. Avem . Conform tabelului 4 al cererii

găsim la r = n - 1 = 19

Conform formulei (14.4.13) găsim intervalul de încredere pentru dispersie

Intervalul corespunzător pentru abaterea standard: (0,21; 0,32). Acest interval depășește doar puțin intervalul (0,21; 0,29) obținut în Exemplul 2 din Subsecțiunea 14.3 prin metoda aproximativă.

  • Figura 14.3.1 consideră un interval de încredere care este simetric în raport cu a. În general, așa cum vom vedea mai târziu, acest lucru nu este necesar.
CATEGORII

ARTICOLE POPULARE

2022 "kingad.ru" - examinarea cu ultrasunete a organelor umane