Тъй като новата променлива е нормално разпределена, долната и горната граница на 95% доверителен интервал за променлива φ ще бъдат φ-1,96 и φ+1,96 отляво">

Вместо 1,96 за малки проби се препоръчва да се замени стойността на t за N - 1 степени на свобода. Този метод не дава отрицателни стойности и ви позволява по-точно да оцените доверителните интервали за честотите от метода на Wald. В допълнение, той е описан в много местни справочници по медицинска статистика, което обаче не доведе до широкото му използване в медицинските изследвания. Изчисляването на доверителни интервали с помощта на ъглова трансформация не се препоръчва за честоти, близки до 0 или 1.

Това е мястото, където обикновено завършва описанието на методите за оценка на доверителните интервали в повечето книги за основите на статистиката за медицински изследователи и този проблем е типичен не само за местната, но и за чуждестранната литература. И двата метода се основават на централната гранична теорема, която предполага голяма извадка.

Като се имат предвид недостатъците на оценката на доверителните интервали с помощта на горните методи, Клопър (Clopper) и Пиърсън (Pearson) предлагат през 1934 г. метод за изчисляване на така наречения точен доверителен интервал, като се вземе предвид биномното разпределение на изследваната черта. Този метод е наличен в много онлайн калкулатори, но доверителните интервали, получени по този начин, в повечето случаи са твърде широки. В същото време този метод се препоръчва за използване в случаите, когато е необходима консервативна оценка. Степента на консервативност на метода се увеличава с намаляване на размера на извадката, особено за N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Според много статистици най-оптималната оценка на доверителните интервали за честотите се извършва по метода на Уилсън, предложен през 1927 г., но практически не се използва в домашните биомедицински изследвания. Този метод не само дава възможност да се оценят доверителните интервали както за много малки, така и за много високи честоти, но също така е приложим за малък брой наблюдения. Като цяло доверителният интервал според формулата на Уилсън има формата от

Каква е вероятността на доверителния интервал. Доверителен интервал

Умът е не само в знанието, но и в умението да прилагаме знанията на практика. (Аристотел)

Доверителни интервали

общ преглед

Вземайки извадка от популацията, ще получим точкова оценка на параметъра, който ни интересува, и ще изчислим стандартната грешка, за да покажем точността на оценката.

В повечето случаи обаче стандартната грешка като такава не е приемлива. Много по-полезно е тази мярка за точност да се комбинира с интервална оценка за параметъра на населението.

Това може да бъде направено чрез използване на знания за теоретичното разпределение на вероятностите на извадковата статистика (параметър), за да се изчисли доверителен интервал (CI - Доверителен интервал, CI - Доверителен интервал) за параметъра.

Като цяло, доверителният интервал разширява оценките в двете посоки с някои кратни на стандартната грешка (на даден параметър); двете стойности (доверителни граници), които определят интервала, обикновено се разделят със запетая и се затварят в скоби.

Доверителен интервал за средна стойност

Използване на нормалното разпределение

Средната стойност на извадката има нормално разпределение, ако размерът на извадката е голям, така че познаването на нормалното разпределение може да се приложи при разглеждане на средната стойност на извадката.

По-специално, 95% от разпределението на средните стойности на извадката е в рамките на 1,96 стандартни отклонения (SD) от средната стойност на популацията.

Когато имаме само една извадка, наричаме това стандартна грешка на средната стойност (SEM) и изчисляваме 95% доверителен интервал за средната стойност, както следва:

Ако този експеримент се повтори няколко пъти, тогава интервалът ще съдържа истинската средна популация 95% от времето.

Това обикновено е доверителен интервал, като диапазона от стойности, в рамките на който истинската средна стойност на съвкупността (обща средна стойност) лежи с 95% ниво на сигурност.

Въпреки че не е съвсем строго (средната популация е фиксирана стойност и следователно не може да има свързана с нея вероятност) да се тълкува доверителният интервал по този начин, концептуално е по-лесно за разбиране.

Използване T-разпространение

Можете да използвате нормалното разпределение, ако знаете стойността на дисперсията в популацията. Освен това, когато размерът на извадката е малък, средната стойност на извадката следва нормално разпределение, ако данните, които са в основата на популацията, са нормално разпределени.

Ако данните, които са в основата на популацията, не са нормално разпределени и/или общата дисперсия (популационната дисперсия) е неизвестна, средната стойност на извадката се подчинява t-разпределение на Стюдънт.

Изчислете 95% доверителен интервал за средната популация, както следва:

Къде - процентен пункт (персентил) T-Разпределение на студент с (n-1) степени на свобода, което дава двустранна вероятност от 0,05.

Като цяло той осигурява по-широк интервал, отколкото при използване на нормално разпределение, тъй като взема предвид допълнителната несигурност, която се въвежда чрез оценяване на стандартното отклонение на популацията и/или поради малкия размер на извадката.

Когато размерът на извадката е голям (от порядъка на 100 или повече), разликата между двете разпределения ( t-студенти нормално) е незначително. Въпреки това, винаги използвайте T-разпределение при изчисляване на доверителните интервали, дори ако размерът на извадката е голям.

Обикновено се посочва 95% CI. Други доверителни интервали могат да бъдат изчислени, като 99% CI за средната стойност.

Вместо произведение на стандартна грешка и таблична стойност T-разпределение, което съответства на двустранна вероятност от 0,05, умножете го (стандартна грешка) по стойност, която съответства на двустранна вероятност от 0,01. Това е по-широк доверителен интервал от случая с 95%, тъй като отразява повишената увереност, че интервалът наистина включва средната стойност на съвкупността.

Доверителен интервал за пропорцията

Извадковото разпределение на пропорциите има биномиално разпределение. Въпреки това, ако размерът на извадката нразумно голямо, тогава пропорционалното разпределение на извадката е приблизително нормално със средна стойност .

Оценка чрез съотношение на вземане на проби p=r/n(където r- броят на индивидите в извадката с характеристиките, които ни интересуват), и стандартната грешка се оценява:

95% доверителен интервал за пропорцията се изчислява:

Ако размерът на извадката е малък (обикновено когато npили n(1-p)по-малко 5 ), тогава трябва да се използва биномното разпределение, за да се изчислят точните доверителни интервали.

Имайте предвид, че ако стризразено като процент, тогава (1-p)заменен от (100p).

Тълкуване на доверителни интервали

Когато интерпретираме доверителния интервал, ние се интересуваме от следните въпроси:

Колко широк е доверителният интервал?

Широкият доверителен интервал показва, че оценката е неточна; тясна показва добра оценка.

Ширината на доверителния интервал зависи от размера на стандартната грешка, която от своя страна зависи от размера на извадката и, когато се разглежда числова променлива от променливостта на данните, дава по-широки доверителни интервали, отколкото изследванията на голям набор от данни от няколко променливи.

CI включва ли стойности от особен интерес?

Можете да проверите дали вероятната стойност за параметър на популацията попада в доверителен интервал. Ако да, тогава резултатите са в съответствие с тази вероятна стойност. Ако не, тогава е малко вероятно (за 95% доверителен интервал шансът е почти 5%) параметърът да има тази стойност.

"Катрен-Стил" продължава да публикува цикъл на Константин Кравчик за медицинската статистика. В две предишни статии авторът засегна обяснението на такива понятия като и.

Константин Кравчик

Математик-аналитик. Специалист в областта на статистическите изследвания в медицината и хуманитарните науки

град Москва

Много често в статии за клинични изпитвания можете да намерите мистериозна фраза: "доверителен интервал" (95% CI или 95% CI - доверителен интервал). Например в една статия може да се каже: „Използван е t-тестът на Стюдънт за оценка на значимостта на разликите с изчислен 95% доверителен интервал.“

Каква е стойността на "95% доверителен интервал" и защо да го изчисляваме?

Какво е доверителен интервал? - Това е диапазонът, в който попадат истинските средни стойности в популацията. И какво, има "неверни" средни стойности? В известен смисъл, да, те го правят. В ние обяснихме, че е невъзможно да се измери параметърът от интерес в цялата популация, така че изследователите се задоволяват с ограничена извадка. В тази извадка (например по телесно тегло) има една средна стойност (определено тегло), по която съдим за средната стойност в цялата генерална популация. Малко вероятно е обаче средното тегло в извадката (особено малката) да съвпадне със средното тегло в общата популация. Следователно е по-правилно да се изчисли и използва диапазонът от средни стойности на общата съвкупност.

Да предположим например, че 95% доверителен интервал (95% CI) за хемоглобина е между 110 и 122 g/L. Това означава, че с 95 % вероятност истинската средна стойност на хемоглобина в общата популация ще бъде в диапазона от 110 до 122 g/L. С други думи, ние не знаем средния хемоглобин в общата популация, но можем да посочим диапазона от стойности за тази характеристика с 95% вероятност.

Доверителните интервали са особено подходящи за разликата в средните стойности между групите или това, което се нарича размер на ефекта.

Да предположим, че сравним ефективността на два препарата с желязо: един, който е на пазара от дълго време, и един, който току-що е регистриран. След курса на терапията беше оценена концентрацията на хемоглобин в изследваните групи пациенти и статистическата програма изчисли за нас, че разликата между средните стойности на двете групи с вероятност от 95% е в диапазона от 1,72 до 14,36 g/l (Таблица 1).

Раздел. 1. Критерий за независими проби
(групите се сравняват по нивото на хемоглобина)

Това трябва да се тълкува по следния начин: при част от пациентите от общата популация, които приемат ново лекарство, хемоглобинът ще бъде по-висок средно с 1,72–14,36 g/l, отколкото при тези, които са приемали вече известно лекарство.

С други думи, в общата популация разликата в средните стойности на хемоглобина в групите с 95% вероятност е в тези граници. Изследователят ще прецени дали това е много или малко. Смисълът на всичко това е, че не работим с една средна стойност, а с диапазон от стойности, следователно по-надеждно оценяваме разликата в параметъра между групите.

В статистическите пакети, по преценка на изследователя, можете независимо да стесните или разширите границите на доверителния интервал. Като намаляваме вероятностите на доверителния интервал, ние стесняваме обхвата на средните стойности. Например, при 90% CI, обхватът на средните (или средните разлики) ще бъде по-тесен, отколкото при 95% CI.

Обратно, увеличаването на вероятността до 99% разширява диапазона от стойности. При сравняване на групи долната граница на CI може да премине нулевата граница. Например, ако разширим границите на доверителния интервал до 99 %, тогава границите на интервала варират от –1 до 16 g/L. Това означава, че в генералната съвкупност има групи, разликата между средните между които за изследвания признак е 0 (М=0).

Доверителните интервали могат да се използват за тестване на статистически хипотези. Ако доверителният интервал премине нулевата стойност, тогава нулевата хипотеза, която предполага, че групите не се различават по изследвания параметър, е вярна. По-горе е описан пример, когато разширихме границите до 99%. Някъде в общата популация открихме групи, които не се различават по никакъв начин.

95% доверителен интервал на разлика в хемоглобина, (g/l)


Фигурата показва 95% доверителен интервал на разликата в средния хемоглобин между двете групи като линия. Линията преминава нулевия знак, следователно има разлика между средните стойности, равна на нула, което потвърждава нулевата хипотеза, че групите не се различават. Разликата между групите варира от -2 до 5 g/l, което означава, че хемоглобинът може да се понижи с 2 g/l или да се повиши с 5 g/l.

Доверителният интервал е много важен показател. Благодарение на него можете да видите дали разликите в групите наистина се дължат на разликата в средните стойности или се дължат на голяма извадка, тъй като при голяма извадка шансовете за откриване на разлики са по-големи, отколкото при малка.

На практика може да изглежда така. Взехме проба от 1000 души, измерихме нивото на хемоглобина и установихме, че доверителният интервал за разликата в средните стойности е от 1,2 до 1,5 g/L. Нивото на статистическа значимост в този случай p

Виждаме, че концентрацията на хемоглобина се повишава, но почти незабележимо, следователно статистическата значимост се появява именно поради размера на извадката.

Доверителните интервали могат да бъдат изчислени не само за средни стойности, но и за пропорции (и рискови съотношения). Например, ние се интересуваме от доверителния интервал на пропорциите на пациентите, постигнали ремисия, докато приемат разработеното лекарство. Да приемем, че 95% CI за пропорциите, т.е. за дела на такива пациенти, е в диапазона 0,60–0,80. Така можем да кажем, че нашето лекарство има терапевтичен ефект в 60 до 80% от случаите.

Всяка извадка дава само приблизителна представа за генералната съвкупност и всички статистически характеристики на извадката (средна стойност, режим, дисперсия ...) са някакво приближение или да речем оценка на общите параметри, които в повечето случаи не могат да бъдат изчислени поради недостъпността на общото население (Фигура 20) .

Фигура 20. Грешка при вземане на проби

Но можете да посочите интервала, в който с определена степен на вероятност се намира истинската (обща) стойност на статистическата характеристика. Този интервал се нарича д доверителен интервал (CI).

Така че общата средна стойност с вероятност от 95% е в рамките

от до, (20)

където T - таблична стойност на критерия на Стюдънт за α =0,05 и f= н-1

Може да се намери и 99% CI, в този случай T избран за α =0,01.

Какво е практическото значение на доверителния интервал?

    Широкият доверителен интервал показва, че средната стойност на извадката не отразява точно средната стойност на популацията. Това обикновено се дължи на недостатъчен размер на извадката или на нейната хетерогенност, т.е. голяма дисперсия. И двете дават голяма грешка в средната стойност и съответно по-широк CI. И това е причината да се върнем към етапа на планиране на изследването.

    Горните и долните граници на CI оценяват дали резултатите ще бъдат клинично значими

Нека се спрем по-подробно на въпроса за статистическата и клиничната значимост на резултатите от изследването на груповите свойства. Спомнете си, че задачата на статистиката е да открие поне някои разлики в общите съвкупности въз основа на извадкови данни. Задачата на лекаря е да намери такива (не каквито и да е) разлики, които ще помогнат за диагностицирането или лечението. И не винаги статистическите заключения са основа за клинични заключения. По този начин, статистически значимо понижение на хемоглобина с 3 g/l не е причина за безпокойство. И обратно, ако някакъв проблем в човешкото тяло няма масов характер на ниво цялото население, това не е причина да не се занимаваме с този проблем.

Ще разгледаме тази позиция в пример.

Изследователите се чудеха дали момчетата, които са имали някакъв вид инфекциозно заболяване, изостават от връстниците си в растеж. За целта е проведено селективно изследване, в което са участвали 10 момчета с това заболяване. Резултатите са представени в таблица 23.

Таблица 23. Статистически резултати

долна граница

горен лимит

Спецификации (cm)

средата

От тези изчисления следва, че селективният среден ръст на 10-годишните момчета, прекарали някакво инфекциозно заболяване, е близък до нормалния (132,5 cm). Въпреки това, долната граница на доверителния интервал (126,6 cm) показва, че има 95% вероятност истинският среден ръст на тези деца да съответства на понятието "нисък ръст", т.е. тези деца са закърнели.

В този пример резултатите от изчисленията на доверителния интервал са клинично значими.

ДОВЕРИТЕЛНИ ИНТЕРВАЛИ ЗА ЧЕСТОТИ И ЧАСТИ

© 2008

Национален институт по обществено здраве, Осло, Норвегия

Статията описва и обсъжда изчисляването на доверителните интервали за честоти и пропорции с помощта на методите на Wald, Wilson, Klopper-Pearson, използвайки ъгловата трансформация и метода на Wald с корекция на Agresti-Cowll. Представеният материал предоставя обща информация за методите за изчисляване на доверителни интервали за честоти и пропорции и има за цел да предизвика интереса на читателите на списанието не само към използването на доверителни интервали при представяне на резултатите от собствените си изследвания, но и към четене на специализирана литература, преди да започнат работа върху бъдещи публикации.

Ключови думи: доверителен интервал, честота, пропорция

В една от предишните публикации накратко беше споменато описанието на качествените данни и беше съобщено, че тяхната интервална оценка е за предпочитане пред точковата оценка за описание на честотата на поява на изследваната характеристика в общата популация. В действителност, тъй като проучванията се провеждат с използване на извадкови данни, проекцията на резултатите върху общата популация трябва да съдържа елемент на неточност в извадковата оценка. Доверителният интервал е мярка за точността на изчисления параметър. Интересно е, че в някои книги за основите на статистиката за лекари темата за доверителните интервали за честотите е напълно игнорирана. В тази статия ще разгледаме няколко начина за изчисляване на доверителни интервали за честотите, като се приемат характеристики на извадката като неповтаряне и представителност, както и независимостта на наблюденията едно от друго. Честотата в тази статия не се разбира като абсолютно число, показващо колко пъти тази или онази стойност се среща в съвкупността, а като относителна стойност, която определя дела на участниците в изследването, които имат изследваната черта.

В биомедицинските изследвания най-често се използват 95% доверителни интервали. Този доверителен интервал е областта, в която истинската пропорция попада в 95% от времето. С други думи, може да се каже с 95% сигурност, че истинската стойност на честотата на поява на черта в общата популация ще бъде в рамките на 95% доверителен интервал.

Повечето статистически учебници за медицински изследователи съобщават, че честотната грешка се изчислява с помощта на формулата

където p е честотата на поява на характеристиката в извадката (стойност от 0 до 1). В повечето вътрешни научни статии се посочва стойността на честотата на поява на характеристика в извадката (p), както и нейната грешка (и) под формата на p ± s. По-целесъобразно е обаче да се представи 95% доверителен интервал за честотата на срещане на даден признак в генералната популация, който да включва стойности от

преди.

В някои учебници за малки извадки се препоръчва стойността 1,96 да се замени със стойността на t за N - 1 степени на свобода, където N е броят на наблюденията в извадката. Стойността на t се намира в таблиците за t-разпределението, които са налични в почти всички учебници по статистика. Използването на разпределението на t за метода на Wald не осигурява видими предимства пред другите методи, обсъдени по-долу, и следователно не се приветства от някои автори.

Горният метод за изчисляване на доверителни интервали за честоти или фракции е кръстен на Ейбрахам Валд (Abraham Wald, 1902–1950), тъй като започва да се използва широко след публикацията на Валд и Волфовиц през 1939 г. Самият метод обаче е предложен от Пиер Симон Лаплас (1749–1827) още през 1812 г.

Методът на Wald е много популярен, но прилагането му е свързано със значителни проблеми. Методът не се препоръчва за малки размери на извадката, както и в случаите, когато честотата на поява на характеристика клони към 0 или 1 (0% или 100%) и просто не е възможна за честоти от 0 и 1. Освен това, апроксимацията на нормалното разпределение, която се използва при изчисляване на грешката, "не работи" в случаите, когато n p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.



където приема стойност 1,96 при изчисляване на 95% доверителен интервал, N е броят на наблюденията и p е честотата на характеристиката в извадката. Този метод е наличен в онлайн калкулаторите, така че прилагането му не е проблематично. и не препоръчваме използването на този метод за n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

В допълнение към метода на Wilson се смята, че коригираният от Agresti-Caull метод на Wald осигурява оптимална оценка на доверителния интервал за честотите. Корекцията на Agresti-Coulle е замяна във формулата на Wald за честотата на срещане на признак в извадката (p) с p`, при изчисляването на което 2 се добавя към числителя, а 4 към знаменателя, т.е. , p` = (X + 2) / (N + 4), където X е броят на участниците в изследването, които имат изследваната черта, а N е размерът на извадката. Тази модификация дава резултати, много подобни на тези от формулата на Wilson, освен когато процентът на събитията се доближава до 0% или 100% и извадката е малка. В допълнение към горните методи за изчисляване на доверителни интервали за честотите са предложени корекции за непрекъснатост както за метода на Wald, така и за метода на Wilson за малки проби, но проучванията показват, че използването им е неподходящо.

Разгледайте приложението на горните методи за изчисляване на доверителни интервали, като използвате два примера. В първия случай изследваме голяма извадка от 1000 произволно избрани участници в изследването, от които 450 притежават чертата, която се изследва (независимо дали е рисков фактор, резултат или друга черта), която е честота 0,45, или 45%. Във втория случай изследването се провежда с помощта на малка извадка, да речем, само 20 души и само 1 участник в изследването (5%) има изследваната черта. Доверителните интервали за метода Wald, за метода Wald с корекция на Agresti-Coll, за метода Wilson бяха изчислени с помощта на онлайн калкулатор, разработен от Jeff Sauro (http://www./wald.htm). Доверителните интервали на Wilson с коригирана непрекъснатост бяха изчислени с помощта на калкулатора, предоставен от Wassar Stats: Уеб сайт за статистически изчисления (http://faculty.vassar.edu/lowry/prop1.html). Изчисленията с помощта на ъгловата трансформация на Fisher бяха извършени "ръчно", като се използва критичната стойност на t за 19 и 999 степени на свобода, съответно. Резултатите от изчисленията са представени в таблицата и за двата примера.

Доверителни интервали, изчислени по шест различни начина за двата примера, описани в текста

Метод за изчисляване на доверителния интервал

P=0,0500 или 5%

95% CI за X=450, N=1000, P=0,4500 или 45%

–0,0455–0,2541

Walda с корекция на Agresti-Coll

<,0001–0,2541

Wilson с корекция на непрекъснатостта

"Точният метод" на Klopper-Pearson

Ъглова трансформация

<0,0001–0,1967

Както може да се види от таблицата, за първия пример доверителният интервал, изчислен по "общоприетия" метод на Wald, отива в отрицателната област, което не може да бъде случаят с честотите. За съжаление подобни инциденти не са рядкост в руската литература. Традиционният начин за представяне на данните като честота и нейната грешка частично маскира този проблем. Например, ако честотата на поява на черта (в проценти) е представена като 2,1 ± 1,4, тогава това не е толкова „дразнещо“ като 2,1% (95% CI: –0,7; 4,9), въпреки че и означава същото. Методът на Wald с корекцията на Agresti-Coulle и изчислението, използващо ъгловата трансформация, дават долна граница, клоняща към нула. Методът на Wilson с корекция на непрекъснатостта и "точният метод" дават по-широки доверителни интервали от метода на Wilson. За втория пример всички методи дават приблизително еднакви доверителни интервали (разликите се появяват само в хилядни), което не е изненадващо, тъй като честотата на събитието в този пример не се различава много от 50%, а размерът на извадката е доста голям .

За читателите, които се интересуват от този проблем, можем да препоръчаме трудовете на R. G. Newcombe и Brown, Cai и Dasgupta, които дават предимствата и недостатъците на използването съответно на 7 и 10 различни метода за изчисляване на доверителните интервали. От местните ръководства се препоръчва книгата, в която освен подробно описание на теорията са представени методите на Уолд и Уилсън, както и метод за изчисляване на доверителни интервали, като се вземе предвид биномното разпределение на честотата. В допълнение към безплатните онлайн калкулатори (http://www./wald.htm и http://faculty.vassar.edu/lowry/prop1.html), доверителните интервали за честотите (и не само!) могат да бъдат изчислени с помощта на Програмата на CIA (анализ на доверителните интервали), която може да бъде изтеглена от http://www. медицинско училище. сотон. ак. uk/cia/.

Следващата статия ще разгледа едновариантни начини за сравняване на качествени данни.

Библиография

Банерджи А.Медицинска статистика на разбираем език: въвеждащ курс / А. Банержи. - М. : Практическа медицина, 2007. - 287 с. Медицинска статистика / . - М. : Агенция за медицинска информация, 2007. - 475 с. Гланц С.Медико-биологична статистика / S. Glants. - М. : Практика, 1998. Типове данни, проверка на разпространението и описателна статистика / // Екология на човека - 2008. - № 1. - С. 52–58. Жижин К.С.. Медицинска статистика: учебник / . - Ростов n / D: Phoenix, 2007. - 160 с. Приложна медицинска статистика / , . - Санкт Петербург. : Фолио, 2003. - 428 с. Лакин Г. Ф. Биометрични данни /. - М. : Висше училище, 1990. - 350 с. Медик В.А. Математическа статистика в медицината / , . - М. : Финанси и статистика, 2007. - 798 с. Математическа статистика в клиничните изследвания / , . - М. : ГЕОТАР-МЕД, 2001. - 256 с. Юнкеров В. И. Медико-статистическа обработка на данни от медицински изследвания /,. - Санкт Петербург. : ВмедА, 2002. - 266 с. Агрести А.Приблизителното е по-добро от точното за интервална оценка на биномни пропорции / A. Agresti, B. Coull // Американски статистик. - 1998. - N 52. - С. 119-126. Алтман Д.Статистика с увереност // D. Altman, D. Machin, T. Bryant, M. J. Gardner. - Лондон: BMJ Books, 2000. - 240 с. Браун Л.Д.Интервална оценка за биномиална пропорция / L. D. Brown, T. T. Cai, A. Dasgupta // Статистическа наука. - 2001. - N 2. - С. 101-133. Clopper C.J.Използването на доверителни или фидуциални граници, илюстрирани в случая на бином / C. J. Clopper, E. S. Pearson // Biometrika. - 1934. - N 26. - С. 404-413. Гарсия-Перес М. А. Относно доверителния интервал за биномиалния параметър / M. A. Garcia-Perez // Качество и количество. - 2005. - N 39. - С. 467-481. Мотулски Х.Интуитивна биостатистика // H. Motulsky. - Oxford: Oxford University Press, 1995. - 386 p. Нюкомб Р.Г.Двустранни доверителни интервали за единичната пропорция: Сравнение на седем метода / R. G. Newcombe // Статистика в медицината. - 1998. - N. 17. - P. 857–872. Сауро Дж.Оценяване на нивата на завършване от малки проби с помощта на биномиални доверителни интервали: сравнения и препоръки / J. Sauro, J. R. Lewis // Сборник на годишната среща на обществото за човешки фактори и ергономия. – Орландо, Флорида, 2005 г. Уолд А.Доверителни граници за непрекъснати функции на разпределение // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. - 1939. - N 10. - С. 105–118. Уилсън Е. Б. Вероятно заключение, законът за наследството и статистическо заключение / E. B. Wilson // Journal of American Statistical Association. - 1927. - N 22. - С. 209-212.

ДОВЕРИТЕЛНИ ИНТЕРВАЛИ ЗА ПРОПОРЦИИ

А. М. Гржибовски

Национален институт по обществено здраве, Осло, Норвегия

Статията представя няколко метода за изчисляване на доверителните интервали за биномни пропорции, а именно методите на Wald, Wilson, арксинус, Agresti-Coull и точни методи на Clopper-Pearson. Документът дава само общо въведение в проблема с оценката на доверителния интервал на биномна пропорция и целта му е не само да стимулира читателите да използват доверителни интервали, когато представят резултати от собствени емпирични изследователски интервали, но също така да ги насърчи да се консултират със статистически книги преди за анализиране на собствени данни и подготовка на ръкописи.

ключови думи: доверителен интервал, пропорция

Информация за връзка:

Старши съветник, Национален институт по обществено здраве, Осло, Норвегия

В предишните подраздели разгледахме въпроса за оценката на неизвестния параметър аедно число. Такава оценка се нарича "точкова". В редица задачи се изисква не само намиране на параметъра аподходяща числена стойност, но също така да оцени нейната точност и надеждност. Необходимо е да се знае до какви грешки може да доведе подмяната на параметъра анеговата точкова оценка аи с каква степен на увереност можем да очакваме, че тези грешки няма да надхвърлят познатите граници?

Проблеми от този вид са особено важни за малък брой наблюдения, когато точковата оценка и ве до голяма степен случаен и приблизителната замяна на a с a може да доведе до сериозни грешки.

Да се ​​даде представа за точността и надеждността на оценката а,

в математическата статистика се използват така наречените доверителни интервали и доверителни вероятности.

Нека за параметъра аполучена от безпристрастна оценка от опита а.Искаме да оценим възможната грешка в този случай. Нека зададем някаква достатъчно голяма вероятност p (например p = 0,9, 0,95 или 0,99), така че събитие с вероятност p да може да се счита за практически сигурно, и да намерим стойност на s, за която

След това диапазонът от практически възможни стойности на грешката, която възниква при подмяна ана а, ще бъде ± s; големи абсолютни грешки ще се появят само с малка вероятност a = 1 - p. Нека пренапишем (14.3.1) като:

Равенството (14.3.2) означава, че с вероятност p неизвестната стойност на параметъра апопада в интервала

В случая трябва да се отбележи едно обстоятелство. Преди многократно разглеждахме вероятността случайна променлива да попадне в даден неслучаен интервал. Тук ситуацията е различна: ане случаен, а случаен интервал / r. Произволно неговата позиция по оста x, определена от нейния център а; като цяло дължината на интервала 2s също е случайна, тъй като стойността на s се изчислява, като правило, от експериментални данни. Следователно в този случай би било по-добре да се интерпретира стойността на p, а не като вероятността за „улучване“ на точката ав интервала / p, но като вероятността произволен интервал / p да покрие точката а(фиг. 14.3.1).

Ориз. 14.3.1

Вероятността p се нарича ниво на уверености интервалът / p - доверителен интервал.Интервални граници ако. a x \u003d a-пясък а 2 = а +и се наричат граници на доверие.

Нека да дадем още една интерпретация на концепцията за доверителен интервал: той може да се разглежда като интервал от стойности на параметри а,съвместими с експерименталните данни и не им противоречат. Всъщност, ако се съгласим да считаме събитие с вероятност a = 1-p практически невъзможно, тогава тези стойности на параметъра a, за които а - а> s трябва да бъдат разпознати като противоречащи на експерименталните данни и тези, за които |a - а a t na 2 .

Нека за параметъра аима безпристрастна оценка а.Ако знаехме закона за разпределение на количеството а, проблемът с намирането на доверителния интервал би бил доста прост: достатъчно е да се намери стойност на s, за която

Трудността се състои в това, че законът за разпределение на оценката азависи от закона за разпределение на количеството хи, следователно, върху неговите неизвестни параметри (по-специално, върху самия параметър а).

За да се преодолее тази трудност, може да се приложи следният грубо приблизителен трик: заменете неизвестните параметри в израза за s с техните точкови оценки. С относително голям брой експерименти П(около 20 ... 30) тази техника обикновено дава задоволителни резултати по отношение на точността.

Като пример, разгледайте проблема с доверителния интервал за математическото очакване.

Нека произведени П х,чиито характеристики са математическото очакване Tи дисперсия д- неизвестен. За тези параметри бяха получени следните оценки:

Необходимо е да се изгради доверителен интервал / р, съответстващ на доверителната вероятност р, за математическото очакване Tколичества х.

При решаването на този проблем използваме факта, че количеството Tе сумата Пнезависими еднакво разпределени случайни променливи X чи според централната гранична теорема за достатъчно големи Пнеговият закон на разпределение е близък до нормалния. На практика, дори при относително малък брой членове (от порядъка на 10 ... 20), законът за разпределение на сумата може да се счита приблизително за нормален. Ще приемем, че стойността Tразпределени по нормалния закон. Характеристиките на този закон - съответно математическото очакване и дисперсията са равни Tи

(вижте глава 13, подраздел 13.3). Да приемем, че стойността дни е известна и ще намерим такава стойност Ep, за която

Прилагайки формула (6.3.5) от глава 6, ние изразяваме вероятността от лявата страна на (14.3.5) по отношение на функцията на нормалното разпределение

където е стандартното отклонение на оценката T.

От уравнението

намерете стойността на Sp:

където arg Ф* (x) е обратната функция на Ф* (Х),тези. такава стойност на аргумента, за която функцията на нормалното разпределение е равна на Х.

дисперсия Д,чрез които се изразява стойността а 1P, не знаем точно; като негова приблизителна стойност можете да използвате оценката д(14.3.4) и поставете приблизително:

По този начин проблемът за конструиране на доверителен интервал е приблизително решен, който е равен на:

където gp се определя от формула (14.3.7).

За да се избегне обратната интерполация в таблиците на функцията Ф * (l) при изчисляване на s p, е удобно да се състави специална таблица (Таблица 14.3.1), в която са изброени стойностите на количеството

в зависимост от r. Стойността (p определя за нормалния закон броя на стандартните отклонения, които трябва да бъдат отделени отдясно и отляво на центъра на дисперсията, така че вероятността да попаднете в получената област е равна на p.

Чрез стойността на 7 p доверителният интервал се изразява като:

Таблица 14.3.1

Пример 1. Проведени са 20 експеримента за стойността х;резултатите са показани в табл. 14.3.2.

Таблица 14.3.2

Изисква се да се намери оценка на за математическото очакване на количеството хи конструирайте доверителен интервал, съответстващ на ниво на доверие p = 0,8.

Решение.Ние имаме:

Избирайки за начало n: = 10, съгласно третата формула (14.2.14) намираме безпристрастната оценка д :

Според таблицата 14.3.1 намираме

Граници на доверието:

Доверителен интервал:

Стойности на параметрите T,лежащи в този интервал са съвместими с експерименталните данни, дадени в табл. 14.3.2.

По подобен начин може да се конструира доверителен интервал за дисперсията.

Нека произведени Пнезависими експерименти върху случайна променлива хс неизвестни параметри от и A, и за дисперсията дполучава се безпристрастната оценка:

Изисква се приблизително да се изгради доверителен интервал за дисперсията.

От формула (14.3.11) се вижда, че стойността дпредставлява

количество Пслучайни променливи от формата . Тези стойности не са

независими, тъй като всеки от тях включва количеството T,зависим от всички останали. Въпреки това може да се покаже, че като Пзаконът за разпределение на тяхната сума също е близък до нормалния. Почти при П= 20...30 вече може да се счита за нормално.

Нека приемем, че това е така, и да намерим характеристиките на този закон: математическото очакване и дисперсията. От резултата д- безпристрастен, значи M[D] = D.

Изчисляване на дисперсията Д Де свързано с относително сложни изчисления, така че даваме израза му без извод:

където c 4 - четвъртият централен момент на количеството х.

За да използвате този израз, трябва да замените в него стойностите на 4 и д(поне приблизително). Вместо дможете да използвате оценката Д.По принцип четвъртият централен момент може да бъде заменен и с неговата оценка, например със стойност от формата:

но такава замяна ще даде изключително ниска точност, тъй като като цяло при ограничен брой експерименти моментите от висок ред се определят с големи грешки. На практика обаче често се случва формата на закона за разпределение на количеството хизвестен предварително: неизвестни са само неговите параметри. Тогава можем да опитаме да изразим u4 по отношение на Д.

Нека вземем най-честия случай, когато стойността хразпределени по нормалния закон. След това неговият четвърти централен момент се изразява по отношение на дисперсията (вижте глава 6, подраздел 6.2);

и формула (14.3.12) дава или

Заместване в (14.3.14) на неизвестното днеговата оценка д, получаваме: откъде

Моментът u 4 може да бъде изразен чрез дсъщо и в някои други случаи, когато разпределението на колич хне е нормално, но външният му вид е известен. Например, за закона за еднаква плътност (вижте Глава 5) имаме:

където (a, P) е интервалът, на който е даден законът.

Следователно,

По формулата (14.3.12) получаваме: от където намираме приблизително

В случаите, когато формата на закона за разпределение на стойността на 26 е неизвестна, при оценяване на стойността на a /) все пак се препоръчва да се използва формулата (14.3.16), ако няма специални основания да се смята, че това законът е много различен от нормалния (има забележима положителна или отрицателна ексцес) .

Ако приблизителната стойност на a /) се получи по един или друг начин, тогава е възможно да се конструира доверителен интервал за дисперсията по същия начин, както го изградихме за математическото очакване:

където стойността в зависимост от дадената вероятност p се намира в табл. 14.3.1.

Пример 2. Намерете приблизително 80% доверителен интервал за дисперсията на случайна променлива хпри условията на пример 1, ако е известно, че стойността хразпределени по закон, близък до нормалния.

Решение.Стойността остава същата като в табл. 14.3.1:

Съгласно формулата (14.3.16)

Съгласно формулата (14.3.18) намираме доверителния интервал:

Съответният диапазон от стойности на стандартното отклонение: (0,21; 0,29).

14.4. Точни методи за конструиране на доверителни интервали за параметрите на случайна променлива, разпределени по нормалния закон

В предишния подраздел разгледахме грубо приблизителни методи за конструиране на доверителни интервали за средната стойност и дисперсията. Тук даваме представа за точните методи за решаване на същия проблем. Подчертаваме, че за точното намиране на доверителните интервали е абсолютно необходимо да се знае предварително формата на закона за разпределение на количеството х,като има предвид, че това не е необходимо за прилагането на приблизителни методи.

Идеята за точните методи за конструиране на доверителни интервали е следната. Всеки доверителен интервал се намира от условието, изразяващо вероятността за изпълнение на някои неравенства, които включват оценката, която ни интересува а.Закон за разпределение на оценките ав общия случай зависи от неизвестните параметри на величината х.Понякога обаче е възможно да се предадат неравенства от случайна променлива акъм някаква друга функция на наблюдаваните стойности X p X 2, ..., X стр.чийто закон на разпределение не зависи от неизвестни параметри, а зависи само от броя на експериментите и от формата на закона за разпределение на количеството х.Случайни променливи от този вид играят голяма роля в математическата статистика; най-подробно са изследвани за случай на нормално разпределение на величината х.

Например доказано е, че при нормално разпределение на количеството хпроизволна стойност

предмет на т.нар Закон за разпределение на студентас П- 1 степен на свобода; плътността на този закон има формата

където G(x) е известната гама функция:

Доказано е също, че случайната величина

има "разпределение % 2 " с П- 1 степени на свобода (виж глава 7), чиято плътност се изразява с формулата

Без да се спираме на изводите на разпределения (14.4.2) и (14.4.4), ще покажем как те могат да бъдат приложени при конструиране на доверителни интервали за параметрите Тай Д.

Нека произведени Пнезависими експерименти върху случайна променлива х,разпределени по нормалния закон с неизвестни параметри TIO.За тези параметри, оценки

Необходимо е да се конструират доверителни интервали и за двата параметъра, съответстващи на доверителната вероятност p.

Нека първо изградим доверителен интервал за математическото очакване. Естествено е този интервал да се приеме симетричен по отношение на T; означаваме с s p половината от дължината на интервала. Стойността на sp трябва да бъде избрана така, че условието

Нека се опитаме да преминем от лявата страна на равенството (14.4.5) от случайна променлива Tкъм случайна променлива T,разпределени по Закона на студента. За да направим това, умножаваме двете части на неравенството |m-w?|

до положителна стойност: или, използвайки нотацията (14.4.1),

Нека намерим число / p такова, че стойността / p да може да бъде намерена от условието

Може да се види от формула (14.4.2), че (1) е четна функция, така че (14.4.8) дава

Равенството (14.4.9) определя стойността / p в зависимост от p. Ако имате на разположение таблица с интегрални стойности

тогава стойността / p може да бъде намерена чрез обратна интерполация в таблицата. Въпреки това е по-удобно да съставите таблица със стойности / p предварително. Такава таблица е дадена в Приложението (Таблица 5). Тази таблица показва стойностите в зависимост от доверителната вероятност p и броя на степените на свобода П- 1. Като определи / p според таблицата. 5 и ако приемем

намираме половината от ширината на доверителния интервал / p и самия интервал

Пример 1. Проведени са 5 независими експеримента върху случайна променлива х,нормално разпределени с неизвестни параметри Tи около. Резултатите от експериментите са дадени в табл. 14.4.1.

Таблица 14.4.1

Намерете оценка Tза математическото очакване и конструирайте 90% доверителен интервал / p за него (т.е. интервалът, съответстващ на доверителната вероятност p \u003d 0,9).

Решение.Ние имаме:

Съгласно таблица 5 от заявлението за П - 1 = 4 и p = 0,9 намираме където

Доверителният интервал ще бъде

Пример 2. За условията на пример 1 от подраздел 14.3, приемайки стойността хнормално разпределени, намерете точния доверителен интервал.

Решение.Съгласно таблица 5 от приложението намираме при П - 1 = 19ir =

0,8 / р = 1,328; оттук

Сравнявайки с решението на пример 1 от подраздел 14.3 (e p = 0,072), виждаме, че несъответствието е много малко. Ако запазим точността до втория знак след десетичната запетая, тогава доверителните интервали, намерени чрез точния и приблизителния метод, са еднакви:

Нека да преминем към конструирането на доверителен интервал за дисперсията. Помислете за безпристрастната оценка на дисперсията

и изразете случайната променлива дчрез стойността V(14.4.3) с разпределение x 2 (14.4.4):

Познаване на закона за разпределение на количеството V,възможно е да се намери интервалът / (1 ), в който попада с дадена вероятност p.

разпределителен закон k n _ x (v)стойността на I 7 има формата, показана на фиг. 14.4.1.

Ориз. 14.4.1

Възниква въпросът: как да изберем интервала / p? Ако законът за разпределение на количеството Vбеше симетричен (като нормален закон или разпределение на Стюдънт), би било естествено интервалът /p да се приеме за симетричен по отношение на математическото очакване. В случая законът k n _ x (v)асиметричен. Нека се съгласим да изберем интервала /p, така че вероятностите за извеждане на количеството Vизвън интервала отдясно и отляво (защриховани области на фиг. 14.4.1) бяха еднакви и равни

За да конструираме интервал / p с това свойство, използваме Table. 4 приложения: съдържа числа y)такова, че

за количеството V,с x 2 -разпределение с r степени на свобода. В нашия случай r = n- 1. Поправете r = n- 1 и намерете в съответния ред на таблицата. 4 две стойности х 2 -едното съответства на вероятност, другото - вероятности Нека ги обозначим

стойности на 2и xl?Интервалът има y 2,с лявата си страна и y~десен край.

Сега намираме необходимия доверителен интервал /| за дисперсията с граници D, и D2,който покрива точката дс вероятност p:

Нека построим такъв интервал / (, = (?> b A), който покрива точката дако и само ако стойността Vпопада в интервала / r. Нека покажем, че интервалът

удовлетворява това условие. Наистина неравенствата са еквивалентни на неравенствата

и тези неравенства се изпълняват с вероятност p. Така се намира доверителният интервал за дисперсията, който се изразява с формулата (14.4.13).

Пример 3. Намерете доверителния интервал за дисперсията при условията на пример 2 от подраздел 14.3, ако е известно, че стойността хразпределени нормално.

Решение.Ние имаме . Съгласно таблица 4 от заявлението

намираме при r = n - 1 = 19

По формулата (14.4.13) намираме доверителния интервал за дисперсията

Съответен интервал за стандартно отклонение: (0,21; 0,32). Този интервал само малко надвишава интервала (0,21; 0,29), получен в пример 2 на подраздел 14.3 по приблизителния метод.

  • Фигура 14.3.1 разглежда доверителен интервал, който е симетричен относно a. Като цяло, както ще видим по-късно, това не е необходимо.
КАТЕГОРИИ

ПОПУЛЯРНИ СТАТИИ

2022 "kingad.ru" - ултразвуково изследване на човешки органи