Нека изградим доверителен интервал в MS EXCEL, за да оценим средната стойност на разпределението в случай на известна стойност на дисперсия.

Разбира се изборът ниво на довериенапълно зависи от проблема, който се решава. По този начин степента на доверие на пътника в надеждността на самолета несъмнено трябва да бъде по-висока от степента на доверие на купувача в надеждността на електрическа крушка.

Формулиране на проблема

Да приемем, че от населениекато са взети пробаразмер n. Предполага се, че стандартно отклонениетова разпределение е известно. Въз основа на това е необходимо пробиоцени неизвестното средно разпределение(μ, ) и конструирайте съответния двустранен доверителен интервал.

Точкова оценка

Както е известно от статистика(нека го обозначим X ср) е безпристрастна оценка на средната стойносттова населениеи има разпределение N(μ;σ 2 /n).

Забележка: Какво да направите, ако трябва да построите доверителен интервалв случай на разпределение, което не е нормално?В този случай идва на помощ, който гласи, че с достатъчно голям размер проби n от разпространение да не бъдеш нормално, извадково разпределение на статистиката X срще приблизителнокореспондирам нормална дистрибуцияс параметри N(μ;σ 2 /n).

Така, точкова оценка средно аритметично разпределителни стойностиимаме - това извадкова средна стойност, т.е. X ср. Сега да започваме доверителен интервал.

Изграждане на доверителен интервал

Обикновено, знаейки разпределението и неговите параметри, можем да изчислим вероятността случайната променлива да приеме стойност от зададения от нас интервал. Сега нека направим обратното: да намерим интервала, в който случайната променлива ще попадне с дадена вероятност. Например от имотите нормална дистрибуцияизвестно е, че с вероятност от 95%, случайна променлива, разпределена върху нормален закон, ще попадне в диапазона от приблизително +/- 2 от средна стойност(вижте статията за). Този интервал ще ни служи като прототип доверителен интервал.

Сега да видим дали знаем разпределението , да изчислим този интервал? За да отговорим на въпроса, трябва да посочим формата на разпределението и неговите параметри.

Знаем формата на разпространение - това е нормална дистрибуция(не забравяйте, че говорим за разпределение на пробите статистика X ср).

Параметърът μ ни е неизвестен (просто трябва да се оцени с помощта на доверителен интервал), но имаме оценка за него X ср.,изчислено въз основа на проби,които могат да се използват.

Втори параметър - стандартно отклонение на средната стойност на извадката ще го считаме за известно, то е равно на σ/√n.

защото не знаем μ, тогава ще изградим интервала +/- 2 стандартни отклоненияне от средна стойност, и от известната му оценка X ср. Тези. при изчисляване доверителен интервалние НЯМА да приемем това X српопада в диапазона +/- 2 стандартни отклоненияот μ с вероятност от 95%, като ще приемем, че интервалът е +/- 2 стандартни отклоненияот X срс 95% вероятност ще покрие μ – средно за общото население,от която е взето проба. Тези две твърдения са еквивалентни, но второто твърдение ни позволява да конструираме доверителен интервал.

В допълнение, нека изясним интервала: случайна променлива, разпределена върху нормален закон, с 95% вероятност попада в интервала +/- 1.960 стандартни отклонения,не +/- 2 стандартни отклонения. Това може да се изчисли с помощта на формулата =NORM.ST.REV((1+0,95)/2), см. примерен файл Sheet Interval.

Сега можем да формулираме вероятностно твърдение, което ще ни послужи за формиране доверителен интервал:
„Вероятността, че средно населениеразположен от проба среднав рамките на 1960 " стандартни отклонения на средната стойност на извадката", равно на 95%".

Стойността на вероятността, спомената в твърдението, има специално име , което е свързано сниво на значимост α (алфа) чрез прост израз ниво на доверие =1 . В нашия случай ниво на значимост α =1-0,95=0,05 .

Сега, въз основа на това вероятностно твърдение, ние пишем израз за изчисляване доверителен интервал:

където Z α/2 стандартен нормална дистрибуция(тази стойност на случайната променлива z, Какво П(z>=Z α/2 )=α/2).

Забележка: Горен α/2-квантилопределя ширината доверителен интервал V стандартни отклонения извадкова средна стойност. Горен α/2-квантил стандартен нормална дистрибуциявинаги е по-голямо от 0, което е много удобно.

В нашия случай, с α=0,05, горен α/2-квантил е равно на 1,960. За други нива на значимост α (10%; 1%) горен α/2-квантил Z α/2 може да се изчисли по формулата =NORM.ST.REV(1-α/2) или, ако е известно ниво на доверие, =NORM.ST.OBR((1+ниво на доверие)/2).

Обикновено при изграждане доверителни интервали за оценка на средната стойностизползвай само горна α/2-квантили не използвайте по-ниско α/2-квантил. Това е възможно, защото стандартен нормална дистрибуциясиметрично спрямо оста x ( неговата плътност на разпространениесиметрично около средно, т.е. 0). Следователно няма нужда да се изчислява долен α/2-квантил(нарича се просто α /2-квантил), защото то е равно горна α/2-квантилсъс знак минус.

Нека припомним, че независимо от формата на разпределението на стойността x, съответната случайна променлива X срразпределени приблизително Глоба N(μ;σ 2 /n) (вижте статията за). Следователно, като цяло, горният израз за доверителен интервале само приблизително. Ако стойността x е разпределена върху нормален закон N(μ;σ 2 /n), тогава изразът за доверителен интервале точен.

Изчисляване на доверителен интервал в MS EXCEL

Да решим проблема.
Времето за реакция на електронния компонент към входен сигнал е важна характеристика на устройството. Инженер иска да конструира доверителен интервал за средното време за реакция при ниво на достоверност от 95%. От предишен опит инженерът знае, че стандартното отклонение на времето за реакция е 8 ms. Известно е, че за да оцени времето за реакция, инженерът е направил 25 измервания, средната стойност е 78 ms.

Решение: Един инженер иска да знае времето за реакция на електронно устройство, но той разбира, че времето за реакция не е фиксирана стойност, а случайна променлива, която има собствено разпределение. Така че най-доброто, на което може да се надява, е да определи параметрите и формата на това разпределение.

За съжаление, от условията на проблема не знаем формата на разпределението на времето за реакция (не е задължително да е нормално). , това разпределение също е неизвестно. Само той е известен стандартно отклонениеσ=8. Следователно, докато не можем да изчислим вероятностите и да конструираме доверителен интервал.

Въпреки това, въпреки факта, че не знаем разпределението време отделен отговор, знаем, че според CPT, разпределение на пробите средно време за реакцияе приблизително нормално(ще приемем, че условията CPTсе извършват, т.к размер пробидоста голям (n=25)) .

Освен това, средно аритметичнотова разпределение е равно на средна стойностразпределение на единичен отговор, т.е. μ. А стандартно отклонениена това разпределение (σ/√n) може да се изчисли по формулата =8/ROOT(25) .

Известно е също, че инженерът е получил точкова оценкапараметър μ равен на 78 ms (X ср.). Следователно сега можем да изчислим вероятностите, защото знаем формата на разпределение ( нормално) и неговите параметри (X ср. и σ/√n).

Инженерът иска да знае очаквана стойностμ разпределение на времето за реакция. Както беше посочено по-горе, това μ е равно на математическо очакване на извадковото разпределение на средното време за отговор. Ако използваме нормална дистрибуция N(X avg; σ/√n), тогава желаното μ ще бъде в диапазона +/-2*σ/√n с вероятност приблизително 95%.

Ниво на значимосте равно на 1-0,95=0,05.

И накрая, нека намерим лявата и дясната граница доверителен интервал.
Лява граница: =78-NORM.ST.REV(1-0.05/2)*8/ROOT(25) = 74,864
Дясна граница: =78+NORM.ST.INV(1-0,05/2)*8/ROOT(25)=81,136

Лява граница: =NORM.REV(0,05/2; 78; 8/ROOT(25))
Дясна граница: =NORM.REV(1-0,05/2; 78; 8/ROOT(25))

Отговор: доверителен интервалпри 95% ниво на достоверност и σ=8мсекравно на 78+/-3,136 ms.

IN примерен файл на листа Sigmaизвестен, създаде форма за изчисляване и изграждане двустранен доверителен интервалза произволно пробис дадено σ и ниво на значимост.

Функция CONFIDENCE.NORM().

Ако стойностите пробиса в диапазона B20:B79 , А ниво на значимостравно на 0,05; след това формулата на MS EXCEL:
=СРЕДНО(B20:B79)-CONFIDENCE.NORM(0,05;σ; БРОЙ(B20:B79))
ще върне лявата граница доверителен интервал.

Същата граница може да се изчисли по формулата:
=СРЕДНО(B20:B79)-NORM.ST.REV(1-0,05/2)*σ/ROOT(БРОЙ(B20:B79))

Забележка: Функцията CONFIDENCE.NORM() се появи в MS EXCEL 2010. В по-ранните версии на MS EXCEL беше използвана функцията TRUST().

Доверителен интервал за математическо очакване - това е интервал, изчислен от данни, които с известна вероятност съдържат математическото очакване на генералната съвкупност. Естествена оценка за математическото очакване е средноаритметичното на неговите наблюдавани стойности. Затова през целия урок ще използваме термините „средна стойност“ и „средна стойност“. При проблеми с изчисляване на доверителен интервал най-често изискваният отговор е нещо като „Доверителният интервал на средното число [стойност в определен проблем] е от [по-малка стойност] до [по-голяма стойност].“ Използвайки доверителен интервал, можете да оцените не само средните стойности, но и съотношението на определена характеристика на общата съвкупност. В урока се разглеждат средни стойности, дисперсия, стандартно отклонение и грешка, чрез които ще стигнем до нови определения и формули Характеристики на извадката и съвкупността .

Точкови и интервални оценки на средната стойност

Ако средната стойност на съвкупността се оценява с число (точка), тогава специфична средна стойност, която се изчислява от извадка от наблюдения, се приема като оценка на неизвестната средна стойност на съвкупността. В този случай стойността на извадковата средна - случайна променлива - не съвпада със средната стойност на генералната съвкупност. Следователно, когато посочвате средната стойност на извадката, трябва едновременно да посочите грешката на извадката. Мярката за извадкова грешка е стандартната грешка, която се изразява в същите единици като средната стойност. Поради това често се използва следното обозначение: .

Ако оценката на средната стойност трябва да бъде свързана с определена вероятност, тогава параметърът от интерес в съвкупността трябва да бъде оценен не с едно число, а с интервал. Доверителният интервал е интервал, в който с определена вероятност Пнамира се стойността на прогнозния индикатор за населението. Доверителен интервал, в който е вероятно П = 1 - α се намира случайната променлива, изчислена както следва:

,

α = 1 - П, който може да се намери в приложението към почти всяка книга по статистика.

На практика средната стойност на съвкупността и дисперсията не са известни, така че дисперсията на популацията се заменя с дисперсията на извадката, а средната популация с извадковата средна стойност. По този начин доверителният интервал в повечето случаи се изчислява, както следва:

.

Формулата на доверителния интервал може да се използва за оценка на средната популация if

  • стандартното отклонение на съвкупността е известно;
  • или стандартното отклонение на популацията е неизвестно, но размерът на извадката е по-голям от 30.

Средната стойност на извадката е безпристрастна оценка на средната стойност на популацията. На свой ред дисперсията на извадката не е безпристрастна оценка на дисперсията на популацията. За да получите безпристрастна оценка на дисперсията на популацията във формулата за дисперсия на извадката, размер на извадката нтрябва да се замени с н-1.

Пример 1.От 100 произволно избрани кафенета в даден град е събрана информация, че средният брой служители в тях е 10,5 при стандартно отклонение от 4,6. Определете 95% доверителен интервал за броя на служителите в кафенето.

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

По този начин 95% доверителен интервал за средния брой служители в кафенето варира от 9,6 до 11,4.

Пример 2.За произволна извадка от популация от 64 наблюдения бяха изчислени следните общи стойности:

сбор от стойности в наблюденията,

сума на квадратните отклонения на стойностите от средната стойност .

Изчислете 95% доверителен интервал за математическото очакване.

Нека изчислим стандартното отклонение:

,

Нека изчислим средната стойност:

.

Заменяме стойностите в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

Получаваме:

Така 95% доверителният интервал за математическото очакване на тази извадка варира от 7,484 до 11,266.

Пример 3.За произволна популационна извадка от 100 наблюдения изчислената средна стойност е 15,2, а стандартното отклонение е 3,2. Изчислете 95% доверителен интервал за очакваната стойност, след това 99% доверителен интервал. Ако мощността на извадката и нейната вариация останат непроменени и коефициентът на доверие се увеличи, ще се стесни или разшири доверителният интервал?

Заменяме тези стойности в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

Получаваме:

.

По този начин 95% доверителен интервал за средната стойност на тази проба варира от 14,57 до 15,82.

Отново заместваме тези стойности в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,01 .

Получаваме:

.

Така 99% доверителният интервал за средната стойност на тази проба варира от 14,37 до 16,02.

Както виждаме, с увеличаването на коефициента на доверие критичната стойност на стандартното нормално разпределение също се увеличава и следователно началната и крайната точка на интервала са разположени по-далеч от средната стойност и по този начин интервалът на доверие за математическото очакване се увеличава .

Точкови и интервални оценки на специфичното тегло

Делът на някакъв примерен атрибут може да се интерпретира като точкова оценка на дела стрсъс същата характеристика в общата популация. Ако тази стойност трябва да бъде свързана с вероятност, тогава трябва да се изчисли доверителният интервал на специфичното тегло стрхарактеристика в популацията с вероятност П = 1 - α :

.

Пример 4.В някой град има двама кандидати АИ бсе кандидатират за кмет. На случаен принцип са анкетирани 200 жители на града, от които 46% са отговорили, че биха гласували за кандидата А, 26% - за кандидата ба 28% не знаят за кого ще гласуват. Определете 95% доверителен интервал за дела на жителите на града, подкрепящи кандидата А.

Доверителен интервал– граничните стойности на статистическа величина, която с дадена доверителна вероятност γ ще бъде в този интервал при вземане на проби от по-голям обем. Означава се като P(θ - ε. На практика вероятността за доверие γ се избира от стойности, доста близки до единица: γ = 0.9, γ = 0.95, γ = 0.99.

Цел на услугата. Използвайки тази услуга, можете да определите:

  • доверителен интервал за общата средна стойност, доверителен интервал за дисперсията;
  • доверителен интервал за стандартното отклонение, доверителен интервал за общия дял;
Полученото решение се записва във файл на Word (вижте примера). По-долу има видео инструкция за попълване на първоначалните данни.

Пример №1. В колективна ферма от общо стадо от 1000 овце 100 овце са подложени на селективно контролно стригане. В резултат на това е установен среден настриг на вълна от 4,2 кг на овца. Определете с вероятност от 0,99 средната квадратна грешка на извадката при определяне на средното настригане на вълна на овца и границите, в които се съдържа стойността на настригане, ако дисперсията е 2,5. Пробата не се повтаря.
Пример №2. От партида внесени продукти на поста на Московската северна митница бяха взети 20 проби от продукт „А“ чрез произволно повторно вземане на проби. В резултат на теста е установено средното съдържание на влага на продукт „А” в пробата, което се оказва равно на 6% със стандартно отклонение от 1%.
Определете с вероятност 0,683 границите на средното съдържание на влага в продукта в цялата партида внесени продукти.
Пример №3. Проучване на 36 студенти показа, че средният брой учебници, прочетени от тях през учебната година, е равен на 6. Ако приемем, че броят учебници, прочетени от студент за семестър, има нормален закон на разпределение със стандартно отклонение, равно на 6, намерете : A) с надеждност от 0,99 интервална оценка за математическото очакване на тази случайна променлива; Б) с каква вероятност можем да кажем, че средният брой учебници, прочетени от студент за семестър, изчислен от тази извадка, ще се отклони от математическото очакване по абсолютна стойност с не повече от 2.

Класификация на доверителните интервали

По вид параметър, който се оценява:

По тип проба:

  1. Доверителен интервал за безкрайна извадка;
  2. Доверителен интервал за крайната проба;
Пробата се нарича повторна проба, ако избраният обект се върне към популацията, преди да изберете следващия. Пробата се нарича неповтаряща се, ако избраният обект не бъде върнат в популацията. На практика обикновено имаме работа с проби, които не се повтарят.

Изчисляване на средната извадкова грешка за случайна извадка

Несъответствието между стойностите на показателите, получени от извадката, и съответните параметри на генералната съвкупност се нарича грешка в представителността.
Обозначения на основните параметри на генералната и извадкова съвкупности.

Математика и компютърни науки. Учебно ръководство за целия курс

Нека случайната променлива X на популацията е нормално разпределена, като се има предвид, че дисперсията и стандартното отклонение s на това разпределение са известни. Изисква се да се оцени неизвестното математическо очакване, като се използва средната стойност на извадката. В този случай задачата се свежда до намиране на доверителен интервал за математическото очакване с надеждност b. Ако посочите стойността на доверителната вероятност (надеждност) b, тогава можете да намерите вероятността да попаднете в интервала за неизвестното математическо очакване, като използвате формула (6.9a):

където Ф(t) е функцията на Лаплас (5.17а).

В резултат на това можем да формулираме алгоритъм за намиране на границите на доверителния интервал за математическото очакване, ако дисперсията D = s 2 е известна:

  1. Задайте стойността на надеждност – b.
  2. От (6.14) изразете Ф(t) = 0,5 × b. Изберете стойността на t от таблицата за функцията на Лаплас въз основа на стойността Ф(t) (вижте Приложение 1).
  3. Изчислете отклонението e, като използвате формула (6.10).
  4. Запишете доверителен интервал, като използвате формула (6.12), така че с вероятност b да е валидно неравенството:

.

Пример 5.

Случайната променлива X има нормално разпределение. Намерете доверителни интервали за оценка с надеждност b = 0,96 на неизвестното математическо очакване a, ако е дадено:

1) общо стандартно отклонение s = 5;

2) средна стойност на извадката;

3) размер на извадката n = 49.

Във формула (6.15) на интервалната оценка на математическото очакване А с надеждност b всички величини с изключение на t са известни. Стойността на t може да се намери с помощта на (6.14): b = 2Ф(t) = 0,96. Ф(t) = 0,48.

Използвайки таблицата в Приложение 1 за функцията на Лаплас Ф(t) = 0,48, намерете съответната стойност t = 2,06. следователно . Като заместите изчислената стойност на e във формула (6.12), можете да получите доверителен интервал: 30-1,47< a < 30+1,47.

Необходимият доверителен интервал за оценка с надеждност b = 0,96 на неизвестното математическо очакване е равен на: 28,53< a < 31,47.

Формули за средна извадкова грешка
повторна селекцияповторете избора
за средноза споделянеза средноза споделяне
Връзката между границата на извадкова грешка (Δ), гарантирана с известна вероятност Р(t),и средната грешка на извадката има формата: или Δ = t·μ, където T– коефициент на доверителност, определен в зависимост от нивото на вероятност P(t) съгласно таблицата на интегралната функция на Лаплас.

Формули за изчисляване на размера на извадката, като се използва метод на чисто случайна извадка

Нека CB X образува генералната съвкупност и нека β е неизвестният параметър CB X. Ако статистическата оценка в * е последователна, тогава колкото по-голям е размерът на извадката, толкова по-точно получаваме стойността на β. На практика обаче нямаме много големи проби, така че не можем да гарантираме по-голяма точност.

Нека b* е статистическа оценка за c. Стойност |in* - in| се нарича точност на оценката. Ясно е, че точността е CB, тъй като β* е случайна променлива. Нека посочим малко положително число 8 и изискваме точността на оценката |в* - в| беше по-малко от 8, т.е. | в* - в |< 8.

Надеждност g или доверителна вероятност на оценка в in * е вероятността g, с която неравенството |in * - in|< 8, т. е.

Обикновено надеждността g се определя предварително и g се приема за число, близко до 1 (0,9; 0,95; 0,99; ...).

Тъй като неравенството |in * - in|< S равносильно двойному неравенству в* - S < в < в* + 8, то получаем:

Интервалът (в * - 8, в * + 5) се нарича доверителен интервал, т.е. доверителният интервал покрива неизвестния параметър в с вероятност y. Имайте предвид, че краищата на доверителния интервал са произволни и варират от проба на проба, така че е по-точно да се каже, че интервалът (в * - 8, в * + 8) покрива неизвестния параметър в, а не в принадлежи към това интервал.

Нека съвкупността е дефинирана от случайна променлива X, разпределена по нормален закон, и стандартното отклонение a е известно. Неизвестното е математическото очакване a = M (X). Изисква се да се намери доверителният интервал за a за дадена надеждност y.

Примерна средна стойност

е статистическа оценка за xr = a.

Теорема. Случайна променлива xB има нормално разпределение, ако X има нормално разпределение и M (XB) = a,

A (XB) = a, където a = y/B (X), a = M (X). л/и

Доверителният интервал за a има формата:

Намираме 8.

Използвайки съотношението

където Ф(r) е функцията на Лаплас, имаме:

P ( | XB - a |<8} = 2Ф

таблица със стойности на функцията на Лаплас намираме стойността на t.

Като определи

T, получаваме F(t) = g Тъй като g е дадено, тогава чрез

От равенството намираме, че оценката е точна.

Това означава, че доверителният интервал за a има формата:

Като се има предвид извадка от популацията X

нг Да се" X2 Xm
н. n1 n2 nm

n = U1 + ... + nm, тогава доверителният интервал ще бъде:

Пример 6.35. Намерете доверителния интервал за оценка на математическото очакване a на нормалното разпределение с надеждност 0,95, като знаете средната стойност на извадката Xb = 10,43, размер на извадката n = 100 и стандартно отклонение s = 5.

Нека използваме формулата

КАТЕГОРИИ

ПОПУЛЯРНИ СТАТИИ

2023 “kingad.ru” - ултразвуково изследване на човешки органи