Създайте серия за разпределение на интервални вариации. Статистическо обобщение и групиране

Ако изследваната случайна променлива е непрекъсната, тогава класирането и групирането на наблюдаваните стойности често не позволява идентифициране на характерните черти на вариацията в нейните стойности. Това се обяснява с факта, че отделните стойности на случайна променлива могат да се различават една от друга толкова малко, колкото желаете, и следователно в съвкупността от наблюдаваните данни рядко могат да се появят идентични стойности на дадено количество и честотите на вариантите се различават малко един от друг.

Също така е непрактично да се конструира дискретна серия за дискретна случайна променлива, чийто брой възможни стойности е голям. В такива случаи трябва да строите интервални вариационни серии разпределения.

За да се конструира такава серия, целият интервал на вариация на наблюдаваните стойности на случайна променлива се разделя на серия частични интервали и отчитане на честотата на възникване на стойностите на стойността във всеки частичен интервал.

Интервални вариационни сериинаричаме подреден набор от интервали с различни стойности на случайна променлива със съответните честоти или относителни честоти на стойностите на променливата, попадащи във всяка от тях.

За да изградите интервална серия, трябва:

  1. дефинирам размер частични интервали;
  2. дефинирам ширина интервали;
  3. задайте го за всеки интервал Горна част И долна граница ;
  4. групирайте резултатите от наблюдението.

1 . Въпросът за избора на броя и ширината на груповите интервали трябва да се решава във всеки конкретен случай въз основа на цели изследване, сила на звука проби и степен на вариация характеристика в пробата.

Приблизителен брой интервали к може да се оцени само въз основа на размера на извадката н по един от следните начини:

  • според формулата Стърджъс : k = 1 + 3,32 log n ;
  • използвайки таблица 1.

маса 1

2 . Обикновено се предпочитат пространства с еднаква ширина. За определяне на ширината на интервалите ч изчисли:

  • диапазон на вариация R - примерни стойности: R = x max - x min ,

Където xмакс И xmin - максимални и минимални опции за вземане на проби;

  • ширина на всеки интервал ч определя се по следната формула: h = R/k .

3 . Долен ред първи интервал x h1 е избран така, че опцията за минимална проба xmin падна приблизително в средата на този интервал: x h1 = x min - 0,5 часа .

Междинни интервалиполучен чрез добавяне на дължината на частичния интервал към края на предишния интервал ч :

x hi = x hi-1 +h.

Изграждането на интервална скала въз основа на изчисляването на границите на интервала продължава до стойността x здравей удовлетворява отношението:

x здравей< x max + 0,5·h .

4 . В съответствие с интервалната скала, характерните стойности се групират - за всеки частичен интервал се изчислява сумата от честотите n i опция включена в аз ти интервал. В този случай интервалът включва стойности на случайната променлива, които са по-големи или равни на долната граница и по-малки от горната граница на интервала.

Многоъгълник и хистограма

За по-голяма яснота са изградени различни графики на статистическо разпределение.

Въз основа на данните от дискретна вариационна серия те конструират многоъгълник честоти или относителни честоти.

Честотен полигон х 1 ; n 1 ), (х 2 ; n 2 ), ..., (x k ; n k ). За да се изгради честотен полигон, опциите се нанасят върху абсцисната ос. x i , а по ординатата - съответните честоти n i . Точки ( x i ; n i ) се свързват с прави отсечки и се получава честотен полигон (фиг. 1).

Многоъгълник на относителните честотинаречена начупена линия, чиито сегменти свързват точки ( х 1 ; W 1 ), (х 2 ; W 2 ), ..., (x k ; седмица ). За да се изгради полигон от относителни честоти, опциите се нанасят върху абсцисната ос x i , а по ординатата - съответните относителни честоти W i . Точки ( x i ; W i ) се свързват с прави отсечки и се получава многоъгълник от относителни честоти.

Кога непрекъснат знак препоръчително е да се изгради хистограма .

Честотна хистограманаречена стъпаловидна фигура, състояща се от правоъгълници, чиито основи са частични интервали на дължина ч , а височините са равни на отношението NIH (честотна плътност).

За да се изгради честотна хистограма, върху абсцисната ос се поставят частични интервали, а над тях на разстояние се чертаят сегменти, успоредни на абсцисната ос. NIH .

Брой групи (интервали)приблизително се определя по формулата на Стърджис:

m = 1 + 3,322 × log(n)

където n е общият брой единици за наблюдение (общият брой елементи в популацията и т.н.), log(n) е десетичният логаритъм от n.

получено според формулата на Стърджис стойността обикновено се закръгля до най-близкото цяло числочисла, тъй като броят на групите не може да бъде дробно число.

Ако интервална серия с толкова много групи не е задоволителна за някои критерии, тогава можете да изградите друга интервална серия чрез закръгляване мдо по-малко цяло число и изберете по-подходящия от двата реда.

Броят на групите не трябва да бъде повече от 15.

Можете също да използвате следната таблица, ако изобщо не е възможно да изчислите десетичния логаритъм.

    Определяне на ширината на интервала

Ширина на интервалаза интервална вариационна серия с равни интервали се определя по формулата:

където X max е максимумът от стойностите на x i, X min е минимумът от стойностите на x i; m - брой групи (интервали).

Размерът на интервала (аз ) обикновено се закръгля до най-близкото цяло число,единствените изключения са случаите, когато се изследват най-малките колебания на дадена характеристика (например при групиране на части според размера на отклоненията от номиналната стойност, измерени във фракции от милиметър).

Често се използва следното правило:

Брой знаци след десетичната запетая

Няколко символа след запетая

Пример за ширина на интервала с помощта на формулата

Към кой знак закръгляме?

Пример за заоблена ширина на разстояние

    Определяне на границите на интервалите

Долна граница първи интервалсе приема равна на минималната стойност на атрибута (най-често първо се закръгля до по-малко цяло число със същата цифра като ширината на интервала). Например x min = 15, i=130, x n от първия интервал = 10.

x n1 ≈ x min

Горен лимитпървият интервал съответства на стойността (Xmin + аз).

Долната граница на втория интервал винаги е равна на горната граница на първия интервал. За следващите групи границите се определят по подобен начин, т.е. стойността на интервала се добавя последователно.

х V аз = х н аз + i

х н аз = х V i-1

    Определете честотите на интервалите.

Преброяваме колко стойности попадат във всеки интервал. В същото време помним, че ако дадена единица има характерна стойност, равна на стойността на горната граница на интервала, тогава тя трябва да бъде присвоена на следващия интервал.

    Изграждаме интервална серия под формата на таблица.

    Определете средните точки на интервалите.

За по-нататъшен анализ на интервалните серии ще трябва да изберете характерна стойност за всеки интервал. Тази стойност на атрибута ще бъде обща за всички единици за наблюдение, попадащи в този интервал. Тези. отделните елементи "губят" индивидуалните си стойности на атрибути и им се присвоява една обща стойност на атрибута. Това общо значение е средата на интервала, което се обозначава х" аз .

Използвайки примера за растежа на децата, нека да разгледаме как да конструираме интервална серия с равни интервали.

Налични първоначални данни.

90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

В много случаи, когато статистическата съвкупност включва голям или още повече безкраен брой варианти, което най-често се случва с непрекъсната вариация, е практически невъзможно и непрактично да се формира група от единици за всеки вариант. В такива случаи комбинирането на статистически единици в групи е възможно само на базата на интервал, т.е. такава група, която има определени граници за стойностите на различна характеристика. Тези граници са обозначени с две числа, показващи горната и долната граница на всяка група. Използването на интервали води до формирането на интервална серия на разпределение.

Интервал раде вариационна серия, чиито варианти са представени под формата на интервали.

Интервална серия може да се формира с равни и неравни интервали, като изборът на принципа за построяване на тази серия зависи главно от степента на представителност и удобството на статистическата съвкупност. Ако съвкупността е достатъчно голяма (представителна) по отношение на броя на единиците и е напълно хомогенна по своя състав, тогава е препоръчително формирането на интервален ред да се основава на равенството на интервалите. Обикновено, използвайки този принцип, се формира интервална серия за тези популации, където диапазонът на вариация е относително малък, т.е. максималните и минималните опции обикновено се различават една от друга няколко пъти. В този случай стойността на равни интервали се изчислява чрез съотношението на диапазона на изменение на характеристика към даден брой образувани интервали. За определяне на равни Иинтервал, може да се използва формулата на Стърджис (обикновено с малка вариация на характеристиките на интервала и голям брой единици в статистическата популация):

където x i - еднаква стойност на интервала; X max, X min - максимални и минимални опции в статистическа съвкупност; н . - броят на единиците в съвкупността.

Пример. Препоръчително е да се изчисли размерът на равен интервал за плътността на радиоактивно замърсяване с цезий - 137 в 100 населени места на Краснополски район на Могилевска област, ако е известно, че първоначалният (минимален) вариант е равен на I km / км 2, финал (максимум) - 65 ki/km 2. Използвайки формула 5.1. получаваме:

Следователно, за да се образува интервална серия с равни интервали по отношение на плътността на замърсяване с цезий - 137 населени места в Краснополски район, размерът на равния интервал може да бъде 8 ki/km 2 .

При условия на неравномерно разпределение, т.е. когато максималните и минималните опции са стотици пъти, когато формирате интервална серия, можете да приложите принципа неравенинтервали. Неравните интервали обикновено се увеличават с преминаването към по-големи стойности на характеристиката.

Формата на интервалите може да бъде затворена или отворена. ЗатвореноОбичайно е да се извикват интервали, които имат както долна, така и горна граница. Отворетеинтервалите имат само една граница: в първия интервал има горна граница, в последния има долна граница.

Препоръчително е да се оценяват интервални серии, особено с неравни интервали, като се вземат предвид плътност на разпространение, най-простият начин за изчисляване е отношението на локалната честота (или честота) към размера на интервала.

За да формирате практически интервална серия, можете да използвате оформлението на таблицата. 5.3.

Таблица 5.3. Процедурата за формиране на интервална поредица от населени места в района на Краснополски според плътността на радиоактивно замърсяване с цезий –137

Основното предимство на интервалната серия е нейният максимум компактност.в същото време в серията на интервално разпределение отделните варианти на характеристиката са скрити в съответните интервали

При графично изобразяване на интервална серия в система от правоъгълни координати, горните граници на интервалите се нанасят по абсцисната ос, а локалните честоти на серията се нанасят по ординатната ос. Графичната конструкция на интервална серия се различава от конструкцията на разпределителен многоъгълник по това, че всеки интервал има долна и горна граница, а две абсциси съответстват на една стойност на ордината. Следователно на графиката на интервална серия не се отбелязва точка, както в многоъгълник, а линия, свързваща две точки. Тези хоризонтални линии се свързват една с друга с вертикални линии и се получава фигурата на стъпаловиден многоъгълник, който обикновено се нарича хистограмаразпределение (фиг. 5.3).

При графично конструиране на интервална серия за достатъчно голяма статистическа съвкупност хистограмата се приближава симетриченформа на разпространение. В случаите, когато статистическата съвкупност е малка, като правило, асиметриченстълбовидна диаграма.

В някои случаи е препоръчително да се формират редица натрупани честоти, т.е. кумулативенред. Кумулативната серия може да се формира на базата на дискретна или интервална серия на разпределение. При графично изобразяване на кумулативен ред в система от правоъгълни координати, по абсцисната ос се нанасят варианти, а по ординатната ос - натрупаните честоти (честоти). Получената крива линия обикновено се нарича кумулативенразпределение (фиг. 5.4).

Формирането и графичното представяне на различни видове вариационни редове допринася за опростено изчисляване на основните статистически характеристики, които са разгледани подробно в тема 6, и спомага за по-доброто разбиране на същността на законите за разпределение на статистическата съвкупност. Анализът на вариационна серия придобива особено значение в случаите, когато е необходимо да се идентифицира и проследи връзката между опциите и честотите (честотите). Тази зависимост се проявява във факта, че броят на случаите на опция е по определен начин свързан с размера на тази опция, т.е. с увеличаване на стойностите на различната характеристика, честотите (честотите) на тези стойности изпитват определени, систематични промени. Това означава, че числата в колоната честота (честота) не се колебаят хаотично, а се променят в определена посока, в определен ред и последователност.

Ако честотите показват известна систематичност в промените си, това означава, че сме на път да идентифицираме модел. Системата, редът, последователността в промените в честотите е отражение на общи причини, общи условия, характерни за цялото население.

Не трябва да се приема, че моделът на разпределение винаги се дава в готов вид. Има доста много вариационни серии, в които честотите странно скачат, понякога се увеличават, понякога намаляват. В такива случаи е препоръчително да разберете с какъв вид разпределение се занимава изследователят: или това разпределение изобщо няма присъщи модели, или природата му все още не е разкрита: Първият случай е рядък, но вторият случай е доста често срещано и много разпространено явление.

По този начин, когато се формира интервална серия, общият брой на статистическите единици може да бъде малък и всеки интервал съдържа малък брой варианти (например 1-3 единици). В такива случаи не може да се разчита на проявлението на някакъв модел. За да се получи естествен резултат въз основа на случайни наблюдения, трябва да влезе в сила законът за големите числа, т.е. така че за всеки интервал да има не няколко, а десетки и стотици статистически единици. За тази цел трябва да се опитаме да увеличим броя на наблюденията колкото е възможно повече. Това е най-сигурният начин за откриване на закономерности в масовите процеси. Ако няма реална възможност за увеличаване на броя на наблюденията, тогава идентифицирането на модел може да се постигне чрез намаляване на броя на интервалите в серията на разпределение. Чрез намаляване на броя на интервалите в една вариационна серия, броят на честотите във всеки интервал се увеличава. Това означава, че случайните колебания на всяка статистическа единица се наслагват една върху друга, „изглаждат се“, превръщайки се в модел.

Формирането и изграждането на вариационни редове ни позволява да получим само обща, приблизителна картина на разпределението на статистическата съвкупност. Например, хистограмата само в груба форма изразява връзката между стойностите на дадена характеристика и нейните честоти (честоти).Следователно вариационните серии са по същество само основата за по-нататъшно, задълбочено изследване на вътрешната закономерност на статичното разпространение.

ТЕСТОВИ ВЪПРОСИ КЪМ ТЕМА 5

1. Какво е вариация? Какво причинява вариация в черта в статистическа популация?

2. Какви видове вариращи характеристики могат да се появят в статистиката?

3. Какво е вариационна серия? Какви видове вариационни серии може да има?

4. Какво е класирана серия? Какви са неговите предимства и недостатъци?

5. Какво е дискретна серия и какви са нейните предимства и недостатъци?

6. Каква е процедурата за формиране на интервална серия, какви са нейните предимства и недостатъци?

7. Какво е графично представяне на класирани, дискретни, интервални серии на разпределение?

8. Какво е кумулатът на разпространение и какво характеризира?

Математическа статистика- клон на математиката, посветен на математическите методи за обработка, систематизиране и използване на статистически данни за научни и практически заключения.

3.1. ОСНОВНИ ПОНЯТИЯ НА МАТЕМАТИЧЕСКАТА СТАТИСТИКА

При медицински и биологични проблеми често е необходимо да се изследва разпространението на определена характеристика за много голям брой индивиди. Тази черта има различни значения за различните индивиди, така че е случайна променлива. Например всяко терапевтично лекарство има различна ефективност, когато се прилага при различни пациенти. Въпреки това, за да получите представа за ефективността на това лекарство, не е необходимо да го прилагате към всекиболен. Възможно е да се проследят резултатите от употребата на лекарството при сравнително малка група пациенти и въз основа на получените данни да се идентифицират основните характеристики (ефикасност, противопоказания) на процеса на лечение.

Население- съвкупност от хомогенни елементи, характеризиращи се с някакъв признак, който трябва да се изследва. Този знак е непрекъснатослучайна променлива с плътност на разпределение f(x).

Например, ако се интересуваме от разпространението на заболяване в определен регион, тогава общата популация е цялото население на региона. Ако искаме да разберем чувствителността на мъжете и жените към това заболяване поотделно, тогава трябва да разгледаме две общи популации.

За изследване на свойствата на генерална съвкупност се избира определена част от нейните елементи.

проба- част от общата популация, избрана за изследване (лечение).

Ако това не предизвиква объркване, тогава пробата се нарича като набор от предмети,избрани за проучването и съвкупност

стойностиизследваната характеристика, получена при изследването. Тези стойности могат да бъдат представени по няколко начина.

Прости статистически серии -стойности на изследваната характеристика, записани в реда, в който са получени.

Пример за проста статистическа серия, получена чрез измерване на повърхностната скорост на вълната (m/s) в кожата на челото при 20 пациенти, е даден в табл. 3.1.

Таблица 3.1.Прости статистически серии

Простата статистическа серия е основният и най-пълен начин за записване на резултатите от изследването. Може да съдържа стотици елементи. Много е трудно да се погледне такава съвкупност с един поглед. Следователно големите проби обикновено се разделят на групи. За да направите това, зоната на промяна в характеристиката е разделена на няколко (N) интервалиеднаква ширина и изчислете относителните честоти (n/n) на атрибута, попадащ в тези интервали. Ширината на всеки интервал е:

Границите на интервала имат следните значения:

Ако някой примерен елемент е границата между два съседни интервала, тогава той се класифицира като налявоинтервал. Групираните по този начин данни се наричат интервални статистически серии.

е таблица, която показва интервали от стойности на атрибути и относителните честоти на поява на атрибута в тези интервали.

В нашия случай можем да формираме например следната интервална статистическа серия (N = 5, д= 4), таблица. 3.2.

Таблица 3.2.Интервални статистически серии

Тук интервалът 28-32 включва две стойности, равни на 28 (Таблица 3.1), а интервалът 32-36 включва стойности 32, 33, 34 и 35.

Интервална статистическа серия може да бъде изобразена графично. За целта по абсцисната ос се нанасят интервали от стойности на атрибути и върху всеки от тях, като върху основа, се изгражда правоъгълник с височина, равна на относителната честота. Получената стълбовидна диаграма се нарича хистограма.

Ориз. 3.1.стълбовидна диаграма

В хистограмата статистическите модели на разпределението на характеристиката се виждат доста ясно.

При голям размер на извадката (няколко хиляди) и малка ширина на колоните, формата на хистограмата е близка до формата на графиката плътност на разпространениезнак.

Броят на колоните на хистограмата може да бъде избран чрез следната формула:

Ръчното конструиране на хистограма е дълъг процес. Затова са разработени компютърни програми за тяхното автоматично конструиране.

3.2. ЧИСЛОВИ ХАРАКТЕРИСТИКИ НА СТАТИСТИЧЕСКИ РЕДОВЕ

Много статистически процедури използват извадкови оценки за очакванията и дисперсията на популацията (или MSE).

Примерна средна стойност(X) е средноаритметичната стойност на всички елементи на проста статистическа серия:

За нашия пример х= 37,05 (m/s).

Средната стойност на извадката енай-добротообща средна оценкаМ.

Дисперсия на извадката s 2равна на сумата от квадратите на отклоненията на елементи от средната стойност на извадката, разделена на н- 1:

В нашия пример s 2 = 25,2 (m/s) 2.

Моля, имайте предвид, че когато се изчислява дисперсията на извадката, знаменателят на формулата не е размерът на извадката n, а n-1. Това се дължи на факта, че при изчисляване на отклоненията във формула (3.3) вместо неизвестното математическо очакване се използва неговата оценка - извадкова средна стойност.

Дисперсията на извадката е най-добротооценка на общата дисперсия (σ 2).

Примерно стандартно отклонение(s) е корен квадратен от дисперсията на извадката:

За нашия пример с= 5,02 (m/s).

Селективен корен квадратенотклонението е най-добрата оценка на общото стандартно отклонение (σ).

При неограничено увеличаване на размера на извадката, всички характеристики на извадката клонят към съответните характеристики на генералната съвкупност.

За изчисляване на характеристиките на извадката се използват компютърни формули. В Excel тези изчисления изпълняват статистическите функции AVERAGE, VARIANCE. СТАНДАРТНО ОТКЛОНЕНИЕ

3.3. ИНТЕРВАЛНА ОЦЕНКА

Всички характеристики на извадката са случайни променливи.Това означава, че за друга проба със същия размер стойностите на характеристиките на пробата ще бъдат различни. По този начин, селективно

характеристиките са само оценкисъответните характеристики на населението.

Недостатъците на селективното оценяване се компенсират от интервална оценка,представляващ числов интервалвътре в който с дадена вероятност R dсе намира истинската стойност на оценения параметър.

Позволявам U r - някакъв параметър на генералната съвкупност (генерална средна стойност, обща дисперсия и др.).

Интервална оценкапараметър U r се нарича интервал (U 1, U 2),отговарящи на условието:

P(U < Ur < U2) = Рд. (3.5)

Вероятност R dНаречен вероятност за доверие.

Вероятност за доверие Pд - вероятността истинската стойност на изчисленото количество да е вътреопределения интервал.

В този случай интервалът (U 1, U 2)Наречен доверителен интервалза параметъра, който се оценява.

Често вместо доверителната вероятност се използва свързаната стойност α = 1 - Р d, която се нарича ниво на значимост.

Ниво на значимосте вероятността истинската стойност на оценения параметър да е навъндоверителен интервал.

Понякога α и P d се изразяват като проценти, например 5% вместо 0,05 и 95% вместо 0,95.

При оценка на интервала първо изберете подходящия вероятност за доверие(обикновено 0,95 или 0,99) и след това намерете подходящия диапазон от стойности за параметъра, който се оценява.

Нека отбележим някои общи свойства на интервалните оценки.

1. Колкото по-ниско е нивото на значимост (толкова повече R d),толкова по-широка е оценката на интервала. Така че, ако при ниво на значимост от 0,05 интервалната оценка на общата средна стойност е 34,7< М< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < М< 40,25.

2. Колкото по-голям е размерът на извадката н,толкова по-тясна е оценката на интервала с избраното ниво на значимост. Нека, например, 5 е процентната оценка на общата средна стойност (β = 0,05), получена от извадка от 20 елемента, тогава 34,7< М< 39,4.

Като увеличим размера на извадката до 80, получаваме по-точна оценка при същото ниво на значимост: 35,5< М< 38,6.

Като цяло, изграждането на надеждни оценки на доверието изисква познаване на закона, според който оцененият случаен атрибут се разпределя в популацията. Нека да разгледаме как се конструира интервална оценка обща аварияхарактеристика, която се разпределя в популацията според нормалнозакон.

3.4. ИНТЕРВАЛНА ОЦЕНКА НА ГЕНЕРАЛНАТА СРЕДНА ЗА НОРМАЛНИЯ ЗАКОН НА РАЗПРЕДЕЛЕНИЕ

Изграждането на интервална оценка на общата средна M за съвкупност с нормален закон на разпределение се основава на следното свойство. За обем на вземане на проби нповедение

се подчинява на разпределението на Стюдънт с брой степени на свобода ν = н- 1.

Тук х- извадкова средна стойност и с- селективно стандартно отклонение.

Използвайки таблици за разпределение на Student или техен компютърен еквивалент, можете да намерите гранична стойност, така че с дадена доверителна вероятност да е валидно следното неравенство:

Това неравенство съответства на неравенството за M:

Където ε - полуширина на доверителния интервал.

По този начин изграждането на доверителен интервал за M се извършва в следната последователност.

1. Изберете доверителна вероятност Р d (обикновено 0,95 или 0,99) и за нея, използвайки таблицата за разпределение на Стюдънт, намерете параметъра t

2. Изчислете полуширината на доверителния интервал ε:

3. Получете интервална оценка на общата средна стойност с избраната доверителна вероятност:

Накратко се пише така:

Разработени са компютърни процедури за намиране на интервални оценки.

Нека обясним как да използваме таблицата за разпределение на ученика. Тази таблица има два „входа“: лявата колона, наречена брой степени на свобода ν = н- 1, а горният ред е нивото на значимост α. В пресечната точка на съответния ред и колона намерете коефициента на Student T.

Нека приложим този метод към нашата извадка. По-долу е представен фрагмент от таблицата за разпределение на учениците.

Таблица 3.3. Фрагмент от разпределителната таблица на Студент

Проста статистическа серия за извадка от 20 души = 20, ν =19) е представен в табл. 3.1. За тази серия изчисленията с помощта на формули (3.1-3.3) дават: х= 37,05; с= 5,02.

Да изберем α = 0.05 (Р d = 0.95). На пресечната точка на ред „19“ и колона „0,05“ намираме T= 2,09.

Нека изчислим точността на оценката, използвайки формула (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Нека изградим интервална оценка: с вероятност от 95%, неизвестната обща средна стойност удовлетворява неравенството:

37,05 - 2,34 < М< 37,05 + 2,34, или М= 37,05 ± 2,34 (m/s), R d = 0,95.

3.5. МЕТОДИ ЗА ПРОВЕРКА НА СТАТИСТИЧЕСКИ ХИПОТЕЗИ

Статистически хипотези

Преди да формулирате какво е статистическа хипотеза, разгледайте следния пример.

За да се сравнят два метода за лечение на определено заболяване, бяха избрани две групи пациенти от по 20 души и лекувани с помощта на тези методи. За всеки пациент се записва брой процедури,след което се постига положителен ефект. Въз основа на тези данни бяха открити извадкови средни стойности (X), извадкови вариации за всяка група (s 2)и примерни стандартни отклонения (с).

Резултатите са представени в табл. 3.4.

Таблица 3.4

Броят на процедурите, необходими за постигане на положителен ефект, е случайна величина, цялата информация за която в момента се съдържа в дадената извадка.

От масата 3.4 показва, че средната извадка в първата група е по-малка, отколкото във втората. Означава ли това, че същата връзка важи за общите средни стойности: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает статистическа проверка на хипотези.

Статистическа хипотеза- това е предположение за свойствата на популациите.

Ще разгледаме хипотези за свойствата двеобщи популации.

Ако популациите имат известен, идентиченразпределението на стойността, която се оценява, и допусканията се отнасят до стойностите някакъв параметърна това разпределение, тогава се наричат ​​хипотезите параметричен.Например, проби се вземат от популации с нормален законразпределение и равна дисперсия. Трябва да разберете еднакви ли саобщи средни стойности на тези популации.

Ако не се знае нищо за законите на разпределение на генералните съвкупности, тогава се наричат ​​хипотези за техните свойства непараметрични.Например, еднакви ли сазакони на разпределение на генералните съвкупности, от които са извлечени извадките.

Нулеви и алтернативни хипотези.

Задача за проверка на хипотези. Ниво на значимост

Нека се запознаем с терминологията, използвана при тестване на хипотези.

H 0 - нулевата хипотеза (хипотезата на скептиците) е хипотеза относно липсата на различиямежду сравнявани проби. Скептикът вярва, че разликите между извадковите оценки, получени от резултатите от изследването, са случайни;

H 1- алтернативна хипотеза (оптимистична хипотеза) е хипотеза за наличието на различия между сравняваните извадки. Оптимистът вярва, че разликите между извадковите оценки са причинени от обективни причини и съответстват на разликите в общите съвкупности.

Тестването на статистически хипотези е осъществимо само когато е възможно да се конструират някои размер(критерий), законът за разпределение на който при справедливост H 0известен. Тогава за това количество можем да уточним доверителен интервал,в които с дадена вероятност R dстойността му пада. Този интервал се нарича критична зона.Ако стойността на критерия попада в критичната област, тогава хипотезата се приема N 0.В противен случай се приема хипотеза H1.

В медицинските изследвания се използват P d = 0,95 или P d = 0,99. Тези стойности съответстват нива на значимостα = 0,05 или α = 0,01.

При проверка на статистически хипотезиниво на значимост(α) е вероятността за отхвърляне на нулевата хипотеза, когато е вярна.

Моля, имайте предвид, че в основата си процедурата за проверка на хипотези е насочена към откриване на разликиа не да потвърждават липсата им. Когато стойността на критерия надхвърли критичната област, можем да кажем с чисто сърце на „скептика“ - добре, какво друго искате?! Ако няма разлики, тогава с вероятност от 95% (или 99%) изчислената стойност ще бъде в посочените граници. Но не!..

Е, ако стойността на критерия попада в критичната област, тогава няма причина да се смята, че хипотезата H 0 е правилна. Това най-вероятно сочи към една от двете възможни причини.

1. Размерите на извадката не са достатъчно големи, за да открият разликите. Вероятно продължаването на експериментите ще доведе до успех.

2. Има разлики. Но те са толкова малки, че нямат никакво практическо значение. В този случай продължаването на експериментите няма смисъл.

Нека преминем към разглеждане на някои статистически хипотези, използвани в медицинските изследвания.

3.6. ТЕСТВАНЕ НА ХИПОТЕЗИ ОТНОСНО РАВЕНСТВОТО НА ВАРИАНЦИИТЕ, F-КРИТЕРИЙ НА ФИШЕР

В някои клинични проучвания положителният ефект се доказва не толкова много величинана параметъра, който се изследва, колко от него стабилизиране,намаляване на неговите колебания. В този случай възниква въпросът за сравняването на две общи вариации въз основа на резултатите от извадково проучване. Този проблем може да бъде решен с помощта на Тест на Фишер.

Формулиране на проблема

нормален законразпределения. Примерни размери -

n 1И n2,А примерни отклоненияравен s 1 и s 2 2 общи отклонения.

Тестваеми хипотези:

H 0- общи отклонения са същите;

H 1- общи отклонения са различни.

Показва се, ако са взети проби от популации с нормален законразпределение, тогава ако хипотезата е вярна H 0съотношението на дисперсиите на извадката следва разпределението на Фишер. Следователно като критерий за проверка на справедливостта H 0стойността се взема Е,изчислено по формулата:

Където s 1 и s 2 са примерни дисперсии.

Това отношение се подчинява на разпределението на Фишер с броя на степените на свобода на числителя ν 1 = n 1- 1 и броя на степените на свобода на знаменателя ν 2 = n 2 - 1. Границите на критичната област се намират с помощта на таблиците за разпределение на Фишер или с помощта на компютърната функция BRASPOBR.

За примера, представен в табл. 3.4, получаваме: ν 1 = ν 2 = 20 - 1 = 19; Е= 2,16/4,05 = 0,53. При α = 0,05 границите на критичната област са съответно: = 0,40, = 2,53.

Стойността на критерия попада в критичната област, така че хипотезата се приема H 0:общи извадкови отклонения са същите.

3.7. ТЕСТВАНЕ НА ХИПОТЕЗИ ОТНОСНО РАВЕНСТВОТО НА СРЕДСТВАТА, t-КРИТЕРИЙ НА СТУДЕНТ

Задача за сравнение средно аритметичнодве общи популации възникват, когато практическото значение е точно величинаизследваната характеристика. Например, когато се сравнява продължителността на лечението с два различни метода или броя на усложненията, произтичащи от тяхното използване. В този случай можете да използвате t-теста на Student.

Формулиране на проблема

Бяха получени две проби (X 1) и (X 2), извлечени от общи популации с нормален законразпространение и идентични вариации.Размери на извадката - n 1 и n 2, примерни средстваса равни на X 1 и X 2, и примерни отклонения- s 1 2 и s 2 2съответно. Трябва да се сравни общи средни стойности.

Тестваеми хипотези:

H 0- общи аварии са същите;

H 1- общи аварии са различни.

Доказано е, че ако хипотезата е вярна H 0 t стойност, изчислена по формулата:

разпределени по закона на Стюдънт с брой степени на свобода ν = ν 1 + + ν2 - 2.

Тук където ν 1 = н 1 - 1 - брой степени на свобода за първата проба; ν 2 = н 2 - 1 - брой степени на свобода за втория образец.

Границите на критичната област се намират с помощта на таблици с t-разпределение или с помощта на компютърната функция STUDRIST. Разпределението на Стюдънт е симетрично около нулата, така че лявата и дясната граница на критичната област са еднакви по величина и противоположни по знак: -и

За примера, представен в табл. 3.4, получаваме:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, T= -2,51. При α = 0,05 = 2,02.

Стойността на критерия надхвърля лявата граница на критичната област, така че приемаме хипотезата H 1:общи средни стойности са различни.В същото време населението средно първа пробаПО-МАЛКО.

Приложимост на t-критерия на Стюдънт

Тестът на Стюдънт е приложим само за проби от нормалноагрегати с идентични общи отклонения.Ако поне едно от условията е нарушено, тогава приложимостта на критерия е под въпрос. Изискването за нормалност на общото население обикновено се игнорира, цитирайки централна гранична теорема.Наистина, разликата между извадковите средни стойности в числителя (3.10) може да се счита за нормално разпределена за ν > 30. Но въпросът за равенството на дисперсиите не може да бъде проверен и не могат да бъдат взети препратки към факта, че тестът на Фишер не е открил разлики под внимание. Въпреки това, t-тестът се използва широко за откриване на разлики в средните стойности на популацията, макар и без достатъчно доказателства.

По-долу се обсъжда непараметричен критерий,който се използва успешно за същите цели и който не изисква никакви нормалност,нито едно равенство на дисперсиите.

3.8. НЕПАРАМЕТРИЧНО СРАВНЕНИЕ НА ДВЕ ПРОБИ: КРИТЕРИЙ НА МАН-УИТНИ

Непараметричните тестове са предназначени да открият разликите в законите на разпределение на две популации. Критерии, които са чувствителни към различията като цяло средно аритметично,наречени критерии смянаКритерии, които са чувствителни към различията като цяло дисперсии,наречени критерии мащаб.Тестът на Ман-Уитни се отнася до критериите смянаи се използва за откриване на разлики в средните стойности на две популации, проби от които са представени в скала за класиране.Измерените характеристики се разполагат на тази скала във възходящ ред, след което се номерират с цели числа 1, 2... Тези числа се наричат редици.На равни количества се присвояват равни рангове. Не е важна стойността на самия атрибут, а само редно мястокоито нарежда сред другите количества.

В табл 3.5. първата група от таблица 3.4 е представена в разширена форма (ред 1), класирана (ред 2), след което редовете на еднакви стойности се заменят със средни аритметични. Например, на елементи 4 и 4 в първия ред бяха дадени рангове 2 и 3, които след това бяха заменени със същите стойности от 2,5.

Таблица 3.5

Формулиране на проблема

Независими проби (X 1)И (X 2)извлечени от общи популации с неизвестни закони на разпределение. Примерни размери n 1И n 2съответно. Стойностите на примерните елементи са представени в скала за класиране.Необходимо е да се провери дали тези генерални съвкупности се различават една от друга?

Тестваеми хипотези:

H 0- пробите принадлежат към една и съща генерална съвкупност; H 1- извадките принадлежат към различни генерални съвкупности.

За тестване на такива хипотези се използва (/-тестът на Ман-Уитни.

Първо се съставя комбинирана извадка (X) от двете извадки, чиито елементи се класират. След това се намира сумата от ранговете, съответстващи на елементите от първата извадка. Тази сума е критерият за проверка на хипотези.

U= Сума от ранговете на първата проба. (3.11)

За независими проби, чиито обеми са по-големи от 20, стойността Uсе подчинява на нормалното разпределение, чието математическо очакване и стандартно отклонение са равни на:

Следователно границите на критичната област се намират според нормалните таблици на разпределение.

За примера, представен в табл. 3.4, получаваме: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. За α = 0,05 получаваме: ляво = 338 и дясно = 482.

Стойността на критерия надхвърля лявата граница на критичната област, следователно се приема хипотеза H 1: генералните съвкупности имат различни закони на разпределение. В същото време населението средно първа пробаПО-МАЛКО.

При конструирането на серия от интервално разпределение се решават три въпроса:

  • 1. Колко интервала трябва да взема?
  • 2. Каква е дължината на интервалите?
  • 3. Каква е процедурата за включване на съвкупност от единици в границите на интервалите?
  • 1. Брой интервалиможе да се определи от Формула на Стърджис:

2. Дължина на интервала или интервална стъпка, обикновено се определя по формулата

Където Р-диапазон на вариация.

3. Редът на включване на единиците на съвкупността в границите на интервала

може да бъде различно, но при изграждането на интервален ред разпределението трябва да бъде строго определено.

Например това: [), в което единиците на съвкупността са включени в долните граници, но не са включени в горните граници, а се прехвърлят към следващия интервал. Изключение от това правило е последният интервал, чиято горна граница включва последното число от класираната серия.

Границите на интервала са:

  • затворен - с две екстремни стойности на атрибута;
  • open - с една крайна стойност на атрибута (предитакъв и такъв номер или надтакъв и такъв номер).

За да усвоим теоретичния материал, въвеждаме обща информацияза решения задача от край до край.

Има условни данни за средния брой мениджъри по продажбите, количеството продадени от тях подобни стоки, индивидуалната пазарна цена за този продукт, както и обема на продажбите на 30 компании в един от регионите на Руската федерация през първото тримесечие на отчетната година (Таблица 2.1).

Таблица 2.1

Първоначална информация за междусекторна задача

Номер

мениджъри,

Цена, хиляди рубли

Обем на продажбите, милиони рубли.

Номер

мениджъри,

Количество продадени стоки, бр.

Цена, хиляди рубли

Обем на продажбите, милиони рубли.

Въз основа на първоначалната информация, както и на допълнителната информация, ще съставим индивидуални задачи. След това ще представим методиката за решаването им и самите решения.

Междусекторна задача. Задача 2.1

Използвайки изходните данни от табл. Изисква се 2.1изградете дискретна серия от разпределение на фирмите по количество продадени стоки (Таблица 2.2).

Решение:

Таблица 2.2

Дискретни серии от разпределение на фирмите по количество продадени стоки в един от регионите на Руската федерация през първото тримесечие на отчетната година

Междусекторна задача. Задача 2.2

изисква сеизградете класирана серия от 30 фирми според средния брой мениджъри.

Решение:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Междусекторна задача. Задача 2.3

Използвайки изходните данни от табл. 2.1, задължително:

  • 1. Конструирайте интервална серия от разпределение на фирмите по брой мениджъри.
  • 2. Изчислете честотите на сериите на разпределение на фирмите.
  • 3. Направете изводи.

Решение:

Нека изчислим по формулата на Стърджис (2.5) брой интервали:

Така вземаме 6 интервала (групи).

Дължина на интервала, или интервална стъпка, изчислете по формулата

Забележка.Редът за включване на единиците на съвкупността в границите на интервала е следният: I), при който единиците на популацията се включват в долните граници, но не се включват в горните граници, а се прехвърлят в следващия интервал. Изключение от това правило е последният интервал I ], чиято горна граница включва последния номер на класираната серия.

Изграждаме интервална серия (Таблица 2.3).

Интервални серии от разпределение на фирмите и средния брой мениджъри в един от регионите на Руската федерация през първото тримесечие на отчетната година

Заключение.Най-голямата група фирми е групата със среден брой мениджъри 25-30 души, която включва 8 фирми (27%); Най-малката група със среден брой мениджъри 40-45 души включва само една компания (3%).

Използвайки изходните данни от табл. 2.1, както и интервална серия от разпределение на фирмите по брой мениджъри (Таблица 2.3), изисква сеизградете аналитично групиране на връзката между броя на мениджърите и обема на продажбите на фирмите и въз основа на това направете заключение за наличието (или липсата) на връзка между тези характеристики.

Решение:

Аналитичното групиране се основава на факторни характеристики. В нашата задача факторната характеристика (x) е броят на мениджърите, а резултантната характеристика (y) е обемът на продажбите (Таблица 2.4).

Да строим сега аналитично групиране(Таблица 2.5).

Заключение.Въз основа на данните от изграденото аналитично групиране можем да кажем, че с увеличаване на броя на мениджърите по продажби се увеличава и средният обем на продажбите на компанията в групата, което показва наличието на пряка връзка между тези характеристики.

Таблица 2.4

Помощна таблица за построяване на аналитична групировка

Брой мениджъри, хора,

Фирмен номер

Обем на продажбите, милиони рубли, г

" = 59 f = 9,97

I-™ 4 -Ю.22

74 '25 1PY1

U4 = 7 = 10,61

при = ’ =10,31 30

Таблица 2.5

Зависимостта на обема на продажбите от броя на мениджърите на компанията в един от регионите на Руската федерация през първото тримесечие на отчетната година

КОНТРОЛНИ ВЪПРОСИ
  • 1. Каква е същността на статистическото наблюдение?
  • 2. Назовете етапите на статистическото наблюдение.
  • 3. Какви са организационните форми на статистическото наблюдение?
  • 4. Назовете видовете статистическо наблюдение.
  • 5. Какво е статистическо резюме?
  • 6. Назовете видовете статистически отчети.
  • 7. Какво е статистическо групиране?
  • 8. Назовете видовете статистически групировки.
  • 9. Какво е серия за разпространение?
  • 10. Наименувайте структурните елементи на разпределителния ред.
  • 11. Каква е процедурата за изграждане на серия за разпределение?
КАТЕГОРИИ

ПОПУЛЯРНИ СТАТИИ

2024 “kingad.ru” - ултразвуково изследване на човешки органи