Таблична стойност на t теста на студента. Основни статистики и t-тест на Стюдънт

Кога може да се използва t-тестът на Стюдънт?

За прилагане на t-теста на Стюдънт е необходимо оригиналните данни да са налице нормална дистрибуция. В случай на прилагане на критерий за две проби за независими проби е необходимо също така да се изпълни условието равенство (хомоскедастичност) на вариациите.

Ако тези условия не са изпълнени, трябва да се използват подобни методи при сравняване на средните стойности на извадката. непараметрична статистика, сред които най-известните са U тест на Ман-Уитни(като тест с две проби за независими проби), и критерий за знакИ Тест на Wilcoxon(използва се в случаи на зависими проби).

За да се сравнят средните стойности, t-тестът на Student се изчислява по следната формула:

Където М 1- средно аритметично на първата сравнена популация (група), М 2- средно аритметично на втората сравнявана популация (група), m 1- средната грешка на първата средна аритметична стойност, м 2- средната грешка на второто средно аритметично.

Как да интерпретираме стойността на t-теста на Student?

Получената стойност на t-теста на Student трябва да се интерпретира правилно. За да направим това, трябва да знаем броя на субектите във всяка група (n 1 и n 2). Намиране на броя на степените на свобода fпо следната формула:

f = (n 1 + n 2) - 2

След това определяме критичната стойност на t-теста на Student за необходимото ниво на значимост (например p = 0,05) и за даден брой степени на свобода fспоред таблицата ( виж отдолу).

Сравняваме критичните и изчислените стойности на критерия:

· Ако изчислената стойност на t-критерия на Стюдънт равен или по-голямкритични, установени от таблицата, заключаваме, че разликите между сравняваните стойности са статистически значими.

· Ако стойността на изчисления t-тест на Стюдънт по-малкотаблични, което означава, че разликите между сравняваните стойности не са статистически значими.

Пример за изчисляване на t-теста на Стюдънт

За изследване на ефективността на нов препарат с желязо бяха избрани две групи пациенти с анемия. В първата група пациентите са получавали ново лекарство в продължение на две седмици, а във втората група са получавали плацебо. След това се измерват нивата на хемоглобина в периферната кръв. В първата група средното ниво на хемоглобина е 115,4±1,2 g/l, а във втората група - 103,7±2,3 g/l (данните са представени във формат M±m), сравняваните популации имат нормално разпределение. Броят на първата група е 34, а на втората - 40 пациенти. Необходимо е да се направи заключение за статистическата значимост на получените разлики и ефективността на новия железен препарат.

Решение:За да оценим значимостта на разликите, използваме t-теста на Student, изчислен като разликата в средните стойности, разделена на сумата от квадратите на грешките:

След извършване на изчисленията стойността на t-теста се оказа 4,51. Намираме броя на степените на свобода като (34 + 40) - 2 = 72. Сравняваме получената стойност на t-теста на Student от 4,51 с критичната стойност при p = 0,05, посочена в таблицата: 1,993. Тъй като изчислената стойност на критерия е по-голяма от критичната стойност, ние заключаваме, че наблюдаваните разлики са статистически значими (ниво на значимост p<0,05).

Разпределението на Фишер е разпределението на случайна променлива

къде са случайните променливи X 1И X 2са независими и имат хи-квадрат разпределение с броя на степените на свобода к 1И к 2съответно. В същото време двойката (k 1, k 2)– двойка „степени на свобода“ от разпределението на Фишер, а именно, к 1е броят на степените на свобода на числителя, и к 2– брой степени на свобода на знаменателя. Разпределение на случайна величина Екръстен на великия английски статистик Р. Фишер (1890-1962), който активно го използва в трудовете си.

Разпределението на Фишер се използва при тестване на хипотези за адекватността на модела при регресионен анализ, равенство на дисперсиите и други проблеми на приложната статистика.

Таблица на критичните стойности на Student.

Начало на формата

Брой степени на свобода, f Стойност на t-теста на Student при p=0,05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
40-41 2.021
42-43 2.018
44-45 2.015
46-47 2.013
48-49 2.011
50-51 2.009
52-53 2.007
54-55 2.005
56-57 2.003
58-59 2.002
60-61 2.000
62-63 1.999
64-65 1.998
66-67 1.997
68-69 1.995
70-71 1.994
72-73 1.993
74-75 1.993
76-77 1.992
78-79 1.991
80-89 1.990
90-99 1.987
100-119 1.984
120-139 1.980
140-159 1.977
160-179 1.975
180-199 1.973
1.972
1.960

​ t-тест на Стюдънт е общо наименование на клас методи за статистическо тестване на хипотези (статистически тестове), базирани на разпределението на Стюдънт. Най-честите употреби на t-теста включват тестване на равенството на средните стойности в две проби.

1. История на развитието на t-теста

Този критерий беше разработен Уилям Госетза оценка на качеството на бирата в компанията Гинес. Поради задължения към компанията относно неразкриването на търговски тайни, статията на Госет е публикувана през 1908 г. в списание Biometrics под псевдонима „Студент“.

2. За какво се използва t-тестът на Стюдънт?

t тестът на Стюдънт се използва за определяне на статистическата значимост на разликите в средните стойности. Може да се използва както в случаите на сравнение на независими проби ( например групи от диабетици и здрави групи), и при сравняване на свързани популации ( например средна сърдечна честота при едни и същи пациенти преди и след приема на антиаритмично лекарство).

3. В какви случаи може да се използва t-тестът на Student?

За прилагане на t-теста на Стюдънт е необходимо оригиналните данни да са налице нормална дистрибуция. В случай на прилагане на критерий за две проби за независими проби е необходимо също така да се изпълни условието равенство (хомоскедастичност) на вариациите.

Ако тези условия не са изпълнени, трябва да се използват подобни методи при сравняване на средните стойности на извадката. непараметрична статистика, сред които най-известните са U тест на Ман-Уитни(като тест с две проби за независими проби), и критерий за знакИ Тест на Wilcoxon(използва се в случаи на зависими проби).

4. Как се изчислява t-теста на Стюдънт?

За да се сравнят средните стойности, t-тестът на Student се изчислява по следната формула:

Където М 1- средно аритметично на първата сравнена популация (група), М 2- средно аритметично на втората сравнявана популация (група), m 1- средната грешка на първата средна аритметична стойност, м 2- средната грешка на второто средно аритметично.

5. Как да интерпретираме стойността на t-теста на Student?

Получената стойност на t-теста на Student трябва да се интерпретира правилно. За да направим това, трябва да знаем броя на субектите във всяка група (n 1 и n 2). Намиране на броя на степените на свобода fпо следната формула:

f = (n 1 + n 2) - 2

След това определяме критичната стойност на t-теста на Student за необходимото ниво на значимост (например p = 0,05) и за даден брой степени на свобода fспоред таблицата ( виж отдолу).

Сравняваме критичните и изчислените стойности на критерия:

  • Ако изчислената стойност на t-теста на Student равен или по-голямкритични, установени от таблицата, заключаваме, че разликите между сравняваните стойности са статистически значими.
  • Ако стойността на изчисления t-тест на Student по-малкотаблични, което означава, че разликите между сравняваните стойности не са статистически значими.

6. Пример за изчисляване на t-критерия на Стюдънт

За изследване на ефективността на нов препарат с желязо бяха избрани две групи пациенти с анемия. В първата група пациентите са получавали ново лекарство в продължение на две седмици, а във втората група са получавали плацебо. След това се измерват нивата на хемоглобина в периферната кръв. В първата група средното ниво на хемоглобина е 115,4±1,2 g/l, а във втората група - 103,7±2,3 g/l (данните са представени във формат M±m), сравняваните популации имат нормално разпределение. Броят на първата група е 34, а на втората - 40 пациенти. Необходимо е да се направи заключение за статистическата значимост на получените разлики и ефективността на новия железен препарат.

Решение:За да оценим значимостта на разликите, използваме t-теста на Student, изчислен като разликата в средните стойности, разделена на сумата от квадратите на грешките:

След извършване на изчисленията стойността на t-теста се оказа 4,51. Намираме броя на степените на свобода като (34 + 40) - 2 = 72. Сравняваме получената стойност на t-теста на Student от 4,51 с критичната стойност при p = 0,05, посочена в таблицата: 1,993. Тъй като изчислената стойност на критерия е по-голяма от критичната стойност, ние заключаваме, че наблюдаваните разлики са статистически значими (ниво на значимост p<0,05).

Тестването на статистическата хипотеза ни позволява да направим силни заключения относно характеристиките на съвкупността въз основа на извадкови данни. Има различни хипотези. Една от тях е хипотезата за средното (математическо очакване). Същността му е да се направи правилно заключение, базирано само на наличната извадка, за това къде може или не може да се намира общата авария (никога няма да разберем точната истина, но можем да стесним търсенето).

Общият подход за тестване на хипотези е описан, така че нека да преминем направо към въпроса. Нека първо приемем, че извадката е съставена от нормална съвкупност от случайни променливи хс обща авария μ и дисперсия σ 2(Знам, знам, че това не се случва, но не ме прекъсвайте!). Средната аритметична стойност на тази извадка очевидно сама по себе си е случайна променлива. Ако извлечете много такива проби и изчислите средните им стойности, тогава те също ще имат математическо очакване μ И

След това случайната променлива

Възниква въпросът: ще бъде ли общата средна с 95% вероятност в рамките на ±1,96? s x̅. С други думи, това са разпределенията на случайни променливи

еквивалентен.

Този въпрос за първи път беше поставен (и решен) от химик, който работеше във фабриката за бира Гинес в Дъблин (Ирландия). Името на химика беше Уилям Сили Госет и взе проби от бира за химически анализ. В някакъв момент очевидно Уилям започна да се измъчва от неясни съмнения относно разпределението на средните стойности. Оказа се, че е малко по-размазан, отколкото трябва да бъде нормалното разпределение.

След като събра математическата основа и изчисли стойностите на откритата от него функция на разпределение, химикът от Дъблин Уилям Госет написа бележка, която беше публикувана в изданието от март 1908 г. на списание Biometrics (главен редактор - Карл Пиърсън). защото Гинес строго забранява разкриването на пивоварни тайни; Госет се подписва с псевдонима Student.

Въпреки факта, че К. Пиърсън вече е изобретил разпределението, общата идея за нормалност все още доминира. Никой нямаше да си помисли, че разпределението на примерните резултати може да не е нормално. Поради това статията на У. Госет остава практически незабелязана и забравена. И само Роналд Фишър оцени откритието на Госет. Фишер използва новото разпределение в работата си и му дава името t-разпределение на Стюдънт. Критерият за проверка на хипотезите, съответно, стана t-тест на Стюдънт. Така настъпва „революция” в статистиката, която навлиза в ерата на анализа на извадкови данни. Това беше кратко отклонение в историята.

Да видим какво може да види W. Gosset. Нека генерираме 20 хиляди нормални проби от 6 наблюдения със средна стойност ( Х) 50 и стандартно отклонение ( σ ) 10. След това нормализираме примерните средства, използвайки обща дисперсия:

Ще групираме получените 20 хиляди средни стойности в интервали с дължина 0,1 и ще изчислим честотите. Нека изобразим на диаграмата действителното (Norm) и теоретичното (ENorm) честотно разпределение на извадковите средни стойности.

Точките (наблюдавани честоти) практически съвпадат с линията (теоретични честоти). Това е разбираемо, тъй като данните са взети от една и съща генерална съвкупност и разликите са само грешки в извадката.

Нека проведем нов експеримент. Ние нормализираме средните стойности, използвайки дисперсия на извадката.

Нека преброим отново честотите и ги начертаем на диаграмата под формата на точки, оставяйки стандартна нормална линия на разпределение за сравнение. Нека обозначим емпиричната честота на средните, да речем, с буквата T.

Вижда се, че разпределенията този път не съвпадат много. Близо, да, но не е същото. Опашките станаха по-„тежки“.

Gosset-Student нямаше последната версия на MS Excel, но забеляза точно такъв ефект. Защо това се случва? Обяснението е, че случайната променлива

зависи не само от грешката на извадката (числител), но и от стандартната грешка на средната стойност (знаменател), която също е случайна променлива.

Нека разгледаме малко какво разпределение трябва да има такава случайна променлива. Първо, ще трябва да запомните (или научите) нещо от математическата статистика. Има теорема на Фишер, която гласи, че в извадка от нормално разпределение:

1. среден Хи дисперсия на извадката s 2са независими величини;

2. съотношението на дисперсията на извадката и популацията, умножено по броя на степените на свобода, има разпределение χ 2(хи-квадрат) със същия брой степени на свобода, т.е.

Където к– брой степени на свобода (на английски degrees offreedom (d.f.))

Много други резултати в статистиката на нормалните модели се основават на този закон.

Да се ​​върнем към разпределението на средната стойност. Разделете числителя и знаменателя на израза

На σ X̅. Получаваме

Числителят е стандартна нормална случайна променлива (означаваме ξ (xi)). Нека изразим знаменателя от теоремата на Фишер.

Тогава оригиналният израз ще приеме формата

Това е в общ вид (отношение на ученика). Можете да извлечете неговата функция на разпределение директно, защото разпределенията на двете случайни променливи в този израз са известни. Нека оставим това удоволствие на математиците.

Функцията t-разпределение на Стюдънт има формула, която е доста трудна за разбиране, така че няма смисъл да я анализираме. Така или иначе никой не го използва, защото... вероятностите са дадени в специални таблици на разпределенията на Стюдънт (понякога наричани таблици на коефициентите на Стюдънт) или са включени в PC формули.

И така, въоръжени с тези нови знания, можете да разберете официалната дефиниция на разпределението на Student.
Случайна променлива, предмет на разпределението на Стюдънт с кстепените на свобода са отношението на независими случайни променливи

Където ξ разпределени според стандартния нормален закон, и χ 2 kпредмет на разпространение χ 2° С кстепени на свобода.

Така формулата за критерия на Стюдънт за средноаритметичното

Има специален случай на връзката студент

От формулата и определението следва, че разпределението на t-теста на Стюдънт зависи само от броя на степените на свобода.

При к> 30 t-тест практически не се различава от стандартното нормално разпределение.

За разлика от хи-квадрат, t-тестът може да бъде едностранен или двустранен. Обикновено те използват двустранно, като приемат, че отклонението може да възникне и в двете посоки от средното. Но ако условието на проблема позволява отклонение само в една посока, тогава е разумно да се използва едностранен критерий. Това леко увеличава мощността, т.к. при фиксирано ниво на значимост критичната стойност леко се доближава до нула.

Условия за прилагане на t-критерия на Стюдънт

Въпреки факта, че откритието на Стюдънт по едно време революционизира статистиката, t-тестът все още е доста ограничен във възможностите си за приложение, т.к. идва от предположението за нормално разпределение на оригиналните данни. Ако данните не са нормални (което обикновено е така), тогава t-тестът вече няма да има разпределение на Стюдънт. Въпреки това, поради действието на централната гранична теорема, средната стойност дори за необичайни данни бързо придобива камбанообразно разпределение.

Помислете например за данни, които са ясно изкривени надясно, като например разпределение хи-квадрат с 5 степени на свобода.

Сега нека създадем 20 хиляди проби и да наблюдаваме как разпределението на средните стойности се променя в зависимост от техния обем.

Разликата е доста осезаема при малки извадки до 15-20 наблюдения. Но след това бързо изчезва. По този начин ненормалността на разпределението, разбира се, не е добра, но не е критична.

Най-вече t-тестът се „страхува“ от извънредни стойности, т.е. необичайни отклонения. Нека вземем 20 хиляди нормални извадки от 15 наблюдения всяка и добавим едно произволно отклонение към някои от тях.

Картината се оказва мрачна. Действителните честоти на средните стойности са много различни от теоретичните. Използването на t-разпределението в такава ситуация се превръща в много рисковано начинание.

Така че, в не много малки проби (от 15 наблюдения), t-тестът е относително устойчив на ненормално разпределение на оригиналните данни. Но отклоненията в данните силно изкривяват разпределението на t-теста, което от своя страна може да доведе до грешки в статистическите изводи, така че аномалните наблюдения трябва да бъдат елиминирани. Често всички стойности, които попадат в рамките на ±2 стандартни отклонения от средната стойност, се премахват от пробата.

Пример за тестване на хипотеза за математическо очакване с помощта на t-теста на Стюдънт в MS Excel

Excel има няколко функции, свързани с t-разпределението. Нека да ги разгледаме.

STUDENT.DIST – “класическо” лявостранно t-разпределение на Стюдънт. Входът е стойността на t-критерия, броя на степените на свобода и опция (0 или 1), която определя какво трябва да се изчисли: плътност или функционална стойност. На изхода получаваме съответно плътността или вероятността случайната променлива да бъде по-малка от t-критерия, посочен в аргумента.

STUDENT.DIST.2X – двупосочно разпределение. Аргументът е абсолютната стойност (по модул) на t-теста и броя на степените на свобода. В резултат на това получаваме вероятността да получим същата или дори по-голяма стойност на t-критерия, т.е. действително ниво на значимост (p-ниво).

STUDENT.DIST.PH – дясно t-разпределение. И така, 1-STUDENT.DIST(2;5;1) = STUDENT.DIST.PH(2;5) = 0,05097. Ако t-тестът е положителен, тогава получената вероятност е p-ниво.

STUDENT.INR – използва се за изчисляване на лявото обратно на t-разпределението. Аргументът е вероятността и броят на степените на свобода. На изхода получаваме стойността на t-критерия, съответстваща на тази вероятност. Броят на вероятностите е отляво. Следователно лявата опашка изисква самото ниво на значимост α , а за десния 1 - α .

STUDENT.OBR.2X – обратната стойност за двустранното разпределение на Student, т.е. t-тест стойност (по модул). Нивото на значимост също се предоставя на входа α . Само че този път преброяването се извършва от двете страни едновременно, така че вероятността се разпределя на две опашки. И така, STUDENT.ARV(1-0,025;5) = STUDENT.ARV.2X(0,05;5) = 2,57058

STUDENT.TEST е функция за проверка на хипотезата за равенството на математическите очаквания в две извадки. Замества куп изчисления, т.к Достатъчно е да посочите само два диапазона с данни и още няколко параметъра. Изходът е p-ниво.

CONFIDENCE.STUDENT – изчисляване на доверителния интервал на средната с отчитане на t-разпределението.

Нека разгледаме този пример за обучение. В предприятието циментът се пакетира в чували от 50 кг. Поради произволност се допуска известно отклонение от очакваната маса в единичен сак, но общата средна стойност трябва да остане 50 кг. Отделът за контрол на качеството претегли на случаен принцип 9 торби и получи следните резултати: средно тегло ( Х) беше 50,3 kg, стандартно отклонение ( с) – 0,5 кг.

Този резултат съответства ли на нулевата хипотеза, че общата средна стойност е 50 kg? С други думи, възможно ли е да се получи такъв резултат по чиста случайност, ако оборудването работи правилно и дава средно пълнене от 50 кг? Ако хипотезата не бъде отхвърлена, тогава получената разлика се вписва в обхвата на случайни колебания, но ако хипотезата бъде отхвърлена, тогава най-вероятно е имало неизправност в настройките на машината, която пълни торбите. Трябва да се провери и конфигурира.

Кратко условие в общоприетата нотация изглежда така.

H0: μ = 50 кг

H1: μ ≠ 50 кг

Има основание да се приеме, че разпределението на пълнежа на торби следва нормално разпределение (или не се различава много от него). Това означава, че за да проверите хипотезата за математическото очакване, можете да използвате t-теста на Стюдънт. Случайни отклонения могат да възникнат във всяка посока, което означава, че е необходим двустранен t-тест.

Първо, ще използваме допотопни средства: ръчно изчисляване на t-критерия и сравняването му с критичната стойност на таблицата. Изчислен t-тест:

Сега нека определим дали полученото число надвишава критичното ниво на нивото на значимост α = 0,05. Нека използваме таблицата на t-разпределение на Стюдънт (достъпна във всеки учебник по статистика).

Колоните показват вероятността от дясната страна на разпределението, а редовете показват броя на степените на свобода. Интересуваме се от двустранен t-тест с ниво на значимост 0,05, което е еквивалентно на t-стойността за половината от нивото на значимост вдясно: 1 - 0,05/2 = 0,975. Броят на степените на свобода е размерът на извадката минус 1, т.е. 9 - 1 = 8. В пресечната точка намираме табличната стойност на t-теста - 2,306. Ако използваме стандартното нормално разпределение, тогава критичната точка ще бъде 1,96, но тук тя е по-голяма, т.к. t-разпределението в малки проби има по-плосък вид.

Нека сравним действителната (1.8) и табличната стойност (2.306). Изчисленият критерий се оказа по-малък от табличния. Следователно наличните данни не противоречат на хипотезата H 0, че общата средна стойност е 50 kg (но и не я доказват). Това е всичко, което можем да научим с помощта на таблици. Можете, разбира се, също да опитате да намерите p-нивото, но то ще бъде приблизително. И, като правило, това е p-нивото, което се използва за проверка на хипотези. Следователно, следващото преминаване към Excel.

В Excel няма готова функция за изчисляване на t-теста. Но това не е страшно, защото формулата на t-теста на Student е доста проста и може лесно да бъде построена направо в клетка на Excel.

Имаме същия 1.8. Нека първо намерим критичната стойност. Вземаме алфа 0,05, критерият е двустранен. Нуждаем се от функцията на обратно t-разпределение за двустранната хипотеза STUDENT.OBR.2X.

Получената стойност отрязва критичната област. Наблюдаваният t-тест не попада в него, така че хипотезата не се отхвърля.

Това обаче е същият начин за тестване на хипотеза с помощта на таблична стойност. Би било по-информативно да се изчисли p-ниво, т.е. вероятността за получаване на наблюдаваното или дори по-голямо отклонение от средната стойност от 50 kg, ако тази хипотеза е вярна. Ще ви трябва функцията за разпределение на Student за двустранната хипотеза STUDENT.DIST.2X.

P-нивото е 0,1096, което е по-високо от приемливото ниво на значимост от 0,05 – ние не отхвърляме хипотезата. Но сега можем да преценим степента на доказателства. P-нивото се оказа доста близко до нивото, когато хипотезата се отхвърля и това навежда на различни мисли. Например, че извадката е твърде малка, за да открие значително отклонение.

След известно време контролният отдел отново реши да провери как се поддържа стандартът за пълнене на торбичките. Този път за по-голяма надеждност бяха избрани не 9, а 25 торби. Интуитивно е ясно, че разпространението на средната стойност ще намалее и следователно шансовете за намиране на повреда в системата стават по-големи.

Да кажем, че същите стойности на средната стойност и стандартното отклонение за пробата са получени като първия път (съответно 50,3 и 0,5). Нека изчислим t-теста.


Критичната стойност за 24 степени на свобода и α = 0,05 е 2,064. Картината по-долу показва, че t-тестът попада в диапазона на отхвърляне на хипотеза.

Можем да заключим, че с вероятност за доверие над 95%, общата средна стойност се различава от 50 кг. За да бъдем по-убедителни, нека разгледаме p-нивото (последния ред в таблицата). Вероятността да се получи средна стойност със същото или дори по-голямо отклонение от 50, ако хипотезата е вярна, е 0,0062 или 0,62%, което е практически невъзможно с едно измерване. Като цяло отхвърляме хипотезата като малко вероятна.

Изчисляване на доверителен интервал с помощта на t-разпределението на Стюдънт

Друг статистически метод е тясно свързан с тестването на хипотези - изчисляване на доверителни интервали. Ако полученият интервал съдържа стойност, съответстваща на нулевата хипотеза, това е еквивалентно на факта, че нулевата хипотеза не е отхвърлена. В противен случай хипотезата се отхвърля със съответното ниво на достоверност. В някои случаи анализаторите изобщо не тестват хипотези в класическата им форма, а само изчисляват доверителни интервали. Този подход ви позволява да извлечете още повече полезна информация.

Нека изчислим доверителните интервали за средната стойност за 9 и 25 наблюдения. За целта ще използваме функцията на Excel CONFIDENT.STUDENT. Тук, колкото и да е странно, всичко е съвсем просто. Аргументите на функцията трябва само да посочват нивото на значимост α , стандартно отклонение на извадката и размер на извадката. На изхода получаваме полуширината на доверителния интервал, т.е. стойността, която трябва да бъде поставена от двете страни на средната стойност. След като извършихме изчисленията и начертахме визуална диаграма, получаваме следното.

Както можете да видите, при извадка от 9 наблюдения стойността 50 попада в доверителния интервал (хипотезата не се отхвърля), а при 25 наблюдения не попада в доверителния интервал (хипотезата се отхвърля). Освен това при експеримент с 25 торби може да се каже, че с вероятност от 97,5% общата средна стойност надвишава 50,1 kg (долната граница на доверителния интервал е 50,094 kg). А това е доста ценна информация.

Така решихме същия проблем по три начина:

1. Използване на древен подход, сравняване на изчислените и таблични стойности на t-теста
2. По-модерен, чрез изчисляване на p-нивото, добавяйки известна степен на увереност при отхвърляне на хипотезата.
3. Още по-информативен чрез изчисляване на доверителния интервал и получаване на минималната стойност на общата средна стойност.

Важно е да запомните, че t-тестът се отнася за параметрични методи, т.к се основава на нормално разпределение (има два параметъра: средна стойност и дисперсия). Следователно, за успешното му прилагане е важна поне приблизителната нормалност на изходните данни и липсата на отклонения.

И накрая, предлагам да гледате видеоклип за това как да извършите изчисления, свързани с t-теста на Student в Excel.

Таблица за разпределение на учениците

Интегралните таблици на вероятността се използват за големи извадки от безкрайно голяма популация. Но вече в (n)< 100 получается Несоответствие между

таблични данни и гранична вероятност; при (n)< 30 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в гене-

генералната съвкупност няма значение, тъй като разпределението на отклоненията на извадковия показател от общата характеристика с голяма извадка винаги се оказва нормално.

наз. В малки проби (n)< 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из со-

население с нормално разпределение. Теорията за малките извадки е разработена от английския статистик У. Госет (писал под псевдонима Студент) в началото на 20 век. IN

През 1908 г. той конструира специално разпределение, което позволява, дори с малки извадки, да се съпоставят (t) и доверителната вероятност F(t). За (n) > 100 таблиците за разпределение на Стюдънт дават същите резултати като вероятностните интегрални таблици на Лаплас за 30< (n ) <

100 разлики са нищожни. Следователно практически малките проби включват проби с обем по-малък от 30 единици (разбира се, проба с обем над 100 единици се счита за голяма).

Използването на малки извадки в някои случаи се дължи на естеството на изследваното население. По този начин, в развъдната работа, „чистият“ опит е по-лесен за постигане с малък брой

парцели. Производствено-икономическият експеримент, свързан с икономическите разходи, също се провежда върху малък брой опити. Както вече беше отбелязано, в случай на малка извадка, както вероятностите за доверие, така и границите на доверие на общата средна стойност могат да бъдат изчислени само за нормално разпределена популация.

Плътността на вероятността на разпределението на Стюдънт се описва от функцията.

1 + t2

f (t ,n) := Bn

n − 1

t - текуща променлива n - размер на извадката;

B е количество, което зависи само от (n).

Разпределението на Стюдънт има само един параметър: (d.f.) - броят на степените на свобода (понякога се означава с (k)). Това разпределение, подобно на нормалното, е симетрично спрямо точката (t) = 0, но е по-плоско. С увеличаване на размера на извадката и, следователно, броя на степените на свобода, разпределението на Стюдънт бързо се доближава до нормалното. Броят на степените на свобода е равен на броя на онези отделни стойности на характеристиките, които трябва да бъдат разпределени

предполагаме, че определяме желаната характеристика. Следователно, за да се изчисли дисперсията, трябва да се знае средната стойност. Следователно, когато изчислявате дисперсията, използвайте (d.f.) = n - 1.

Таблиците за разпределение на учениците са публикувани в две версии:

1. подобно на таблиците с интегрални вероятности, стойностите ( t ) и съответните

текущи вероятности F(t) за различен брой степени на свобода;

2. стойностите (t) са дадени за най-често използваните доверителни вероятности

0,70; 0,75; 0,80; 0,85; 0,90; 0,95 и 0,99 или за 1 - 0,70 = 0,3; 1 - 0,80 = 0,2; …… 1 - 0,99 = 0,01.

3. при различен брой степени на свобода. Този вид таблица е дадена в приложението

(Таблица 1 - 20), както и стойността (t) - тест на Стюдънт при ниво на значимост 0,7

В целия пример ще използваме фиктивна информация, за да може читателят сам да направи необходимите трансформации.

Така че, да кажем, в хода на изследването, ние проучихме ефекта на лекарството А върху съдържанието на вещество B (в mmol/g) в тъкан C и концентрацията на вещество D в кръвта (в mmol/l) при пациенти разделени по някакъв критерий Е на 3 групи с еднакъв обем (n = 10). Резултатите от такова фиктивно изследване са показани в таблицата:

Съдържание на вещество Б, mmol/g

Вещество D, mmol/l

повишаване на концентрацията


Бихме искали да ви предупредим, че разглеждаме извадки с размер 10 за по-лесно представяне на данни и изчисления; на практика такъв размер на извадката обикновено не е достатъчен за формиране на статистическо заключение.

Като пример разгледайте данните в първата колона на таблицата.

Описателна статистика

Примерна средна стойност

Средната аритметична стойност, често наричана просто „средна“, се получава чрез добавяне на всички стойности и разделяне на тази сума на броя на стойностите в набора. Това може да се покаже с помощта на алгебрична формула. Набор от n наблюдения на променлива x може да бъде представен като x 1 , x 2 , x 3 , ..., x n

Формулата за определяне на средната аритметична стойност на наблюденията (произнася се „X с линия“):

= (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Дисперсия на извадката

Един от начините за измерване на дисперсията на данните е да се определи степента, до която всяко наблюдение се отклонява от средната аритметична стойност. Очевидно, колкото по-голямо е отклонението, толкова по-голяма е променливостта, променливостта на наблюденията. Не можем обаче да използваме средната стойност на тези отклонения като мярка за дисперсия, тъй като положителните отклонения компенсират отрицателните отклонения (сумата им е нула). За да разрешим този проблем, ние повдигаме на квадрат всяко отклонение и намираме средната стойност на квадратите на отклоненията; това количество се нарича вариация или дисперсия. Нека направим n наблюдения x 1, x 2, x 3, ..., x n, средно което е равно на. Изчисляване на дисперсията това, обикновено наричаноs2,тези наблюдения:

Дисперсията на извадката на този показател е s 2 = 3,2.

Стандартно отклонение

Стандартното (средно квадратно) отклонение е положителният квадратен корен от дисперсията. Използвайки n наблюдения като пример, това изглежда така:

Можем да мислим за стандартното отклонение като вид средно отклонение на наблюденията от средната стойност. Изчислява се в същите единици (измерения) като оригиналните данни.

s = sqrt (s 2) = sqrt (3,2) = 1,79.

Коефициентът на вариация

Ако разделите стандартното отклонение на средното аритметично и изразите резултата като процент, получавате коефициента на вариация.

CV = (1,79 / 13,1) * 100% = 13,7

Примерна средна грешка

1,79/sqrt(10) = 0,57;

t-коефициент на Стюдънт (t-тест за една извадка)

Използва се за проверка на хипотезата за разликата между средната стойност и известна стойност m

Броят на степените на свобода се изчислява като f=n-1.

В този случай доверителният интервал за средната стойност е между границите от 11,87 и 14,39.

За 95% ниво на сигурност m=11,87 или m=14,39, това е= |13,1-11,82| = |13.1-14.38| = 1,28

Съответно, в този случай, за броя на степените на свобода f = 10 - 1 = 9 и 95% ниво на доверие t = 2,26.

Диалог Основни статистики и таблици

В модула Основни статистики и таблицида изберем Описателна статистика.

Ще се отвори диалогов прозорец Описателна статистика.

В полето Променливида изберем Група 1.

Натискане Добре, получаваме таблици с резултати с описателна статистика на избраните променливи.

Ще се отвори диалогов прозорец t-тест за една проба.

Да предположим, че знаем, че средното съдържание на вещество B в тъкан C е 11.

Таблицата с резултати с описателна статистика и t-тест на Student е следната:

Трябваше да отхвърлим хипотезата, че средното съдържание на вещество B в тъкан C е 11.

Тъй като изчислената стойност на критерия е по-голяма от табличната стойност (2.26), нулевата хипотеза се отхвърля при избраното ниво на значимост и разликите между извадката и известната стойност се считат за статистически значими. По този начин заключението за съществуването на разлики, направено с помощта на теста на Стюдънт, се потвърждава с помощта на този метод.

КАТЕГОРИИ

ПОПУЛЯРНИ СТАТИИ

2023 “kingad.ru” - ултразвуково изследване на човешки органи