مقدار جدولی آزمون t دانش آموز. آمار پایه و آزمون تی دانشجویی

چه زمانی می توان از آزمون تی دانشجویی استفاده کرد؟

برای اعمال آزمون t Student باید داده های اصلی را داشته باشد توزیع نرمال. در مورد اعمال آزمون دو نمونه ای برای نمونه های مستقل نیز رعایت شرط لازم است برابری (همسان سازی) واریانس ها.

در صورت عدم رعایت این شرایط، هنگام مقایسه میانگین های نمونه، باید از روش های مشابه استفاده شود. آمار ناپارامتریککه از جمله معروف ترین آنها هستند آزمون یو من ویتنی(به عنوان یک آزمون دو نمونه ای برای نمونه های مستقل)، و معیار علامتو تست ویلکاکسون(در موارد نمونه های وابسته استفاده می شود).

برای مقایسه میانگین ها، آزمون t Student با استفاده از فرمول زیر محاسبه می شود:

جایی که M 1- میانگین حسابی اولین جمعیت مقایسه شده (گروه)، M 2- میانگین حسابی دومین جمعیت مقایسه شده (گروه)، متر 1- میانگین خطای اولین میانگین حسابی، متر مربع- میانگین خطای میانگین حسابی دوم.

چگونه مقدار آزمون t Student را تفسیر کنیم؟

مقدار حاصل از آزمون t Student باید به درستی تفسیر شود. برای این کار باید تعداد آزمودنی های هر گروه (n 1 و n 2) را بدانیم. پیدا کردن تعداد درجات آزادی fطبق فرمول زیر:

f \u003d (n 1 + n 2) - 2

پس از آن، مقدار بحرانی آزمون t Student را برای سطح معنی‌داری مورد نیاز (به عنوان مثال p=0.05) و برای تعداد معینی از درجات آزادی تعیین می‌کنیم. fطبق جدول ( زیر را ببینید).

ما مقادیر بحرانی و محاسبه شده معیار را با هم مقایسه می کنیم:

اگر مقدار محاسبه شده آزمون t Student برابر یا بیشتربحرانی، که در جدول یافت می شود، نتیجه می گیریم که تفاوت بین مقادیر مقایسه شده از نظر آماری معنی دار است.

اگر مقدار آزمون t Student محاسبه شده باشد کمترجدولی، به این معنی که تفاوت بین مقادیر مقایسه شده از نظر آماری معنی دار نیست.

نمونه آزمون تی دانشجویی

برای بررسی اثربخشی فرآورده آهن جدید، دو گروه از بیماران مبتلا به کم خونی انتخاب شدند. در گروه اول، بیماران به مدت دو هفته داروی جدید و در گروه دوم دارونما دریافت کردند. سپس سطح هموگلوبین خون محیطی اندازه گیری شد. در گروه اول، میانگین سطح هموگلوبین 1.2±115.4 گرم در لیتر و در گروه دوم 2.3±103.7 گرم در لیتر بود (داده ها در قالب ارائه شده است. M±m، جمعیت های مقایسه شده دارای توزیع نرمال هستند. تعداد گروه اول 34 نفر و گروه دوم 40 نفر بود. لازم است در مورد اهمیت آماری تفاوت های به دست آمده و اثربخشی آماده سازی جدید آهن نتیجه گیری شود.

راه حل:برای ارزیابی معنی‌داری تفاوت‌ها، از آزمون t Student استفاده می‌کنیم که به عنوان تفاوت بین میانگین تقسیم بر مجموع مجذور خطاها محاسبه می‌شود:

پس از انجام محاسبات، مقدار آزمون t برابر با 51/4 شد. ما تعداد درجات آزادی را (34 + 40) - 2 = 72 پیدا می کنیم. مقدار بدست آمده از آزمون t Student 4.51 را با مقدار بحرانی 0.05=p که در جدول نشان داده شده است مقایسه می کنیم: 1.993. از آنجایی که مقدار محاسبه شده معیار بزرگتر از مقدار بحرانی است، نتیجه می گیریم که تفاوت های مشاهده شده از نظر آماری معنی دار هستند (سطح معنی داری p<0,05).

توزیع فیشر توزیع یک متغیر تصادفی است

که در آن متغیرهای تصادفی X 1و X 2مستقل هستند و دارای توزیع چی هستند - مربع با تعداد درجات آزادی k 1و k2به ترتیب. در عین حال یک زوج (k 1 , k 2)یک جفت "تعداد درجات آزادی" توزیع فیشر است، یعنی، k 1تعداد درجات آزادی صورتگر است و k2تعداد درجات آزادی مخرج است. توزیع یک متغیر تصادفی افبه نام آماردان بزرگ انگلیسی R. Fisher (1890-1962) که به طور فعال از آن در کار خود استفاده کرد.

توزیع فیشر برای آزمون فرضیه‌های مربوط به کفایت مدل در تحلیل رگرسیون، در مورد برابری واریانس‌ها و سایر مسائل آمار کاربردی استفاده می‌شود.

جدول مقادیر بحرانی دانش آموز.

شروع فرم

تعداد درجات آزادی، f مقدار آزمون t دانشجویی در p=0.05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
40-41 2.021
42-43 2.018
44-45 2.015
46-47 2.013
48-49 2.011
50-51 2.009
52-53 2.007
54-55 2.005
56-57 2.003
58-59 2.002
60-61 2.000
62-63 1.999
64-65 1.998
66-67 1.997
68-69 1.995
70-71 1.994
72-73 1.993
74-75 1.993
76-77 1.992
78-79 1.991
80-89 1.990
90-99 1.987
100-119 1.984
120-139 1.980
140-159 1.977
160-179 1.975
180-199 1.973
1.972
1.960

آزمون تی دانشجویی نامی کلی برای دسته ای از روش ها برای آزمون آماری فرضیه ها (آزمون های آماری) بر اساس توزیع دانش آموز است. رایج ترین موارد استفاده از آزمون t مربوط به بررسی برابری میانگین ها در دو نمونه است.

1. تاریخچه توسعه آزمون t

این معیار تدوین شد ویلیام گوستبرای ارزیابی کیفیت آبجو در گینس. در رابطه با تعهدات شرکت به عدم افشای اسرار تجاری، مقاله Gosset در سال 1908 در مجله Biometrics با نام مستعار "Student" (Student) منتشر شد.

2. آزمون t Student برای چه مواردی استفاده می شود؟

برای تعیین معنی داری آماری میانگین تفاوت ها از آزمون t دانشجویی استفاده می شود. می توان از آن هم در موارد مقایسه نمونه های مستقل استفاده کرد ( به عنوان مثال، گروه های بیماران مبتلا به دیابت و گروه های سالم، و هنگام مقایسه مجموعه های مرتبط ( به عنوان مثال، میانگین ضربان قلب در همان بیماران قبل و بعد از مصرف داروی ضد آریتمی).

3. چه زمانی می توان از آزمون t Student استفاده کرد؟

برای اعمال آزمون t Student باید داده های اصلی را داشته باشد توزیع نرمال. در مورد اعمال آزمون دو نمونه ای برای نمونه های مستقل نیز رعایت شرط لازم است برابری (همسان سازی) واریانس ها.

در صورت عدم رعایت این شرایط، هنگام مقایسه میانگین های نمونه، باید از روش های مشابه استفاده شود. آمار ناپارامتریککه از جمله معروف ترین آنها هستند آزمون یو من ویتنی(به عنوان یک آزمون دو نمونه ای برای نمونه های مستقل)، و معیار علامتو تست ویلکاکسون(در موارد نمونه های وابسته استفاده می شود).

4. چگونه آزمون t Student را محاسبه کنیم؟

برای مقایسه میانگین ها، آزمون t Student با استفاده از فرمول زیر محاسبه می شود:

جایی که M 1- میانگین حسابی اولین جمعیت مقایسه شده (گروه)، M 2- میانگین حسابی دومین جمعیت مقایسه شده (گروه)، متر 1- میانگین خطای اولین میانگین حسابی، متر مربع- میانگین خطای میانگین حسابی دوم.

5. چگونه مقدار آزمون t Student را تفسیر کنیم؟

مقدار حاصل از آزمون t Student باید به درستی تفسیر شود. برای این کار باید تعداد آزمودنی های هر گروه (n 1 و n 2) را بدانیم. پیدا کردن تعداد درجات آزادی fطبق فرمول زیر:

f \u003d (n 1 + n 2) - 2

پس از آن، مقدار بحرانی آزمون t Student را برای سطح معنی‌داری مورد نیاز (به عنوان مثال p=0.05) و برای تعداد معینی از درجات آزادی تعیین می‌کنیم. fطبق جدول ( زیر را ببینید).

ما مقادیر بحرانی و محاسبه شده معیار را با هم مقایسه می کنیم:

  • اگر مقدار محاسبه شده آزمون t Student برابر یا بیشتربحرانی، که در جدول یافت می شود، نتیجه می گیریم که تفاوت بین مقادیر مقایسه شده از نظر آماری معنی دار است.
  • اگر مقدار آزمون t Student محاسبه شده باشد کمترجدولی، به این معنی که تفاوت بین مقادیر مقایسه شده از نظر آماری معنی دار نیست.

6. نمونه ای از محاسبه آزمون t Student

برای بررسی اثربخشی فرآورده آهن جدید، دو گروه از بیماران مبتلا به کم خونی انتخاب شدند. در گروه اول، بیماران به مدت دو هفته داروی جدید و در گروه دوم دارونما دریافت کردند. سپس سطح هموگلوبین خون محیطی اندازه گیری شد. در گروه اول، میانگین سطح هموگلوبین 1.2±115.4 گرم در لیتر و در گروه دوم 2.3±103.7 گرم در لیتر بود (داده ها در قالب ارائه شده است. M±m، جمعیت های مقایسه شده دارای توزیع نرمال هستند. تعداد گروه اول 34 نفر و گروه دوم 40 نفر بود. لازم است در مورد اهمیت آماری تفاوت های به دست آمده و اثربخشی آماده سازی جدید آهن نتیجه گیری شود.

راه حل:برای ارزیابی معنی‌داری تفاوت‌ها، از آزمون t Student استفاده می‌کنیم که به عنوان تفاوت بین میانگین تقسیم بر مجموع مجذور خطاها محاسبه می‌شود:

پس از انجام محاسبات، مقدار آزمون t برابر با 51/4 شد. ما تعداد درجات آزادی را (34 + 40) - 2 = 72 پیدا می کنیم. مقدار بدست آمده از آزمون t Student 4.51 را با مقدار بحرانی 0.05=p که در جدول نشان داده شده است مقایسه می کنیم: 1.993. از آنجایی که مقدار محاسبه شده معیار بزرگتر از مقدار بحرانی است، نتیجه می گیریم که تفاوت های مشاهده شده از نظر آماری معنی دار هستند (سطح معنی داری p<0,05).

آزمایش یک فرضیه آماری به شما امکان می دهد تا بر اساس داده های نمونه نتیجه گیری دقیقی در مورد ویژگی های جمعیت عمومی داشته باشید. فرضیه ها متفاوت است. یکی از آنها فرضیه میانگین (انتظار ریاضی) است. ماهیت آن این است که یک نتیجه گیری درست در مورد جایی که میانگین عمومی ممکن است بر اساس نمونه موجود باشد یا نباشد (ما هرگز حقیقت دقیق را نمی دانیم، اما می توانیم دایره جستجو را محدود کنیم) است.

رویکرد کلی برای آزمون فرضیه ها شرح داده شده است، بنابراین مستقیماً به اصل مطلب می پردازیم. ابتدا فرض کنید که نمونه از یک مجموعه عادی از متغیرهای تصادفی گرفته شده است ایکسبا میانگین عمومی μ و پراکندگی σ2(می دانم، می دانم که این اتفاق نمی افتد، اما لازم نیست حرف من را قطع کنید!). میانگین حسابی این نمونه بدیهی است که خود یک متغیر تصادفی است. اگر تعداد زیادی از این نمونه ها را استخراج کنیم و میانگین های آنها را محاسبه کنیم، آنها نیز با انتظارات ریاضی خواهند داشت. μ و

سپس متغیر تصادفی

این سوال مطرح می شود: آیا میانگین کلی با احتمال 95٪ در محدوده 1.96 ± خواهد بود. s x̅. به عبارت دیگر، توزیع متغیرهای تصادفی هستند

معادل.

برای اولین بار این سوال توسط شیمیدانی که در کارخانه آبجو گینس در دوبلین (ایرلند) کار می کرد، مطرح شد (و حل شد). نام این شیمیدان ویلیام سیلی گوست بود و نمونه های آبجو را برای تجزیه و تحلیل شیمیایی گرفت. ظاهراً در مقطعی، ویلیام شروع به تردید مبهم در مورد توزیع میانگین ها کرد. معلوم شد که کمی بیشتر از توزیع معمولی پخش شده است.

شیمیدان دوبلینی ویلیام گوست پس از جمع آوری یک توجیه ریاضی و محاسبه مقادیر تابع توزیع که کشف کرد، یادداشتی نوشت که در شماره مارس 1908 مجله Biometrics (سردبیر - کارل پیرسون) منتشر شد. . زیرا گینس افشای اسرار دم کردن را به شدت ممنوع کرد، گوست با نام مستعار دانشجو امضا کرد.

علیرغم این واقعیت که K. Pearson قبلاً توزیع را اختراع کرده بود، با این وجود، ایده کلی از عادی بودن همچنان غالب بود. هیچ کس فکر نمی کرد که توزیع تخمین های نمونه ممکن است عادی نباشد. بنابراین، مقاله W. Gosset عملا مورد توجه قرار نگرفت و فراموش شد. و فقط رونالد فیشر از کشف گوست قدردانی کرد. فیشر از توزیع جدید در کار خود استفاده کرد و نام آن را گذاشت توزیع تی دانشجویی. معیار آزمون فرضیه ها به ترتیب تبدیل شد آزمون تی دانشجویی. بنابراین یک "انقلاب" در آمار رخ داد که به عصر تجزیه و تحلیل داده های نمونه پا گذاشت. این یک انحراف کوتاه به تاریخ بود.

بیایید ببینیم W. Gosset چه چیزی می تواند ببیند. بیایید 20 هزار نمونه طبیعی از 6 مشاهده با میانگین ( ایکس) 50 و انحراف معیار ( σ ) 10. سپس به معنی استفاده از نمونه نرمال می کنیم واریانس عمومی:

20 هزار میانگین حاصل را در فواصل 0.1 طول گروه بندی می کنیم و فرکانس ها را محاسبه می کنیم. اجازه دهید توزیع فرکانس واقعی (Norm) و نظری (ENorm) میانگین نمونه را روی یک نمودار رسم کنیم.

نقاط (فرکانس های مشاهده شده) تقریباً با خط (فرکانس های نظری) منطبق هستند. این قابل درک است، زیرا داده ها از همان جمعیت عمومی گرفته شده اند و تفاوت ها فقط خطاهای نمونه گیری هستند.

بیایید یک آزمایش جدید انجام دهیم. با استفاده از میانگین ها را عادی می کنیم واریانس نمونه.

بیایید دوباره فرکانس ها را بشماریم و آنها را روی نمودار به صورت نقطه رسم کنیم و خط توزیع نرمال استاندارد را برای مقایسه رها کنیم. بیایید بسامد تجربی میانگین ها را مثلاً از طریق حرف نشان دهیم تی.

مشاهده می شود که توزیع ها این بار چندان شبیه هم نیستند. ببند، بله، اما یکسان نیست. دم ها "سنگین" تر شده اند.

Gosset-Student آخرین نسخه MS Excel را نداشت، اما این دقیقاً همان تأثیری بود که او متوجه شد. چرا اینطور است؟ توضیح این است که متغیر تصادفی

نه تنها به خطای نمونه گیری (عد کننده)، بلکه به خطای استاندارد میانگین (مخرج)، که یک متغیر تصادفی نیز می باشد، بستگی دارد.

بیایید کمی بفهمیم که چنین متغیر تصادفی چه توزیعی باید داشته باشد. ابتدا باید چیزی را از آمار ریاضی به خاطر بسپارید (یا یاد بگیرید). چنین قضیه فیشر وجود دارد که می گوید در نمونه ای از توزیع نرمال:

1. متوسط ایکسو واریانس نمونه s2مقادیر مستقل هستند.

2. نسبت نمونه و واریانس عمومی ضرب در تعداد درجات آزادی دارای توزیع است. χ 2(خی دو) با همان تعداد درجات آزادی، یعنی.

جایی که ک- تعداد درجات آزادی (به انگلیسی درجه آزادی (d.f.))

بسیاری از نتایج دیگر در آمار مدل های عادی بر اساس این قانون است.

بیایید به توزیع میانگین برگردیم. صورت و مخرج عبارت را تقسیم کنید

بر روی σX̅. گرفتن

شماره‌گذار یک متغیر تصادفی معمولی استاندارد است (ما نشان می‌دهیم ξ (xi)). مخرج را می توان از قضیه فیشر بیان کرد.

سپس عبارت اصلی شکل خواهد گرفت

این به صورت کلی است (نسبت دانشجو). از قبل می توان تابع توزیع آن را مستقیماً استخراج کرد، زیرا توزیع هر دو متغیر تصادفی در این عبارت مشخص است. این لذت را به ریاضیدانان بسپاریم.

تابع توزیع t دانشجویی فرمولی دارد که درک آن بسیار دشوار است، بنابراین تجزیه آن منطقی نیست. به هر حال، هیچ کس از آن استفاده نمی کند، زیرا. احتمالات در جداول ویژه توزیع دانشجویی (که گاهی اوقات جداول ضرایب دانشجو نامیده می شود) آورده شده است، یا در فرمول های PC چکش داده می شوند.

بنابراین، با داشتن دانش جدید، می توانید تعریف رسمی توزیع دانشجو را درک کنید.
یک متغیر تصادفی که از توزیع دانش آموز تبعیت می کند کدرجه آزادی نسبت متغیرهای تصادفی مستقل است

جایی که ξ طبق قانون معمولی استاندارد توزیع شده و χ 2 kمشمول توزیع χ 2ج کدرجه آزادی.

بنابراین، فرمول معیار دانشجویی برای میانگین حسابی

یک مورد خاص از رابطه دانشجویی وجود دارد

از فرمول و تعریف بر می آید که توزیع آزمون t Student فقط به تعداد درجات آزادی بستگی دارد.

در ک> 30 t-test عملاً با توزیع نرمال استاندارد تفاوتی ندارد.

بر خلاف کای دو، آزمون t می تواند یک یا دو دنباله باشد. معمولاً دو طرفه استفاده می شود، با این فرض که انحراف می تواند در هر دو جهت از میانگین رخ دهد. اما اگر شرط مسئله فقط در یک جهت اجازه انحراف را بدهد، منطقی است که یک معیار یک طرفه را اعمال کنیم. این کمی قدرت را افزایش می دهد، tk. در سطح معناداری ثابت، مقدار بحرانی اندکی به صفر نزدیک می شود.

شرایط استفاده از آزمون تی دانشجویی

علیرغم این واقعیت که کشف Student در یک زمان انقلابی در آمار ایجاد کرد، آزمون t هنوز در کاربرد آن بسیار محدود است، زیرا خود از فرض توزیع نرمال داده های اصلی ناشی می شود. اگر داده ها نرمال نباشند (که معمولاً همینطور است)، آزمون t دیگر توزیع Student را نخواهد داشت. با این حال، به دلیل عملکرد قضیه حد مرکزی، میانگین، حتی برای داده‌های غیرعادی، به سرعت توزیعی زنگ‌شکل پیدا می‌کند.

برای مثال، داده‌هایی را در نظر بگیرید که دارای یک انحراف مشخص به سمت راست هستند، مانند توزیع خی دو با 5 درجه آزادی.

حالا بیایید 20 هزار نمونه ایجاد کنیم و مشاهده کنیم که چگونه توزیع میانگین ها بسته به اندازه آنها تغییر می کند.

تفاوت در نمونه های کوچک تا 15-20 مشاهده کاملاً قابل توجه است. اما سپس به سرعت ناپدید می شود. بنابراین، نابهنجاری توزیع، البته خوب نیست، اما بحرانی نیست.

بیشتر از همه، معیار t «ترس» از موارد پرت است، یعنی. انحرافات غیر طبیعی بیایید 20 هزار نمونه طبیعی از 15 مشاهده را برداریم و به برخی از آنها یک عدد پرت تصادفی اضافه کنیم.

عکس ناراضی است فرکانس های واقعی میانگین ها با فرکانس های نظری بسیار متفاوت است. استفاده از توزیع t در چنین شرایطی به یک کار بسیار پرخطر تبدیل می شود.

بنابراین، در نمونه‌های نه چندان کوچک (از 15 مشاهده)، آزمون t در برابر توزیع غیرعادی داده‌های اولیه نسبتاً مقاوم است. اما نقاط پرت در داده ها به شدت توزیع آزمون t را تحریف می کند، که به نوبه خود می تواند منجر به خطاهای استنتاج آماری شود، بنابراین مشاهدات غیرعادی باید حذف شوند. اغلب، تمام مقادیری که خارج از انحراف استاندارد 2± از میانگین قرار می گیرند از نمونه حذف می شوند.

نمونه ای از آزمون فرضیه انتظارات ریاضی با استفاده از آزمون t Student در MS Excel

اکسل چندین توابع مرتبط با توزیع t دارد. بیایید آنها را در نظر بگیریم.

STUDENT.DIST - توزیع t دانشجویی سمت چپ "کلاسیک". ورودی مقدار معیار t، تعداد درجات آزادی و گزینه (0 یا 1) است که تعیین می کند چه چیزی باید محاسبه شود: چگالی یا مقدار تابع. در خروجی، به ترتیب، چگالی یا احتمال اینکه متغیر تصادفی کمتر از معیار t مشخص شده در آرگومان باشد را به دست می آوریم.

STUDENT.DIST.2X - توزیع دو طرفه. مقدار مطلق (مدول) معیار t و تعداد درجات آزادی به عنوان استدلال آورده شده است. در خروجی، احتمال بدست آوردن این یا حتی بیشتر از معیار t را دریافت می کنیم، یعنی. سطح اهمیت واقعی (سطح p).

STUDENT.DIST.RH - توزیع تی راست دست. بنابراین، 1-STUDENT.DIST(2;5;1) = STUDENT.DIST.PX(2;5) = 0.05097. اگر آزمون t مثبت باشد، احتمال به دست آمده در سطح p است.

STUDENT.INV - برای محاسبه متقابل سمت چپ توزیع t استفاده می شود. بحث احتمال و تعداد درجات آزادی است. در خروجی، مقدار معیار t مربوط به این احتمال را به دست می آوریم. احتمال به سمت چپ شمارش می شود. بنابراین، خود سطح اهمیت برای دم چپ مورد نیاز است α و برای راست 1 - α .

STUDENT.ORD.2X متقابل توزیع دانشجوی دو طرفه است، یعنی. مقدار آزمون t (مدول). سطح معنی داری نیز به عنوان ورودی داده می شود. α . فقط این بار، شمارش معکوس از هر دو طرف به طور همزمان است، بنابراین احتمال در دو دم توزیع می شود. بنابراین، STUDENT.OBR (1-0.025; 5) \u003d STUDENT. OBR. 2X (0.05; 5) \u003d 2.57058

STUDENT.TEST تابعی برای آزمون فرضیه برابری انتظارات ریاضی در دو نمونه است. جایگزین دسته ای از محاسبات می شود، زیرا. کافی است فقط دو محدوده با داده و چند پارامتر دیگر را مشخص کنید. خروجی در سطح p است.

اعتماد دانشجویی - محاسبه فاصله اطمینان میانگین با در نظر گرفتن توزیع t.

بیایید چنین مثال آموزشی را در نظر بگیریم. این شرکت سیمان را در کیسه های 50 کیلوگرمی بسته بندی می کند. به دلیل شانس، در یک کیسه، مقداری انحراف از جرم مورد انتظار مجاز است، اما میانگین کلی باید 50 کیلوگرم باقی بماند. بخش کنترل کیفیت به طور تصادفی 9 کیسه را وزن کرد و نتایج زیر را به دست آورد: وزن متوسط ​​( ایکس) به 50.3 کیلوگرم، انحراف معیار ( س) - 0.5 کیلوگرم.

آیا نتیجه با فرض صفر که میانگین کلی 50 کیلوگرم است مطابقت دارد؟ به عبارت دیگر، اگر تجهیزات به درستی کار کنند و به طور متوسط ​​50 کیلوگرم پرکننده تولید کنند، آیا می توان به طور تصادفی به چنین نتیجه ای رسید؟ اگر فرضیه رد نشود، تفاوت حاصل در محدوده نوسانات تصادفی قرار می گیرد، اما اگر این فرضیه رد شود، به احتمال زیاد، در تنظیمات دستگاهی که کیسه ها را پر می کند، خرابی رخ داده است. نیاز به بررسی و تنظیم دارد.

یک شرط مختصر در نماد پذیرفته شده عمومی به این صورت است.

H0: μ = 50 کیلوگرم

H1: μ ≠ 50 کیلوگرم

دلایلی برای این فرض وجود دارد که توزیع اشغال کیف از توزیع عادی پیروی می کند (یا تفاوت زیادی با آن ندارد). بنابراین برای آزمون فرضیه انتظارات ریاضی می توان از آزمون تی استودنت استفاده کرد. انحرافات تصادفی می تواند در هر جهت رخ دهد، بنابراین یک آزمون t دو دنباله مورد نیاز است.

ابتدا، ما از ابزارهای ضد غرق استفاده می کنیم: محاسبه دستی آزمون t و مقایسه آن با یک مقدار جدول بحرانی. آزمون t تخمینی:

حال بیایید تعیین کنیم که آیا عدد حاصل از سطح بحرانی در سطح معنی‌داری فراتر می‌رود یا خیر α = 0.05. بیایید از جدول توزیع t Student (موجود در هر کتاب درسی در مورد آمار) استفاده کنیم.

ستون ها احتمال سمت راست توزیع را نشان می دهند، ردیف ها تعداد درجات آزادی را نشان می دهند. ما به یک آزمون t دو طرفه با سطح معنی داری 0.05 علاقه مند هستیم که معادل مقدار t برای نیمی از سطح معنی داری در سمت راست است: 1 - 0.05 / 2 = 0.975. تعداد درجات آزادی حجم نمونه منهای 1 است، یعنی. 9 - 1 = 8. در تقاطع، مقدار جدولی آزمون t را پیدا می کنیم - 2.306. اگر از توزیع نرمال استاندارد استفاده کنیم، نقطه بحرانی 1.96 خواهد بود، اما در اینجا بیشتر است، زیرا توزیع t بر روی نمونه های کوچک شکل مسطح تری دارد.

ما مقدار واقعی (1.8) و جدولی (2.306) را با هم مقایسه می کنیم. معیار محاسبه شده کمتر از معیار جدولی بود. بنابراین، داده های موجود با فرضیه H 0 که میانگین کلی 50 کیلوگرم است، مغایرتی ندارد (اما آن را نیز ثابت نمی کند). این تمام چیزی است که می توانیم با استفاده از جداول دریابیم. البته هنوز هم می توانید سعی کنید سطح p را پیدا کنید، اما تقریبی خواهد بود. و به عنوان یک قاعده از سطح p برای آزمون فرضیه ها استفاده می شود. پس بیایید به سراغ اکسل برویم.

هیچ تابع آماده ای برای محاسبه t-test در اکسل وجود ندارد. اما این ترسناک نیست، زیرا فرمول آزمون t Student بسیار ساده است و به راحتی می توان آن را درست در یک سلول اکسل ساخت.

همون 1.8 رو گرفتم اجازه دهید ابتدا مقدار بحرانی را پیدا کنیم. آلفا 0.05 را می گیریم، معیار دو طرفه است. ما به تابعی از مقدار معکوس توزیع t برای فرضیه دو دنباله STUDENT.OBR.2X نیاز داریم.

مقدار به دست آمده منطقه بحرانی را قطع می کند. آزمون t مشاهده شده در آن قرار نمی گیرد، بنابراین فرضیه رد نمی شود.

با این حال، این همان روش آزمایش یک فرضیه با مقدار جدول است. محاسبه سطح p آموزنده تر خواهد بود، یعنی. اگر این فرضیه درست باشد، احتمال انحراف مشاهده شده یا حتی بیشتر از میانگین 50 کیلوگرم وجود دارد. برای فرضیه دو طرفه STUDENT.DIST.2X به تابع توزیع Student نیاز دارید.

سطح P برابر با 0.1096 است که بیشتر از سطح معنی داری مجاز 0.05 است - فرضیه را رد نمی کنیم. اما اکنون می توانیم در مورد میزان شواهد قضاوت کنیم. سطح P کاملاً نزدیک به سطحی است که فرضیه رد می شود و این منجر به افکار متفاوت می شود. به عنوان مثال، اینکه نمونه برای تشخیص انحراف قابل توجه بسیار کوچک بود.

فرض کنید پس از مدتی، بخش کنترل دوباره تصمیم گرفت تا نحوه حفظ استاندارد پر کردن کیسه را بررسی کند. این بار برای اطمینان بیشتر، نه 9، بلکه 25 کیسه انتخاب شد. به طور شهودی واضح است که گسترش میانگین کاهش می یابد، و بنابراین، شانس یافتن خرابی در سیستم بیشتر می شود.

فرض کنید که همان مقادیر میانگین و انحراف معیار برای نمونه بار اول به دست آمد (به ترتیب 50.3 و 0.5). بیایید آزمون t را محاسبه کنیم.


مقدار بحرانی برای 24 درجه آزادی و α = 0.05 2.064 است. تصویر زیر نشان می دهد که آزمون t در ناحیه رد فرضیه قرار می گیرد.

می توان نتیجه گرفت که با احتمال اطمینان بیش از 95 درصد، میانگین کلی با 50 کیلوگرم متفاوت است. برای متقاعد کردن بیشتر، اجازه دهید به سطح p (آخرین خط جدول) نگاه کنیم. احتمال به دست آوردن میانگین با این انحراف یا حتی بیشتر از 50، در صورت درست بودن فرضیه، 0.0062 یا 0.62 درصد است که با یک اندازه گیری تقریباً غیرممکن است. به طور کلی، ما این فرضیه را بعید رد می کنیم.

محاسبه فاصله اطمینان با استفاده از توزیع t دانشجویی

یکی دیگر از روشهای آماری که ارتباط نزدیکی با آزمون فرضیه دارد محاسبه فواصل اطمینان. اگر مقدار مربوط به فرضیه صفر در بازه به دست آمده قرار گیرد، این معادل این واقعیت است که فرضیه صفر رد نمی شود. در غیر این صورت فرضیه با سطح اطمینان مناسب رد می شود. در برخی موارد، تحلیلگران به هیچ وجه فرضیه ها را به شکل کلاسیک آزمایش نمی کنند، بلکه فقط فواصل اطمینان را محاسبه می کنند. این روش به شما امکان می دهد اطلاعات مفیدتری را استخراج کنید.

بیایید فواصل اطمینان را برای میانگین در 9 و 25 مشاهده محاسبه کنیم. برای این کار از تابع Excel TRUST.STUDENT استفاده می کنیم. در اینجا، به اندازه کافی عجیب، همه چیز بسیار ساده است. در آرگومان های تابع، فقط باید سطح اهمیت را مشخص کنید α ، انحراف استاندارد نمونه و اندازه نمونه. در خروجی، نصف عرض فاصله اطمینان را می گیریم، یعنی مقداری که باید در هر دو طرف میانگین کنار گذاشته شود. پس از انجام محاسبات و رسم نمودار تصویری به صورت زیر می رسیم.

همانطور که مشاهده می شود، با یک نمونه 9 مشاهده ای، مقدار 50 در فاصله اطمینان قرار می گیرد (فرضیه رد نمی شود) و با 25 مشاهده سقوط نمی کند (فرضیه رد می شود). در عین حال، در آزمایش با 25 کیسه، می توان ادعا کرد که با احتمال 97.5٪، میانگین کلی از 50.1 کیلوگرم فراتر می رود (حد پایین فاصله اطمینان 50.094 کیلوگرم است). و این اطلاعات بسیار ارزشمندی است.

بنابراین، ما همان مشکل را به سه روش حل کردیم:

1. یک رویکرد قدیمی، مقایسه مقدار محاسبه شده و جدولی معیار t
2. مدرن تر، با محاسبه سطح p، افزودن درجه ای از اطمینان در رد فرضیه.
3. حتی با محاسبه فاصله اطمینان و به دست آوردن حداقل مقدار میانگین عمومی، اطلاعات بیشتر.

لازم به یادآوری است که آزمون t به روش های پارامتریک اشاره دارد، زیرا بر اساس یک توزیع نرمال (دارای دو پارامتر است: میانگین و واریانس). بنابراین، برای کاربرد موفقیت آمیز آن، حداقل نرمال بودن تقریبی داده های اولیه و عدم وجود نقاط پرت مهم است.

در نهایت، پیشنهاد می کنم ویدیویی در مورد نحوه انجام محاسبات مربوط به آزمون t Student در اکسل تماشا کنید.

جدول توزیع دانش آموزان

جداول انتگرال احتمال برای نمونه های بزرگ از یک جمعیت بی نهایت زیاد استفاده می شود. اما در حال حاضر در (n)< 100 получается Несоответствие между

داده های جدولی و حد احتمال؛ در (n)< 30 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в гене-

برای جمعیت عمومی مهم نیست، زیرا توزیع انحرافات شاخص نمونه از ویژگی عمومی با یک نمونه بزرگ همیشه طبیعی است.

nym در نمونه های کوچک (n)< 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из со-

جمعیتی که دارای توزیع نرمال است. تئوری نمونه های کوچک توسط آماردان انگلیسی W. Gosset (که با نام مستعار Student می نوشت) در آغاز قرن بیستم ایجاد شد. AT

در سال 1908، او توزیع ویژه ای ساخت که حتی با نمونه های کوچک، امکان همبستگی (t) و احتمال اطمینان F(t) را فراهم می کرد. برای (n)> 100، جداول توزیع دانش آموز نتایج مشابهی با جداول انتگرال احتمال لاپلاس برای 30 به دست می دهند.< (n ) <

100 تفاوت جزئی است. بنابراین در عمل نمونه های کوچک شامل نمونه هایی با حجم کمتر از 30 واحد می شود (البته نمونه با حجم بیش از 100 واحد بزرگ در نظر گرفته می شود).

استفاده از نمونه های کوچک در برخی موارد به دلیل ماهیت جمعیت مورد بررسی است. بنابراین، در کارهای پرورشی، دستیابی به تجربه "خالص" در تعداد کمی آسان تر است

توطئه ها آزمایش تولید و اقتصادی، مرتبط با هزینه های اقتصادی، نیز در تعداد کمی آزمایش انجام می شود. همانطور که قبلا ذکر شد، در مورد یک نمونه کوچک، فقط برای یک جمعیت عمومی توزیع شده نرمال می‌توان احتمالات اطمینان و حدود اطمینان میانگین کلی را محاسبه کرد.

چگالی احتمال توزیع دانشجو توسط یک تابع توصیف می شود.

1 + t2

f (t ,n) := Bn

n - 1

t - متغیر فعلی؛ n - اندازه نمونه.

B مقداری است که فقط به (n) بستگی دارد.

توزیع دانش آموز تنها یک پارامتر دارد: (d.f. ) - تعداد درجات آزادی (گاهی اوقات با (k) نشان داده می شود). این توزیع، مانند توزیع معمولی، با توجه به نقطه (t) = 0 متقارن است، اما مسطح تر است. با افزایش حجم نمونه و به تبع آن تعداد درجات آزادی، توزیع دانشجو به سرعت به حالت عادی نزدیک می شود. تعداد درجات آزادی برابر است با تعداد آن دسته از مقادیر فردی از ویژگی هایی که باید باشند

فرض کنید مشخصه مورد نظر را تعیین کنید. بنابراین، برای محاسبه واریانس، مقدار متوسط ​​باید شناخته شود. بنابراین، هنگام محاسبه پراکندگی، (d.f.) = n - 1 استفاده می شود.

جداول توزیع دانش آموزان در دو نسخه منتشر شده است:

1. مشابه جداول انتگرال احتمال، مقادیر ( t) و

احتمالات تجمعی F(t) برای اعداد مختلف درجات آزادی.

2. مقادیر (t) برای رایج ترین احتمالات اطمینان داده شده است

0.70; 0.75; 0.80; 0.85; 0.90; 0.95 و 0.99 یا برای 1 - 0.70 = 0.3. 1 - 0.80 = 0.2; …… 1 - 0.99 = 0.01.

3. با تعداد درجات آزادی متفاوت چنین جدولی در پیوست آورده شده است.

(جدول 1 - 20)، و همچنین مقدار (t) - آزمون دانش آموز در سطح معنی داری 0.7

در طول مثال از اطلاعات ساختگی استفاده می کنیم تا خواننده بتواند به تنهایی دگرگونی های لازم را انجام دهد.

بنابراین، به عنوان مثال، در جریان تحقیق، ما تأثیر داروی A را بر محتوای ماده B (به میلی مول در گرم) در بافت C و غلظت ماده D در خون (به میلی مول در لیتر) در بیماران بررسی کردیم. با توجه به معیار E به 3 گروه با حجم مساوی (10 = n) تقسیم می شود. نتایج این مطالعه ساختگی در جدول نشان داده شده است:

محتوای ماده B، میلی مول در گرم

ماده D، mmol/l

افزایش غلظت


ما می خواهیم به شما هشدار دهیم که نمونه هایی با اندازه 10 برای سهولت ارائه داده ها و محاسبات توسط ما در نظر گرفته می شوند؛ در عمل معمولاً چنین حجم نمونه ای برای نتیجه گیری آماری کافی نیست.

به عنوان مثال، داده های ستون 1 جدول را در نظر بگیرید.

آمار توصیفی

میانگین نمونه

میانگین حسابی که اغلب از آن به عنوان "میانگین" یاد می شود، با جمع کردن همه مقادیر و تقسیم این مجموع بر تعداد مقادیر موجود در مجموعه به دست می آید. این را می توان با استفاده از فرمول جبری نشان داد. مجموعه ای از n مشاهدات متغیر x را می توان به صورت x 1 , x 2 , x 3 , ..., x n نمایش داد.

فرمول تعیین میانگین حسابی مشاهدات (تلفظ "X با خط تیره"):

\u003d (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

واریانس نمونه

یکی از راه‌های اندازه‌گیری پراکندگی داده‌ها، تعیین میزان انحراف هر مشاهده از میانگین حسابی است. بدیهی است که هر چه انحراف بیشتر باشد، تغییرپذیری، تغییرپذیری مشاهدات بیشتر است. با این حال، ما نمی توانیم از میانگین این انحرافات استفاده کنیم به عنوان معیاری برای پراکندگی، زیرا انحرافات مثبت انحرافات منفی را جبران می کنند (مجموع آنها صفر است). برای حل این مشکل، هر انحراف را مربع می کنیم و میانگین مجذور انحراف ها را پیدا می کنیم. این کمیت تغییر یا پراکندگی نامیده می شود. n مشاهده کنید x 1، x 2، x 3، ...، x n، متوسط که برابر است. ما پراکنده را محاسبه می کنیم این یکی معمولاً به عنوانs2،این مشاهدات:

واریانس نمونه این شاخص s 2 = 3.2 است.

انحراف معیار

انحراف استاندارد (ریشه میانگین مربع) جذر مثبت واریانس است. برای مثال، n مشاهدات، به نظر می رسد:

ما می توانیم انحراف معیار را به عنوان نوعی انحراف میانگین مشاهدات از میانگین در نظر بگیریم. در همان واحدها (ابعاد) داده های اصلی محاسبه می شود.

s = sqrt (s 2) = sqrt (3.2) = 1.79 .

ضریب تغییرات

اگر انحراف معیار را بر میانگین حسابی تقسیم کنید و نتیجه را به صورت درصد بیان کنید، ضریب تغییرات به دست می آید.

CV = (1.79 / 13.1) * 100٪ = 13.7

میانگین خطای نمونه

1.79/sqrt(10) = 0.57;

ضریب t دانش آموز (آزمون t تک نمونه ای)

برای آزمون فرضیه تفاوت بین مقدار میانگین و مقدار شناخته شده m استفاده می شود

تعداد درجات آزادی به صورت f=n-1 محاسبه می شود.

در این حالت، فاصله اطمینان برای میانگین بین حدود 11.87 و 14.39 است.

برای سطح اطمینان 95% m=11.87 یا m=14.39، یعنی = |13.1-11.82| = |13.1-14.38| = 1.28

بر این اساس، در این حالت برای تعداد درجه آزادی f = 10 - 9 = 1 و سطح اطمینان 95% t=2.26.

آمار و جداول پایه دیالوگ

در ماژول آمار و جداول پایهانتخاب کنید آمار توصیفی.

یک کادر محاوره ای باز می شود آمار توصیفی.

در زمینه متغیرهاانتخاب کنید گروه 1.

فشار دادن خوب، جداول نتایج را با آمار توصیفی متغیرهای انتخاب شده بدست می آوریم.

یک کادر محاوره ای باز می شود آزمون t تک نمونه ای.

فرض کنید می دانیم که میانگین محتوای ماده B در بافت C 11 است.

جدول نتایج با آمار توصیفی و آزمون تی دانشجویی به شرح زیر است:

ما مجبور شدیم این فرضیه را رد کنیم که میانگین محتوای ماده B در بافت C 11 است.

از آنجایی که مقدار محاسبه شده معیار بزرگتر از جدول (2.26) است، فرضیه صفر در سطح معناداری انتخاب شده رد می شود و تفاوت بین نمونه و مقدار شناخته شده از نظر آماری معنی دار تشخیص داده می شود. بنابراین، نتیجه گیری در مورد وجود تفاوت ها با استفاده از معیار دانشجویی، با استفاده از این روش تأیید می شود.

دسته بندی ها

مقالات محبوب

2022 "kingad.ru" - بررسی سونوگرافی اندام های انسان