با استفاده از داده های زیر یک معادله رگرسیون زوجی بسازید. معادله رگرسیون زوجی

رگرسیون زوجی رابطه بین دو ویژگی را مشخص می کند: نتیجه و فاکتوریل. یک مرحله مهم و غیر پیش پا افتاده در ساخت مدل رگرسیونی، انتخاب معادله رگرسیون است. این انتخاب بر اساس داده های نظری در مورد پدیده مورد مطالعه و تجزیه و تحلیل اولیه داده های آماری موجود است.

معادله رگرسیون خطی زوجی به صورت زیر است:

مقادیر نظری مشخصه حاصل از معادله رگرسیون کجاست. - ضرایب (پارامترهای) معادله رگرسیون.

یک مدل رگرسیون بر اساس داده های آماری ساخته می شود و می توان از مقادیر ویژگی های فردی و داده های گروه بندی شده استفاده کرد. برای شناسایی رابطه بین ویژگی‌ها برای تعداد کافی مشاهدات، داده‌های آماری ابتدا با هر دو ویژگی گروه‌بندی می‌شوند و یک جدول همبستگی ساخته می‌شود. با استفاده از جدول همبستگی، فقط یک همبستگی جفتی نمایش داده می شود، یعنی. ارتباط یک ویژگی موثر با یک عامل پارامترهای معادله رگرسیون با استفاده از روش حداقل مربعات تخمین زده می شود که بر اساس فرض استقلال مشاهدات جامعه مورد مطالعه و شرط مجذور انحرافات داده های تجربی از مقادیر هم تراز شده موثر است. فاکتور حداقل باشد:

.

برای معادله رگرسیون خطی داریم:

برای یافتن مینیمم این تابع، مشتقات جزئی آن را با صفر برابر می کنیم و سیستمی از دو معادله خطی به دست می آوریم که به آن سیستم معادلات عادی می گویند:

حجم جمعیت مورد مطالعه (تعداد واحدهای مشاهده) کجاست.

حل یک سیستم معادلات عادی به شما امکان می دهد پارامترهای معادله رگرسیون را پیدا کنید.

ضریب رگرسیون خطی زوجی مقدار متوسط ​​در نقطه است، بنابراین تفسیر اقتصادی آن دشوار است. معنی این ضریب را می توان به عنوان تأثیر متوسط ​​عوامل محاسبه نشده (انتخاب نشده برای تحقیق) بر ویژگی مؤثر تفسیر کرد. ضریب نشان می‌دهد که وقتی مشخصه عاملی یک تغییر می‌کند، به طور میانگین مقدار مشخصه حاصل چقدر تغییر می‌کند.

پس از به دست آوردن معادله رگرسیون، لازم است کفایت آن، یعنی مطابقت آن با داده های آماری واقعی بررسی شود. برای این منظور، اهمیت ضرایب رگرسیون بررسی می‌شود: مشخص می‌شود که این شاخص‌ها تا چه حد برای کل جمعیت معمولی هستند و آیا آنها نتیجه ترکیب تصادفی شرایط هستند یا خیر.

برای آزمون معنی داری ضرایب رگرسیون خطی ساده زمانی که اندازه جامعه کمتر از 30 واحد باشد، از آزمون t Student استفاده می شود. با مقایسه مقدار پارامتر با میانگین خطای آن، مقدار معیار مشخص می شود:


میانگین خطای پارامتر کجاست.

میانگین خطای پارامترها و با استفاده از فرمول های زیر محاسبه می شود:

; ,

- اندازهی نمونه؛

انحراف استاندارد مشخصه حاصل از مقادیر تراز شده؛

انحراف معیار مشخصه عامل از میانگین عمومی:

یا

سپس مقادیر محاسبه شده (واقعی) معیار به ترتیب برابر با:

- برای پارامتر؛

- برای پارامتر

مقادیر محاسبه شده معیار با مقادیر بحرانی مقایسه می شود که با استفاده از جدول دانشجویی تعیین می شود، با در نظر گرفتن سطح معنی داری پذیرفته شده و تعداد درجات آزادی، که در آن حجم نمونه، -1 است. تعداد ویژگی های عاملی). در مطالعات اقتصادی-اجتماعی، سطح معنی‌داری معمولاً 05/0 یا 01/0 در نظر گرفته می‌شود. یک پارامتر در صورتی معنی دار تلقی می شود که (فرضیه این که پارامتر فقط به دلیل شرایط تصادفی برابر با مقدار به دست آمده رد شود، اما در واقعیت برابر با صفر است).

کفایت مدل رگرسیون را می توان با استفاده از آزمون فیشر ارزیابی کرد. مقدار محاسبه شده معیار با فرمول تعیین می شود ,

تعداد پارامترهای مدل کجاست.

اندازهی نمونه.

جدول مقدار بحرانی آزمون فیشر را برای سطح معناداری پذیرفته شده و تعداد درجات آزادی تعیین می کند. اگر مدل رگرسیون با توجه به این معیار مناسب در نظر گرفته شود (فرضیه عدم تطابق بین روابط ذاتی معادله و روابط واقعی رد می شود).

وظیفه دوم تحلیل همبستگی-رگرسیون اندازه گیری نزدیکی رابطه بین ویژگی های حاصل و عامل است.

برای همه انواع ارتباطات، مشکل اندازه گیری تنگی وابستگی را می توان با استفاده از حساب نسبت همبستگی نظری حل کرد:

,

جایی که - پراکندگی در یک سری مقادیر برابر شده مشخصه حاصل، به دلیل ویژگی عامل؛

- پراکندگی در سری مقادیر واقعی. این واریانس کل است که از واریانس ناشی از عامل (یعنی واریانس عاملی) و واریانس باقیمانده (انحراف مقادیر تجربی ویژگی از مقادیر نظری تراز شده) تشکیل شده است.

بر اساس قانون برای اضافه کردن واریانس رابطه همبستگی نظری را می توان بر حسب واریانس باقیمانده بیان کرد:

.

از آنجایی که پراکندگی نشان دهنده تغییرات در سری فقط به دلیل تغییر عامل است و پراکندگی نشان دهنده تغییرات ناشی از همه عوامل است، نسبت آنها که ضریب تعیین نظری نامیده می شود، نشان می دهد که چه سهمی از پراکندگی کل سری دارد. اشغال شده توسط پراکندگی ناشی از تغییر فاکتور. جذر نسبت این واریانس ها نسبت همبستگی نظری را نشان می دهد. برای روابط غیر خطی، رابطه نظری همبستگی را شاخص همبستگی می نامند و با علامت نشان می دهند.

اگر، پس این بدان معناست که عوامل دیگر در تغییرات نقشی ندارند، واریانس باقیمانده صفر است و نسبت به معنای وابستگی کامل تغییرات به . اگر، پس این بدان معناست که تغییر تأثیری بر تغییر ندارد و در این مورد . در نتیجه، نسبت همبستگی مقادیری از 0 تا 1 می گیرد. هر چه نسبت همبستگی به 1 نزدیک تر باشد، ارتباط بین ویژگی ها نزدیک تر است.

علاوه بر این، با شکل خطی معادله ارتباطی، از شاخص دیگری از نزدیکی اتصال استفاده می شود - ضریب همبستگی خطی:

.

ضریب همبستگی خطی مقادیری از -1 تا 1 می گیرد. مقادیر منفی نشان دهنده یک رابطه معکوس و مقادیر مثبت نشان دهنده یک رابطه مستقیم است. هر چه ماژول ضریب همبستگی به یک نزدیکتر باشد، رابطه بین ویژگی ها نزدیکتر است.

برآوردهای مرزی زیر از ضریب همبستگی خطی پذیرفته شده است:

هیچ ارتباطی وجود ندارد؛

اتصال ضعیف است.

ارتباطات متوسط ​​است.

ارتباط قوی است؛

ارتباط بسیار قوی است.

مربع ضریب همبستگی خطی را ضریب تعیین خطی می گویند.

برای ارزیابی شکل وابستگی از واقعیت تصادفی یا عدم تصادف رابطه همبستگی نظری و ضریب همبستگی خطی استفاده می شود. مقادیر آنها فقط در صورت وجود یک اتصال خطی منطبق است. اختلاف بین این مقادیر نشان دهنده غیرخطی بودن رابطه بین ویژگی ها است. به طور کلی پذیرفته شده است که اگر ، سپس فرضیه خطی بودن رابطه را می توان تایید شده در نظر گرفت.

شاخص‌های نزدیکی اتصالات، به ویژه آنهایی که از داده‌های یک جامعه آماری نسبتاً کوچک محاسبه می‌شوند، می‌توانند به دلایل تصادفی تحریف شوند. این امر مستلزم بررسی قابلیت اطمینان (اهمیت) آنها است، که امکان گسترش نتایج به دست آمده از داده های نمونه را به جامعه عمومی می دهد.

برای انجام این کار، میانگین خطای ضریب همبستگی را محاسبه کنید:

تعداد درجات آزادی برای یک وابستگی خطی کجاست.

سپس نسبت ضریب همبستگی به میانگین خطای آن پیدا می شود، یعنی با مقدار جدول آزمون دانشجو مقایسه می شود.

اگر مقدار واقعی (محاسبه شده) از مقدار جدول بندی شده (بحرانی، آستانه) بیشتر باشد، ضریب همبستگی خطی معنی دار در نظر گرفته می شود و رابطه بین و واقعی در نظر گرفته می شود.

پس از بررسی کفایت مدل ساخته شده (معادله رگرسیون)، باید آن را تحلیل کرد. برای سهولت در تفسیر پارامتر، از ضریب کشش استفاده می شود. زمانی که مشخصه عامل 1% تغییر می کند میانگین تغییر در مشخصه موثر را نشان می دهد و با فرمول محاسبه می شود:

دقت مدل حاصل را می توان بر اساس مقدار میانگین خطای تقریب ارزیابی کرد:

علاوه بر این، در برخی موارد، داده های مربوط به باقیمانده هایی که انحراف مشاهدات از مقادیر محاسبه شده را مشخص می کنند، آموزنده هستند. ارزش های اقتصادی خاص ارزش هایی هستند که بقایای آنها بیشترین انحراف مثبت یا منفی را از سطح مورد انتظار شاخص تحلیل شده دارند.

ساده ترین شکل رگرسیون از دیدگاه تکنیک های درک، تفسیر و محاسبه، شکل خطی رگرسیون است.

معادله رگرسیون جفت خطی، که در آن

a 0، a 1 پارامترهای مدل هستند، ε i یک متغیر تصادفی (مقدار باقیمانده) است.

پارامترهای مدل و محتویات آنها:


معادله رگرسیون با نشانگر نزدیکی اتصال تکمیل می شود. چنین شاخصی ضریب همبستگی خطی است که با استفاده از فرمول محاسبه می شود:

یا .

برای ارزیابی کیفیت برازش یک تابع خطی، مجذور ضریب همبستگی خطی محاسبه می شود که به نام ضریب تعیین. ضریب تعیین، نسبت واریانس مشخصه مؤثر را که با رگرسیون توضیح داده شده است در کل واریانس مشخصه مؤثر مشخص می کند:

,

جایی که

.

بر این اساس، مقدار سهم واریانس ناشی از تأثیر عوامل دیگر را مشخص می کند که در مدل در نظر گرفته نشده اند.

پس از ساخته شدن معادله رگرسیون، کفایت و دقت آن بررسی می شود.این ویژگی های مدل بر اساس تحلیل تعدادی از باقیمانده ε i (انحراف مقادیر محاسبه شده از مقادیر واقعی) مورد بررسی قرار می گیرد.

سطح سری باقی مانده

تحلیل همبستگی و رگرسیون برای جمعیت محدودی انجام شده است. در این راستا، شاخص‌های رگرسیون، همبستگی و تعیین ممکن است با عملکرد عوامل تصادفی مخدوش شوند. برای بررسی اینکه چقدر این شاخص ها برای کل جمعیت معمولی هستند و اینکه آیا آنها نتیجه تصادفی شرایط تصادفی هستند، لازم است کفایت مدل ساخته شده را بررسی کنیم.

بررسی کفایت مدل شامل تعیین اهمیت مدل و تعیین وجود یا عدم وجود خطای سیستماتیک است.

ارزش های در 1مربوط به داده ها ایکسمن در ارزش های نظری یک 0و یک 1،تصادفی. مقادیر ضرایب محاسبه شده از آنها نیز تصادفی خواهد بود. یک 0و یک 1.

اهمیت ضرایب رگرسیون فردی با استفاده از بررسی می شود آزمون تی دانشجوییبا آزمون این فرضیه که هر ضریب رگرسیون برابر با صفر است. در همان زمان، آنها متوجه می شوند که پارامترهای محاسبه شده برای نمایش مجموعه ای از شرایط چقدر معمولی هستند: آیا مقادیر پارامتر به دست آمده نتیجه عملکرد متغیرهای تصادفی است. از فرمول های مناسب برای ضرایب رگرسیون مربوطه استفاده می شود.

فرمول های تعیین آزمون تی دانشجویی

جایی که

S a 0 ,S a 1 - انحراف استاندارد ترم آزاد و ضریب رگرسیون. با فرمول تعیین می شود

جایی که

S ε انحراف استاندارد باقیمانده های مدل (خطای استاندارد تخمین) است که با فرمول تعیین می شود.

مقادیر محاسبه شده آزمون t با مقدار جدول بندی معیار مقایسه می شود تیαγ، که زمانی تعیین می شود که (n- ک- 1) درجات آزادی و سطح اهمیت مربوطه α. اگر مقدار محاسبه شده معیار t از مقدار جدول آن بیشتر شود تیαγ، سپس پارامتر معنی دار در نظر گرفته می شود. در این مورد، تقریبا غیرممکن است که مقادیر پارامترهای یافت شده فقط به دلیل تصادفات تصادفی باشد.

اهمیت معادله رگرسیون به عنوان یک کل بر اساس آزمون فیشر ارزیابی می شود که قبل از آن تحلیل واریانس انجام می شود.

مجموع مجذور انحرافات یک متغیر از مقدار میانگین به دو بخش "توضیح داده شده" و "غیر قابل توضیح" تجزیه می شود:

مجموع مجذور انحرافات.

مجموع انحرافات مجذور توضیح داده شده توسط رگرسیون (یا مجموع عامل مجذور انحرافات).


- مجموع باقیمانده انحرافات مجذور، مشخص کننده تأثیر عواملی است که در مدل در نظر گرفته نشده است.

طرح تحلیل واریانس به شکل ارائه شده در جدول 35 است (- تعداد مشاهدات، - تعداد پارامترهای متغیر).

جدول 35 - طرح تحلیل واریانس

مولفه های واریانس مجموع مربعات تعداد درجات آزادی پراکندگی به ازای درجه آزادی
عمومی
فاکتوریل
باقیمانده

تعریف واریانس با یک درجه آزادی، واریانس ها را به شکل قابل مقایسه ای می رساند. با مقایسه واریانس عامل و باقیمانده در هر درجه آزادی، مقدار معیار فیشر را بدست می آوریم:

برای آزمایش اهمیت معادله رگرسیون به عنوان یک کل، استفاده کنید تست F فیشر. در مورد رگرسیون خطی زوجی، اهمیت مدل رگرسیون با فرمول زیر تعیین می شود: .

اگر در سطح معناداری معین، مقدار محاسبه شده آزمون F با γ1 =k، γ2 =( p - k - 1) درجات آزادی بیشتر از جدول باشد، سپس مدل معنی دار در نظر گرفته شود، فرضیه تصادفی بودن ویژگی های برآورد شده رد شده و اهمیت آماری و پایایی آنها تشخیص داده شود. بررسی وجود یا عدم وجود یک خطای سیستماتیک (تکمیل پیش نیازهای روش حداقل مربعات - LSM) بر اساس تجزیه و تحلیل تعدادی از باقیمانده ها انجام می شود. محاسبه خطاهای تصادفی پارامترهای رگرسیون خطی و ضریب همبستگی طبق فرمول ها انجام می شود.

,

برای آزمایش تصادفی بودن یک سری از باقیمانده ها، می توانید از آزمون نقطه عطف (اوج) استفاده کنید. اگر شرایط زیر وجود داشته باشد نقطه عطف محسوب می شود: ε i -1< ε i >ε i +1 یا ε i -1 > ε i< ε i +1

سپس تعداد نقاط عطف p محاسبه می شود. معیار تصادفی با سطح معنی داری 5 درصد، یعنی. با احتمال اطمینان 95 درصد، تحقق نابرابری است:

پرانتز مربع به این معنی است که کل قسمتی از عدد محصور در پرانتز گرفته شده است. اگر نابرابری ارضا شود، مدل مناسب در نظر گرفته می شود.

برای بررسی اینکه آیا انتظار ریاضی یک دنباله باقیمانده برابر با صفر است، مقدار متوسط ​​یک سری از باقیمانده ها محاسبه می شود:

اگر = 0 باشد، در نظر گرفته می شود که مدل دارای یک خطای سیستماتیک ثابت نیست و با توجه به معیار میانگین صفر کافی است.

اگر ≠ 0 باشد، آنگاه فرضیه صفر که انتظار ریاضی برابر با صفر است آزمایش می شود. برای انجام این کار، آزمون t Student را با استفاده از فرمول محاسبه کنید:

که در آن S ε انحراف استاندارد باقیمانده های مدل است (خطای استاندارد).

مقدار معیار t با t αγ جدول بندی شده مقایسه می شود. اگر نابرابری t > t αγ ارضا شود، مدل با توجه به این معیار ناکافی است.

پراکندگی سطوح تعدادی از باقیمانده ها باید برای همه مقادیر یکسان باشد ایکس(ویژگی واریانس همسانی).اگر این شرط رعایت نشد، پس هتروسکداستیکی .

برای تخمین ناهمگونی با حجم نمونه کوچک، می توانید استفاده کنید روش گلدفلد-کوانت, که ماهیت آن این است که لازم است:

مرتب کردن مقادیر متغیر ایکسبه ترتیب صعودی؛

مجموعه مشاهدات مرتب شده را به دو گروه تقسیم کنید.

برای هر گروه از مشاهدات، معادلات رگرسیون بسازید.

مجموع مربعات باقیمانده برای گروه اول و دوم را با استفاده از فرمول تعیین کنید: ; ، جایی که

n 1 - تعداد مشاهدات در گروه اول.

n 2 - تعداد مشاهدات در گروه دوم.

معیار یا (عدد باید مجموع مربع زیادی داشته باشد) را محاسبه کنید. هنگامی که فرضیه صفر همسویی برآورده شد، معیار محاسبه F با درجات آزادی γ 1 = n 1 -m، γ 2 = n - n 1 - m) برای هر مجموع باقیمانده مربع ها (که m) برآورده می شود. تعداد پارامترهای برآورد شده در معادله رگرسیون). هر چه مقدار محاسبه شده F بیشتر از مقدار جدول معیار F بیشتر باشد، پیش فرض برابری واریانس مقادیر باقیمانده بیشتر نقض می شود.

استقلال دنباله باقیمانده ها (عدم همبستگی) با استفاده از آزمون D Durbin-Watson بررسی می شود. با فرمول تعیین می شود:

مقدار محاسبه شده این معیار با مقادیر بحرانی d1 پایین و d2 بالایی آمار دوربین واتسون مقایسه می شود. موارد زیر ممکن است:

1) اگر د< d 1 , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;

2) اگر d 1 < د < d 2 (از جمله خود این مقادیر) ، در نظر گرفته می شود که هیچ دلیل کافی برای نتیجه گیری وجود ندارد. لازم است از یک معیار اضافی برای مثال اولین ضریب همبستگی استفاده شود:

اگر مقدار محاسبه شده ضریب در مدول کمتر از مقدار جدول بندی شده r 1cr باشد، فرضیه عدم وجود خودهمبستگی پذیرفته می شود. در غیر این صورت این فرضیه رد می شود.

3) اگر d 2 < د < 2, سپس فرضیه استقلال باقیمانده ها پذیرفته شده و مدل با توجه به این معیار مناسب تشخیص داده می شود.

4) اگر d> 2 باشد، این نشان دهنده یک خودهمبستگی منفی باقیمانده ها است. در این حالت، مقدار محاسبه شده معیار باید با استفاده از فرمول d′= 4 - d تبدیل و با مقدار بحرانی d′ مقایسه شود. , نه d.

بررسی اینکه آیا توزیع دنباله باقیمانده با قانون توزیع نرمال مطابقت دارد یا خیر می تواند با استفاده از معیار R/S انجام شود که با فرمول تعیین می شود:

که در آن S ε انحراف استاندارد باقیمانده های مدل است (خطای استاندارد). مقدار محاسبه شده معیار R/S با مقادیر جدول (محدوده های پایین و بالای این نسبت) مقایسه می شود، و اگر مقدار در فاصله بین حدود بحرانی قرار نگیرد، با یک سطح اهمیت معین، فرضیه در مورد نرمال بودن توزیع رد می شود. در غیر این صورت فرضیه پذیرفته می شود

برای ارزیابی کیفیت مدل‌های رگرسیون نیز توصیه می‌شود از آن استفاده کنید شاخص همبستگی(ضریب همبستگی چندگانه).

فرمول تعیین شاخص همبستگی

جایی که

مجموع مجذور انحرافات یک متغیر وابسته از میانگین آن. با فرمول تعیین می شود:

مجموع انحرافات مجذور توضیح داده شده توسط رگرسیون. با فرمول تعیین می شود:

مجموع باقیمانده انحرافات مجذور. با فرمول محاسبه می شود:

معادله را می توان به صورت زیر نشان داد:

شاخص همبستگی مقداری از 0 تا 1 می گیرد. هر چه مقدار شاخص بالاتر باشد، مقادیر محاسبه شده مشخصه حاصل به مقادیر واقعی نزدیکتر است. شاخص همبستگی برای هر شکلی از ارتباط بین متغیرها استفاده می شود. با رگرسیون خطی زوجی برابر با ضریب همبستگی زوجی است.

به عنوان معیاری برای دقت مدل، از ویژگی های دقت استفاده می شود: برای تعیین اندازه گیری دقت مدل، محاسبه کنید:

- حداکثر خطا- مربوط به انحراف انحراف محاسبه شده مقادیر محاسبه شده از مقادیر واقعی است.

- به معنای خطای مطلق- خطا نشان می دهد که مقادیر واقعی به طور متوسط ​​چقدر از مدل انحراف دارند

- واریانس سری باقیمانده(واریانس باقیمانده)

که در آن مقدار متوسط ​​یک سری از باقی مانده است. با فرمول تعیین می شود

- میانگین مربعات خطا. جذر واریانس را نشان می دهد: ، هر چه مقدار خطا کوچکتر باشد، مدل دقیق تر است

- میانگین خطای نسبی تقریب.

میانگین خطای تقریب نباید از 8-10٪ تجاوز کند.

اگر مدل رگرسیون کافی در نظر گرفته شود و پارامترهای مدل قابل توجه باشد، اقدام به ساخت پیش‌بینی کنید. .

ارزش پیش بینی شدهمتغیر دربا جایگزینی مقدار مورد انتظار متغیر مستقل در معادله رگرسیون به دست می آید ایکس prog.

این پیش بینی نامیده می شود نقطه نظر.احتمال تحقق یک پیش‌بینی نقطه‌ای عملاً صفر است، بنابراین فاصله اطمینان پیش‌بینی با اطمینان بالایی محاسبه می‌شود.

فواصل اطمینان پیش بینی به خطای استاندارد، حذف بستگی دارد ایکساز مقدار متوسط ​​آن اجرا شود , تعداد مشاهدات nو سطح اهمیت α پیش بینی. فواصل اطمینان پیش بینی با استفاده از فرمول محاسبه می شود: یا

جایی که

تیجدول - از جدول توزیع دانشجو برای سطح معناداری α و تعداد درجات آزادی تعیین می شود γ=n-k-1.

مثال 13.

بر اساس یک بررسی از هشت گروه از خانواده ها، داده های مربوط به رابطه بین هزینه های جمعیت برای غذا و درآمد خانواده مشخص است (جدول 36).

جدول 36 - روابط بین هزینه های جمعیت برای غذا و سطح درآمد خانواده

هزینه های غذا، هزار روبل. 0,9 1,2 1,8 2,2 2,6 2,9 3,3 3,8
درآمد خانواده، هزار روبل. 1,2 3,1 5,3 7,4 9,6 11,8 14,5 18,7

فرض کنید رابطه بین درآمد خانواده و مخارج غذا خطی است. برای تایید فرضیه خود، یک فیلد همبستگی ایجاد می کنیم (شکل 8).

نمودار نشان می دهد که نقاط در یک خط مستقیم مشخص می شوند.

برای سهولت در محاسبات بیشتر جدول 37 را تهیه می کنیم.

بیایید پارامترهای معادله خطی رگرسیون جفتی را محاسبه کنیم . برای این کار از فرمول های زیر استفاده می کنیم:

شکل 8 - فیلد همبستگی.

معادله را بدست آوردیم:

آن ها با افزایش درآمد خانواده 1000 روبل. هزینه های غذا 168 روبل افزایش می یابد.

محاسبه ضریب همبستگی خطی.

100 RURجایزه برای سفارش اول

انتخاب نوع کار کار دیپلم کار درسی چکیده پایان نامه کارشناسی ارشد گزارش تمرین مقاله گزارش بررسی کار آزمایشی تک نگاری حل مسئله طرح کسب و کار پاسخ به سوالات کار خلاقانه انشا نقاشی انشا ترجمه ارائه تایپ دیگر افزایش منحصر به فرد بودن متن پایان نامه کارشناسی ارشد کار آزمایشگاهی کمک آنلاین

قیمت را دریابید

رگرسیون زوجی معادله رابطه بین دو متغیر است

y و x ویدا y= f(ایکس),

که در آن y متغیر وابسته است (ویژگی نتیجه).

x یک متغیر توضیحی مستقل (ویژگی-عامل) است.

رگرسیون خطی و غیرخطی وجود دارد.

روش حداقل مربعات

برای تخمین پارامترهای رگرسیون هایی که در این پارامترها خطی هستند، از روش حداقل مربعات (OLS) استفاده می شود. . روش حداقل مربعات به ما امکان می دهد چنین برآوردهای پارامتری را به دست آوریم که در آن مجموع انحرافات مجذور مقادیر واقعی مشخصه حاصل y از مقادیر نظری ŷ باشد. ایکسدر همان مقادیر عامل ایکسحداقل است، یعنی

5. ارزیابی اهمیت آماری شاخص های همبستگی، پارامترهای معادله رگرسیون خطی زوجی و معادله رگرسیون به عنوان یک کل.

6. ارزیابی میزان نزدیکی رابطه بین متغیرهای کمی. ضریب کوواریانس. شاخص های همبستگی: ضریب همبستگی خطی، شاخص همبستگی (= نسبت همبستگی نظری).

ضریب کوواریانس

Mch(y) - یعنی. یک وابستگی همبستگی بدست می آوریم.

وجود یک همبستگی نمی تواند به سؤال در مورد علت اتصال پاسخ دهد. همبستگی تنها معیار این ارتباط را ایجاد می کند، یعنی. معیاری از تنوع ثابت

اندازه گیری رابطه بین دو متغیر را می توان با استفاده از کوواریانس یافت.

, ,

بزرگی شاخص کوواریانس به واحدهای γ متغیر مورد اندازه گیری بستگی دارد. بنابراین، برای ارزیابی درجه تغییرات سازگار، از ضریب همبستگی استفاده می شود - یک مشخصه بدون بعد که دارای محدودیت های خاصی از تغییرات است.

7. ضریب تعیین. خطای استاندارد معادله رگرسیون.

ضریب تعیین (rxy2) - سهم واریانس مشخصه حاصل از y را که با واریانس توضیح داده شده است در کل واریانس مشخصه حاصل مشخص می کند. هرچه rxy2 به 1 نزدیکتر باشد، مدل رگرسیون بهتر است، یعنی مدل اصلی به خوبی به داده های اصلی تقریب می کند.

8. ارزیابی اهمیت آماری شاخص‌های تصحیح، پارامترهای معادله رگرسیون خطی زوجی و معادله رگرسیون به عنوان یک کل: تی-آزمون دانش آموزی اف-معیار فیشر

9. مدل های رگرسیون غیرخطی و خطی سازی آنها.

رگرسیون های غیرخطی به دو دسته تقسیم می شوند : رگرسیون هایی که با توجه به متغیرهای توضیحی حذف شده از تحلیل، غیرخطی هستند، اما نسبت به پارامترهای برآورد شده خطی هستند، و رگرسیون هایی که نسبت به پارامترهای برآورد شده غیرخطی هستند.

نمونه هایی از رگرسیون، غیر خطی در متغیرهای توضیحی, اما خطی در پارامترهای برآورد شده:


مدل های رگرسیون غیرخطی و خطی سازی آنها

با کاهش وابستگی غیرخطی مشخصه ها به شکل خطی، پارامترهای رگرسیون چندگانه نیز با حداقل مربعات تعیین می شوند با این تفاوت که نه برای اطلاعات اصلی، بلکه برای داده های تبدیل شده استفاده می شود. بنابراین، با توجه به تابع قدرت

,

ما آن را به شکل خطی تبدیل می کنیم:

که در آن متغیرها به صورت لگاریتمی بیان می شوند.

علاوه بر این، پردازش LSM یکسان است: سیستمی از معادلات عادی ساخته شده و پارامترهای ناشناخته تعیین می شوند. با تقویت مقدار، پارامتر را پیدا می کنیم آو بر این اساس، شکل کلی معادله یک تابع توان.

به طور کلی، رگرسیون غیرخطی با توجه به متغیرهای وارد شده هیچ مشکلی در برآورد پارامترهای آن ایجاد نمی کند. این تخمین، مانند رگرسیون خطی، توسط OLS تعیین می شود. بنابراین در معادله رگرسیون غیرخطی دو عاملی

خطی سازی را می توان با وارد کردن متغیرهای جدید در آن انجام داد . نتیجه یک معادله رگرسیون خطی چهار عاملی است

10.چند خطی. روش های حذف چند خطی

بیشترین مشکلات در استفاده از دستگاه رگرسیون چندگانه در حضور چند خطی عوامل ایجاد می شود. زمانی که بیش از دو عامل با یک رابطه خطی با یکدیگر مرتبط باشند. وجود چند خطی در بین عوامل ممکن است به این معنی باشد که برخی از عوامل همیشه هماهنگ عمل می کنند. در نتیجه، تغییر در داده های ورودی دیگر کاملاً مستقل نیست و تأثیر هر عامل را نمی توان به طور جداگانه ارزیابی کرد.

هر چه چند خطی عوامل قوی تر باشد، تخمین توزیع مقدار تغییرات توضیح داده شده بین عوامل فردی با استفاده از روش حداقل مربعات (OLS) کمتر قابل اعتماد است.

گنجاندن عوامل چند خطی در مدل به دلایل زیر نامطلوب است:

ü تفسیر پارامترهای رگرسیون چندگانه دشوار است. پارامترهای رگرسیون خطی معنای اقتصادی خود را از دست می دهند.

ü تخمین پارامترها غیرقابل اعتماد هستند، خطاهای استاندارد بزرگی را نشان می دهند و با تغییرات در حجم مشاهدات تغییر می کنند، که باعث می شود مدل برای تجزیه و تحلیل و پیش بینی نامناسب باشد.

روش های حذف چند خطی

- حذف متغیر(ها) از مدل؛

با این حال، هنگام استفاده از این روش، کمی احتیاط لازم است. در این شرایط، خطاهای مشخصات ممکن است.

- به دست آوردن داده های اضافی یا ساختن یک نمونه جدید؛

گاهی برای کاهش چند خطی، کافی است حجم نمونه را افزایش دهیم. به عنوان مثال، اگر از داده های سالانه استفاده می کنید، می توانید به داده های فصلی بروید. افزایش حجم داده ها باعث کاهش واریانس ضرایب رگرسیونی و در نتیجه افزایش معناداری آماری آنها می شود. با این حال، به دست آوردن یک نمونه جدید یا گسترش نمونه قدیمی همیشه امکان پذیر نیست یا با هزینه های جدی همراه است. علاوه بر این، این رویکرد ممکن است افزایش یابد

خود همبستگی

- تغییر در مشخصات مدل؛

در برخی موارد، مشکل چند خطی را می توان با تغییر مشخصات مدل حل کرد: یا تغییر شکل مدل، یا اضافه کردن متغیرهای توضیحی جدیدی که در مدل در نظر گرفته نشده اند.

- استفاده از اطلاعات اولیه در مورد برخی از پارامترها.

11. مدل رگرسیون چندگانه خطی کلاسیک (CLMMR). تعیین پارامترهای سطح ثبت چندگانه به روش حداقل مربعات.

1. تعاریف و فرمول های اساسی

رگرسیون زوجی- رگرسیون (رابطه) بین دو متغیر و غیره. نمای مدل:

متغیر وابسته کجاست (ویژگی نتیجه)؛

- متغیر توضیحی مستقل (عامل صفت)؛

یک اختلال یا متغیر تصادفی که شامل تأثیر عواملی است که در مدل در نظر گرفته نشده اند.

تقریباً در هر مورد جداگانه، مقدار از دو عبارت تشکیل شده است:

مقدار واقعی ویژگی حاصل کجاست.

ارزش نظری مشخصه حاصل که بر اساس معادله رگرسیون یافت می شود. علامت "^" به این معنی است که هیچ رابطه عملکردی دقیقی بین متغیرها و.

تمیز دادن خطیو غیر خطیپسرفت.

رگرسیون خطیبا معادله خط توصیف می شود

رگرسیون های غیرخطیبه دو دسته تقسیم می شوند:

1) رگرسیون، در متغیرهای توضیحی غیرخطی، اما در پارامترهای تخمینی خطی است، مثلا:

چند جمله ای درجات مختلف

هذلولی متساوی الاضلاع

2) رگرسیون، غیر خطی در پارامترهای برآورد شده است، مثلا:

قدرت

نشان دهنده

نمایی

برای ساخت رگرسیون خطی زوجی، کمیت های کمکی محاسبه می شوند (- تعداد مشاهدات).

معنی نمونه: و

کوواریانس نمونهبین و

یا

کوواریانسیک مشخصه عددی از توزیع مشترک دو متغیر تصادفی است.

واریانس نمونه برای

یا

واریانس نمونه برای

یا

واریانس نمونهدرجه پراکندگی مقادیر یک متغیر تصادفی در اطراف مقدار متوسط ​​(تغییرپذیری، تغییرپذیری) را مشخص می کند.

نزدیکی ارتباط بین پدیده های مورد مطالعه ارزیابی می شود ضریب همبستگی نمونهبین و

ضریب همبستگی از 1- تا 1+ متغیر است. هرچه از مدول به 1 نزدیکتر باشد، رابطه آماری بین و به یک تابعی خطی نزدیکتر است.

اگر =0 باشد، هیچ رابطه خطی بین و وجود ندارد.<0,3 - связь слабая; 0,3<0,7 - связь умеренная; 0,7<0,9 - связь сильная; 0,9<0,99 - связь весьма сильная.

مقدار مثبت ضریب نشان می دهد که رابطه بین ویژگی ها مستقیم است (با رشد مقدار افزایش می یابد)، مقدار منفی نشان دهنده یک رابطه معکوس (با رشد مقدار کاهش می یابد).

ساخت رگرسیون خطیبه تخمین پارامترهای آن می رسد و رویکرد کلاسیک برای تخمین پارامترهای رگرسیون خطی بر اساس روش حداقل مربعات(MNC). روش حداقل مربعات به ما امکان می دهد چنین برآوردهای پارامتری را به دست آوریم که در آن مجموع انحرافات مجذور مقادیر واقعی مشخصه حاصل از موارد نظری حداقل باشد، یعنی.

برای رگرسیون خطی، پارامترها و از سیستم معادلات نرمال پیدا می شوند:

حل سیستم، پیدا می کنیم Vبر

و پارامتر

ضریببا یک متغیر عامل نشان می دهد که در صورت تغییر فاکتور بر اساس واحد اندازه گیری، مقدار میانگین چقدر تغییر خواهد کرد.

پارامتر زمانی که If نمی تواند برابر با 0 باشد، پس هیچ معنای اقتصادی ندارد. تنها زمانی می‌توانید علامت را تفسیر کنید که تغییر نسبی در نتیجه کندتر از تغییر عامل رخ دهد، یعنی. تغییرات نتیجه کمتر از تغییر عامل است و بالعکس.

برای ارزیابی کیفیت مدل رگرسیون ساخته شده، می توانید استفاده کنید ضریب تعیینیا میانگین خطای تقریب.

بهضریب تعیین

یا

سهم واریانس تبیین شده با رگرسیون را در کل واریانس مشخصه حاصل نشان می دهد بر این اساس، مقدار سهم واریانس در شاخص ناشی از تأثیر عوامل در نظر گرفته نشده در مدل و دلایل دیگر را مشخص می کند.

هر چه به 1 نزدیکتر باشد، مدل رگرسیون بهتر است، یعنی. مدل ساخته شده به خوبی داده های اصلی را تقریب می کند.

میانگین خطای تقریب- این میانگین انحراف نسبی مقادیر نظری از مقادیر واقعی است، یعنی.

معادله رگرسیون ساخته شده در صورتی رضایت بخش در نظر گرفته می شود که مقدار از 10-12٪ تجاوز نکند.

برای رگرسیون خطی ضریب کشش متوسطبا فرمول پیدا می شود:

ضریب کشش متوسطنشان می دهد که به طور میانگین با چه درصدی نتیجه از مقدار خود تغییر می کند زمانی که عامل به میزان 1٪ از مقدار خود تغییر می کند.

رتبه بندیناچیموستومعادلات رگرسیونبه طور کلی با استفاده از آزمون فیشر ارائه شده است که شامل آزمون فرضیه عدم اهمیت آماری معادله رگرسیون است. . برای این کار مقایسه ای انجام می شود واقعیهآسمانو بحرانیمقادیر (جدولی). - تست فیشر .

از نسبت مقادیر فاکتور و واریانس باقیمانده محاسبه شده به ازای درجه آزادی، یعنی.

- حداکثر مقدار ممکن معیار تحت تأثیر عوامل تصادفی با درجه آزادی = 1، =-2 و سطح معنی داری از جدول معیار فیشر (جدول 1 پیوست) بدست می آید.

سطح اهمیت- این احتمال رد یک فرضیه صحیح با توجه به صحت آن است.

اگر سپس فرضیه عدم وجود ارتباط بین شاخص مورد مطالعه و عامل رد شده و در مورد معنی دار بودن این ارتباط با سطح معناداری (یعنی معادله رگرسیون معنی دار است) نتیجه گیری می شود.

اگر سپس فرضیه پذیرفته شده و بی اهمیت بودن و غیرقابل اعتماد بودن معادله رگرسیون تشخیص داده می شود.

برای رگرسیون خطی اهمیتضرایب رگرسیونبا استفاده از - آزمون دانشجویی که بر اساس آن فرضیه ای در مورد ماهیت تصادفی شاخص ها مطرح می شود، یعنی. در مورد تفاوت ناچیز آنها از صفر. در مرحله بعد، مقادیر واقعی معیار برای هر یک از ضرایب رگرسیون تخمین زده شده محاسبه می شود، یعنی.

کجا و - خطاهای استانداردپارامترهای رگرسیون خطی با فرمول های زیر تعیین می شوند:

- حداکثر مقدار ممکن آزمون دانشجو تحت تأثیر عوامل تصادفی برای درجه آزادی معین = 2- و سطح معنی داری از جدول آزمون دانشجو (جدول 2 پیوست) بدست می آید.

اگر سپس فرضیه بی اهمیت بودن ضریب رگرسیون با سطح معنی داری رد می شود. ضریب (یا) به طور تصادفی با صفر متفاوت نیست و تحت تأثیر یک عامل به طور سیستماتیک عمل می کند.

اگر سپس فرضیه رد نمی شود و ماهیت تصادفی شکل گیری پارامتر تشخیص داده می شود.

اهمیت ضریب همبستگی خطیهمچنین بررسی شده است - آزمون دانشجویی، یعنی

فرضیه بی اهمیت بودن ضریب همبستگی با سطح معنی داری رد می شود

اظهار نظر.برای رگرسیون جفت خطی، آزمون فرضیه‌ها در مورد اهمیت ضریب و ضریب همبستگی معادل آزمایش فرضیه در مورد اهمیت معادله رگرسیون به عنوان یک کل است، یعنی.

برای محاسبه فاصله اطمینان، تعیین کنید خطای حاشیه ایبرای هر شاخص، یعنی

فاصله اطمینانبرای ضرایب رگرسیون خطی:

اگر صفر در بازه اطمینان قرار گیرد، یعنی. حد پایین منفی و حد بالایی مثبت است، سپس پارامتر تخمین زده شده صفر در نظر گرفته می شود، زیرا نمی تواند به طور همزمان هر دو معنای مثبت و منفی را به خود بگیرد.

ارزش پیش بینی شدهبا جایگزینی مقدار پیش بینی شده مربوطه در معادله رگرسیون تعیین می شود و سپس محاسبه می شود میانگین خطای استاندارد پیش بینی

جایی که

و در حال ساخت است فاصله اطمینان پیش بینی

این فاصله به دلیل حجم کم مشاهدات می تواند بسیار گسترده باشد.

رگرسیون ها، غیر خطی در متغیرهای گنجانده شده , با یک تغییر ساده متغیرها به شکل خطی کاهش می‌یابند و تخمین بیشتر پارامترها با استفاده از حداقل مربعات انجام می‌شود.

جیهذلولیرگرسیون کالبدی:

آر خروج , غیر خطی ه با توجه به پارامترهای ارزیابی شده ، به دو نوع تقسیم می شوند: داخلی غیر خطیو غیره (به شکل خطی تقلیل نمی یابد) و درونی خطی(با استفاده از تبدیل های مناسب به شکل خطی کاهش می یابد)، به عنوان مثال:

رگرسیون نمایی:

تبدیل خطی سازی:

رگرسیون توان:

تبدیل خطی سازی:

فهرست مطالبرگرسیون جدید:

تبدیل خطی سازی:

لگاریتمیرگرسیون ام:

تبدیل خطی سازی:

2. حل مسائل معمولی

مثال9 .1 . برای 15 شرکت کشاورزی (جدول 9.1) موارد زیر مشخص است: - تعداد تجهیزات در واحد سطح زیر کشت (واحد در هکتار) و - حجم محصولات رشد یافته (هزار واحد پولی). لازم:

1) وابستگی را تعیین کنید

2) زمینه های همبستگی و نمودار معادله رگرسیون خطی را بسازید

3) در مورد کیفیت مدل نتیجه گیری کنید و مقدار پیش بینی را با مقدار پیش بینی 112 درصد از سطح متوسط ​​محاسبه کنید.

جدول 9.1

راه حل:

1) در اکسل، جدول کمکی 9.2 ایجاد کنید.

جدول 9.2

برنج.9 .1. جدول برای محاسبه مقادیر میانی

بیایید تعداد اندازه گیری ها را محاسبه کنیم برای انجام این کار، در سلول B19قرار دادن = COUNT(A2:A16 ) .

با استفاده از تابع ∑ (AutoSum) در نوار ابزار استاندارد تی نایا جمع همه (سلول) را بیابید B17) و (سلول C17).

برنج. 9.2. محاسبه مجموع مقادیر و میانگین ها

برای محاسبه مقادیر متوسط، از تابع داخلی MS Excel AVERAGE() استفاده می کنیم؛ محدوده مقادیر برای تعیین میانگین در پرانتز نشان داده شده است. به این ترتیب، میانگین حجم محصولات کشت شده برای 15 مزرعه 210.833 هزار است. واحد و میانگین میزان تجهیزات 6.248 واحد در هکتار است.

برای پر کردن ستون ها D, E, اففرمول محاسبه محصول: را در سلول وارد کنید D2 قرار دادن = B2*C2، سپس ENTER را روی صفحه کلید خود فشار دهید. روی سلول کلیک چپ کنید D2 و با گرفتن گوشه سمت راست پایین این سلول (علامت مثبت سیاه)، آن را به سمت سلول پایین بکشید D16 . محدوده به طور خودکار پر می شود D3 - D16 .

برای محاسبه در به طور انتخابیاوه کوواریانسبین و از فرمول i.e استفاده می کنیم. به سلول ب21 قرار دادن = D18- ب18* سی18 و 418.055 بدست می آوریم (شکل 9.3).

برنج.9 .3. محاسبه

انتخابیوایپراکندگییوزیرا ما با استفاده از فرمول پیدا می کنیم برای این در سلول ب22 قرار دادن = E18-B18^2 (^- علامت نشان دهنده قدرت ) و 11.337 می گیریم. به طور مشابه، ما =16745.05556 را تعیین می کنیم (شکل 9.4)

برنج.9 .4. محاسبهVar(ایکس) وVar (y)

سپس، با استفاده از تابع استاندارد MS Excel "CORREL"، مقدار ضریب همبستگی خطی را برای مسئله خود محاسبه می کنیم؛ تابع به شکل "=CORREL(B2:B16;C2:C16)" و مقدار rxy= خواهد بود. 0.96. مقدار حاصل از ضریب همبستگی نشان دهنده ارتباط مستقیم و قوی بین در دسترس بودن تجهیزات و حجم محصولات رشد یافته است.

ما پیدا می کنیم Vنمونه ضریب رگرسیون خطی =36.87; پارامتر = -17.78. این به این معنی است که معادله رگرسیون خطی زوجی به شکل =-17.78+36.87 است.

این ضریب نشان می دهد که با افزایش 1 واحد در هکتار میزان تجهیزات، به طور متوسط ​​36.875 هزار محصول رشد یافته افزایش می یابد. واحدها (شکل 9.5)

برنج.9 .5. محاسبه پارامترهای معادله رگرسیون.

بنابراین، معادله رگرسیون به صورت زیر خواهد بود:

مقادیر واقعی را در معادله به دست آمده جایگزین می کنیم ایکس(تعداد تجهیزات) مقادیر نظری حجم محصولات رشد یافته را پیدا می کنیم (شکل 9.6).

برنج.9 .6. محاسبه مقادیر نظری حجم محصولات رشد یافته

استفاده كردن جادوگر نمودارفیلدهای همبستگی (هایلایت کردن ستون ها با مقادیر و) و یک معادله رگرسیون خطی (برجستگی ستون ها با مقادیر و) می سازیم. انتخاب نوع نمودار - تی تماشایی در نمودار حاصل، پارامترهای لازم (عنوان، برچسب های محور، افسانه و غیره) را پر کنید. در نتیجه، نمودار نشان داده شده در شکل را به دست می آوریم. 9.7.

برنج.9 .7. نمودار وابستگی حجم محصولات رشد یافته به مقدار تجهیزات

برای ارزیابی کیفیت مدل رگرسیون ساخته شده، محاسبه می کنیم:

. بهضریب تعیین 0.92 = که نشان می دهد تغییر در هزینه های تولید 92% با تغییر در حجم تولید توضیح داده می شود و 8% ناشی از عواملی است که در مدل لحاظ نشده است که نشان دهنده کیفیت مدل رگرسیون ساخته شده است.

. باقرمزیویوخطادرتقریب ها. برای انجام این کار، در ستون اچبیایید تفاوت بین مقادیر واقعی و نظری a را در ستون محاسبه کنیم من- اصطلاح . لطفاً توجه داشته باشید که تابع استاندارد MS Excel "ABS" برای محاسبه مقادیر مدول استفاده می شود. هنگام ضرب مقدار متوسط ​​(سلول من18 ) در 100٪ ما 18.2٪ دریافت می کنیم. در نتیجه، به طور متوسط، مقادیر نظری 18.2٪ از مقادیر واقعی انحراف دارند (شکل 1.8).

با استفاده از معیار فیشر، تخمین می زنیم ساعتناچیموستبمعادلاتثبت نامبااینها به طور کلی: 150,74.

در سطح معنی داری 0.05 = 4.67، ما با استفاده از تابع آماری داخلی تعیین می کنیم سریعتر(شکل 1.9). لازم به یادآوری است که "Degrees_freedom1" مخرج است و "Degrees_freedom2" عددی است که تعداد پارامترها در معادله رگرسیون است (ما 2 داریم). n- تعداد جفت مقادیر اولیه (ما 15 عدد داریم).

زیرا سپس معادله رگرسیون در 05/0 = معنادار است.

برنج.9 .8. تعیین ضریب تعیین ومیانگین خطای تقریب

برنج. 9 . 9 . پنجره گفتگوکارکردسریعتر

بعد تعریف می کنیم باضریب کشش متوسططبق فرمول یافته ها نشان می دهد که با افزایش 1 درصدی حجم محصولات تولیدی، هزینه های تولید این محصولات به طور میانگین در مجموع 1.093 درصد افزایش می یابد.

بیایید محاسبه کنیم ارزش پیش بینی شدهبا جایگزینی در معادله رگرسیون =-19.559+36.8746 مقدار پیش بینی شده ضریب =1.12=6.248*1.12=6.9978. ما =238.48 بدست می آوریم. در نتیجه با مقدار تجهیزات به میزان 6.9978 واحد در هکتار، حجم خروجی 238.48 هزار خواهد بود. واحدها

بیایید واریانس باقیمانده را پیدا کنیم؛ برای انجام این کار، مجموع مجذورات تفاوت بین مقادیر واقعی و نظری را محاسبه می کنیم. =39.166 با قرار دادن فرمول زیر = ROOT (J17/(B19-2))به سلول اچ2 1 (شکل 9.10).

برنج.9 .10. تعیین واریانس باقیمانده

باقرمزیایااستانداردخطای هفتمپیش بینی:

در سطح معنی داری 0.05 = با استفاده از تابع آماری داخلی مطالعه کنیدبیایید 2.1604 = را تعریف کنیم و حداکثر خطای پیش بینی را محاسبه کنیم که در 95٪ موارد بیشتر از آن نخواهد بود. .

Dفاصله اطمینان پیش بینی:

یا .

پیش‌بینی تکمیل شده هزینه‌های تولید قابل اعتماد بود (1-0.05 = 0.95)، اما نادرست بود، زیرا محدوده حد بالا و پایین فاصله اطمینان است. بار. این به دلیل حجم کم مشاهدات اتفاق افتاد.

لازم به ذکر است که MS Excel دارای توابع آماری داخلی است که می تواند به طور قابل توجهی تعداد محاسبات میانی را کاهش دهد، به عنوان مثال (شکل 9.11.):

برای محاسبه Vانتخابیایکسمیانگینایکساز تابع استفاده کنید AVERAGE(number1:numberن) از دسته آماری .

کوواریانس نمونهبین و با استفاده از تابع پیدا می شود KOVAR(آرایهایکس؛آرایهY) از دسته آماری .

انتخابیسپراکندگیوتوسط تابع آماری تعیین می شود DISPR(number1:numberن) .

برنج.9 یازده. محاسبه nارائه دهندگان با توابع داخلیام‌اسبرتری داشتن

پپارامترسرگرسیون خطیدر اکسل می توانید آن را به چند روش تعریف کنید.

1 مسیر) با استفاده از تابع داخلی LINEST. روند کار به صورت زیر است:

1. یک منطقه 5x2 از سلول های خالی (5 ردیف، 2 ستون) را برای نمایش نتایج آمار رگرسیون انتخاب کنید، یا یک منطقه 1x2 را برای به دست آوردن تنها ضرایب رگرسیون انتخاب کنید.

2. با Function Wizardsدر میان آماری عملکرد را انتخاب کنید LINESTو آرگومان های آن را پر کنید (شکل 9.12):

برنج. 9 . 12 . کادر گفتگو برای وارد کردن آرگومان های تابعLINEST

مقادیر_شناخته_y

مقادیر_شناخته_ایکس

Const- یک مقدار منطقی (1 یا 0)، که نشان دهنده وجود یا عدم وجود یک عبارت آزاد در معادله است. مجموعه 1;

آمار- یک مقدار منطقی (1 یا 0)، که نشان می دهد آیا اطلاعات اضافی در تجزیه و تحلیل رگرسیون نمایش داده می شود یا خیر. آن را روی 1 تنظیم کنید.

3. شماره اول جدول در سلول سمت چپ بالای ناحیه انتخاب شده ظاهر می شود. برای باز کردن کل جدول، دکمه را فشار دهید < اف2> ، و سپس - به ترکیب کلید < CTRL> + < تغییر مکان> + < وارد> .

آمار رگرسیون اضافی به صورت (جدول 9.3) نمایش داده می شود:

جدول 9.3

مقدار ضریب

مقدار ضریب

RMS
انحراف

RMS
انحراف

ضریب
عزم

RMS
انحراف

آمار

تعداد درجات آزادی

مجموع رگرسیون مربع ها

جمع باقیمانده مربع ها

در نتیجه اعمال تابع LINESTما گرفتیم:

( 2 مسیر) استفاده از ابزار تجزیه و تحلیل داده ها پسرفت می توانید نتایج آمار رگرسیون، تحلیل واریانس، فواصل اطمینان، باقیمانده ها، نمودارهای برازش خط رگرسیون، باقیمانده ها و نمودارهای احتمال عادی را دریافت کنید. روند کار به صورت زیر است:

1. باید دسترسی به را بررسی کنید بسته تحلیلی. برای انجام این کار، در منوی اصلی (از طریق دکمه مایکروسافت آفیس، دسترسی به پارامترهای MS Excel) در کادر محاوره ای "گزینه ها" ام‌اسبرتری داشتن» دستور «افزونه ها» را انتخاب کنید و افزونه سمت راست را انتخاب کنید تجزیه و تحلیل بسته آ سپس بر روی دکمه "Go" کلیک کنید (شکل 9.13). در کادر محاوره‌ای که باز می‌شود، کادر کنار «Analysis package» را علامت بزنید و روی «OK» کلیک کنید (شکل 9.14).

در تب Data در گروه Analysis به افزونه نصب شده دسترسی خواهید داشت. (شکل 9.15).

برنج.9 .13. فعال کردن افزونه ها درام‌اسبرتری داشتن

برنج.9 .14. جعبه گفتگوی افزودنی ها

برنج.9 .15. افزودنی تجزیه و تحلیل داده در روبانام‌اسبرتری داشتن 2007 .

2. در گروه "Analysis" "Data" را انتخاب کرده و دستور را انتخاب کنید تحلیل بله n نیخ در کادر محاوره‌ای که باز می‌شود، ابزار تحلیل رگرسیون را انتخاب کرده و روی «OK» کلیک کنید (شکل 9.16):

برنج.9 .16. جعبه گفتگوی تجزیه و تحلیل داده ها

در کادر محاوره ای ظاهر شده (شکل 9.17)، فیلدها را پر کنید:

فاصله ورودیY- محدوده حاوی داده های مشخصه حاصل از Y.

فاصله ورودیایکس- محدوده حاوی داده های مشخصه توضیحی X.

برچسب ها- پرچمی که نشان می دهد خط اول شامل نام ستون است یا خیر.

Constضد صفر- پرچمی که وجود یا عدم وجود یک عبارت آزاد در معادله را نشان می دهد.

فاصله خروجی- کافی است سلول سمت چپ بالای محدوده آینده را نشان دهید.

کاربرگ جدید- می توانید یک نام دلخواه برای یک برگه جدید که نتایج در آن نمایش داده می شود تعیین کنید.

برنج.9 .17. جعبه گفتگوی رگرسیون

برای به دست آوردن اطلاعات در مورد باقیمانده ها، نمودارهای باقیمانده، برازش و احتمال عادی، باید کادرهای مربوطه را در کادر محاوره ای علامت بزنید.

برنج. 9 . 18 . نتایج استفاده از ابزارپسرفت

که در ام‌اسبرتری داشتن خط روندرا می توان به نمودار یا نمودار ناحیه هیستوگرام اضافه کرد. برای این:

1. لازم است ناحیه ترسیم نمودار را انتخاب کرده و در نوار Layout و در گروه Analysis دستور Trend Line را انتخاب کنید (شکل 9.19). "گزینه های خط روند پیشرفته" را از آیتم منوی کشویی انتخاب کنید.

برنج. 1.19.روبان

2. در کادر محاوره ای که ظاهر می شود، مقادیر واقعی را انتخاب کنید، سپس کادر محاوره ای "Trend Line Format" باز می شود (شکل 9.20.) که در آن نوع خط روند را انتخاب کرده و پارامترهای مناسب را تنظیم می کنید.

برنج. 9 . 20 . پنجره گفتگو"فرمت خط روند"

برای یک روند چند جمله ای، لازم است درجه چند جمله ای تقریبی را تنظیم کنید، برای فیلتر خطی - تعداد نقاط میانگین.

انتخاب کنید خطیبرای ساخت یک معادله رگرسیون خطی.

برای اطلاعات بیشتر می توانید معادله را در دی نشان دهیدآگرمو روی نمودار یک مقدار قرار دهید(شکل 9.21).

برنج. 9 . 21 . روند خطی

مدل های رگرسیون غیرخطی هنگام محاسبه پارامترهای معادله با استفاده از تابع آماری انتخاب شده در اکسل نشان داده شده است. LGRFPRIBL. روش محاسبه مانند استفاده از تابع LINEST است.

دسته بندی ها

مقالات محبوب

2023 "kingad.ru" - بررسی سونوگرافی اندام های انسان