فرمول ضریب رگرسیون خطی. معادله رگرسیون

تحلیل رگرسیون یک روش تحقیق آماری است که به شما امکان می دهد وابستگی یک پارامتر خاص را به یک یا چند متغیر مستقل نشان دهید. در دوران پیش از کامپیوتر، استفاده از آن بسیار دشوار بود، به خصوص زمانی که به حجم زیادی از داده ها می رسید. امروزه، با آموختن نحوه ایجاد رگرسیون در اکسل، می توانید مسائل پیچیده آماری را تنها در چند دقیقه حل کنید. در زیر نمونه های مشخصی از حوزه اقتصاد آورده شده است.

انواع رگرسیون

این مفهوم خود در سال 1886 وارد ریاضیات شد. رگرسیون اتفاق می افتد:

  • خطی؛
  • سهموی
  • آرام بخش
  • نمایی;
  • هذلولی
  • نمایشی؛
  • لگاریتمی

مثال 1

بیایید مشکل تعیین وابستگی تعداد اعضای تیمی که از کار کناره گیری می کنند به میانگین حقوق در 6 شرکت صنعتی در نظر بگیریم.

وظیفه. در شش شرکت، میانگین حقوق ماهانه و تعداد کارکنانی که داوطلبانه ترک کردند، تجزیه و تحلیل شد. به شکل جدول داریم:

تعداد افرادی که ترک کردند

حقوق

30000 روبل

35000 روبل

40000 روبل

45000 روبل

50000 روبل

55000 روبل

60000 روبل

برای تعیین وابستگی تعداد کارگران انصرافی به میانگین حقوق در 6 شرکت، مدل رگرسیون به شکل معادله Y = a 0 + a 1 x 1 +...+a k x k است که x i معادل است. متغیرهای تأثیرگذار، a i ضرایب رگرسیون و k تعداد عوامل است.

برای این مشکل، Y شاخص ترک کار کارکنان است و عامل تأثیرگذار، حقوق است که آن را با X نشان می دهیم.

استفاده از قابلیت های پردازشگر صفحه گسترده اکسل

تجزیه و تحلیل رگرسیون در اکسل باید با اعمال توابع داخلی به داده های جدولی موجود انجام شود. با این حال، برای این اهداف بهتر است از افزونه بسیار مفید "Analysis Pack" استفاده کنید. برای فعال کردن آن نیاز دارید:

  • از برگه "فایل" به بخش "گزینه ها" بروید.
  • در پنجره ای که باز می شود، خط "افزونه ها" را انتخاب کنید.
  • روی دکمه "Go" واقع در زیر، سمت راست خط "Management" کلیک کنید.
  • کادر کنار نام «بسته تجزیه و تحلیل» را علامت بزنید و با کلیک بر روی «تأیید» اقدامات خود را تأیید کنید.

اگر همه چیز به درستی انجام شود، دکمه مورد نیاز در سمت راست برگه "داده ها" که در بالای کاربرگ اکسل قرار دارد ظاهر می شود.

در اکسل

اکنون که همه ابزارهای مجازی لازم برای انجام محاسبات اقتصادسنجی را در اختیار داریم، می‌توانیم شروع به حل مشکل خود کنیم. برای این:

  • بر روی دکمه "تجزیه و تحلیل داده ها" کلیک کنید؛
  • در پنجره ای که باز می شود، روی دکمه "Regression" کلیک کنید.
  • در برگه ای که ظاهر می شود، محدوده مقادیر Y (تعداد کارمندان ترک) و X (حقوق آنها) را وارد کنید.
  • ما اقدامات خود را با فشار دادن دکمه "Ok" تأیید می کنیم.

در نتیجه، برنامه به طور خودکار یک صفحه گسترده جدید را با داده های تحلیل رگرسیون پر می کند. توجه داشته باشید! اکسل به شما امکان می دهد مکان مورد نظر خود را برای این منظور به صورت دستی تنظیم کنید. به عنوان مثال، این می تواند همان برگه ای باشد که مقادیر Y و X در آن قرار دارند یا حتی یک کتاب کار جدید که به طور خاص برای ذخیره چنین داده هایی طراحی شده است.

تجزیه و تحلیل نتایج رگرسیون برای R-squared

در اکسل، داده های به دست آمده در هنگام پردازش داده ها در مثال مورد بررسی به شکل زیر است:

اول از همه، باید به مقدار R-squared توجه کنید. نشان دهنده ضریب تعیین است. در این مثال، R-square = 0.755 (75.5%)، یعنی پارامترهای محاسبه شده مدل، رابطه بین پارامترهای در نظر گرفته شده را تا 75.5% توضیح می دهد. هر چه مقدار ضریب تعیین بیشتر باشد، مدل انتخاب شده برای یک کار خاص مناسب تر است. در نظر گرفته می شود که وضعیت واقعی را به درستی توصیف کند زمانی که مقدار مربع R بالای 0.8 باشد. اگر R مربع باشد<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

تحلیل شانس

عدد 64.1428 نشان می دهد که اگر تمام متغیرهای xi در مدلی که در نظر داریم به صفر برسند، مقدار Y چقدر خواهد بود. به عبارت دیگر، می توان ادعا کرد که مقدار پارامتر تجزیه و تحلیل شده نیز تحت تأثیر عوامل دیگری است که در یک مدل خاص توضیح داده نشده اند.

ضریب بعدی -0.16285 که در سلول B18 قرار دارد، وزن تأثیر متغیر X را بر Y نشان می دهد. این بدان معنی است که میانگین حقوق ماهانه کارکنان در مدل مورد بررسی بر تعداد افراد ترک با وزن 0.16285- تأثیر می گذارد. درجه نفوذ آن کاملاً کم است. علامت "-" نشان دهنده منفی بودن ضریب است. این بدیهی است ، زیرا همه می دانند که هرچه حقوق در شرکت بالاتر باشد ، افراد کمتری تمایل به فسخ قرارداد کار یا ترک کار را دارند.

رگرسیون چندگانه

این اصطلاح به یک معادله رابطه با چندین متغیر مستقل از شکل اشاره دارد:

y=f(x 1 +x 2 +…x m) + ε، که در آن y مشخصه حاصل (متغیر وابسته) است، و x 1، x 2،…x m ویژگی های عاملی (متغیرهای مستقل) هستند.

تخمین پارامتر

برای رگرسیون چندگانه (MR)، با استفاده از روش حداقل مربعات (OLS) انجام می شود. برای معادلات خطی به شکل Y = a + b 1 x 1 +…+b m x m + ε ما سیستمی از معادلات عادی می سازیم (به زیر مراجعه کنید)

برای درک اصل روش، یک مورد دو عاملی را در نظر بگیرید. سپس وضعیتی داریم که با فرمول توصیف شده است

از اینجا دریافت می کنیم:

که در آن σ واریانس ویژگی مربوطه منعکس شده در شاخص است.

OLS برای معادله MR در مقیاس استاندارد قابل اعمال است. در این حالت معادله را بدست می آوریم:

که در آن t y، t x 1، ... t xm متغیرهای استانداردی هستند که مقادیر متوسط ​​آنها برابر با 0 است. β i ضرایب رگرسیون استاندارد شده است و انحراف استاندارد 1 است.

لطفاً توجه داشته باشید که همه β i در این مورد به صورت عادی و متمرکز مشخص می شوند، بنابراین مقایسه آنها با یکدیگر صحیح و قابل قبول تلقی می شود. علاوه بر این، مرسوم است که عوامل را با کنار گذاشتن آنهایی که کمترین مقدار βi را دارند، غربال کنند.

مسئله با استفاده از معادله رگرسیون خطی

فرض کنید جدولی از پویایی قیمت برای یک محصول خاص N در 8 ماه گذشته داریم. لازم است در مورد توصیه خرید دسته ای از آن با قیمت 1850 روبل در تن تصمیم گیری شود.

شماره ماه

نام ماه

قیمت محصول N

1750 روبل در هر تن

1755 روبل در هر تن

1767 روبل در هر تن

1760 روبل در هر تن

1770 روبل در هر تن

1790 روبل در هر تن

1810 روبل در هر تن

1840 روبل در هر تن

برای حل این مشکل در پردازشگر صفحه گسترده اکسل، باید از ابزار "تحلیل داده ها" استفاده کنید، که قبلاً از مثال ارائه شده در بالا شناخته شده است. بعد، بخش "Regression" را انتخاب کنید و پارامترها را تنظیم کنید. لازم به یادآوری است که در قسمت "فاصله ورودی Y" باید محدوده ای از مقادیر را برای متغیر وابسته (در این مورد قیمت کالاها در ماه های خاص سال) و در "فاصله ورودی X" وارد کنید. - برای متغیر مستقل (تعداد ماه). با کلیک بر روی "Ok" اقدام را تأیید کنید. در یک صفحه جدید (اگر چنین باشد) داده هایی را برای رگرسیون به دست می آوریم.

با استفاده از آنها، یک معادله خطی به شکل y=ax+b می سازیم، که در آن پارامترهای a و b ضرایب خط با نام شماره ماه و ضرایب و خطوط "تقاطع Y" از صفحه با نتایج تحلیل رگرسیون بنابراین، معادله رگرسیون خطی (LR) برای کار 3 به صورت زیر نوشته می شود:

قیمت محصول N = 11.714* شماره ماه + 1727.54.

یا در نماد جبری

y = 11.714 x + 1727.54

تجزیه و تحلیل نتایج

برای تصمیم گیری در مورد مناسب بودن معادله رگرسیون خطی حاصل، از ضرایب همبستگی چندگانه (MCC) و تعیین و همچنین آزمون فیشر و آزمون تی دانشجویی استفاده می شود. در صفحه گسترده اکسل با نتایج رگرسیون، به ترتیب R، R-squared، F-statistic و t-statistic نامیده می شوند.

KMC R امکان ارزیابی نزدیکی رابطه احتمالی بین متغیرهای مستقل و وابسته را فراهم می کند. ارزش بالای آن نشان دهنده ارتباط نسبتاً قوی بین متغیرهای "تعداد ماه" و "قیمت محصول N به روبل در هر 1 تن" است. با این حال، ماهیت این رابطه ناشناخته باقی مانده است.

مجذور ضریب تعیین R2 (RI) یک مشخصه عددی نسبت پراکندگی کل است و پراکندگی کدام بخشی از داده های تجربی را نشان می دهد. مقادیر متغیر وابسته با معادله رگرسیون خطی مطابقت دارد. در مسئله مورد بررسی، این مقدار برابر با 84.8 درصد است، یعنی داده های آماری با درجه دقت بالایی توسط SD حاصل توصیف می شوند.

آماره F که آزمون فیشر نیز نامیده می شود، برای ارزیابی اهمیت یک رابطه خطی، رد یا تایید فرضیه وجود آن استفاده می شود.

(آزمون دانشجویی) به ارزیابی معناداری ضریب با یک جمله مجهول یا آزاد رابطه خطی کمک می کند. اگر مقدار آزمون t > tcr باشد، فرضیه بی اهمیت بودن جمله آزاد معادله خطی رد می شود.

در مسئله مورد بررسی برای عبارت آزاد، با استفاده از ابزار اکسل، به دست آمد که t = 169.20903، و p = 2.89E-12، یعنی احتمال صفر داریم که فرضیه صحیح در مورد بی اهمیت بودن عبارت آزاد رد شود. . برای ضریب مجهول t=5.79405 و p=0.001158. به عبارت دیگر، احتمال رد فرضیه صحیح در مورد بی اهمیت بودن ضریب برای مجهول 0.12 درصد است.

بنابراین، می توان استدلال کرد که معادله رگرسیون خطی به دست آمده کافی است.

مشکل امکان سنجی خرید بلوکی از سهام

رگرسیون چندگانه در اکسل با استفاده از همان ابزار تحلیل داده انجام می شود. بیایید یک مشکل کاربردی خاص را در نظر بگیریم.

مدیریت شرکت NNN باید در مورد امکان خرید 20 درصد سهام در MMM JSC تصمیم بگیرد. هزینه بسته (SP) 70 میلیون دلار آمریکا می باشد. متخصصان NNN داده هایی را در مورد تراکنش های مشابه جمع آوری کرده اند. تصمیم بر این شد که ارزش بلوک سهام با توجه به پارامترهایی که به میلیون ها دلار آمریکا بیان می شود، ارزیابی شود:

  • حساب های پرداختنی (VK)؛
  • حجم گردش مالی سالانه (VO)؛
  • حساب های دریافتنی (VD)؛
  • هزینه دارایی های ثابت (COF).

علاوه بر این، پارامتر معوقه دستمزد شرکت (V3 P) به هزار دلار آمریکا استفاده می شود.

راه حل با استفاده از پردازنده صفحه گسترده اکسل

اول از همه، شما باید یک جدول از داده های منبع ایجاد کنید. به نظر می رسد این است:

  • با پنجره "تحلیل داده ها" تماس بگیرید.
  • بخش "Regression" را انتخاب کنید؛
  • در کادر "فاصله ورودی Y"، محدوده مقادیر متغیرهای وابسته را از ستون G وارد کنید.
  • روی نماد با یک فلش قرمز در سمت راست پنجره "Input interval X" کلیک کنید و دامنه همه مقادیر از ستون های B، C، D، F را در برگه برجسته کنید.

مورد «کاربرگ جدید» را علامت بزنید و روی «تأیید» کلیک کنید.

یک تحلیل رگرسیون برای یک مسئله معین بدست آورید.

مطالعه نتایج و نتیجه گیری

ما معادله رگرسیون را از داده های گرد ارائه شده در بالا در صفحه گسترده اکسل "جمع آوری" می کنیم:

SP = 0.103*SOF + 0.541*VO - 0.031*VK +0.405*VD +0.691*VZP - 265.844.

در یک شکل ریاضی آشناتر، می توان آن را به صورت زیر نوشت:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

داده های MMM JSC در جدول ارائه شده است:

با جایگزینی آنها در معادله رگرسیون، رقمی برابر با 64.72 میلیون دلار آمریکا بدست می آوریم. این بدان معناست که سهام MMM JSC ارزش خرید ندارد زیرا ارزش 70 میلیون دلاری آنها کاملاً متورم است.

همانطور که می بینید، استفاده از صفحه گسترده اکسل و معادله رگرسیون امکان تصمیم گیری آگاهانه در مورد امکان سنجی یک تراکنش بسیار خاص را فراهم می کند.

اکنون می دانید که رگرسیون چیست. مثال های اکسل که در بالا مورد بحث قرار گرفت به شما در حل مسائل عملی در زمینه اقتصاد سنجی کمک می کند.

در پست‌های قبلی، تجزیه و تحلیل اغلب بر روی یک متغیر عددی متمرکز بود، مانند بازده صندوق سرمایه‌گذاری مشترک، زمان بارگذاری صفحه وب یا مصرف نوشابه. در این یادداشت و یادداشت های بعدی، روش هایی را برای پیش بینی مقادیر یک متغیر عددی بسته به مقادیر یک یا چند متغیر عددی دیگر بررسی خواهیم کرد.

مطالب با یک مثال مقطعی نشان داده خواهد شد. پیش بینی حجم فروش در یک فروشگاه پوشاک 25 سال است که فروشگاه های زنجیره ای لباس های تخفیف دار Sunflowers به ​​طور مداوم در حال گسترش است. با این حال، این شرکت در حال حاضر یک رویکرد سیستماتیک برای انتخاب رسانه های جدید ندارد. مکانی که یک شرکت در آن قصد افتتاح فروشگاه جدید را دارد بر اساس ملاحظات ذهنی تعیین می شود. معیار انتخاب شرایط اجاره مطلوب یا ایده مدیر از مکان فروشگاه ایده آل است. تصور کنید که شما رئیس بخش پروژه های ویژه و برنامه ریزی هستید. شما وظیفه دارید یک برنامه استراتژیک برای افتتاح فروشگاه های جدید تهیه کنید. این طرح باید شامل پیش بینی فروش سالانه برای فروشگاه های تازه افتتاح شده باشد. شما معتقدید که فضای خرده فروشی به طور مستقیم با درآمد مرتبط است و می خواهید این را در فرآیند تصمیم گیری خود لحاظ کنید. چگونه یک مدل آماری برای پیش بینی فروش سالانه بر اساس اندازه یک فروشگاه جدید ایجاد می کنید؟

معمولاً از تحلیل رگرسیون برای پیش‌بینی مقادیر یک متغیر استفاده می‌شود. هدف آن توسعه یک مدل آماری است که بتواند مقادیر یک متغیر وابسته یا پاسخ را از روی مقادیر حداقل یک متغیر مستقل یا توضیحی پیش بینی کند. در این یادداشت، ما به رگرسیون خطی ساده نگاه خواهیم کرد - یک روش آماری که به شما امکان می دهد مقادیر یک متغیر وابسته را پیش بینی کنید. Yتوسط مقادیر متغیر مستقل ایکس. یادداشت های بعدی یک مدل رگرسیون چندگانه را توصیف می کند که برای پیش بینی مقادیر یک متغیر مستقل طراحی شده است. Yبر اساس مقادیر چندین متغیر وابسته ( X 1، X 2، …، X k).

یادداشت را با فرمت یا نمونه ها در قالب دانلود کنید

انواع مدل های رگرسیون

جایی که ρ 1 - ضریب همبستگی اگر ρ 1 = 0 (بدون خود همبستگی)، دی≈ 2; اگر ρ 1 ≈ 1 (خودهمبستگی مثبت)، دی≈ 0; اگر ρ 1 = -1 (خودهمبستگی منفی)، دی ≈ 4.

در عمل، استفاده از معیار دوربین واتسون مبتنی بر مقایسه مقدار است دیبا ارزش های نظری انتقادی دسی لیترو d Uبرای تعداد معینی از مشاهدات nتعداد متغیرهای مستقل مدل ک(برای رگرسیون خطی ساده ک= 1) و سطح معناداری α. اگر دی< d L ، فرضیه استقلال انحرافات تصادفی رد می شود (از این رو، همبستگی مثبت وجود دارد). اگر D>dU، فرضیه رد نمی شود (یعنی خود همبستگی وجود ندارد). اگر d L< D < d U ، هیچ زمینه کافی برای تصمیم گیری وجود ندارد. زمانی که مقدار محاسبه شده است دیبیش از 2، سپس با دسی لیترو d Uاین خود ضریب نیست که مقایسه می شود دیو عبارت (4- دی).

برای محاسبه آمار دوربین-واتسون در اکسل، اجازه دهید به جدول پایین در شکل. 14 برداشت تعادل. عدد در عبارت (10) با استفاده از تابع =SUMMAR(array1;array2) و مخرج =SUMMAR(آرایه) محاسبه می شود (شکل 16).

برنج. 16. فرمول های محاسبه آمار دوربین واتسون

در مثال ما دی= 0.883. سوال اصلی این است: چه مقداری از آمار دوربین-واتسون باید به اندازه کافی کوچک در نظر گرفته شود تا نتیجه گیری شود که یک خودهمبستگی مثبت وجود دارد؟ لازم است که مقدار D را با مقادیر بحرانی مرتبط کنیم ( دسی لیترو d U) بسته به تعداد مشاهدات nو سطح اهمیت α (شکل 17).

برنج. 17. مقادیر بحرانی آمار دوربین واتسون (قطعه جدول)

بنابراین، در مسئله حجم فروش در فروشگاهی که کالا را به منزل تحویل می دهد، یک متغیر مستقل وجود دارد ( ک= 1)، 15 مشاهده ( n= 15) و سطح معنی داری α = 0.05. از این رو، دسی لیتر= 1.08 و دU= 1.36. چون دی = 0,883 < دسی لیتر 08/1 =، بین باقیمانده ها همبستگی مثبت وجود دارد، از روش حداقل مربعات نمی توان استفاده کرد.

آزمون فرضیه های شیب و ضریب همبستگی

در بالا، رگرسیون صرفاً برای پیش بینی استفاده شد. برای تعیین ضرایب رگرسیون و پیش بینی مقدار یک متغیر Yبرای یک مقدار متغیر معین ایکساز روش حداقل مربعات استفاده شد. علاوه بر این، ما ریشه میانگین مربعات خطای برآورد و ضریب همبستگی مختلط را بررسی کردیم. اگر تجزیه و تحلیل باقیمانده ها تأیید کند که شرایط کاربرد روش حداقل مربعات نقض نمی شود و مدل رگرسیون خطی ساده کافی است، بر اساس داده های نمونه می توان استدلال کرد که بین متغیرهای موجود رابطه خطی وجود دارد. جمعیت

کاربردتی - معیارهای شیببا آزمایش اینکه آیا شیب جمعیت β 1 برابر با صفر است، می توانید تعیین کنید که آیا رابطه آماری معنی داری بین متغیرها وجود دارد یا خیر. ایکسو Y. اگر این فرضیه رد شود، می توان استدلال کرد که بین متغیرها ایکسو Yیک رابطه خطی وجود دارد فرضیه های صفر و جایگزین به صورت زیر فرموله می شوند: H 0: β 1 = 0 (وابستگی خطی وجود ندارد)، H1: β 1 ≠ 0 (وابستگی خطی وجود دارد). الف - مقدماتی تی-آمار برابر است با تفاوت بین شیب نمونه و مقدار فرضی شیب جمعیت، تقسیم بر ریشه میانگین مربعات خطای برآورد شیب:

(11) تی = (ب 1 β 1 ) / S ب 1

جایی که ب 1 - شیب رگرسیون مستقیم روی داده های نمونه، β1 - شیب فرضی جمعیت مستقیم، ، و آمار تست تیاین دارد تی-توزیع با n – 2درجه آزادی.

بیایید بررسی کنیم که آیا رابطه آماری معناداری بین اندازه فروشگاه و فروش سالانه در α = 0.05 وجود دارد یا خیر. تی-معیار هنگام استفاده به همراه سایر پارامترها نمایش داده می شود بسته تحلیلی(گزینه پسرفت). نتایج کامل بسته تحلیلی در شکل نشان داده شده است. 4، قطعه مربوط به آمار t - در شکل. 18.

برنج. 18. نتایج برنامه تی

از آنجایی که تعداد فروشگاه ها n= 14 (نگاه کنید به شکل 3)، مقدار بحرانی تی-آمار در سطح معناداری 0.05 = α را می توان با استفاده از فرمول پیدا کرد: tL=STUDENT.ARV(0.025،12) = -2.1788، که در آن 0.025 نیمی از سطح معنی داری است، و 12 = n – 2; tU=STUDENT.OBR(0.975،12) = +2.1788.

چون تی-statistics = 10.64 > tU= 2.1788 (شکل 19)، فرضیه صفر H 0رد شد. از طرف دیگر، آر-ارزش برای ایکس= 10.6411، محاسبه شده با فرمول =1-STUDENT.DIST(D3,12,TRUE)، تقریباً برابر با صفر است، بنابراین فرضیه H 0دوباره رد شد این حقیقت که آر- ارزش تقریباً صفر به این معنی است که اگر هیچ رابطه خطی واقعی بین اندازه فروشگاه و فروش سالانه وجود نداشت، تشخیص آن با استفاده از رگرسیون خطی عملاً غیرممکن بود. بنابراین بین میانگین فروش سالانه فروشگاه و اندازه فروشگاه رابطه خطی معناداری از نظر آماری وجود دارد.

برنج. 19. آزمون فرضیه شیب جمعیت در سطح معنی داری 05/0 و 12 درجه آزادی.

کاربرداف - معیارهای شیبیک رویکرد جایگزین برای آزمایش فرضیه‌های مربوط به شیب رگرسیون خطی ساده استفاده از آن است اف-شاخص. این را به شما یادآوری کنیم اف-test برای آزمایش رابطه بین دو واریانس استفاده می شود (برای جزئیات بیشتر، نگاه کنید به). هنگام آزمایش فرضیه شیب، معیار خطاهای تصادفی واریانس خطا (مجموع مجذور خطاها تقسیم بر تعداد درجه آزادی) است. اف- معیار از نسبت واریانس توضیح داده شده توسط رگرسیون استفاده می کند (یعنی مقدار SSRتقسیم بر تعداد متغیرهای مستقل ک، به واریانس خطا ( MSE = S Yایکس 2 ).

الف - مقدماتی اف-آمار برابر است با میانگین مربع رگرسیون (MSR) تقسیم بر واریانس خطا (MSE): اف = MSR/ MSE، جایی که MSR=SSR / کMSE =SSE/(n– k – 1)، k- تعداد متغیرهای مستقل در مدل رگرسیونی. آمار تست افاین دارد اف-توزیع با کو n– k – 1درجه آزادی.

برای سطح اهمیت معین α، قاعده تصمیم به صورت زیر فرموله می شود: اگر F>FU، فرضیه صفر رد می شود. در غیر این صورت رد نمی شود. نتایج که در قالب یک جدول خلاصه تحلیل واریانس ارائه شده است، در شکل 1 نشان داده شده است. 20.

برنج. 20. تجزیه و تحلیل جدول واریانس برای آزمون فرضیه در مورد معنی دار بودن آماری ضریب رگرسیون.

به همین ترتیب تی-معیار اف-معیار هنگام استفاده در جدول نمایش داده می شود بسته تحلیلی(گزینه پسرفت). نتایج کامل کار بسته تحلیلیدر شکل نشان داده شده اند. 4، قطعه مربوط به افآمار - در شکل. 21.

برنج. 21. نتایج برنامه افمعیارهای به دست آمده با استفاده از بسته تجزیه و تحلیل اکسل

آماره F 113.23 است و آر-مقدار نزدیک به صفر (سلول اهمیتاف). اگر سطح معناداری α 0.05 باشد، مقدار بحرانی را تعیین کنید اف-توزیعات با یک و 12 درجه آزادی را می توان با استفاده از فرمول بدست آورد F U=F.OBR(1-0.05;1;12) = 4.7472 (شکل 22). چون اف = 113,23 > F U= 4.7472 و آر-مقدار نزدیک به 0< 0,05, нулевая гипотеза H 0رد می شود، یعنی اندازه یک فروشگاه ارتباط نزدیکی با فروش سالانه آن دارد.

برنج. 22. آزمون فرضیه شیب جمعیت در سطح معنی داری 05/0 با یک و 12 درجه آزادی.

فاصله اطمینان حاوی شیب β 1 .برای آزمایش این فرضیه که یک رابطه خطی بین متغیرها وجود دارد، می توانید یک فاصله اطمینان حاوی شیب β 1 بسازید و بررسی کنید که مقدار فرضی β 1 = 0 به این فاصله تعلق دارد. مرکز فاصله اطمینان حاوی شیب β 1 شیب نمونه است ب 1 ، و مرزهای آن کمیت ها هستند b 1 ±tn –2 S ب 1

همانطور که در شکل نشان داده شده است. 18، ب 1 = +1,670, n = 14, S ب 1 = 0,157. تی 12 =STUDENT.ARV(0.975،12) = 2.1788. از این رو، b 1 ±tn –2 S ب 1 = 2.1788 ± 1.670 * 0.157 = 0.342 ± 1.670، یا + 1.328 ≤ β 1 ≤ +2.012. بنابراین، احتمال 0.95 وجود دارد که شیب جمعیت بین 1.328+ و 2.012+ (یعنی 1،328،000 تا 2،012،000 دلار) باشد. از آنجایی که این مقادیر بزرگتر از صفر هستند، رابطه خطی آماری معناداری بین فروش سالانه و منطقه فروشگاه وجود دارد. اگر فاصله اطمینان حاوی صفر باشد، هیچ رابطه ای بین متغیرها وجود نخواهد داشت. علاوه بر این، فاصله اطمینان به این معنی است که هر افزایش در مساحت فروشگاه 1000 متر مربع است. فوت منجر به افزایش متوسط ​​حجم فروش بین 1,328,000 تا 2,012,000 دلار می شود.

استفادهتی - معیارهای ضریب همبستگی.ضریب همبستگی معرفی شد r، که معیاری از رابطه بین دو متغیر عددی است. می توان از آن برای تعیین اینکه آیا بین دو متغیر رابطه آماری معناداری وجود دارد یا خیر استفاده کرد. اجازه دهید ضریب همبستگی بین جمعیت های هر دو متغیر را با نماد ρ نشان دهیم. فرضیه های صفر و جایگزین به صورت زیر فرموله می شوند: H 0: ρ = 0 (بدون همبستگی)، H 1: ρ ≠ 0 (همبستگی وجود دارد). بررسی وجود همبستگی:

جایی که r = + ، اگر ب 1 > 0, r = – ، اگر ب 1 < 0. Тестовая статистика تیاین دارد تی-توزیع با n – 2درجه آزادی.

در مشکل فروشگاه های زنجیره ای آفتابگردان r 2= 0.904، a ب 1- 1.670+ (شکل 4 را ببینید). چون ب 1> 0، ضریب همبستگی بین فروش سالانه و اندازه فروشگاه است r= +√0.904 = +0.951. بیایید این فرضیه صفر را آزمایش کنیم که بین این متغیرها همبستگی وجود ندارد تی-آمار:

در سطح معناداری 0.05 = α، فرضیه صفر باید رد شود زیرا تی= 10.64 > 2.1788. بنابراین، می توان استدلال کرد که از نظر آماری رابطه معناداری بین فروش سالانه و اندازه فروشگاه وجود دارد.

هنگام بحث در مورد استنباط در مورد شیب جمعیت، فواصل اطمینان و آزمون‌های فرضیه به جای هم استفاده می‌شوند. با این حال، محاسبه فاصله اطمینان حاوی ضریب همبستگی دشوارتر است، زیرا نوع توزیع نمونه آماری rبستگی به ضریب همبستگی واقعی دارد.

برآورد انتظارات ریاضی و پیش بینی مقادیر فردی

این بخش روش‌هایی را برای تخمین انتظارات ریاضی از پاسخ مورد بحث قرار می‌دهد Yو پیش بینی ارزش های فردی Yبرای مقادیر داده شده متغیر ایکس.

ایجاد فاصله اطمیناندر مثال 2 (به بخش بالا مراجعه کنید روش حداقل مربعات) معادله رگرسیون امکان پیش بینی مقدار متغیر را فراهم می کند Y ایکس. در مشکل انتخاب مکان برای یک فروشگاه خرده فروشی، میانگین حجم فروش سالانه در یک فروشگاه با مساحت 4000 متر مربع است. فوت معادل 7.644 میلیون دلار بود. برای برآورد انتظارات ریاضی جامعه، مفهوم فاصله اطمینان پیشنهاد شد. به همین ترتیب، می توانیم مفهوم را معرفی کنیم فاصله اطمینان برای انتظارات ریاضی از پاسخبرای یک مقدار متغیر معین ایکس:

جایی که , = ب 0 + ب 1 X i- مقدار پیش بینی شده متغیر است Yدر ایکس = X i, S YX– ریشه میانگین مربعات خطا، n- اندازهی نمونه، ایکسمن- مقدار مشخص شده متغیر ایکس, µ Y|ایکس = ایکسمن- انتظارات ریاضی از متغیر Yدر ایکس = شی، SSX =

تجزیه و تحلیل فرمول (13) نشان می دهد که عرض فاصله اطمینان به عوامل متعددی بستگی دارد. در سطح معنی‌داری معین، افزایش دامنه نوسانات در اطراف خط رگرسیون، که با استفاده از ریشه میانگین مربعات خطا اندازه‌گیری می‌شود، منجر به افزایش عرض فاصله می‌شود. از سوی دیگر، همانطور که انتظار می رود، افزایش حجم نمونه با کاهش فاصله زمانی همراه است. علاوه بر این، عرض فاصله بسته به مقادیر تغییر می کند ایکسمن. اگر مقدار متغیر Yبرای مقادیر پیش بینی شده است ایکس، نزدیک به مقدار متوسط ، فاصله اطمینان باریکتر از پیش بینی پاسخ برای مقادیر دور از میانگین است.

فرض کنید هنگام انتخاب مکان فروشگاه، می خواهیم یک فاصله اطمینان 95 درصدی برای میانگین فروش سالانه همه فروشگاه هایی که مساحت آنها 4000 متر مربع است ایجاد کنیم. پا:

بنابراین میانگین حجم فروش سالانه در تمامی فروشگاه‌های با مساحت 4000 متر مربع. فوت، با احتمال 95 درصد در محدوده 6.971 تا 8.317 میلیون دلار قرار دارد.

فاصله اطمینان را برای مقدار پیش بینی شده محاسبه کنید.علاوه بر فاصله اطمینان برای انتظار ریاضی از پاسخ برای مقدار معینی از متغیر ایکس، اغلب لازم است که فاصله اطمینان برای مقدار پیش بینی شده را بدانیم. اگرچه فرمول محاسبه چنین فاصله اطمینانی بسیار شبیه فرمول (13) است، اما این بازه به جای تخمین پارامتر، حاوی مقدار پیش بینی شده است. فاصله زمانی برای پاسخ پیش بینی شده Yایکس = شیبرای یک مقدار متغیر خاص ایکسمنبا فرمول تعیین می شود:

فرض کنید که هنگام انتخاب مکان برای یک فروشگاه خرده فروشی، می خواهیم یک فاصله اطمینان 95% برای حجم فروش سالانه پیش بینی شده برای فروشگاهی که مساحت آن 4000 متر مربع است ایجاد کنیم. پا:

بنابراین، حجم فروش سالانه پیش بینی شده برای فروشگاهی به مساحت 4000 متر مربع. فوت، با احتمال 95% در محدوده 5.433 تا 9.854 میلیون دلار قرار دارد. این به این دلیل است که تنوع در پیش‌بینی مقادیر فردی بسیار بیشتر از برآورد انتظارات ریاضی است.

مشکلات و مسائل اخلاقی مرتبط با استفاده از رگرسیون

مشکلات مرتبط با تحلیل رگرسیون:

  • نادیده گرفتن شرایط کاربرد روش حداقل مربعات.
  • ارزیابی اشتباه از شرایط برای کاربرد روش حداقل مربعات.
  • انتخاب نادرست روش های جایگزین در صورت نقض شرایط کاربرد روش حداقل مربعات.
  • کاربرد تحلیل رگرسیون بدون آگاهی عمیق از موضوع تحقیق.
  • برون یابی یک رگرسیون فراتر از محدوده متغیر توضیحی.
  • سردرگمی بین روابط آماری و علی.

استفاده گسترده از صفحات گسترده و نرم افزارهای آماری، مشکلات محاسباتی را که مانع استفاده از تحلیل رگرسیون شده بود، حذف کرده است. با این حال، این منجر به این واقعیت شد که تحلیل رگرسیون توسط کاربرانی که صلاحیت و دانش کافی نداشتند مورد استفاده قرار گرفت. اگر بسیاری از آنها اصلاً از شرایط کاربرد روش حداقل مربعات اطلاعی ندارند و نمی دانند چگونه اجرای آنها را بررسی کنند، چگونه می توانند از روش های جایگزین مطلع شوند؟

محقق نباید با اعداد متلاشی شده - محاسبه شیب، شیب و ضریب همبستگی مختلط غافل شود. او به دانش عمیق تری نیاز دارد. بیایید این را با یک مثال کلاسیک برگرفته از کتاب های درسی نشان دهیم. Anscombe نشان داد که هر چهار مجموعه داده نشان داده شده در شکل. 23، پارامترهای رگرسیون یکسانی دارند (شکل 24).

برنج. 23. چهار مجموعه داده مصنوعی

برنج. 24. تحلیل رگرسیون چهار مجموعه داده مصنوعی. تمام شده با بسته تحلیلی(برای بزرگنمایی تصویر روی عکس کلیک کنید)

بنابراین، از نقطه نظر تحلیل رگرسیون، همه این مجموعه داده ها کاملاً یکسان هستند. اگر تحلیل به همین جا ختم می شد، اطلاعات مفید زیادی را از دست می دادیم. این با نمودارهای پراکندگی (شکل 25) و نمودارهای باقیمانده (شکل 26) ساخته شده برای این مجموعه داده ها مشهود است.

برنج. 25. نمودارهای پراکنده برای چهار مجموعه داده

نمودارهای پراکنده و نمودارهای باقیمانده نشان می دهد که این داده ها با یکدیگر متفاوت هستند. تنها مجموعه ای که در امتداد یک خط مستقیم توزیع شده است مجموعه A است. نمودار باقیمانده های محاسبه شده از مجموعه A هیچ الگوی ندارد. این را نمی توان در مورد مجموعه های B، C و D گفت. نمودار پراکندگی ترسیم شده برای مجموعه B یک الگوی درجه دوم را نشان می دهد. این نتیجه توسط نمودار باقیمانده که شکل سهمی دارد تأیید می شود. نمودار پراکندگی و نمودار باقیمانده نشان می‌دهد که مجموعه داده‌های B حاوی یک نقطه پرت است. در این شرایط، لازم است که اطلاعات پرت را از مجموعه داده ها حذف کرده و تجزیه و تحلیل را تکرار کنید. روشی برای تشخیص و حذف موارد پرت در مشاهدات، تحلیل تأثیر نامیده می شود. پس از حذف دورافتاده، نتیجه برآورد مجدد مدل ممکن است کاملاً متفاوت باشد. نمودار پراکندگی ترسیم شده از داده های مجموعه G وضعیت غیرعادی را نشان می دهد که در آن مدل تجربی به طور قابل توجهی به یک پاسخ فردی وابسته است ( X 8 = 19, Y 8 = 12.5). چنین مدل های رگرسیونی باید با دقت خاصی محاسبه شوند. بنابراین، نمودارهای پراکندگی و باقیمانده ابزاری ضروری برای تحلیل رگرسیون هستند و باید جزء لاینفک آن باشند. بدون آنها، تحلیل رگرسیون معتبر نیست.

برنج. 26. نمودارهای باقیمانده برای چهار مجموعه داده

نحوه جلوگیری از مشکلات در تحلیل رگرسیون:

  • تجزیه و تحلیل روابط احتمالی بین متغیرها ایکسو Yهمیشه با رسم نمودار پراکندگی شروع کنید.
  • قبل از تفسیر نتایج تحلیل رگرسیون، شرایط کاربردی بودن آن را بررسی کنید.
  • باقیمانده ها را در مقابل متغیر مستقل رسم کنید. این امر تعیین میزان مطابقت مدل تجربی با نتایج مشاهداتی و تشخیص نقض ثبات واریانس را ممکن می‌سازد.
  • از هیستوگرام ها، نمودارهای ساقه و برگ، نمودار جعبه و نمودار توزیع نرمال برای آزمایش فرض توزیع خطای نرمال استفاده کنید.
  • اگر شرایط کاربردی بودن روش حداقل مربعات برآورده نشد، از روش های جایگزین استفاده کنید (مثلاً مدل های رگرسیون درجه دوم یا چندگانه).
  • در صورت احراز شرایط کاربرد روش حداقل مربعات، لازم است فرضیه مربوط به معنادار بودن آماری ضرایب رگرسیون و ساخت فواصل اطمینان حاوی انتظارات ریاضی و مقدار پاسخ پیش‌بینی‌شده، مورد آزمون قرار گیرد.
  • از پیش بینی مقادیر متغیر وابسته خارج از محدوده متغیر مستقل خودداری کنید.
  • به خاطر داشته باشید که روابط آماری همیشه علت و معلولی نیستند. به یاد داشته باشید که همبستگی بین متغیرها به معنای وجود رابطه علت و معلولی بین آنها نیست.

خلاصه.همانطور که در بلوک دیاگرام (شکل 27) نشان داده شده است، یادداشت مدل رگرسیون خطی ساده، شرایط کاربرد آن و نحوه آزمایش این شرایط را توضیح می دهد. در نظر گرفته شده تی-معیار آزمون اهمیت آماری شیب رگرسیون. برای پیش بینی مقادیر متغیر وابسته از مدل رگرسیون استفاده شد. مثالی مربوط به انتخاب مکان برای یک فروشگاه خرده فروشی در نظر گرفته شده است که در آن وابستگی حجم فروش سالانه به منطقه فروشگاه بررسی می شود. اطلاعات به‌دست‌آمده به شما این امکان را می‌دهد تا مکانی را برای یک فروشگاه با دقت بیشتری انتخاب کنید و حجم فروش سالانه آن را پیش‌بینی کنید. یادداشت های زیر بحث تحلیل رگرسیون را ادامه می دهند و همچنین به مدل های رگرسیون چندگانه نگاه می کنند.

برنج. 27. نمودار ساختار یادداشت کنید

از مطالب کتاب Levin et al Statistics for Manager استفاده شده است. - M.: ویلیامز، 2004. - ص. 792-872

اگر متغیر وابسته مقوله ای باشد، باید از رگرسیون لجستیک استفاده شود.

با استفاده از روش گرافیکی.
این روش برای به تصویر کشیدن بصری شکل ارتباط بین شاخص های اقتصادی مورد مطالعه استفاده می شود. برای انجام این کار، نموداری در یک سیستم مختصات مستطیلی رسم می‌شود، مقادیر فردی مشخصه حاصل از Y در امتداد محور مختصات و مقادیر فردی مشخصه عامل X در امتداد محور آبسیسا رسم می‌شوند.
مجموعه نقاط مشخصه برآیند و عاملی نامیده می شود زمینه همبستگی.
بر اساس میدان همبستگی، می‌توانیم فرض کنیم (برای جامعه) رابطه بین تمام مقادیر ممکن X و Y خطی است.

معادله رگرسیون خطیبه شکل y = bx + a + ε است
در اینجا ε یک خطای تصادفی (انحراف، اختلال) است.
دلایل وجود خطای تصادفی:
1. عدم گنجاندن متغیرهای توضیحی معنادار در مدل رگرسیون.
2. تجمیع متغیرها. به عنوان مثال، تابع مصرف کل تلاشی برای بیان کلی تصمیمات مخارج فردی است. این فقط تقریبی از روابط فردی است که پارامترهای مختلفی دارند.
3. توصیف نادرست ساختار مدل.
4. مشخصات عملکردی نادرست.
5. خطاهای اندازه گیری.
از آنجایی که انحرافات ε i برای هر مشاهده خاص i تصادفی هستند و مقادیر آنها در نمونه ناشناخته است، پس:
1) از مشاهدات x i و y i فقط تخمین پارامترهای α و β را می توان به دست آورد
2) برآورد پارامترهای α و β مدل رگرسیون به ترتیب مقادیر a و b هستند که ماهیت تصادفی دارند، زیرا مطابق با یک نمونه تصادفی؛
سپس معادله رگرسیون تخمینی (ساخته شده از داده های نمونه) به شکل y = bx + a + ε خواهد بود، که e i مقادیر مشاهده شده (تخمین) خطاهای εi، a و b به ترتیب تخمین هایی از خطا هستند. پارامترهای α و β مدل رگرسیون که باید پیدا شوند.
برای تخمین پارامترهای α و β - از روش حداقل مربعات (روش حداقل مربعات) استفاده می شود.
سیستم معادلات عادی

برای داده های ما، سیستم معادلات به شکل زیر است:

10a + 356b = 49
356a + 2135b = 9485

از معادله اول a را بیان می کنیم و آن را جایگزین معادله دوم می کنیم
ما b = 68.16، a = 11.17 را دریافت می کنیم

معادله رگرسیون:
y = 68.16 x - 11.17

1. پارامترهای معادله رگرسیون.
معنی نمونه.



واریانس های نمونه


انحراف معیار

1.1. ضریب همبستگی
ما نشانگر نزدیکی اتصال را محاسبه می کنیم. این شاخص نمونه ضریب همبستگی خطی است که با فرمول محاسبه می شود:

ضریب همبستگی خطی مقادیری از -1 تا +1 می گیرد.
ارتباط بین ویژگی ها می تواند ضعیف و قوی (نزدیک) باشد. معیارهای آنها بر اساس مقیاس چادوک ارزیابی می شود:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
در مثال ما، ارتباط بین صفت Y و عامل X بسیار زیاد و مستقیم است.

1.2. معادله رگرسیون(تخمین معادله رگرسیون).

معادله رگرسیون خطی y = 68.16 x -11.17 است
ضرایب یک معادله رگرسیون خطی را می توان معنای اقتصادی داد. ضریب معادله رگرسیونچند واحد را نشان می دهد. با تغییر ضریب 1 واحد، نتیجه تغییر خواهد کرد.
ضریب b = 68.16 میانگین تغییر شاخص مؤثر (بر حسب واحد اندازه گیری y) را با افزایش یا کاهش مقدار عامل x در واحد اندازه گیری آن نشان می دهد. در این مثال با افزایش 1 واحدی، y به طور میانگین 16/68 افزایش می یابد.
ضریب a = -11.17 به طور رسمی سطح پیش بینی شده y را نشان می دهد، اما فقط در صورتی که x = 0 به مقادیر نمونه نزدیک باشد.
اما اگر x = 0 با مقادیر نمونه x فاصله داشته باشد، تفسیر تحت اللفظی ممکن است منجر به نتایج نادرستی شود، و حتی اگر خط رگرسیون مقادیر نمونه مشاهده شده را به طور نسبتاً دقیق توصیف کند، هیچ تضمینی وجود ندارد که این نیز انجام شود. هنگامی که برون یابی چپ یا راست است.
با جایگزین کردن مقادیر x مناسب در معادله رگرسیون، می‌توانیم مقادیر همتراز (پیش‌بینی‌شده) شاخص عملکرد y(x) را برای هر مشاهده تعیین کنیم.
رابطه بین y و x علامت ضریب رگرسیون b را تعیین می کند (اگر > 0 - رابطه مستقیم، در غیر این صورت - معکوس). در مثال ما، اتصال مستقیم است.

1.3. ضریب الاستیسیته.
استفاده از ضرایب رگرسیون (در مثال ب) برای ارزیابی مستقیم تأثیر عوامل بر یک مشخصه حاصل، در صورتی که تفاوتی در واحدهای اندازه گیری شاخص حاصل y و مشخصه عامل x وجود داشته باشد، توصیه نمی شود.
برای این منظور، ضرایب کشش و ضرایب بتا محاسبه می شود. ضریب کشش با فرمول بدست می آید:


این نشان می دهد که با چه درصدی به طور متوسط ​​ویژگی موثر y تغییر می کند زمانی که ویژگی عامل x به میزان 1 درصد تغییر می کند. درجه نوسان عوامل را در نظر نمی گیرد.
در مثال ما، ضریب کشش بزرگتر از 1 است. بنابراین، اگر X 1٪ تغییر کند، Y بیش از 1٪ تغییر خواهد کرد. به عبارت دیگر، X به طور قابل توجهی بر Y تأثیر می گذارد.
ضریب بتانشان می دهد که با چه بخشی از مقدار انحراف استاندارد آن، مقدار متوسط ​​مشخصه حاصل با تغییر مشخصه عامل با مقدار انحراف استاندارد با مقدار متغیرهای مستقل باقی مانده در یک سطح ثابت تغییر می کند:

آن ها افزایش x توسط انحراف استاندارد این اندیکاتور منجر به افزایش میانگین Y به میزان 0.9796 انحراف استاندارد این اندیکاتور خواهد شد.

1.4. خطای تقریب
اجازه دهید کیفیت معادله رگرسیون را با استفاده از خطای تقریب مطلق ارزیابی کنیم.


از آنجایی که خطا بیش از 15 درصد است، استفاده از این معادله به عنوان رگرسیون توصیه نمی شود.

1.6. ضریب تعیین.
مربع ضریب همبستگی (چندگانه) ضریب تعیین نامیده می شود که نسبت تغییرات در ویژگی حاصل را نشان می دهد که با تغییر در ویژگی عامل توضیح داده شده است.
بیشتر اوقات ، هنگام تفسیر ضریب تعیین ، به صورت درصد بیان می شود.
R2 = 0.982 = 0.9596
آن ها در 96/95 درصد موارد، تغییرات x منجر به تغییر در y می شود. به عبارت دیگر دقت انتخاب معادله رگرسیون بالاست. 4.04 درصد باقی مانده از تغییر در Y با عواملی توضیح داده می شود که در مدل در نظر گرفته نشده اند.

ایکس y x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. برآورد پارامترهای معادله رگرسیون.
2.1. اهمیت ضریب همبستگی.

با استفاده از جدول Student با سطح معناداری α=0.05 و درجه آزادی k=7، t کریت را پیدا می کنیم:
t crit = (7; 0.05) = 1.895
که m = 1 تعداد متغیرهای توضیحی است.
اگر t obs > t بحرانی باشد، آنگاه مقدار حاصل از ضریب همبستگی معنی دار در نظر گرفته می شود (فرضیه صفر مبنی بر اینکه ضریب همبستگی برابر با صفر است رد می شود).
از آنجایی که t obs > t crit، این فرضیه که ضریب همبستگی برابر با 0 است را رد می کنیم. به عبارت دیگر ضریب همبستگی از نظر آماری معنادار است
در رگرسیون خطی زوجی t 2 r = t 2 b و سپس آزمون فرضیه ها در مورد اهمیت ضرایب رگرسیون و همبستگی معادل آزمون فرضیه در مورد معنی دار بودن معادله رگرسیون خطی است.

2.3. تجزیه و تحلیل دقت تعیین برآورد ضریب رگرسیون.
یک تخمین بی طرفانه از پراکندگی اغتشاشات مقدار:


S 2 y = 94.6484 - واریانس غیر قابل توضیح (اندازه گیری از گسترش متغیر وابسته در اطراف خط رگرسیون).
S y = 9.7287 - خطای استاندارد برآورد (خطای استاندارد رگرسیون).
S a - انحراف استاندارد متغیر تصادفی a.


S b - انحراف معیار متغیر تصادفی b.

2.4. فواصل اطمینان برای متغیر وابسته.
پیش‌بینی اقتصادی بر اساس مدل ساخته‌شده فرض می‌کند که روابط از قبل موجود بین متغیرها برای دوره پیش‌زمان حفظ می‌شود.
برای پیش‌بینی متغیر وابسته صفت حاصل، لازم است مقادیر پیش‌بینی‌شده همه عوامل موجود در مدل را بدانیم.
مقادیر پیش‌بینی‌شده عوامل در مدل جایگزین می‌شوند و تخمین‌های نقطه‌ای پیش‌بینی‌کننده شاخص مورد مطالعه به‌دست می‌آیند. (a + bx p ± ε)
جایی که

بیایید مرزهای فاصله ای را محاسبه کنیم که در آن 95٪ از مقادیر ممکن Y با تعداد نامحدود مشاهدات و X p = 1 (-11.17 + 68.16 * 1 ± 6.4554) متمرکز می شود.
(50.53;63.44)

فواصل اطمینان فردی برایYدر یک مقدار معینایکس.
(a + bx i ± ε)
جایی که

x i y = -11.17 + 68.16x i εi ymin ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

با احتمال 95 درصد، می‌توانیم تضمین کنیم که مقدار Y برای تعداد نامحدودی از مشاهدات خارج از فواصل یافت‌شده قرار نمی‌گیرد.

2.5. آزمون فرضیه های مربوط به ضرایب معادله رگرسیون خطی.
1) آمار t. آزمون تی دانشجویی
بیایید فرضیه H 0 را در مورد برابری ضرایب رگرسیون فردی به صفر (اگر جایگزین برابر با H 1 نباشد) در سطح معناداری 0.05=α بررسی کنیم.
t crit = (7; 0.05) = 1.895


از آنجایی که 12.8866 > 1.895، معنی‌داری آماری ضریب رگرسیون b تأیید می‌شود (فرضیه صفر بودن این ضریب را رد می‌کنیم).


از آنجایی که 2.0914 > 1.895، معنی‌داری آماری ضریب رگرسیون a تأیید می‌شود (فرضیه صفر بودن این ضریب را رد می‌کنیم).

فاصله اطمینان برای ضرایب معادله رگرسیون.
اجازه دهید فواصل اطمینان ضرایب رگرسیون را تعیین کنیم که با پایایی 95 درصد به صورت زیر خواهد بود:
(b - t crit S b ؛ b + t crit S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
با احتمال 95% می توان بیان کرد که مقدار این پارامتر در بازه یافت شده قرار دارد.
(الف - ت الف)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
با احتمال 95% می توان بیان کرد که مقدار این پارامتر در بازه یافت شده قرار دارد.

2) آمار F. معیار فیشر
آزمایش اهمیت یک مدل رگرسیون با استفاده از آزمون F فیشر انجام می شود که مقدار محاسبه شده آن به عنوان نسبت واریانس سری اصلی مشاهدات شاخص مورد مطالعه و برآورد بی طرفانه از واریانس دنباله باقیمانده است. برای این مدل
اگر مقدار محاسبه‌شده با درجه‌های آزادی lang=EN-US>n-m-1 بیشتر از مقدار جدول‌بندی شده در سطح معنی‌داری معین باشد، آن‌گاه مدل معنادار در نظر گرفته می‌شود.

که در آن m تعداد فاکتورهای مدل است.
اهمیت آماری رگرسیون خطی زوجی با استفاده از الگوریتم زیر ارزیابی می شود:
1. یک فرضیه صفر مطرح می شود که معادله به عنوان یک کل از نظر آماری بی اهمیت است: H 0: R 2 = 0 در سطح معنی داری α.
2. سپس، مقدار واقعی معیار F را تعیین کنید:


که در آن m=1 برای رگرسیون زوجی.
3. مقدار جدول بندی شده از جداول توزیع فیشر برای سطح معنی داری معین تعیین می شود، با در نظر گرفتن اینکه تعداد درجات آزادی برای مجموع مجموع مجذورات (واریانس بزرگتر) 1 و تعداد درجات آزادی برای باقیمانده است. مجموع مربعات (واریانس کوچکتر) در رگرسیون خطی n-2 است.
4. اگر مقدار واقعی F-test کمتر از مقدار جدول باشد، می گویند دلیلی برای رد فرضیه صفر وجود ندارد.
در غیر این صورت، فرض صفر رد می شود و فرضیه جایگزین در مورد اهمیت آماری کل معادله با احتمال (1-α) پذیرفته می شود.
مقدار جدول معیار با درجه آزادی k1=1 و k2=7، Fkp = 5.59
از آنجایی که مقدار واقعی F > Fkp، ضریب تعیین از نظر آماری معنادار است (تخمین یافت شده از معادله رگرسیون از نظر آماری قابل اعتماد است).

بررسی همبستگی خودکار باقیمانده ها.
یک پیش نیاز مهم برای ساخت یک مدل رگرسیون کیفی با استفاده از OLS، استقلال مقادیر انحرافات تصادفی از مقادیر انحرافات در سایر مشاهدات است. این تضمین می کند که هیچ ارتباطی بین انحرافات و به ویژه بین انحرافات مجاور وجود ندارد.
خودهمبستگی (همبستگی سریالی)به عنوان همبستگی بین شاخص های مشاهده شده مرتب شده در زمان (سری های زمانی) یا مکان (سری متقاطع) تعریف می شود. خودهمبستگی باقیمانده ها (واریانس ها) در تحلیل رگرسیون هنگام استفاده از داده های سری زمانی رایج است و در هنگام استفاده از داده های مقطعی بسیار نادر است.
در مشکلات اقتصادی بسیار رایج تر است خود همبستگی مثبت، به جای خودهمبستگی منفی. در بیشتر موارد، خودهمبستگی مثبت ناشی از تأثیر ثابت جهتی برخی از عواملی است که در مدل در نظر گرفته نشده اند.
خودهمبستگی منفیدر واقع به این معنی است که یک انحراف مثبت به دنبال یک انحراف منفی است و بالعکس. این وضعیت ممکن است رخ دهد اگر همان رابطه بین تقاضا برای نوشابه و درآمد با توجه به داده های فصلی (زمستان و تابستان) در نظر گرفته شود.
در میان دلایل اصلی ایجاد خودهمبستگی، موارد زیر قابل تشخیص است:
1. خطاهای مشخصات. عدم در نظر گرفتن هر متغیر توضیحی مهم در مدل یا انتخاب نادرست شکل وابستگی معمولاً منجر به انحراف سیستمیک نقاط مشاهده از خط رگرسیون می شود که می تواند منجر به همبستگی خودکار شود.
2. اینرسی. بسیاری از شاخص‌های اقتصادی (تورم، بیکاری، تولید ناخالص ملی و غیره) ماهیت چرخه‌ای خاصی دارند که با نوسانی فعالیت‌های تجاری مرتبط است. بنابراین، تغییر در شاخص ها بلافاصله رخ نمی دهد، بلکه دارای یک اینرسی خاص است.
3. افکت تار عنکبوت. در بسیاری از حوزه‌های تولید و سایر حوزه‌ها، شاخص‌های اقتصادی به تغییرات شرایط اقتصادی با تاخیر (تأخیر زمانی) پاسخ می‌دهند.
4. هموارسازی داده ها. اغلب، داده‌ها برای یک دوره زمانی طولانی با میانگین‌گیری داده‌ها در بازه‌های زمانی تشکیل‌دهنده آن به‌دست می‌آیند. این می تواند منجر به هموارسازی خاصی از نوسانات رخ داده در دوره مورد بررسی شود که به نوبه خود می تواند باعث همبستگی خودکار شود.
پیامدهای خودهمبستگی مشابه پیامدهای ناهمسانی است: نتایج حاصل از آماره های t و F که اهمیت ضریب رگرسیون و ضریب تعیین را تعیین می کند احتمالاً نادرست است.

تشخیص خودهمبستگی

1. روش گرافیکی
تعدادی گزینه برای تعریف گرافیکی همبستگی خودکار وجود دارد. یکی از آنها انحراف e i را با لحظات دریافت آنها پیوند می دهد. در این حالت، یا زمان به دست آوردن داده های آماری یا شماره سریال مشاهده در امتداد محور آبسیسا رسم می شود و انحرافات e i (یا تخمین انحرافات) در امتداد محور ارتین رسم می شوند.
طبیعی است که فرض کنیم اگر ارتباط خاصی بین انحرافات وجود داشته باشد، خودهمبستگی صورت می گیرد. عدم وجود وابستگی به احتمال زیاد نشان دهنده عدم وجود خودهمبستگی خواهد بود.
اگر وابستگی e i را به e i-1 رسم کنید، خودهمبستگی واضح تر می شود.

تست دوربین واتسون.
این معیار بهترین شناخته شده برای تشخیص خودهمبستگی است.
هنگام تجزیه و تحلیل آماری معادلات رگرسیون، در مرحله اولیه اغلب امکان سنجی یک پیش نیاز بررسی می شود: شرایط استقلال آماری انحرافات از یکدیگر. در این مورد، عدم همبستگی مقادیر همسایه e i بررسی می شود.

y y(x) e i = y-y(x) e 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

برای تجزیه و تحلیل همبستگی انحرافات، از آمار دوربین واتسون استفاده می شود:

مقادیر بحرانی d 1 و d 2 بر اساس جداول ویژه برای سطح اهمیت مورد نیاز α، تعداد مشاهدات n = 9 و تعداد متغیرهای توضیحی m = 1 تعیین می شوند.
اگر شرط زیر وجود داشته باشد، خود همبستگی وجود ندارد:
د 1< DW и d 2 < DW < 4 - d 2 .
بدون مراجعه به جداول، می توانید از یک قانون تقریبی استفاده کنید و فرض کنید که اگر 1.5 همبستگی خودکار باقی مانده باشد، وجود ندارد.< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

محاسبه ضرایب معادله رگرسیون

سیستم معادلات (7.8) بر اساس ED موجود را نمی توان بدون ابهام حل کرد، زیرا تعداد مجهولات همیشه بیشتر از تعداد معادلات است. برای غلبه بر این مشکل، فرضیات اضافی مورد نیاز است. عقل سلیم حکم می کند: توصیه می شود ضرایب چند جمله ای را به گونه ای انتخاب کنید که از حداقل خطا در تقریب ED اطمینان حاصل شود. برای ارزیابی خطاهای تقریبی می توان از معیارهای مختلفی استفاده کرد. ریشه میانگین مربعات خطا به طور گسترده ای به عنوان چنین معیاری استفاده می شود. بر اساس آن، یک روش ویژه برای تخمین ضرایب معادلات رگرسیون توسعه داده شده است - روش حداقل مربعات (LSM). این روش به شما امکان می دهد تا حداکثر احتمال ضرایب ناشناخته معادله رگرسیون را تحت گزینه توزیع نرمال بدست آورید، اما می توان از آن برای هر توزیع دیگری از عوامل استفاده کرد.

MNC بر اساس مقررات زیر است:

· مقادیر مقادیر و فاکتورهای خطا مستقل هستند و بنابراین با هم مرتبط نیستند، یعنی. فرض بر این است که مکانیسم‌های ایجاد تداخل با مکانیسم تولید مقادیر عامل ارتباطی ندارند.

· انتظار ریاضی خطا ε باید برابر با صفر باشد (مولفه ثابت در ضریب گنجانده شده است. یک 0به عبارت دیگر، خطا یک کمیت متمرکز است.

· برآورد نمونه از واریانس خطا باید حداقل باشد.

اجازه دهید استفاده از OLS را در رابطه با رگرسیون خطی مقادیر استاندارد شده در نظر بگیریم. برای مقادیر متمرکز u jضریب یک 0برابر با صفر است، سپس معادلات رگرسیون خطی است

. (7.9)

یک علامت ویژه "^" در اینجا برای نشان دادن مقادیر شاخص محاسبه شده با استفاده از معادله رگرسیون، در مقابل مقادیر به دست آمده از نتایج مشاهدات، معرفی شده است.

با استفاده از روش حداقل مربعات، مقادیری از ضرایب معادله رگرسیون تعیین می شود که حداقل بی قید و شرطی را برای عبارت فراهم می کند.

حداقل با معادل صفر کردن تمام مشتقات جزئی بیان (7.10)، ضرایب مجهول گرفته شده و حل سیستم معادلات به دست می آید.

(7.11)

انجام پیوسته تبدیل ها و استفاده از تخمین های معرفی شده قبلی از ضرایب همبستگی

. (7.12)

بنابراین، دریافت شد تی-1 معادلات خطی، که به شما امکان می دهد مقادیر را به طور منحصر به فرد محاسبه کنید a 2، a 3، …، a t.

اگر مدل خطی نادرست است یا پارامترها به طور نادرست اندازه گیری می شوند، در این مورد روش حداقل مربعات به ما اجازه می دهد تا مقادیری از ضرایب را پیدا کنیم که در آن مدل خطی به بهترین وجه شی واقعی را به معنای انحراف استاندارد انتخاب شده توصیف می کند. معیار

وقتی فقط یک پارامتر وجود داشته باشد، معادله رگرسیون خطی تبدیل می شود

ضریب یک 2از معادله پیدا می شود

سپس، با توجه به آن r 2.2= 1، ضریب مورد نیاز

آ 2 = r y ,2 . (7.13)

رابطه (7.13) بیانیه قبلی را تأیید می کند که ضریب همبستگی معیاری از رابطه خطی بین دو پارامتر استاندارد شده است.

جایگزینی مقدار یافت شده ضریب یک 2به بیانی برای wبا در نظر گرفتن ویژگی های کمیت های متمرکز و نرمال شده، حداقل مقدار این تابع را برابر با 1 به دست می آوریم. r 2 y، 2. مقدار 1- r 2 y,2واریانس باقیمانده متغیر تصادفی نامیده می شود yنسبت به یک متغیر تصادفی u 2. خطایی را مشخص می کند که هنگام جایگزینی نشانگر با تابعی از پارامتر υ= به دست می آید. a 2 u 2. فقط با | r y،2| = 1 واریانس باقیمانده صفر است و بنابراین هنگام تقریب نشانگر با یک تابع خطی خطایی وجود ندارد.

حرکت از مقادیر شاخص و پارامتر مرکزی و نرمال شده

را می توان برای مقادیر اصلی به دست آورد

این معادله نیز با توجه به ضریب همبستگی خطی است. به راحتی می توان دریافت که مرکز و نرمال سازی برای رگرسیون خطی این امکان را فراهم می کند که بعد سیستم معادلات را به اندازه یک کاهش دهیم، یعنی. راه حل مسئله تعیین ضرایب را ساده کنید و به خود ضرایب معنای روشنی بدهید.

استفاده از حداقل مربعات برای توابع غیرخطی عملاً با طرح در نظر گرفته شده تفاوتی ندارد (فقط ضریب a0 در معادله اصلی برابر با صفر نیست).

برای مثال، فرض کنید لازم است ضرایب رگرسیون سهموی تعیین شود

واریانس خطای نمونه

بر اساس آن می توانیم سیستم معادلات زیر را بدست آوریم

پس از تبدیل ها، سیستم معادلات شکل می گیرد

با در نظر گرفتن خواص لحظه های کمیت های استاندارد شده، می نویسیم

تعیین ضرایب رگرسیون غیرخطی بر اساس حل یک سیستم معادلات خطی است. برای این کار می توانید از بسته های جهانی روش های عددی یا بسته های تخصصی برای پردازش داده های آماری استفاده کنید.

با افزایش درجه معادله رگرسیون، درجه گشتاورهای توزیع پارامترهای مورد استفاده برای تعیین ضرایب نیز افزایش می یابد. بدین ترتیب برای تعیین ضرایب معادله رگرسیون درجه دوم از ممان توزیع پارامترها تا درجه چهارم فراگیر استفاده می شود. مشخص است که دقت و قابلیت اطمینان تخمین گشتاورها از نمونه محدودی از ED ها با افزایش ترتیب آنها به شدت کاهش می یابد. استفاده از چندجمله ای های درجه بالاتر از دوم در معادلات رگرسیون نامناسب است.

کیفیت معادله رگرسیون حاصل با درجه نزدیکی بین نتایج مشاهدات نشانگر و مقادیر پیش بینی شده توسط معادله رگرسیون در نقاط داده شده در فضای پارامتر ارزیابی می شود. اگر نتایج نزدیک باشند، می توان مشکل تحلیل رگرسیون را حل شده در نظر گرفت. در غیر این صورت، باید معادله رگرسیون را تغییر دهید (درجه متفاوتی از چند جمله ای یا نوع متفاوتی از معادله را انتخاب کنید) و محاسبات را برای تخمین پارامترها تکرار کنید.

اگر چندین شاخص وجود داشته باشد، مشکل تحلیل رگرسیون به طور مستقل برای هر یک از آنها حل می شود.

در تحلیل ماهیت معادله رگرسیون باید به نکات زیر توجه کرد. رویکرد در نظر گرفته شده ارزیابی جداگانه (مستقل) ضرایب را ارائه نمی دهد - تغییر در مقدار یک ضریب مستلزم تغییر در مقادیر دیگران است. ضرایب به دست آمده نباید به عنوان سهم پارامتر مربوطه به مقدار اندیکاتور در نظر گرفته شود. معادله رگرسیون فقط یک توصیف تحلیلی خوب از ED موجود است و نه قانونی که رابطه بین پارامترها و نشانگر را توصیف کند. این معادله برای محاسبه مقادیر اندیکاتور در محدوده معینی از تغییرات پارامتر استفاده می شود. برای محاسبات خارج از این محدوده مناسب است، یعنی. می توان از آن برای حل مسائل درون یابی و تا حد محدودی برای برون یابی استفاده کرد.



دلیل اصلی عدم دقت پیش‌بینی، نه چندان قطعی بودن برون‌یابی خط رگرسیون، بلکه تغییر معنی‌دار شاخص به دلیل عواملی است که در مدل لحاظ نشده است. محدودیت توانایی پیش‌بینی، شرط پایداری پارامترهایی است که در مدل در نظر گرفته نشده و ماهیت تأثیر عوامل مدل در نظر گرفته شده است. اگر محیط خارجی به شدت تغییر کند، معادله رگرسیون کامپایل شده معنای خود را از دست خواهد داد. شما نمی توانید مقادیر معادله رگرسیونی را جایگزین کنید که به طور قابل توجهی با موارد ارائه شده در ED متفاوت است. توصیه می شود برای هر دو مقدار حداکثر و حداقل فاکتور از یک سوم دامنه تغییرات پارامتر فراتر نروید.

پیش بینی به دست آمده با جایگزینی مقدار مورد انتظار پارامتر در معادله رگرسیون یک نقطه است. احتمال تحقق چنین پیش بینی ناچیز است. توصیه می شود فاصله اطمینان پیش بینی را تعیین کنید. برای مقادیر فردی شاخص، فاصله باید خطاها در موقعیت خط رگرسیون و انحراف مقادیر فردی از این خط را در نظر بگیرد. میانگین خطا در پیش بینی شاخص y برای عامل x خواهد بود

جایی که میانگین خطا در موقعیت خط رگرسیون در جمعیت در است ایکس = x k;

- ارزیابی واریانس انحراف شاخص از خط رگرسیون در جمعیت.

x k- مقدار مورد انتظار عامل

حدود اطمینان پیش بینی، به عنوان مثال، برای معادله رگرسیون (7.14)، توسط عبارت تعیین می شود.

اصطلاح آزاد منفی یک 0در معادله رگرسیون برای متغیرهای اصلی به این معنی است که دامنه وجودی شاخص شامل مقادیر پارامتر صفر نمی شود. اگر a 0 > 0، سپس دامنه وجود شاخص شامل مقادیر صفر پارامترها است و خود ضریب میانگین مقدار شاخص را در غیاب تأثیر پارامترها مشخص می کند.

مشکل 7.2. یک معادله رگرسیون برای ظرفیت کانال بر اساس نمونه مشخص شده در جدول بسازید. 7.1.

راه حل. در رابطه با نمونه مشخص شده، ساخت وابستگی تحلیلی عمدتاً در چارچوب تحلیل همبستگی انجام شد: توان عملیاتی فقط به پارامتر نسبت سیگنال به نویز بستگی دارد. باقی مانده است که مقادیر پارامترهای محاسبه شده قبلی را در عبارت (7.14) جایگزین کنیم. معادله ظرفیت شکل خواهد گرفت

ŷ = 26.47–0.93×41.68×5.39/6.04+0.93×5.39/6.03× ایکس = – 8,121+0,830ایکس.

نتایج محاسبات در جدول ارائه شده است. 7.5.

جدول 7.5

N pp ظرفیت کانال نسبت سیگنال به نویز مقدار تابع خطا
Y ایکس ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

مطالعه وابستگی های همبستگی مبتنی بر مطالعه چنین ارتباطی بین متغیرها است که در آن مقادیر یک متغیر که می تواند به عنوان یک متغیر وابسته در نظر گرفته شود، بسته به مقادیر گرفته شده توسط متغیر دیگر به طور متوسط ​​تغییر می کند. متغیر، به عنوان یک علت در رابطه با متغیر وابسته در نظر گرفته می شود. عمل این علت در شرایط تعامل پیچیده عوامل مختلف انجام می شود که در نتیجه تجلی الگو با تأثیر شانس پنهان می شود. با محاسبه میانگین مقادیر مشخصه مؤثر برای یک گروه معین از مقادیر ویژگی-عامل، تأثیر شانس تا حدی حذف می شود. با محاسبه پارامترهای خط ارتباطی نظری، آنها بیشتر حذف می شوند و یک تغییر بدون ابهام (در شکل) در "y" با تغییر در ضریب "x" به دست می آید.

برای مطالعه روابط تصادفی از روش مقایسه دو سری موازی، روش گروه بندی تحلیلی، تحلیل همبستگی، تحلیل رگرسیون و برخی روش های ناپارامتریک استفاده گسترده ای می شود. به طور کلی، وظیفه آمار در زمینه مطالعه روابط نه تنها تعیین کمیت حضور، جهت و قدرت ارتباط آنها، بلکه تعیین شکل (بیان تحلیلی) تأثیر ویژگی های عامل بر نتیجه است. برای حل آن از روش های همبستگی و تحلیل رگرسیون استفاده می شود.

فصل 1. معادله رگرسیون: مبانی نظری

1.1. معادله رگرسیون: ماهیت و انواع توابع

رگرسیون (لط. regressio - حرکت معکوس، انتقال از اشکال پیچیده تر توسعه به موارد کمتر پیچیده) یکی از مفاهیم اساسی در نظریه احتمالات و آمار ریاضی است که وابستگی میانگین مقدار یک متغیر تصادفی را به مقادیر بیان می کند. یک متغیر تصادفی دیگر یا چندین متغیر تصادفی. این مفهوم توسط فرانسیس گالتون در سال 1886 معرفی شد.

خط رگرسیون نظری خطی است که نقاط میدان همبستگی دور آن گروه بندی می شوند و جهت اصلی، گرایش اصلی اتصال را نشان می دهد.

خط رگرسیون نظری باید تغییر در مقادیر میانگین ویژگی مؤثر "y" را منعکس کند، زیرا مقادیر ویژگی عامل "x" تغییر می کند، مشروط بر اینکه همه علل دیگر، تصادفی در رابطه با عامل "x" باشند. ، کاملا لغو می شوند. در نتیجه این خط باید به گونه ای رسم شود که مجموع انحرافات نقاط میدان همبستگی از نقاط متناظر خط رگرسیون نظری برابر با صفر باشد و مجموع مجذورات این انحرافات حداقل باشد.

y=f(x) - معادله رگرسیون فرمولی برای رابطه آماری بین متغیرها است.

یک خط مستقیم روی یک صفحه (در فضای دو بعدی) با معادله y=a+b*x به دست می آید. با جزئیات بیشتر، متغیر y را می توان بر حسب ثابت (a) و شیب (b) ضرب در متغیر x بیان کرد. ثابت را گاهی اوقات ترم رهگیری نیز می نامند و شیب را گاهی رگرسیون یا ضریب B می نامند.

یک مرحله مهم از تحلیل رگرسیون، تعیین نوع تابعی است که با آن وابستگی بین ویژگی ها مشخص می شود. مبنای اصلی باید یک تحلیل معنادار از ماهیت وابستگی مورد مطالعه و مکانیسم آن باشد. در عین حال، همیشه نمی‌توان شکل ارتباط بین هر یک از عوامل و شاخص عملکرد را به صورت نظری اثبات کرد، زیرا پدیده‌های اجتماعی-اقتصادی مورد مطالعه بسیار پیچیده هستند و عواملی که سطح آنها را شکل می‌دهند به شدت در هم تنیده و تأثیر متقابل دارند. با همدیگر. بنابراین، بر اساس تجزیه و تحلیل نظری، اغلب می توان کلی ترین نتیجه گیری را در مورد جهت رابطه، امکان تغییر آن در جمعیت مورد مطالعه، مشروعیت استفاده از یک رابطه خطی، وجود احتمالی مقادیر افراطی انجام داد. و غیره. مکمل ضروری برای چنین مفروضاتی باید تجزیه و تحلیل داده های واقعی خاص باشد.

یک ایده تقریبی از خط رابطه را می توان بر اساس خط رگرسیون تجربی به دست آورد. خط رگرسیون تجربی معمولاً یک خط شکسته است و دارای یک شکست کم و بیش قابل توجه است. این با این واقعیت توضیح داده می شود که تأثیر سایر عوامل نامشخص که بر تغییرات مشخصه حاصل تأثیر می گذارند، به دلیل تعداد ناکافی مشاهدات، به طور ناقص در میانگین خاموش می شود، بنابراین، می توان از یک خط ارتباطی تجربی برای انتخاب و انتخاب استفاده کرد. نوع منحنی نظری را توجیه کنید، مشروط بر اینکه تعداد مشاهدات کافی زیاد باشد.

یکی از عناصر مطالعات خاص، مقایسه معادلات وابستگی مختلف، بر اساس استفاده از معیارهای کیفیت برای تقریب داده‌های تجربی توسط نسخه‌های رقیب مدل‌ها است. انواع توابع زیر اغلب برای توصیف روابط شاخص‌های اقتصادی استفاده می‌شوند:

1. خطی:

2. هایپربولیک:

3. نمایشی:

4. سهموی:

5. قدرت:

6. لگاریتمی:

7. لجستیک:

مدلی با یک متغیر توضیحی و یک متغیر توضیحی، مدل رگرسیون زوجی است. اگر از دو یا چند متغیر توضیحی (عاملی) استفاده شود، آنگاه از مدل رگرسیون چندگانه صحبت می کنیم. در این حالت، توابع خطی، نمایی، هذلولی، نمایی و دیگر انواع توابع متصل کننده این متغیرها را می توان به عنوان گزینه انتخاب کرد.

برای یافتن پارامترهای a و b معادله رگرسیون از روش حداقل مربعات استفاده می شود. هنگام استفاده از روش حداقل مربعات برای یافتن تابعی که به بهترین وجه با داده های تجربی مطابقت دارد، اعتقاد بر این است که کیسه مربعات انحراف نقاط تجربی از خط رگرسیون نظری باید حداقل مقدار باشد.

معیار حداقل مربعات را می توان به صورت زیر نوشت:

در نتیجه، استفاده از روش حداقل مربعات برای تعیین پارامترهای a و b خطی که به بهترین وجه با داده‌های تجربی مطابقت دارد، به یک مشکل افراطی کاهش می‌یابد.

در مورد ارزیابی ها می توان به نتایج زیر دست یافت:

1. برآوردگرهای حداقل مربعات توابعی از نمونه هستند که محاسبه آنها را آسان می کند.

2. برآوردهای حداقل مربعات، برآوردهای نقطه ای از ضرایب رگرسیون نظری هستند.

3. خط رگرسیون تجربی لزوماً از نقطه x، y می گذرد.

4. معادله رگرسیون تجربی به گونه ای ساخته شده است که مجموع انحرافات

.

یک نمایش گرافیکی از خط ارتباط تجربی و نظری در شکل 1 ارائه شده است.


پارامتر b در معادله ضریب رگرسیون است. در صورت وجود همبستگی مستقیم، ضریب رگرسیون مثبت و در صورت همبستگی معکوس، ضریب رگرسیون منفی است. ضریب رگرسیون نشان می دهد که به طور متوسط ​​مقدار مشخصه مؤثر "y" با تغییر یک عامل "x" چقدر تغییر می کند. از نظر هندسی، ضریب رگرسیون شیب خط مستقیمی است که معادله همبستگی را نسبت به محور "x" نشان می دهد (برای معادله

).

شاخه ای از تجزیه و تحلیل آماری چند متغیره که به بازیابی وابستگی اختصاص دارد، تحلیل رگرسیون نامیده می شود. اصطلاح "تحلیل رگرسیون خطی" زمانی استفاده می شود که تابع مورد بررسی به صورت خطی به پارامترهای تخمین زده شده وابسته باشد (وابستگی به متغیرهای مستقل می تواند دلخواه باشد). نظریه ارزیابی

پارامترهای ناشناخته به طور خاص در مورد تحلیل رگرسیون خطی به خوبی توسعه یافته است. اگر خطی وجود نداشته باشد و حرکت به یک مسئله خطی غیرممکن باشد، به عنوان یک قاعده، نمی توان از برآوردها انتظار ویژگی های خوبی داشت. ما رویکردهایی را در مورد وابستگی های مختلف نشان خواهیم داد. اگر وابستگی به شکل چند جمله ای (چند جمله ای) باشد. اگر محاسبه همبستگی قدرت رابطه بین دو متغیر را مشخص کند، آنگاه تحلیل رگرسیون به تعیین نوع این رابطه کمک می کند و امکان پیش بینی مقدار یک متغیر (وابسته) را بر اساس مقدار متغیر دیگر (مستقل) فراهم می کند. . برای انجام تحلیل رگرسیون خطی، متغیر وابسته باید دارای مقیاس فاصله ای (یا ترتیبی) باشد. در عین حال، رگرسیون لجستیک باینری وابستگی یک متغیر دوگانه را به متغیر دیگری مرتبط با هر مقیاس نشان می دهد. شرایط کاربرد یکسان برای تجزیه و تحلیل پروبیت اعمال می شود. اگر متغیر وابسته مقوله‌ای باشد، اما دارای بیش از دو دسته باشد، رگرسیون لجستیک چند جمله‌ای روش مناسبی است که روابط غیرخطی بین متغیرهایی که به مقیاس فاصله‌ای تعلق دارند قابل تحلیل است. روش رگرسیون غیرخطی برای این منظور طراحی شده است.

دسته بندی ها

مقالات محبوب

2024 "kingad.ru" - بررسی سونوگرافی اندام های انسان