تجزیه و تحلیل داده ها با استفاده از روش حداقل مربعات. روش حداقل مربعات در اکسل

روش حداقل مربعات

در درس پایانی مبحث با معروف ترین اپلیکیشن آشنا می شویم FNP، که بیشترین کاربرد را در زمینه های مختلف علمی و فعالیت عملی پیدا می کند. این می تواند فیزیک، شیمی، زیست شناسی، اقتصاد، جامعه شناسی، روانشناسی، و غیره و غیره باشد. به خواست سرنوشت، من اغلب باید با اقتصاد سر و کار داشته باشم، و بنابراین امروز برای شما سفری به کشوری شگفت انگیز به نام اقتصاد سنجی=) ...چطور نمیخوای؟! آنجا خیلی خوب است - فقط باید تصمیم خود را بگیرید! اما چیزی که احتمالاً قطعاً می خواهید این است که یاد بگیرید چگونه مشکلات را حل کنید روش حداقل مربعات. و به خصوص خوانندگان سخت کوش یاد خواهند گرفت که آنها را نه تنها به طور دقیق، بلکه بسیار سریع حل کنند ;-) اما ابتدا بیان کلی مشکل+ مثال همراه:

اجازه دهید شاخص هایی را در یک حوزه موضوعی خاص مطالعه کنیم که بیان کمی دارند. در عین حال، دلایل زیادی برای این باور وجود دارد که شاخص به شاخص بستگی دارد. این فرض می تواند یک فرضیه علمی یا مبتنی بر عقل سلیم اولیه باشد. با این حال، بیایید علم را کنار بگذاریم و مناطق اشتها آورتر - یعنی فروشگاه های مواد غذایی - را بررسی کنیم. بیایید نشان دهیم:

- منطقه خرده فروشی یک فروشگاه مواد غذایی، متر مربع،
- گردش مالی سالانه یک فروشگاه مواد غذایی، میلیون روبل.

کاملاً واضح است که هر چه مساحت فروشگاه بزرگتر باشد، در بیشتر موارد گردش مالی آن بیشتر خواهد بود.

فرض کنید پس از انجام مشاهدات / آزمایش ها / محاسبات / رقص با یک تنبور، داده های عددی در اختیار ماست:

در مورد فروشگاه های مواد غذایی، فکر می کنم همه چیز روشن است: - این منطقه اولین فروشگاه است، - گردش مالی سالانه آن، - منطقه فروشگاه دوم، - گردش مالی سالانه آن و غیره. به هر حال، دسترسی به مواد طبقه بندی شده اصلاً ضروری نیست - ارزیابی نسبتاً دقیقی از گردش مالی تجاری را می توان با استفاده از آمار ریاضی. با این حال، بیایید منحرف نشویم، دوره جاسوسی تجاری قبلاً پرداخت شده است =)

داده های جدولی را نیز می توان به صورت نقطه نوشت و به شکل آشنا به تصویر کشید سیستم دکارتی .

بیایید به یک سوال مهم پاسخ دهیم: برای یک مطالعه کیفی چند امتیاز لازم است؟

هرچه بزرگتر بهتر. حداقل مجموعه قابل قبول شامل 5-6 امتیاز است. علاوه بر این، زمانی که مقدار داده کم باشد، نتایج "غیر عادی" نمی توانند در نمونه گنجانده شوند. بنابراین، برای مثال، یک فروشگاه کوچک نخبه می‌تواند سفارش‌های بزرگ‌تری نسبت به «همکارانش» به دست آورد، در نتیجه الگوی کلی را که باید پیدا کنید، مخدوش می‌کند!



به بیان ساده، باید یک تابع را انتخاب کنیم، برنامهکه تا حد امکان نزدیک به نقاط می گذرد . این تابع نامیده می شود تقریبی (تقریبی - تقریبی)یا عملکرد نظری . به طور کلی، یک "مقابل" آشکار بلافاصله در اینجا ظاهر می شود - یک چند جمله ای درجه بالا، که نمودار آن از تمام نقاط عبور می کند. اما این گزینه پیچیده است و اغلب به سادگی نادرست است. (از آنجایی که نمودار همیشه "حلقه" می شود و روند اصلی را به خوبی منعکس می کند).

بنابراین، تابع جستجو باید کاملاً ساده باشد و در عین حال به اندازه کافی وابستگی را منعکس کند. همانطور که ممکن است حدس بزنید، یکی از روش های یافتن چنین توابعی نامیده می شود روش حداقل مربعات. ابتدا اجازه دهید به ماهیت آن به صورت کلی نگاه کنیم. اجازه دهید برخی از تابع ها داده های تجربی را تقریبی کنند:


چگونه می توان صحت این تقریب را ارزیابی کرد؟ اجازه دهید تفاوت (انحرافات) بین مقادیر تجربی و عملکردی را نیز محاسبه کنیم (ما نقاشی را مطالعه می کنیم). اولین فکری که به ذهن می رسد این است که تخمین بزنیم مجموع چقدر است، اما مشکل اینجاست که تفاوت ها می تواند منفی باشد. (مثلا، ) و انحرافات در نتیجه چنین جمع آوری یکدیگر را خنثی می کنند. بنابراین، به عنوان تخمینی از دقت تقریب، التماس می شود که جمع را در نظر بگیرید ماژول هاانحرافات:

یا فرو ریخت: (در صورتی که کسی نداند: نماد جمع است و - یک متغیر "counter" کمکی که مقادیر از 1 تا را می گیرد ) .

با تقریب نقاط تجربی با توابع مختلف مقادیر متفاوتی بدست می آوریم و بدیهی است که در جایی که این مجموع کوچکتر است آن تابع دقیقتر است.

چنین روشی وجود دارد و به آن می گویند روش حداقل مدول. با این حال، در عمل بسیار گسترده تر شده است روش حداقل مربع، که در آن مقادیر منفی احتمالی نه توسط ماژول، بلکه با مربع کردن انحرافات حذف می شوند:



، پس از آن تلاش ها برای انتخاب تابعی به گونه ای است که مجموع انحرافات مجذور باشد تا حد امکان کوچک بود در واقع، نام روش از اینجا آمده است.

و اکنون به یک نکته مهم دیگر باز می گردیم: همانطور که در بالا ذکر شد، تابع انتخاب شده باید کاملاً ساده باشد - اما بسیاری از توابع از این دست نیز وجود دارد: خطی , هذلولی , نمایی , لگاریتمی , درجه دوم و غیره. و البته در اینجا من بلافاصله می خواهم "زمینه فعالیت را کاهش دهم." کدام دسته از توابع را برای تحقیق انتخاب کنم؟ یک تکنیک بدوی اما موثر:

- ساده ترین راه این است که نقاط را به تصویر بکشید بر روی نقاشی و تجزیه و تحلیل مکان آنها. اگر آنها تمایل به دویدن در یک خط مستقیم دارند، پس باید به دنبال آن باشید معادله یک خط با مقادیر بهینه و . به عبارت دیگر، وظیفه یافتن چنین ضرایبی است که مجموع مجذور انحرافات کوچکترین باشد.

اگر نقاط، به عنوان مثال، در امتداد قرار دارند هایپربولی، پس واضح است که تابع خطی تقریب ضعیفی به دست می دهد. در این مورد، ما به دنبال "مطلوب ترین" ضرایب برای معادله هذلولی هستیم - آنهایی که حداقل مجموع مربع ها را می دهند. .

حال توجه داشته باشید که در هر دو مورد ما صحبت می کنیم توابع دو متغیر، که استدلال های آن است پارامترهای وابستگی جستجو شده:

و اساساً ما باید یک مشکل استاندارد را حل کنیم - پیدا کردن حداقل تابع دو متغیر.

بیایید مثال خود را به خاطر بسپاریم: فرض کنید که نقاط "فروشگاه" در یک خط مستقیم قرار دارند و دلایل زیادی برای این باور وجود دارد که وابستگی خطیگردش مالی از فضای خرده فروشی بیایید چنین ضرایبی "a" و "be" را پیدا کنیم به طوری که مجموع انحرافات مجذور کوچکترین بود همه چیز طبق معمول است - اول مشتقات جزئی مرتبه 1. مطابق با قانون خطی بودنمی توانید درست در زیر نماد جمع متمایز کنید:

اگر می‌خواهید از این اطلاعات برای مقاله یا مقاله ترم استفاده کنید، از پیوند موجود در فهرست منابع بسیار سپاسگزار خواهم بود؛ چنین محاسبات دقیقی را در چند جا پیدا خواهید کرد:

بیایید یک سیستم استاندارد ایجاد کنیم:

هر معادله را "دو" کاهش می دهیم و علاوه بر این، مجموع را "تقسیم" می کنیم:

توجه داشته باشید : به طور مستقل تجزیه و تحلیل کنید که چرا "a" و "be" را می توان فراتر از نماد جمع خارج کرد. به هر حال، به طور رسمی این را می توان با مجموع انجام داد

بیایید سیستم را به شکل "کاربردی" بازنویسی کنیم:

پس از آن الگوریتم برای حل مشکل ما شروع به ظهور می کند:

آیا مختصات نقاط را می دانیم؟ ما میدانیم. مبالغ آیا می توانیم آن را پیدا کنیم؟ به آسانی. بیایید ساده ترین ها را بسازیم سیستم دو معادله خطی در دو مجهول(«الف» و «بودن»). ما سیستم را حل می کنیم، به عنوان مثال، روش کرامر، در نتیجه یک نقطه ثابت به دست می آوریم. چک کردن شرایط کافی برای یک افراطی، می توانیم تأیید کنیم که در این مرحله تابع دقیقا می رسد کمترین. چک شامل محاسبات اضافی است و بنابراین ما آن را در پشت صحنه رها می کنیم (در صورت لزوم، قاب گم شده قابل مشاهده استاینجا ) . نتیجه نهایی را می گیریم:

تابع بهترین راه (حداقل در مقایسه با هر تابع خطی دیگری)نقاط تجربی را به هم نزدیک می کند . به طور کلی، نمودار آن تا حد ممکن به این نقاط نزدیک می شود. در سنت اقتصاد سنجیتابع تقریبی حاصل نیز نامیده می شود معادله رگرسیون خطی زوجی .

مسئله مورد بررسی اهمیت عملی زیادی دارد. در وضعیت مثال ما، معادله به شما اجازه می دهد تا پیش بینی کنید که چه گردش تجاری ("ایگرک")فروشگاه در یک یا مقدار دیگری از منطقه فروش خواهد داشت (یک یا آن معنی از "x"). بله، پیش‌بینی حاصل فقط یک پیش‌بینی خواهد بود، اما در بسیاری از موارد کاملاً دقیق خواهد بود.

من فقط یک مشکل را با اعداد "واقعی" تجزیه و تحلیل می کنم ، زیرا هیچ مشکلی در آن وجود ندارد - همه محاسبات در سطح برنامه درسی مدرسه کلاس 7-8 است. در 95 درصد موارد، از شما خواسته می شود که فقط یک تابع خطی را پیدا کنید، اما در انتهای مقاله نشان خواهم داد که یافتن معادلات هذلولی بهینه، نمایی و برخی دیگر از توابع دشوارتر نیست.

در واقع، تنها چیزی که باقی می ماند توزیع خوبی های وعده داده شده است - به طوری که می توانید یاد بگیرید که چنین نمونه هایی را نه تنها با دقت، بلکه به سرعت حل کنید. ما استاندارد را به دقت مطالعه می کنیم:

وظیفه

در نتیجه مطالعه رابطه بین دو شاخص، جفت اعداد زیر به دست آمد:

با استفاده از روش حداقل مربعات، تابع خطی را که بهترین تقریب تجربی را دارد، پیدا کنید (با تجربه)داده ها. یک نقاشی بکشید که بر روی آن نقاط تجربی و نموداری از تابع تقریبی در یک سیستم مختصات مستطیلی دکارتی ساخته شود. . مجموع مجذور انحرافات بین مقادیر تجربی و نظری را بیابید. ببینید آیا این ویژگی بهتر است یا خیر (از دیدگاه روش حداقل مربعات)نقاط تجربی را به هم نزدیک کنید.

لطفاً توجه داشته باشید که معانی "x" طبیعی هستند و این یک معنای معنی دار مشخصه دارد که کمی بعد در مورد آن صحبت خواهم کرد. اما آنها، البته، می توانند کسری نیز باشند. علاوه بر این، بسته به محتوای یک کار خاص، هر دو مقدار "X" و "بازی" می توانند به طور کامل یا تا حدی منفی باشند. خوب، به ما یک وظیفه "بی چهره" داده شده است و ما آن را شروع می کنیم راه حل:

ما ضرایب تابع بهینه را به عنوان یک راه حل برای سیستم پیدا می کنیم:

برای ضبط فشرده تر، متغیر "counter" را می توان حذف کرد، زیرا از قبل واضح است که جمع بندی از 1 تا .

محاسبه مقادیر مورد نیاز به صورت جدولی راحت تر است:


محاسبات را می توان بر روی یک ریز ماشین حساب انجام داد، اما استفاده از Excel بسیار بهتر است - هم سریعتر و هم بدون خطا. تماشای یک ویدیوی کوتاه:

بنابراین، موارد زیر را بدست می آوریم سیستم:

در اینجا می توانید معادله دوم را در 3 ضرب کنید و عدد 2 را از معادله 1 کم کنید. اما این شانس است - در عمل، سیستم ها اغلب یک هدیه نیستند و در چنین مواردی باعث صرفه جویی می شود روش کرامر:
، به این معنی که سیستم یک راه حل منحصر به فرد دارد.

بیایید بررسی کنیم. می‌دانم که شما نمی‌خواهید، اما چرا از خطاهایی که نمی‌توان آنها را مطلقاً از دست داد، رد شد؟ اجازه دهید جواب یافت شده را در سمت چپ هر معادله سیستم جایگزین کنیم:

سمت راست معادلات مربوطه به دست می آید که به این معنی است که سیستم به درستی حل شده است.

بنابراین، تابع تقریبی مورد نظر: – از همه توابع خطیاین اوست که داده های تجربی را به بهترین شکل تقریب می کند.

بر خلاف سر راست وابستگی گردش مالی فروشگاه به منطقه آن، وابستگی یافت شده است معکوس (اصل "هرچه بیشتر، کمتر")، و این واقعیت بلافاصله توسط منفی آشکار می شود شیب. تابع به ما می گوید که با افزایش 1 واحد در یک شاخص خاص، مقدار شاخص وابسته کاهش می یابد میانگین 0.65 واحد همانطور که می گویند هر چه قیمت گندم سیاه بیشتر باشد کمتر فروخته می شود.

برای رسم نمودار تابع تقریبی، دو مقدار آن را پیدا می کنیم:

و نقشه را اجرا کنید:

خط مستقیم ساخته شده نامیده می شود خط روند (یعنی یک خط روند خطی، یعنی در حالت کلی، یک روند لزوما یک خط مستقیم نیست). همه با عبارت "در ترند بودن" آشنا هستند و من فکر می کنم که این اصطلاح نیازی به توضیحات اضافی ندارد.

بیایید مجموع انحرافات مجذور را محاسبه کنیم بین ارزش های تجربی و نظری از نظر هندسی، این مجموع مربعات طول بخش های "تمشک" است. (دوتای آنها آنقدر کوچک هستند که حتی دیده نمی شوند).

بیایید محاسبات را در یک جدول خلاصه کنیم:


باز هم، آنها را می توان به صورت دستی انجام داد؛ در هر صورت، برای نکته 1 مثالی می زنم:

اما انجام آن به روشی که قبلاً شناخته شده است بسیار مؤثرتر است:

یک بار دیگر تکرار می کنیم: منظور از نتیجه به دست آمده چیست؟از جانب همه توابع خطیتابع y شاخص کوچکترین است، یعنی در خانواده خود بهترین تقریب است. و در اینجا، اتفاقاً، سؤال نهایی مسئله تصادفی نیست: اگر تابع نمایی پیشنهادی بهتر به نقاط آزمایشی نزدیک شود، چه؟

بیایید مجموع متناظر انحرافات مربع را پیدا کنیم - برای تشخیص، آنها را با حرف "epsilon" نشان می دهم. تکنیک دقیقاً مشابه است:

و دوباره، فقط در مورد، محاسبات برای نقطه 1:

در اکسل از تابع استاندارد استفاده می کنیم انقضا (سینتکس را می توان در راهنمای اکسل یافت).

نتیجه: یعنی تابع نمایی بدتر از یک خط مستقیم به نقاط تجربی تقریب می زند .

اما در اینجا باید توجه داشت که "بدتر" است هنوز به این معنی نیست، چه اشکالی دارد. اکنون من یک نمودار از این تابع نمایی ساخته ام - و همچنین نزدیک به نقاط عبور می کند - به حدی که بدون تحقیق تحلیلی نمی توان گفت کدام تابع دقیق تر است.

این راه حل را به پایان می رساند و من به سؤال ارزش های طبیعی استدلال باز می گردم. در مطالعات مختلف، معمولاً اقتصادی یا جامعه‌شناختی، از «X»های طبیعی برای شماره‌گذاری ماه‌ها، سال‌ها یا سایر فواصل زمانی مساوی استفاده می‌شود. برای مثال مشکل زیر را در نظر بگیرید:

داده های زیر در مورد گردش مالی خرده فروشی فروشگاه در نیمه اول سال موجود است:

با استفاده از تراز خط مستقیم تحلیلی، حجم گردش مالی ماه جولای را تعیین کنید.

بله، مشکلی نیست: ما ماه ها را 1، 2، 3، 4، 5، 6 شماره گذاری می کنیم و از الگوریتم معمولی استفاده می کنیم که در نتیجه معادله ای به دست می آید - تنها چیزی که به زمان می رسد این است که معمولاً از آن استفاده می کنند. حرف "ته" (اگرچه این مهم نیست). معادله به دست آمده نشان می دهد که در نیمه اول سال گردش مالی به طور متوسط ​​27.74 واحد افزایش یافته است. هر ماه. بیایید پیش بینی ماه جولای را دریافت کنیم (ماه شماره 7): d.e.

و وظایف بی شماری از این دست وجود دارد. کسانی که مایلند می توانند از یک سرویس اضافی یعنی من استفاده کنند ماشین حساب اکسل (نسخه آزمایشی)، که مشکل تحلیل شده را تقریباً بلافاصله حل می کند!نسخه کاری برنامه موجود است در عوضیا برای هزینه نمادین.

در پایان درس، اطلاعات مختصری در مورد یافتن وابستگی های برخی از انواع دیگر ارائه شود. در واقع، چیز زیادی برای گفتن وجود ندارد، زیرا رویکرد اساسی و الگوریتم حل یکسان هستند.

فرض کنید آرایش نقاط تجربی شبیه هذلولی است. سپس، برای پیدا کردن ضرایب بهترین هذلولی، باید حداقل تابع را پیدا کنید - هر کسی می تواند محاسبات دقیق را انجام دهد و به یک سیستم مشابه برسد:

از نقطه نظر فنی رسمی، از یک سیستم "خطی" به دست می آید (بیایید آن را با یک ستاره نشان دهیم)جایگزینی "x" با . خوب، در مورد مقادیر؟ محاسبه کنید، پس از آن به ضرایب بهینه "a" و "be" نزدیک در دست.

در صورتی که همه دلایلی وجود داشته باشد که این نکات را باور کنیم در امتداد یک منحنی لگاریتمی قرار می گیرند، سپس برای یافتن مقادیر بهینه، حداقل تابع را پیدا می کنیم . به طور رسمی، در سیستم (*) باید با:

هنگام انجام محاسبات در اکسل، از تابع استفاده کنید لوگاریتم. اعتراف می کنم که ایجاد ماشین حساب برای هر یک از موارد مورد بررسی برای من دشوار نخواهد بود، اما باز هم بهتر است که محاسبات را خودتان "برنامه ریزی" کنید. فیلم های درسی برای کمک

با وابستگی نمایی، وضعیت کمی پیچیده‌تر است. برای تقلیل ماده به حالت خطی، تابع لگاریتم را می گیریم و استفاده می کنیم خواص لگاریتم:

حال با مقایسه تابع به دست آمده با تابع خطی به این نتیجه می رسیم که در سیستم (*) باید با، و – با . برای راحتی، بیایید نشان دهیم:

لطفا توجه داشته باشید که سیستم با توجه به و بنابراین، پس از یافتن ریشه ها، نباید فراموش کنید که خود ضریب را پیدا کنید.

برای نزدیک کردن نقاط تجربی سهمی بهینه ، باید پیدا شود حداقل تابع سه متغیر. پس از انجام اقدامات استاندارد، "کار" زیر را دریافت می کنیم سیستم:

بله، البته، در اینجا مقادیر بیشتری وجود دارد، اما در هنگام استفاده از برنامه مورد علاقه شما هیچ مشکلی وجود ندارد. و در نهایت، من به شما خواهم گفت که چگونه با استفاده از اکسل به سرعت بررسی کنید و خط روند مورد نظر را بسازید: یک نمودار پراکندگی ایجاد کنید، هر یک از نقاط را با ماوس انتخاب کنید. و راست کلیک کنید گزینه را انتخاب کنید "افزودن خط روند". در مرحله بعد، نوع نمودار را انتخاب کنید و در تب "گزینه ها"گزینه را فعال کنید "نمایش معادله در نمودار". خوب

مثل همیشه، می‌خواهم مقاله را با یک عبارت زیبا به پایان برسانم و تقریباً «در ترند باشید!» را تایپ کردم. اما به مرور نظرش عوض شد. و نه به این دلیل که کلیشه ای است. من نمی دانم برای کسی چگونه است، اما من واقعاً نمی خواهم از روند تبلیغ شده آمریکایی و به خصوص اروپایی پیروی کنم =) بنابراین، آرزو می کنم هر یک از شما به خط خود پایبند باشید!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

روش حداقل مربعات یکی از رایج ترین و پیشرفته ترین روش ها به دلیل داشتن آن است سادگی و کارایی روش‌های تخمین پارامترهای مدل‌های اقتصادسنجی خطی. در عین حال، هنگام استفاده از آن، باید احتیاط را رعایت کرد، زیرا مدل های ساخته شده با استفاده از آن ممکن است تعدادی از الزامات کیفیت پارامترهای آنها را برآورده نکنند و در نتیجه، الگوهای توسعه فرآیند را به خوبی منعکس نکنند. کافی.

اجازه دهید روند تخمین پارامترهای یک مدل اقتصاد سنجی خطی با استفاده از روش حداقل مربعات را با جزئیات بیشتری در نظر بگیریم. چنین مدلی را می توان به طور کلی با معادله (1.2) نشان داد:

y t = a 0 + a 1 x 1t +...+ a n x nt + ε t.

داده های اولیه هنگام تخمین پارامترهای a 0, a 1,..., a n بردار مقادیر متغیر وابسته است. y= (y 1 , y 2 , ... , y T)" و ماتریس مقادیر متغیرهای مستقل

که در آن ستون اول، متشکل از یکی، با ضریب مدل مطابقت دارد.

روش حداقل مربعات نام خود را بر اساس اصل اساسی دریافت کرد که تخمین پارامترهای به دست آمده بر اساس آن باید برآورده شوند: مجموع مربعات خطای مدل باید حداقل باشد.

نمونه هایی از حل مسائل با استفاده از روش حداقل مربعات

مثال 2.1.شرکت بازرگانی دارای شبکه ای متشکل از 12 فروشگاه است که اطلاعات فعالیت های آنها در جدول ارائه شده است. 2.1.

مدیریت شرکت مایل است بداند که اندازه گردش مالی سالانه چگونه به فضای خرده فروشی فروشگاه بستگی دارد.

جدول 2.1

شماره فروشگاه گردش مالی سالانه، میلیون روبل. مساحت خرده فروشی، هزار متر مربع
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

راه حل حداقل مربعاتاجازه دهید گردش مالی سالانه فروشگاه هفتم، میلیون روبل را نشان دهیم. - متراژ خرده فروشی هزار متر مربع.

شکل 2.1. Scatterplot برای مثال 2.1

برای تعیین شکل رابطه عملکردی بین متغیرها و ما یک نمودار پراکندگی می سازیم (شکل 2.1).

بر اساس نمودار پراکندگی، می‌توان نتیجه گرفت که گردش مالی سالانه به طور مثبت به فضای خرده‌فروشی وابسته است (یعنی با افزایش y افزایش می‌یابد). مناسب ترین شکل اتصال عملکردی است خطی.

اطلاعات برای محاسبات بیشتر در جدول ارائه شده است. 2.2. با استفاده از روش حداقل مربعات، پارامترهای یک مدل اقتصادسنجی خطی تک عاملی را تخمین می زنیم

جدول 2.2

تی y t x 1t y t 2 x 1t 2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
اس 819,52 10,68 65008,554 11,4058 858,3991
میانگین 68,29 0,89

بدین ترتیب،

بنابراین، با افزایش فضای خرده فروشی به میزان 1000 متر مربع، با مساوی بودن سایر موارد، میانگین گردش مالی سالانه 67.8871 میلیون روبل افزایش می یابد.

مثال 2.2.مدیریت شرکت متوجه شد که گردش مالی سالانه نه تنها به منطقه فروش فروشگاه (نگاه کنید به مثال 2.1)، بلکه به میانگین تعداد بازدیدکنندگان نیز بستگی دارد. اطلاعات مربوطه در جدول ارائه شده است. 2.3.

جدول 2.3

راه حل.اجازه دهید نشان دهیم - میانگین تعداد بازدیدکنندگان از فروشگاه هفتم در روز، هزار نفر.

برای تعیین شکل رابطه عملکردی بین متغیرها و ما یک نمودار پراکندگی می سازیم (شکل 2.2).

بر اساس نمودار پراکندگی، می‌توان نتیجه گرفت که گردش مالی سالانه به طور مثبت به میانگین تعداد بازدیدکنندگان در روز وابسته است (یعنی با افزایش y افزایش می‌یابد). شکل وابستگی عملکردی خطی است.

برنج. 2.2. Scatterplot برای مثال 2.2

جدول 2.4

تی x 2 تن x 2t 2 y t x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
اس 127,83 1410,44 9160,9934 118,9728
میانگین 10,65

به طور کلی تعیین پارامترهای یک مدل اقتصادسنجی دو عاملی ضروری است

y t = a 0 + a 1 x 1t + a 2 x 2t + ε t

اطلاعات مورد نیاز برای محاسبات بیشتر در جدول ارائه شده است. 2.4.

اجازه دهید پارامترهای یک مدل اقتصادسنجی خطی دو عاملی را با استفاده از روش حداقل مربعات تخمین بزنیم.

بدین ترتیب،

تخمین ضریب = 61.6583 نشان می دهد که با برابری سایر موارد، با افزایش فضای خرده فروشی 1 هزار متر مربع، گردش مالی سالانه به طور متوسط ​​61.6583 میلیون روبل افزایش می یابد.

برآورد ضریب = 2.2748 نشان می دهد که با مساوی بودن سایر موارد، میانگین تعداد بازدیدکنندگان به ازای هر هزار نفر افزایش می یابد. در روز، گردش مالی سالانه به طور متوسط ​​2.2748 میلیون روبل افزایش می یابد.

مثال 2.3.با استفاده از اطلاعات ارائه شده در جدول 2.2 و 2.4، پارامتر مدل اقتصادسنجی تک عاملی را برآورد کنید

ارزش مرکزی گردش مالی سالانه فروشگاه، میلیون روبل کجاست. - ارزش مرکزی میانگین روزانه تعداد بازدیدکنندگان از فروشگاه t-ام، هزار نفر. (نمونه های 2.1-2.2 را ببینید).

راه حل.اطلاعات اضافی مورد نیاز برای محاسبات در جدول ارائه شده است. 2.5.

جدول 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
میزان 48,4344 431,0566

با استفاده از فرمول (2.35) بدست می آوریم

بدین ترتیب،

http://www.cleverstudents.ru/articles/mnk.html

مثال.

داده های تجربی در مورد مقادیر متغیرها ایکسو دردر جدول آورده شده است.

در نتیجه تراز آنها، تابع به دست می آید

استفاده كردن روش حداقل مربع، این داده ها را با یک وابستگی خطی تقریب بزنید y=ax+b(پیدا کردن پارامترها آو ب). دریابید که کدام یک از دو خط (به معنای روش حداقل مربعات) داده های تجربی را بهتر تراز می کند. یک نقاشی بکشید.

راه حل.

در مثال ما n=5. برای راحتی محاسبه مقادیری که در فرمول های ضرایب مورد نیاز گنجانده شده است، جدول را پر می کنیم.

مقادیر سطر چهارم جدول با ضرب مقادیر سطر دوم در مقادیر سطر 3 برای هر عدد به دست می آید. من.

مقادیر ردیف پنجم جدول با مربع کردن مقادیر ردیف دوم برای هر عدد به دست می آید. من.

مقادیر در آخرین ستون جدول مجموع مقادیر در سراسر سطرها هستند.

برای یافتن ضرایب از فرمول روش حداقل مربعات استفاده می کنیم آو ب. مقادیر مربوطه را از آخرین ستون جدول در آنها جایگزین می کنیم:

از این رو، y = 0.165x+2.184- خط مستقیم تقریبی مورد نظر.

باقی مانده است که بفهمیم کدام یک از خطوط y = 0.165x+2.184یا داده های اصلی را بهتر تقریب می کند، یعنی با استفاده از روش حداقل مربعات تخمین می زند.

اثبات

به طوری که وقتی پیدا شد آو بتابع کوچکترین مقدار را می گیرد، لازم است که در این مرحله ماتریس شکل درجه دوم دیفرانسیل مرتبه دوم برای تابع باشد. مثبت قطعی بود بیایید آن را نشان دهیم.

دیفرانسیل مرتبه دوم به شکل زیر است:

به این معنا که

بنابراین، ماتریس فرم درجه دوم دارای فرم است

و مقادیر عناصر به آن بستگی ندارد آو ب.

اجازه دهید نشان دهیم که ماتریس مثبت قطعی است. برای انجام این کار، مینورهای زاویه ای باید مثبت باشند.

مینور زاویه ای مرتبه اول . نابرابری سخت است، از نقاط

  • آموزش

معرفی

من یک ریاضی دان و برنامه نویس هستم. بزرگترین جهشی که در حرفه ام انجام دادم زمانی بود که یاد گرفتم بگویم: "من هیچی نمیفهمم!"حالا خجالت نمی کشم به مرشد علم بگویم که برای من سخنرانی می کند، من نمی فهمم که آن بزرگوار به من چه می گوید. و خیلی سخته بله، اعتراف به نادانی خود سخت و شرم آور است. چه کسی دوست دارد اعتراف کند که اصول چیزی را نمی داند؟ با توجه به حرفه ام، باید در تعداد زیادی سخنرانی و سخنرانی شرکت کنم، جایی که، اعتراف می کنم، در اکثر موارد می خواهم بخوابم زیرا چیزی نمی فهمم. اما من نمی فهمم زیرا مشکل بزرگ وضعیت فعلی علم در ریاضیات نهفته است. فرض بر این است که همه شنوندگان کاملاً با تمام زمینه های ریاضیات آشنا هستند (که پوچ است). اعتراف به اینکه نمی دانید مشتق چیست (در مورد چیستی آن کمی بعد صحبت خواهیم کرد) شرم آور است.

اما یاد گرفتم بگویم که نمی دانم ضرب چیست. بله، من نمی دانم جبر فرعی بر جبر دروغ چیست. بله، من نمی دانم چرا معادلات درجه دوم در زندگی مورد نیاز است. به هر حال، اگر مطمئن هستید که می دانید، پس ما باید در مورد آن صحبت کنیم! ریاضیات یک سری ترفند است. ریاضیدانان سعی می کنند مردم را گیج و مرعوب کنند. جایی که هیچ سردرگمی وجود ندارد، شهرت و اقتدار وجود ندارد. بله، صحبت کردن به زبانی تا حد امکان انتزاعی معتبر است، که کاملا مزخرف است.

آیا می دانید مشتق چیست؟ به احتمال زیاد در مورد حد نسبت اختلاف به من خواهید گفت. در سال اول ریاضیات و مکانیک در دانشگاه ایالتی سن پترزبورگ، ویکتور پتروویچ خاوین به من گفت مشخصمشتق به عنوان ضریب اولین جمله از سری تیلور تابع در یک نقطه (این یک ژیمناستیک جداگانه برای تعیین سری تیلور بدون مشتقات بود). من مدت زیادی به این تعریف خندیدم تا اینکه بالاخره فهمیدم در مورد چیست. مشتق چیزی نیست جز یک اندازه گیری ساده از شباهت تابعی که ما متمایز می کنیم با تابع y=x, y=x^2, y=x^3.

اکنون این افتخار را دارم که برای دانشجویانی که می ترسدریاضیات اگر از ریاضی می ترسید ما در همین مسیر هستیم. به محض اینکه سعی کردید متنی را بخوانید و به نظرتان رسید که بیش از حد پیچیده است، بدانید که آن متن بد نوشته شده است. من ادعا می کنم که هیچ حوزه ای از ریاضیات وجود ندارد که بدون از دست دادن دقت، "روی انگشتان" مورد بحث قرار نگیرد.

تکلیف برای آینده نزدیک: من به دانش آموزانم وظیفه دادم تا بفهمند تنظیم کننده درجه دوم خطی چیست. خجالتی نباشید، سه دقیقه از زندگی خود را صرف کنید و پیوند را دنبال کنید. اگر چیزی متوجه نشدید، پس ما در همان مسیر هستیم. من (یک ریاضیدان-برنامه نویس حرفه ای) هم چیزی نفهمیدم. و من به شما اطمینان می دهم، می توانید این را "روی انگشتان خود" بفهمید. در حال حاضر نمی‌دانم چیست، اما به شما اطمینان می‌دهم که می‌توانیم آن را کشف کنیم.

بنابراین، اولین سخنرانی ای که قرار است برای شاگردانم داشته باشم بعد از اینکه آنها با وحشت به سمت من می آیند و می گویند که تنظیم کننده خطی-مربع چیز وحشتناکی است که هرگز در زندگی خود به آن مسلط نخواهید شد. روش های حداقل مربعات. آیا می توانید معادلات خطی را حل کنید؟ اگر در حال خواندن این متن هستید، به احتمال زیاد نه.

بنابراین، با توجه به دو نقطه (x0، y0)، (x1، y1)، به عنوان مثال، (1،1) و (3،2)، وظیفه یافتن معادله خطی است که از این دو نقطه می گذرد:

تصویر

این خط باید معادله ای مانند زیر داشته باشد:

در اینجا آلفا و بتا برای ما ناشناخته هستند، اما دو نقطه از این خط شناخته شده است:

می توانیم این معادله را به صورت ماتریسی بنویسیم:

در اینجا باید یک انحراف غزلی انجام دهیم: ماتریس چیست؟ ماتریس چیزی بیش از یک آرایه دو بعدی نیست. این روشی برای ذخیره سازی داده ها است؛ هیچ معانی دیگری نباید به آن ضمیمه شود. این دقیقاً به ما بستگی دارد که چگونه یک ماتریس خاص را تفسیر کنیم. من به صورت دوره ای آن را به عنوان یک نگاشت خطی، به صورت دوره ای به عنوان یک فرم درجه دوم، و گاهی اوقات به سادگی به عنوان مجموعه ای از بردارها تفسیر می کنم. این همه در چارچوب روشن خواهد شد.

بیایید ماتریس های بتنی را با نمایش نمادین آنها جایگزین کنیم:

سپس (آلفا، بتا) را می توان به راحتی پیدا کرد:

به طور خاص برای داده های قبلی ما:

که به معادله خطی که از نقاط (1،1) و (3،2) می گذرد، منجر می شود:

خوب، اینجا همه چیز روشن است. بیایید معادله خط عبوری را پیدا کنیم سهنقاط: (x0,y0)، (x1,y1) و (x2,y2):

اوه اوه، اما ما سه معادله برای دو مجهول داریم! یک ریاضیدان استاندارد خواهد گفت که هیچ راه حلی وجود ندارد. برنامه نویس چه خواهد گفت؟ و ابتدا سیستم معادلات قبلی را به شکل زیر بازنویسی می کند:

در مورد ما، بردارهای i، j، b سه بعدی هستند، بنابراین (در حالت کلی) هیچ راه حلی برای این سیستم وجود ندارد. هر بردار (alpha\*i + beta\*j) در صفحه ای قرار دارد که توسط بردارهای (i, j) پوشانده شده است. اگر b به این صفحه تعلق نداشته باشد، هیچ راه حلی وجود ندارد (برابری را نمی توان در معادله به دست آورد). چه باید کرد؟ بیایید به دنبال مصالحه باشیم. بیایید نشان دهیم e (آلفا، بتا)دقیقا چقدر به برابری دست نیافته ایم:

و ما سعی خواهیم کرد این خطا را به حداقل برسانیم:

چرا مربع؟

ما نه تنها به دنبال حداقل هنجار، بلکه به دنبال حداقل مربع هنجار هستیم. چرا؟ حداقل نقطه به خودی خود منطبق است، و مربع یک تابع صاف می دهد (یک تابع درجه دوم از آرگومان ها (آلفا، بتا))، در حالی که به سادگی طول یک تابع مخروطی شکل می دهد که در نقطه حداقل غیر قابل تمایز است. Brr. مربع راحت تر است.

بدیهی است که هنگام بردار خطا به حداقل می رسد همتعامد به صفحه ای که توسط بردارها پوشانده شده است منو j.

تصویر

به عبارت دیگر: ما به دنبال یک خط مستقیم هستیم که مجموع مجذور طول فواصل تمام نقاط تا این خط مستقیم حداقل باشد:

به روز رسانی: من در اینجا یک مشکل دارم، فاصله تا خط مستقیم باید به صورت عمودی اندازه گیری شود، نه با طرح ریزی متعامد. این مفسر درست می گوید.

تصویر

در کلمات کاملاً متفاوت (با دقت، به طور ضعیف رسمی شده است، اما باید واضح باشد): ما همه خطوط ممکن را بین همه جفت نقاط می گیریم و به دنبال خط متوسط ​​بین همه می گردیم:

تصویر

توضیح دیگر ساده است: ما یک فنر بین تمام نقاط داده (در اینجا ما سه نقطه داریم) و خط مستقیمی که به دنبال آن هستیم وصل می کنیم و خط مستقیم حالت تعادل دقیقاً همان چیزی است که به دنبال آن هستیم.

حداقل فرم درجه دوم

بنابراین، با توجه به این بردار بو صفحه ای که توسط بردارهای ستونی ماتریس پوشانده شده است آ(در این حالت (x0,x1,x2) و (1,1,1)) به دنبال بردار هستیم. هبا حداقل مربع طول بدیهی است که حداقل برای بردار قابل دستیابی است ه، متعامد به صفحه ای که توسط بردارهای ستون ماتریس پوشانده شده است آ:

به عبارت دیگر، ما به دنبال یک بردار x=(آلفا، بتا) هستیم که:

به شما یادآوری کنم که این بردار x=(آلفا، بتا) حداقل تابع درجه دوم ||e(آلفا، بتا)||^2 است:

در اینجا یادآوری این نکته مفید است که ماتریس را می توان به صورت یک فرم درجه دوم نیز تفسیر کرد، برای مثال، ماتریس هویت ((1,0),(0,1)) را می توان به عنوان یک تابع x^2 + y^ تفسیر کرد. 2:

فرم درجه دوم

تمام این ژیمناستیک با نام رگرسیون خطی شناخته می شود.

معادله لاپلاس با شرط مرزی دیریکله

اکنون ساده ترین کار واقعی: یک سطح مثلثی مشخص وجود دارد، لازم است آن را صاف کنید. به عنوان مثال، بیایید یک مدل از چهره من را بارگذاری کنیم:

commit اصلی موجود است. برای به حداقل رساندن وابستگی‌های خارجی، کد رندر نرم‌افزارم را که قبلاً روی Habré بود، گرفتم. برای حل یک سیستم خطی، من از OpenNL استفاده می کنم، این یک حل کننده عالی است، با این حال، نصب آن بسیار دشوار است: شما باید دو فایل (.h+.c) را در پوشه پروژه خود کپی کنید. همه صاف کردن با کد زیر انجام می شود:

برای (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = faces[i]; برای (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

مختصات X، Y و Z قابل جدا شدن هستند، من آنها را جداگانه صاف می کنم. یعنی من سه سیستم معادلات خطی را حل می کنم که هر کدام تعدادی متغیر برابر با تعداد رئوس مدل من دارند. n سطر اول ماتریس A فقط یک 1 در هر سطر دارند و n سطر اول بردار b مختصات مدل اصلی را دارند. یعنی یک فنر بین موقعیت جدید راس و موقعیت قدیمی راس می بندم - جدیدها نباید خیلی از موقعیت های قدیمی دور شوند.

تمام ردیف‌های بعدی ماتریس A (faces.size()*3 = تعداد یال‌های همه مثلث‌ها در مش) یک رخداد 1 و یک وقوع 1- دارند که بردار b دارای مولفه‌های صفر در مقابل است. این به این معنی است که من یک فنر در هر لبه مش مثلثی خود قرار می دهم: همه لبه ها سعی می کنند راس یکسانی را با نقطه شروع و پایان خود بدست آورند.

بار دیگر: همه رئوس متغیر هستند و نمی توانند از موقعیت اصلی خود دور شوند، اما در عین حال سعی می کنند شبیه یکدیگر شوند.

نتیجه این است:

همه چیز خوب خواهد بود، مدل واقعا صاف است، اما از لبه اصلی خود فاصله گرفته است. بیایید کد را کمی تغییر دهیم:

برای (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

در ماتریس A، برای رئوس هایی که روی لبه هستند، یک ردیف از دسته v_i = verts[i][d] اضافه نمی کنم، بلکه 1000*v_i = 1000*verts[i][d] اضافه می کنم. چه چیزی را تغییر می دهد؟ و این شکل درجه دوم خطای ما را تغییر می دهد. اکنون یک انحراف از بالا در لبه نه یک واحد، مانند قبل، بلکه 1000 * 1000 واحد هزینه خواهد داشت. یعنی فنر قوی تری را روی رئوس انتهایی آویزان کردیم، راه حل ترجیح می دهد بقیه را قوی تر بکشد. نتیجه این است:

بیایید قدرت فنر بین رئوس را دو برابر کنیم:
nlCoefficient(face[j], 2); nlCoefficient(face[(j+1)%3], -2);

منطقی است که سطح صاف تر شده است:

و حالا حتی صد برابر قوی تر:

این چیه؟ تصور کنید که یک حلقه سیمی را در آب صابون فرو برده ایم. در نتیجه، فیلم صابونی به دست آمده سعی می کند تا حد ممکن کمترین انحنا را داشته باشد و لبه را لمس کند - حلقه سیمی ما. این دقیقاً همان چیزی است که با تعمیر حاشیه و درخواست سطح صاف در داخل به دست آوردیم. تبریک می گویم، ما به تازگی معادله لاپلاس را با شرایط مرزی دیریکله حل کردیم. باحال به نظر می رسد؟ اما در واقعیت، شما فقط باید یک سیستم معادلات خطی را حل کنید.

معادله پواسون

بیایید یک نام جالب دیگر را به یاد بیاوریم.

بیایید بگوییم که من تصویری مانند این دارم:

برای همه خوب به نظر می رسد، اما من صندلی را دوست ندارم.

عکس رو نصف میکنم:



و من یک صندلی را با دستان خود انتخاب می کنم:

سپس هر چیزی که در ماسک سفید است را به سمت چپ تصویر می کشم و در همان زمان در سراسر تصویر می گویم که تفاوت بین دو پیکسل همسایه باید برابر با تفاوت بین دو پیکسل همسایه سمت راست باشد. تصویر:

برای (int i=0; i

نتیجه این است:

کد و تصاویر موجود است

روش حداقل مربعات معمولی (OLS).- یک روش ریاضی که برای حل مسائل مختلف استفاده می شود، بر اساس به حداقل رساندن مجموع مجذور انحرافات توابع خاص از متغیرهای مورد نظر. می توان از آن برای "حل" معادلات بیش از حد تعیین شده (زمانی که تعداد معادلات از تعداد مجهولات بیشتر است)، برای یافتن راه حل در مورد سیستم های غیرخطی معادلات معمولی (نه بیش از حد تعیین شده)، برای تقریبی مقادیر نقطه ای برخی استفاده کرد. تابع. OLS یکی از روش های اساسی تحلیل رگرسیون برای تخمین پارامترهای ناشناخته مدل های رگرسیون از داده های نمونه است.

یوتیوب دایره المعارفی

    1 / 5

    ✪ روش حداقل مربعات. موضوع

    ✪ Mitin I.V. - پردازش نتایج فیزیکی. آزمایش - روش حداقل مربعات (سخنرانی 4)

    ✪ روش حداقل مربعات، درس 1/2. تابع خطی

    ✪ اقتصاد سنجی سخنرانی 5. روش حداقل مربعات

    ✪ روش حداقل مربعات. پاسخ ها

    زیرنویس

داستان

تا اوایل قرن نوزدهم. دانشمندان قوانین خاصی برای حل یک سیستم معادلات که در آن تعداد مجهولات کمتر از تعداد معادلات باشد، نداشتند. تا آن زمان از تکنیک‌های خصوصی استفاده می‌شد که به نوع معادلات و هوشمندی ماشین‌حساب‌ها بستگی داشت و بنابراین ماشین‌حساب‌های مختلف بر اساس داده‌های مشاهداتی یکسان به نتایج متفاوتی می‌رسیدند. گاوس (1795) اولین کسی بود که از این روش استفاده کرد و لژاندر (1805) به طور مستقل آن را با نام مدرن خود (فرانسوی) کشف و منتشر کرد. Méthode des moindres quarrés) . لاپلاس این روش را با نظریه احتمال مرتبط کرد و ریاضیدان آمریکایی آدرین (1808) کاربردهای نظری احتمالی آن را در نظر گرفت. این روش با تحقیقات بیشتر توسط انکه، بسل، هانسن و دیگران گسترش یافت و بهبود یافت.

ماهیت روش حداقل مربعات

اجازه دهید x (\displaystyle x)- کیت n (\displaystyle n)متغیرهای ناشناخته (پارامترها) f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- مجموعه ای از توابع از این مجموعه از متغیرها. وظیفه انتخاب چنین مقادیری است x (\displaystyle x)، به طوری که مقادیر این توابع تا حد امکان به مقادیر خاصی نزدیک شوند y i (\displaystyle y_(i)). اساساً ما در مورد "حل" یک سیستم معادلات بیش از حد تعیین شده صحبت می کنیم f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m)در معنای مشخص شده حداکثر نزدیکی قسمت های چپ و راست سیستم. ماهیت روش حداقل مربعات انتخاب مجموع انحرافات مجذور ضلع چپ و راست است. | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). بنابراین، ماهیت MNC را می توان به صورت زیر بیان کرد:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\پیکان راست \دقیقه _(x)).

اگر سیستم معادلات دارای راه حل باشد، حداقل مجموع مربعات برابر با صفر خواهد بود و جواب های دقیق سیستم معادلات را می توان به صورت تحلیلی یا مثلاً با استفاده از روش های مختلف بهینه سازی عددی یافت. اگر سیستم بیش از حد تعیین شده باشد، یعنی به زبان ساده، تعداد معادلات مستقل از تعداد متغیرهای مورد نظر بیشتر باشد، سیستم راه‌حل دقیقی ندارد و روش حداقل مربعات به ما اجازه می‌دهد تا برخی از بردارهای "بهینه" را پیدا کنیم. x (\displaystyle x)به معنای حداکثر نزدیکی بردارها y (\displaystyle y)و f (x) (\displaystyle f(x))یا حداکثر نزدیکی بردار انحراف e (\displaystyle e)به صفر (نزدیک به معنای فاصله اقلیدسی درک می شود).

مثال - سیستم معادلات خطی

به طور خاص، روش حداقل مربعات را می توان برای "حل" یک سیستم معادلات خطی استفاده کرد

A x = b (\displaystyle Ax=b),

جایی که A (\displaystyle A)ماتریس اندازه مستطیلی m × n، m > n (\displaystyle m\times n,m>n)(یعنی تعداد ردیف های ماتریس A بیشتر از تعداد متغیرهای جستجو شده است).

در حالت کلی، چنین سیستم معادلاتی هیچ راه حلی ندارد. بنابراین، این سیستم را می توان تنها به معنای انتخاب چنین بردار "حل" کرد x (\displaystyle x)برای به حداقل رساندن "فاصله" بین بردارها A x (\displaystyle Axe)و b (\displaystyle b). برای این کار می توانید معیار کمینه سازی مجذور مجذورات اختلاف بین سمت چپ و راست معادلات سیستم را اعمال کنید. (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\right arrow \min ). به راحتی می توان نشان داد که حل این مسئله کمینه سازی منجر به حل سیستم معادلات زیر می شود

A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (T)b).

OLS در تحلیل رگرسیون (تقریبا داده ها)

بذار باشه n (\displaystyle n)مقادیر برخی از متغیرها y (\displaystyle y)(این می تواند نتایج مشاهدات، آزمایش ها و غیره باشد) و متغیرهای مرتبط x (\displaystyle x). چالش این است که اطمینان حاصل شود که رابطه بین y (\displaystyle y)و x (\displaystyle x)تقریبی توسط یک تابع شناخته شده در برخی از پارامترهای ناشناخته b (\displaystyle b)، یعنی در واقع بهترین مقادیر پارامترها را پیدا کنید b (\displaystyle b)، با حداکثر تقریب مقادیر f (x , b) (\displaystyle f(x,b))به ارزش های واقعی y (\displaystyle y). در واقع، این به حالت "حل" یک سیستم معادلات بیش از حد تعیین شده با توجه به b (\displaystyle b):

F (xt، b) = y t، t = 1، …، n (\displaystyle f(x_(t)،b)=y_(t)،t=1،\ldots،n).

در تحلیل رگرسیون و به ویژه در اقتصاد سنجی، از مدل های احتمالی وابستگی بین متغیرها استفاده می شود.

Y t = f (xt , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

جایی که ε t (\displaystyle \varepsilon _(t))- باصطلاح خطاهای تصادفیمدل ها.

بر این اساس، انحراف از مقادیر مشاهده شده y (\displaystyle y)از مدل f (x , b) (\displaystyle f(x,b))قبلاً در خود مدل فرض شده است. ماهیت روش حداقل مربعات (معمولی، کلاسیک) یافتن چنین پارامترهایی است b (\displaystyle b)، که در آن مجموع انحرافات مجذور (خطاها، برای مدل های رگرسیون اغلب آنها را باقیمانده رگرسیون می نامند) e t (\displaystyle e_(t))حداقل خواهد بود:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

جایی که R S S (\displaystyle RSS)- انگلیسی مجموع مربعات باقیمانده به صورت زیر تعریف می شود:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\جمع _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

در حالت کلی، این مشکل را می توان با روش های بهینه سازی عددی (به حداقل رساندن) حل کرد. در این مورد آنها صحبت می کنند حداقل مربعات غیر خطی(NLS یا NLLS - حداقل مربعات غیر خطی انگلیسی). در بسیاری از موارد می توان به یک راه حل تحلیلی دست یافت. برای حل مشکل کمینه سازی، باید نقاط ثابت تابع را پیدا کرد R S (b) (\displaystyle RSS(b))، آن را با توجه به پارامترهای ناشناخته متمایز می کند b (\displaystyle b)، معادل سازی مشتقات با صفر و حل سیستم معادلات حاصل:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t)،b))(\frac (\جزئی f(x_(t)،b))(\جزئی b))=0).

OLS در مورد رگرسیون خطی

بگذارید وابستگی رگرسیون خطی باشد:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

اجازه دهید yبردار ستون مشاهدات متغیر مورد توضیح است و X (\displaystyle X)- این (n × k) (\displaystyle ((n\times k)))-ماتریس مشاهدات عامل (ردیف های ماتریس بردار مقادیر عامل در یک مشاهده معین هستند، ستون ها بردار مقادیر یک عامل معین در همه مشاهدات هستند). نمایش ماتریسی مدل خطی به شکل زیر است:

y = X b + ε (\displaystyle y=Xb+\varepsilon).

سپس بردار تخمین های متغیر توضیح داده شده و بردار باقیمانده های رگرسیون برابر خواهد بود.

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

بر این اساس مجموع مجذورهای باقیمانده رگرسیون برابر خواهد بود

R S S = e T e = (y - X b) T (y - X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

تمایز این تابع با توجه به بردار پارامترها b (\displaystyle b)و با معادل سازی مشتقات با صفر، سیستمی از معادلات را به دست می آوریم (به صورت ماتریسی):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

در شکل ماتریس رمزگشایی شده، این سیستم معادلات به شکل زیر است:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t ∑ x t ∑ x t ∑ x t 3 x 1 x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 x t ∑ x y ∑ x t 3 y t ⋮ ∑ x t k y t), (\displaystyle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\ جمع x_(t1)x_(tk)\\\مجموع x_(t2)x_(t1)&\مجموع x_(t2)^(2)&\ جمع x_(t2)x_(t3)&\ldots &\ مجموع x_(t2)x_(tk)\\\مجموع x_(t3)x_(t1)&\مجموع x_(t3)x_(t2)&\مجموع x_(t3)^(2)&\ldots &\ جمع x_ (t3)x_(tk)\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_(k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \ جمع x_(t3)y_(t)\\\vdots \\\ جمع x_(tk)y_(t)\\\ end (pmatrix))که در آن تمام مجموع بر روی تمام مقادیر معتبر گرفته می شود t (\displaystyle t).

اگر یک ثابت در مدل گنجانده شود (طبق معمول)، پس x t 1 = 1 (\displaystyle x_(t1)=1)جلوی همه t (\displaystyle t)بنابراین، در گوشه سمت چپ بالای ماتریس سیستم معادلات تعداد مشاهدات وجود دارد. n (\displaystyle n)، و در عناصر باقی مانده از ردیف اول و ستون اول - به سادگی مجموع مقادیر متغیر: ∑ x t j (\displaystyle \sum x_(tj))و اولین عنصر سمت راست سیستم است ∑ y t (\displaystyle \ جمع y_(t)).

حل این سیستم معادلات فرمول کلی را برای برآورد حداقل مربعات برای یک مدل خطی به دست می دهد:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T )X)^(-1)X^(T)y=\چپ((\frac (1)(n))X^(T)X\راست)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

برای اهداف تحلیلی، آخرین نمایش این فرمول مفید است (در سیستم معادلات هنگام تقسیم بر n، میانگین های حسابی به جای مجموع ظاهر می شود). اگر در یک مدل رگرسیونی داده ها متمرکز شده است، سپس در این نمایش ماتریس اول به معنای ماتریس کوواریانس نمونه عوامل است و دومی بردار کوواریانس عوامل با متغیر وابسته است. اگر علاوه بر این داده ها نیز باشد نرمال شدهبه MSE (یعنی در نهایت استاندارد شده، سپس ماتریس اول به معنای ماتریس همبستگی نمونه عوامل است، بردار دوم - بردار همبستگی نمونه عوامل با متغیر وابسته.

ویژگی مهم تخمین OLS برای مدل ها با ثابت- خط رگرسیون ساخته شده از مرکز ثقل داده های نمونه می گذرد، یعنی برابری برآورده می شود:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\کلاه (ب))_(j)(\bar (x))_(j)).

به طور خاص، در حالت شدید، زمانی که تنها رگرسیون یک ثابت است، متوجه می‌شویم که تخمین OLS تنها پارامتر (خود ثابت) برابر است با مقدار متوسط ​​متغیر توضیح داده شده. یعنی، میانگین حسابی، که به دلیل خواص خوبش از قوانین اعداد بزرگ شناخته می شود، همچنین یک تخمین حداقل مربعات است - این معیار حداقل مجموع مجذور انحرافات از آن را برآورده می کند.

ساده ترین موارد خاص

در مورد رگرسیون خطی زوجی y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t))، هنگامی که وابستگی خطی یک متغیر به متغیر دیگر تخمین زده می شود، فرمول های محاسبه ساده می شوند (شما می توانید بدون جبر ماتریسی انجام دهید). سیستم معادلات به شکل زیر است:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline (xy))\\\end (pmatrix))).

از اینجا به راحتی می توان تخمین ضرایب را یافت:

(b ^ = Cov⁡ (x, y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2, a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(موارد) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2)))،\\( \hat (a))=(\bar (y))-b(\bar (x)).\end (موارد)))

علیرغم اینکه در حالت کلی مدل های دارای ثابت ارجح هستند، در برخی موارد از ملاحظات نظری مشخص می شود که یک ثابت a (\displaystyle a)باید برابر با صفر باشد. به عنوان مثال، در فیزیک رابطه بین ولتاژ و جریان است U = I ⋅ R (\displaystyle U=I\cdot R); هنگام اندازه گیری ولتاژ و جریان، برآورد مقاومت ضروری است. در این مورد، ما در مورد مدل صحبت می کنیم y = b x (\displaystyle y=bx). در این حالت به جای سیستم معادلات، یک معادله واحد داریم

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

بنابراین فرمول تخمین ضریب منفرد دارای فرم می باشد

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\ جمع _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\ overline (x^(2)) ))).

مورد یک مدل چند جمله ای

اگر داده ها با تابع رگرسیون چند جمله ای یک متغیر برازش داشته باشند f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i))، سپس درک درجات x i (\displaystyle x^(i))به عنوان عوامل مستقل برای هر یک من (\displaystyle i)تخمین پارامترهای مدل بر اساس فرمول کلی برای تخمین پارامترهای یک مدل خطی امکان پذیر است. برای این کار کافی است در فرمول کلی در نظر بگیریم که با چنین تعبیری x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j))و x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). در نتیجه، معادلات ماتریسی در این مورد به شکل زیر خواهد بود:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x i 2 … ∑ m x i k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 … ∑ n x t k + 1 … ∑ ∑ n x t n y t ∑ n x t y t ⋮ ∑ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\ جمع \حدود _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ sum \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).)

ویژگی های آماری برآوردگرهای OLS

اول از همه، متذکر می شویم که برای مدل های خطی، برآوردهای OLS، تخمین های خطی هستند، همانطور که از فرمول بالا آمده است. برای تخمین های OLS بی طرفانه، انجام مهم ترین شرط تحلیل رگرسیون لازم و کافی است: انتظار ریاضی یک خطای تصادفی، مشروط به عوامل، باید برابر با صفر باشد. این شرط، به ویژه، برآورده می شود اگر

  1. انتظار ریاضی خطاهای تصادفی صفر است و
  2. عوامل و خطاهای تصادفی متغیرهای مستقل-تصادفی هستند.

شرط دوم - شرط برون زایی عوامل - اساسی است. اگر این ویژگی برآورده نشود، می توانیم فرض کنیم که تقریباً هر تخمینی بسیار رضایت بخش نخواهد بود: آنها حتی سازگار نخواهند بود (یعنی حتی حجم بسیار زیادی از داده ها به ما امکان نمی دهد در این مورد تخمین های با کیفیت بالا به دست آوریم. ). در مورد کلاسیک، فرض قوی تری در مورد قطعیت عوامل ایجاد می شود، در مقابل یک خطای تصادفی، که به طور خودکار به این معنی است که شرط برون زایی برآورده شده است. در حالت کلی، برای سازگاری برآوردها، ارضای شرط برون زایی همراه با همگرایی ماتریس کافی است. V x (\displaystyle V_(x))به برخی از ماتریس های غیر منفرد با افزایش حجم نمونه تا بی نهایت.

برای اینکه، علاوه بر سازگاری و بی طرفی، برآوردهای حداقل مربعات (معمولی) نیز مؤثر باشند (بهترین در کلاس تخمین های بی طرف خطی)، ویژگی های اضافی خطای تصادفی باید رعایت شود:

این مفروضات را می توان برای ماتریس کوواریانس بردار خطای تصادفی فرموله کرد V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

مدل خطی که این شرایط را برآورده کند نامیده می شود کلاسیک. تخمین‌های OLS برای رگرسیون خطی کلاسیک، بی‌طرفانه، سازگار و مؤثرترین تخمین‌ها در کلاس همه تخمین‌های بی‌طرفانه خطی هستند (در ادبیات انگلیسی گاهی اوقات از این مخفف استفاده می‌شود. آبی (بهترین برآوردگر خطی بی طرفانه) - بهترین تخمین بی طرفانه خطی. در ادبیات روسی، قضیه گاوس-مارکوف بیشتر مورد استناد قرار می گیرد). همانطور که به راحتی می توان نشان داد، ماتریس کوواریانس بردار برآورد ضرایب برابر با:

V (b ^ O L S) = σ 2 (X T X) - 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

کارایی به این معنی است که این ماتریس کوواریانس "حداقل" است (هر ترکیب خطی ضرایب، و به ویژه خود ضرایب، حداقل واریانس را دارند)، یعنی در کلاس برآوردگرهای خطی بی طرفانه، برآوردگرهای OLS بهترین هستند. عناصر مورب این ماتریس - واریانس برآورد ضرایب - پارامترهای مهم کیفیت برآوردهای به دست آمده هستند. با این حال، محاسبه ماتریس کوواریانس ممکن نیست زیرا واریانس خطای تصادفی ناشناخته است. می توان ثابت کرد که یک تخمین بی طرفانه و سازگار (برای یک مدل خطی کلاسیک) از واریانس خطاهای تصادفی کمیت است:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

با جایگزینی این مقدار در فرمول ماتریس کوواریانس، تخمینی از ماتریس کوواریانس بدست می آوریم. برآوردهای حاصل نیز بی‌طرفانه و سازگار هستند. همچنین مهم است که تخمین واریانس خطا (و در نتیجه واریانس ضرایب) و تخمین پارامترهای مدل، متغیرهای تصادفی مستقل باشند، که امکان به دست آوردن آمار آزمون برای آزمون فرضیه‌های مربوط به ضرایب مدل را فراهم می‌کند.

لازم به ذکر است که اگر مفروضات کلاسیک برآورده نشود، تخمین پارامتر OLS کارآمدترین نیست و در جایی که W (\displaystyle W)یک ماتریس وزن قطعی مثبت متقارن است. حداقل مربعات متعارف یک مورد خاص از این رویکرد است که در آن ماتریس وزن متناسب با ماتریس هویت است. همانطور که مشخص است، برای ماتریس های متقارن (یا عملگرها) یک بسط وجود دارد W = P T P (\displaystyle W=P^(T)P). بنابراین، تابع مشخص شده را می توان به صورت زیر نشان داد e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *))، یعنی این تابع را می توان به عنوان مجموع مربعات برخی «باقیمانده» تبدیل شده نشان داد. بنابراین، ما می توانیم یک کلاس از روش های حداقل مربعات - روش های LS (کمترین مربع) را تشخیص دهیم.

ثابت شده است (قضیه آیتکن) که برای یک مدل رگرسیون خطی تعمیم یافته (که در آن هیچ محدودیتی بر روی ماتریس کوواریانس خطاهای تصادفی اعمال نمی شود)، موثرترین (در کلاس تخمین های بی طرف خطی) به اصطلاح تخمین ها هستند. حداقل مربعات تعمیم یافته (GLS - حداقل مربعات تعمیم یافته)- روش LS با ماتریس وزنی برابر با ماتریس کوواریانس معکوس خطاهای تصادفی: W = V ε - 1 (\displaystyle W=V_(\varepsilon)^(-1)).

می توان نشان داد که فرمول تخمین GLS پارامترهای یک مدل خطی دارای فرم است

B ^ G L S = (X T V - 1 X) - 1 X T V - 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

ماتریس کوواریانس این برآوردها بر این اساس برابر خواهد بود

V (b ^ G L S) = (X T V - 1 X) - 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

در واقع، ماهیت OLS در یک تبدیل خاص (خطی) (P) از داده های اصلی و استفاده از OLS معمولی برای داده های تبدیل شده نهفته است. هدف از این تبدیل این است که برای داده های تبدیل شده، خطاهای تصادفی از قبل مفروضات کلاسیک را برآورده می کنند.

OLS وزنی

در مورد ماتریس وزن مورب (و در نتیجه ماتریس کوواریانس خطاهای تصادفی)، به اصطلاح حداقل مربعات وزنی (WLS) را داریم. در این حالت، مجموع وزنی مجذورهای باقیمانده مدل به حداقل می رسد، یعنی هر مشاهده یک "وزن" دریافت می کند که با واریانس خطای تصادفی در این مشاهده نسبت معکوس دارد: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma_(t)^(2)))). در واقع، داده ها با وزن دادن به مشاهدات (تقسیم بر مقداری متناسب با انحراف استاندارد تخمینی خطاهای تصادفی) تبدیل می شوند و OLS معمولی برای داده های وزنی اعمال می شود.

ISBN 978-5-7749-0473-0 .

  • اقتصاد سنجی. کتاب درسی / ویرایش. Eliseeva I.I. - ویرایش دوم. - م.: امور مالی و آمار، 2006. - 576 ص. - ISBN 5-279-02786-3.
  • الکساندروا N.V.تاریخچه اصطلاحات، مفاهیم، ​​نمادهای ریاضی: فرهنگ لغت-کتاب مرجع. - چاپ سوم - M.: LKI، 2008. - 248 p. - ISBN 978-5-382-00839-4. I.V. Mitin، Rusakov V.S. تجزیه و تحلیل و پردازش داده های تجربی - چاپ پنجم - 24 ص.
  • اجازه دهید تابع را با یک چند جمله ای درجه 2 تقریب کنیم. برای انجام این کار، ضرایب سیستم نرمال معادلات را محاسبه می کنیم:

    , ,

    بیایید یک سیستم حداقل مربعات معمولی ایجاد کنیم که به شکل زیر است:

    راه حل سیستم به راحتی پیدا می شود:،، .

    بنابراین، یک چند جمله ای درجه 2 یافت می شود: .

    اطلاعات نظری

    بازگشت به صفحه<Введение в вычислительную математику. Примеры>

    مثال 2. یافتن درجه بهینه یک چند جمله ای

    بازگشت به صفحه<Введение в вычислительную математику. Примеры>

    مثال 3. استخراج یک سیستم نرمال معادلات برای یافتن پارامترهای وابستگی تجربی.

    اجازه دهید سیستمی از معادلات را برای تعیین ضرایب و توابع استخراج کنیم ، که تقریب ریشه میانگین مربع یک تابع معین را توسط نقاط انجام می دهد. بیایید یک تابع بسازیم و شرط افراطی لازم برای آن را بنویسید:

    سپس سیستم عادی به شکل زیر در می آید:

    ما یک سیستم خطی معادلات برای پارامترهای مجهول به دست آوردیم که به راحتی قابل حل است.

    اطلاعات نظری

    بازگشت به صفحه<Введение в вычислительную математику. Примеры>

    مثال.

    داده های تجربی در مورد مقادیر متغیرها ایکسو دردر جدول آورده شده است.

    در نتیجه تراز آنها، تابع به دست می آید

    استفاده كردن روش حداقل مربع، این داده ها را با یک وابستگی خطی تقریب بزنید y=ax+b(پیدا کردن پارامترها آو ب). دریابید که کدام یک از دو خط (به معنای روش حداقل مربعات) داده های تجربی را بهتر تراز می کند. یک نقاشی بکشید.

    ماهیت روش حداقل مربعات (LSM).

    وظیفه یافتن ضرایب وابستگی خطی است که در آن تابع دو متغیر است آو بکمترین مقدار را می گیرد. یعنی داده شده آو بمجموع انحرافات مجذور داده های تجربی از خط مستقیم یافت شده کوچکترین خواهد بود. این نکته کل روش حداقل مربعات است.

    بنابراین، حل مثال به یافتن حداکثر یک تابع از دو متغیر ختم می شود.

    استخراج فرمول برای یافتن ضرایب.

    یک سیستم دو معادله با دو مجهول گردآوری و حل می شود. یافتن مشتقات جزئی یک تابع توسط متغیرها آو ب، این مشتقات را با صفر برابر می کنیم.

    ما سیستم معادلات حاصل را با استفاده از هر روشی حل می کنیم (مثلا با روش جایگزینییا روش کرامر) و فرمول هایی برای یافتن ضرایب با استفاده از روش حداقل مربعات (LSM) بدست آورید.

    داده شده آو بتابع کمترین مقدار را می گیرد. اثبات این حقیقت در زیر در متن انتهای صفحه آورده شده است.

    این کل روش حداقل مربعات است. فرمول برای یافتن پارامتر آشامل مجموع ، ، ، و پارامتر است n- مقدار داده های تجربی توصیه می کنیم مقادیر این مقادیر را جداگانه محاسبه کنید.

    ضریب ببعد از محاسبه پیدا شد آ.

    وقت آن است که نمونه اصلی را به خاطر بسپارید.

    راه حل.

    در مثال ما n=5. برای راحتی محاسبه مقادیری که در فرمول های ضرایب مورد نیاز گنجانده شده است، جدول را پر می کنیم.

    مقادیر سطر چهارم جدول با ضرب مقادیر سطر دوم در مقادیر سطر 3 برای هر عدد به دست می آید. من.

    مقادیر ردیف پنجم جدول با مربع کردن مقادیر ردیف دوم برای هر عدد به دست می آید. من.

    مقادیر در آخرین ستون جدول مجموع مقادیر در سراسر سطرها هستند.

    برای یافتن ضرایب از فرمول روش حداقل مربعات استفاده می کنیم آو ب. مقادیر مربوطه را از آخرین ستون جدول در آنها جایگزین می کنیم:

    از این رو، y = 0.165x+2.184- خط مستقیم تقریبی مورد نظر.

    باقی مانده است که بفهمیم کدام یک از خطوط y = 0.165x+2.184یا داده های اصلی را بهتر تقریب می کند، یعنی با استفاده از روش حداقل مربعات تخمین می زند.

    تخمین خطای روش حداقل مربعات.

    برای انجام این کار، باید مجموع انحرافات مجذور داده های اصلی را از این خطوط محاسبه کنید و ، یک مقدار کوچکتر مربوط به خطی است که داده های اصلی را به معنای روش حداقل مربعات بهتر تقریب می کند.

    از آن زمان، سپس مستقیم y = 0.165x+2.184داده های اصلی را بهتر تقریب می کند.

    تصویر گرافیکی روش حداقل مربعات (LS).

    همه چیز به وضوح در نمودارها قابل مشاهده است. خط قرمز خط مستقیم پیدا شده است y = 0.165x+2.184، خط آبی است ، نقطه های صورتی داده های اصلی هستند.

    چرا این مورد نیاز است، چرا این همه تقریب؟

    من شخصا از آن برای حل مشکلات هموارسازی داده ها، درون یابی و مشکلات برون یابی استفاده می کنم (در مثال اصلی ممکن است از آنها خواسته شود مقدار یک مقدار مشاهده شده را پیدا کنند. yدر x=3یا چه زمانی x=6با استفاده از روش حداقل مربعات). اما بعداً در بخش دیگری از سایت در مورد این موضوع بیشتر صحبت خواهیم کرد.

    بالای صفحه

    اثبات

    به طوری که وقتی پیدا شد آو بتابع کوچکترین مقدار را می گیرد، لازم است که در این مرحله ماتریس شکل درجه دوم دیفرانسیل مرتبه دوم برای تابع باشد. مثبت قطعی بود بیایید آن را نشان دهیم.

    دیفرانسیل مرتبه دوم به شکل زیر است:

    به این معنا که

    بنابراین، ماتریس فرم درجه دوم دارای فرم است

    و مقادیر عناصر به آن بستگی ندارد آو ب.

    اجازه دهید نشان دهیم که ماتریس مثبت قطعی است. برای انجام این کار، مینورهای زاویه ای باید مثبت باشند.

    مینور زاویه ای مرتبه اول . نابرابری سخت است زیرا نقاط با هم مطابقت ندارند. در ادامه به این موضوع اشاره خواهیم کرد.

    مینور زاویه ای مرتبه دوم

    این را ثابت کنیم به روش استقراء ریاضی

    نتیجه: مقادیر یافت شده آو ببا کوچکترین مقدار تابع مطابقت دارد بنابراین، پارامترهای مورد نیاز برای روش حداقل مربعات هستند.

    وقت ندارید آن را بفهمید؟
    یک راه حل سفارش دهید

    بالای صفحه

    توسعه پیش بینی با استفاده از روش حداقل مربعات. نمونه ای از راه حل مسئله

    برون یابی یک روش تحقیق علمی است که مبتنی بر انتشار روندهای گذشته و حال، الگوها و ارتباطات با توسعه آینده شی پیش بینی است. روش های برون یابی شامل روش میانگین متحرک، روش هموارسازی نمایی، روش حداقل مربعات.

    ذات روش حداقل مربعات شامل به حداقل رساندن مجموع انحرافات مربع بین مقادیر مشاهده شده و محاسبه شده است. مقادیر محاسبه شده با استفاده از معادله انتخاب شده - معادله رگرسیون پیدا می شود. هرچه فاصله بین مقادیر واقعی و مقادیر محاسبه شده کمتر باشد، پیش بینی بر اساس معادله رگرسیون دقیق تر است.

    تجزیه و تحلیل نظری از ماهیت پدیده مورد مطالعه، تغییری که در آن توسط یک سری زمانی منعکس می شود، به عنوان مبنایی برای انتخاب یک منحنی عمل می کند. گاهی اوقات ملاحظاتی در مورد ماهیت افزایش سطوح سریال مورد توجه قرار می گیرد. بنابراین، اگر رشد خروجی در یک پیشرفت حسابی انتظار می‌رود، هموارسازی در یک خط مستقیم انجام می‌شود. اگر معلوم شد که رشد در پیشرفت هندسی است، صاف کردن باید با استفاده از یک تابع نمایی انجام شود.

    فرمول کار برای روش حداقل مربعات : Y t+1 = a*X + b، جایی که t + 1 – دوره پیش بینی; Уt+1 - شاخص پیش بینی شده. a و b ضرایب هستند. X نماد زمان است.

    محاسبه ضرایب a و b با استفاده از فرمول های زیر انجام می شود:

    جایی که، Uf - مقادیر واقعی سری دینامیک؛ n - تعداد سطوح سری زمانی؛

    هموارسازی سری‌های زمانی با استفاده از روش حداقل مربعات، الگوی توسعه پدیده مورد مطالعه را منعکس می‌کند. در بیان تحلیلی یک روند، زمان به عنوان یک متغیر مستقل در نظر گرفته می شود و سطوح سری تابعی از این متغیر مستقل عمل می کنند.

    توسعه یک پدیده به این بستگی ندارد که چند سال از نقطه شروع آن گذشته باشد، بلکه به این بستگی دارد که چه عواملی بر توسعه آن تأثیر گذاشته اند، در چه جهتی و با چه شدتی. از اینجا مشخص می شود که توسعه یک پدیده در طول زمان نتیجه عمل این عوامل است.

    تعیین صحیح نوع منحنی، نوع وابستگی تحلیلی به زمان یکی از دشوارترین وظایف تحلیل پیش بینی است. .

    انتخاب نوع تابعی که روند را توصیف می کند، که پارامترهای آن با روش حداقل مربعات تعیین می شود، در بیشتر موارد به صورت تجربی و با ساخت تعدادی توابع و مقایسه آنها با یکدیگر بر اساس مقدار میانگین مربعات خطا، با فرمول محاسبه می شود:

    که در آن UV مقادیر واقعی سری دینامیک هستند. Ur - مقادیر محاسبه شده (صاف) سری دینامیک؛ n - تعداد سطوح سری زمانی؛ p - تعداد پارامترهای تعریف شده در فرمول های توصیف کننده روند (روند توسعه).

    معایب روش حداقل مربعات :

    • هنگام تلاش برای توصیف پدیده اقتصادی مورد مطالعه با استفاده از یک معادله ریاضی، پیش‌بینی برای مدت کوتاهی دقیق خواهد بود و معادله رگرسیون باید با دستیابی به اطلاعات جدید مجدداً محاسبه شود.
    • پیچیدگی انتخاب یک معادله رگرسیونی که با استفاده از برنامه های کامپیوتری استاندارد قابل حل است.

    نمونه ای از استفاده از روش حداقل مربعات برای توسعه پیش بینی

    وظیفه . داده هایی وجود دارد که نرخ بیکاری در منطقه را مشخص می کند، %

    • پیش بینی نرخ بیکاری در منطقه را برای ماه های نوامبر، دسامبر، ژانویه با استفاده از روش های زیر بسازید: میانگین متحرک، هموارسازی نمایی، حداقل مربعات.
    • با استفاده از هر روش، خطاهای پیش بینی های حاصل را محاسبه کنید.
    • نتایج را مقایسه کنید و نتیجه بگیرید.

    راه حل حداقل مربعات

    برای حل این موضوع، جدولی را ترسیم می کنیم که در آن محاسبات لازم را انجام می دهیم:

    ε = 28.63/10 = 2.86٪ دقت پیش بینیبالا

    نتیجه : مقایسه نتایج به دست آمده از محاسبات روش میانگین متحرک , روش هموارسازی نمایی و روش حداقل مربعات، می توان گفت که میانگین خطای نسبی در محاسبه با استفاده از روش هموارسازی نمایی در محدوده 20-50٪ قرار می گیرد. این بدان معنی است که صحت پیش بینی در این مورد فقط رضایت بخش است.

    در حالت اول و سوم، دقت پیش‌بینی بالا است، زیرا میانگین خطای نسبی کمتر از 10٪ است. اما روش میانگین متحرک امکان دستیابی به نتایج قابل اعتماد تری را فراهم کرد (پیش بینی برای نوامبر - 1.52٪ ، پیش بینی برای دسامبر - 1.53٪ ، پیش بینی ژانویه - 1.49٪) ، زیرا میانگین خطای نسبی هنگام استفاده از این روش کوچکترین است - 1 13 درصد.

    روش حداقل مربعات

    مقالات دیگر در این زمینه:

    فهرست منابع استفاده شده

    1. توصیه های علمی و روش شناختی در زمینه تشخیص خطرات اجتماعی و پیش بینی چالش ها، تهدیدها و پیامدهای اجتماعی. دانشگاه دولتی اجتماعی روسیه مسکو. 2010;
    2. ولادیمیروا L.P. پیش بینی و برنامه ریزی در شرایط بازار: کتاب درسی. کمک هزینه م.: انتشارات داشکوف و شرکت، 2001;
    3. نوویکووا N.V.، Pozdeeva O.G. پیش بینی اقتصاد ملی: راهنمای آموزشی و روش شناختی. اکاترینبورگ: انتشارات اورال. حالت اقتصاد دانشگاه، 2007;
    4. Slutskin L.N. دوره MBA در زمینه پیش بینی کسب و کار. M.: کتاب های کسب و کار آلپینا، 2006.

    برنامه MNC

    داده ها را وارد کنید

    داده ها و تقریب y = a + b x

    من- تعداد نقطه آزمایشی؛
    x i- مقدار یک پارامتر ثابت در یک نقطه من;
    y من- مقدار پارامتر اندازه گیری شده در یک نقطه من;
    ωi- اندازه گیری وزن در یک نقطه من;
    y i، محاسبه- تفاوت بین مقدار اندازه گیری شده و رگرسیون محاسبه شده yدر نقطه من;
    S x i (x i)- برآورد خطا x iهنگام اندازه گیری yدر نقطه من.

    داده ها و تقریب y = k x

    من x i y من ωi y i، محاسبه Δy i S x i (x i)

    روی نمودار کلیک کنید

    راهنمای کاربر برای برنامه آنلاین MNC.

    در قسمت داده، در هر خط جداگانه، مقادیر «x» و «y» را در یک نقطه آزمایشی وارد کنید. مقادیر باید با یک کاراکتر فضای خالی (فضا یا تب) از هم جدا شوند.

    مقدار سوم می تواند وزن نقطه «w» باشد. اگر وزن نقطه ای مشخص نشود برابر یک است. در اکثریت قریب به اتفاق موارد، وزن نقاط تجربی ناشناخته یا محاسبه نشده است، یعنی. تمام داده های تجربی معادل در نظر گرفته می شوند. گاهی اوقات وزن ها در محدوده مقادیر مورد مطالعه مطلقاً معادل نیستند و حتی می توان آنها را به صورت تئوری محاسبه کرد. برای مثال، در اسپکتروفتومتری، وزن‌ها را می‌توان با استفاده از فرمول‌های ساده محاسبه کرد، اگرچه این امر عمدتاً برای کاهش هزینه‌های نیروی کار نادیده گرفته می‌شود.

    داده ها را می توان از طریق کلیپ بورد از یک صفحه گسترده در مجموعه آفیس مانند Excel از Microsoft Office یا Calc از Open Office قرار داد. برای انجام این کار، در صفحه گسترده، محدوده داده را برای کپی انتخاب کنید، در کلیپ بورد کپی کنید و داده ها را در فیلد داده در این صفحه جای گذاری کنید.

    برای محاسبه با استفاده از روش حداقل مربعات، حداقل دو نقطه برای تعیین دو ضریب "b" - مماس زاویه شیب خط و "a" - مقدار قطع شده توسط خط در محور "y" مورد نیاز است.

    برای تخمین خطای ضرایب رگرسیون محاسبه شده، باید تعداد نقاط آزمایشی را بیش از دو تنظیم کنید.

    روش حداقل مربعات (LSM).

    هر چه تعداد امتیازهای آزمایشی بیشتر باشد، ارزیابی آماری ضرایب (به دلیل کاهش ضریب دانشجو) دقیق‌تر و برآورد به برآورد نمونه عمومی نزدیک‌تر است.

    به دست آوردن مقادیر در هر نقطه آزمایشی اغلب با هزینه های نیروی کار قابل توجهی همراه است، بنابراین تعداد آزمایش های مصالحه ای اغلب انجام می شود که تخمین قابل مدیریتی را ارائه می دهد و منجر به هزینه های نیروی کار بیش از حد نمی شود. به عنوان یک قاعده، تعداد نقاط آزمایشی برای وابستگی حداقل مربعات خطی با دو ضریب در منطقه 5-7 نقطه انتخاب می شود.

    نظریه مختصری از حداقل مربعات برای روابط خطی

    فرض کنید مجموعه ای از داده های تجربی به شکل جفت مقادیر [`y_i`, `x_i`] داریم که در آن `i` تعداد یک اندازه گیری آزمایشی از 1 تا n است. "y_i" - مقدار کمیت اندازه گیری شده در نقطه "i"؛ "x_i" - مقدار پارامتری که در نقطه "i" تنظیم می کنیم.

    به عنوان مثال، عملکرد قانون اهم را در نظر بگیرید. با تغییر ولتاژ (اختلاف پتانسیل) بین بخش های یک مدار الکتریکی، مقدار جریان عبوری از این بخش را اندازه گیری می کنیم. فیزیک به ما یک وابستگی می دهد که به صورت تجربی پیدا شده است:

    "I = U/R"،
    جایی که "من" قدرت فعلی است. `R` - مقاومت؛ "U" - ولتاژ.

    در این مورد، «y_i» مقدار فعلی است که اندازه گیری می شود، و «x_i» مقدار ولتاژ است.

    به عنوان مثال دیگر، جذب نور توسط محلول یک ماده در محلول را در نظر بگیرید. شیمی این فرمول را به ما می دهد:

    "A = ε l C"،
    که در آن "A" چگالی نوری محلول است. «ε» - انتقال املاح؛ `l` - طول مسیر هنگامی که نور از یک کووت با محلول عبور می کند. "C" غلظت ماده محلول است.

    در این حالت، «y_i» مقدار اندازه‌گیری شده چگالی نوری «A» است و «x_i» مقدار غلظت ماده‌ای است که ما مشخص می‌کنیم.

    ما موردی را در نظر خواهیم گرفت که خطای نسبی در تخصیص 'x_i' به طور قابل توجهی کمتر از خطای نسبی در اندازه گیری 'y_i' باشد. همچنین فرض می‌کنیم که تمام مقادیر اندازه‌گیری شده «y_i» تصادفی هستند و به طور معمول توزیع می‌شوند، یعنی. از قانون توزیع نرمال پیروی کنید.

    در مورد وابستگی خطی «y» به «x»، می‌توانیم وابستگی نظری را بنویسیم:
    `y = a + b x`.

    از دیدگاه هندسی، ضریب «b» مماس زاویه میل خط به محور «x» را نشان می‌دهد و ضریب «a» مقدار «y» را در نقطه تقاطع خط نشان می‌دهد. خط با محور `y` (در `x = 0`).

    یافتن پارامترهای خط رگرسیون

    در یک آزمایش، مقادیر اندازه‌گیری شده «y_i» به دلیل خطاهای اندازه‌گیری، که همیشه در زندگی واقعی ذاتی هستند، نمی‌توانند دقیقاً روی خط مستقیم نظری قرار گیرند. بنابراین، یک معادله خطی باید با یک سیستم معادلات نشان داده شود:
    `y_i = a + b x_i + ε_i` (1)،
    که در آن «ε_i» خطای اندازه‌گیری ناشناخته «y» در آزمایش «i» است.

    وابستگی (1) نیز نامیده می شود پسرفت، یعنی وابستگی دو کمیت به یکدیگر با اهمیت آماری.

    وظیفه بازگرداندن وابستگی یافتن ضرایب «a» و «b» از نقاط آزمایشی [`y_i`، `x_i`] است.

    برای یافتن ضرایب «a» و «b» معمولاً از آن استفاده می شود روش حداقل مربع(MNC). این یک مورد خاص از اصل حداکثر احتمال است.

    بیایید (1) را به شکل `ε_i = y_i - a - b x_i` بازنویسی کنیم.

    سپس مجموع مربعات خطاها خواهد بود
    `Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

    اصل حداقل مربعات (کمترین مربعات) به حداقل رساندن مجموع (2) با توجه به پارامترهای "a" و "b" است..

    حداقل زمانی حاصل می شود که مشتقات جزئی حاصل از مجموع (2) با توجه به ضرایب «a» و «b» برابر با صفر باشد:
    `frac(ف جزئی)(جزئی a) = frac(جمع جزئی_(i=1)^(n) (y_i - a - b x_i)^2)(جزئی a) = 0`
    `frac(ف جزئی)(ب جزئی) = frac(جمع جزئی_(i=1)^(n) (y_i - a - b x_i)^2)(b جزئی) = 0`

    با گسترش مشتقات، سیستمی متشکل از دو معادله با دو مجهول به دست می آوریم:
    `sum_(i=1)^(n) (2a + 2bx_i — 2y_i) = sum_(i=1)^(n) (a + bx_i — y_i) = 0`
    `sum_(i=1)^(n) (2bx_i^2 + 2ax_i — 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i — x_iy_i) = 0`

    براکت ها را باز می کنیم و مجموع را مستقل از ضرایب مورد نیاز به نیمه دیگر منتقل می کنیم، یک سیستم معادلات خطی به دست می آوریم:
    `sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
    `sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

    با حل سیستم به دست آمده، فرمول هایی برای ضرایب «a» و «b» پیدا می کنیم:

    `a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 — sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

    `b = frac(n sum_(i=1)^(n) x_iy_i — sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 — (جمع_(i=1)^(n) x_i)^2)` (3.2)

    این فرمول‌ها زمانی جواب دارند که «n > 1» (خط را می‌توان با حداقل 2 نقطه ساخت) و زمانی که تعیین‌کننده «D = n sum_(i=1)^(n) x_i^2 - (sum_(i= 1) )^(n) x_i)^2 != 0`، یعنی. هنگامی که نقاط "x_i" در آزمایش متفاوت است (یعنی زمانی که خط عمودی نیست).

    برآورد خطاهای ضرایب خط رگرسیون

    برای ارزیابی دقیق‌تر خطا در محاسبه ضرایب «a» و «b»، تعداد زیادی از نقاط آزمایشی مطلوب است. وقتی n=2 باشد، تخمین خطای ضرایب غیرممکن است، زیرا خط تقریبی به طور منحصر به فرد از دو نقطه عبور می کند.

    خطای متغیر تصادفی «V» توسط قانون انباشت خطا
    `S_V^2 = sum_(i=1)^p (frac(f جزئی)(جزئی z_i))^2 S_(z_i)^2`,
    که در آن "p" تعداد پارامترهای "z_i" با خطای "S_(z_i)" است که بر خطای "S_V" تأثیر می گذارد.
    «f» تابعی از وابستگی «V» به «z_i» است.

    اجازه دهید قانون انباشت خطا را برای خطای ضرایب «a» و «b» بنویسیم.
    `S_a^2 = sum_(i=1)^(n)(frac(جزئی a)(جزئی y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(جزئی a )(x_i جزئی))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(جزئی a)(جزئی y_i))^2 `,
    `S_b^2 = sum_(i=1)^(n)(frac(جزئی b)(جزئی y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(b جزئی )(x_i جزئی))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(جزئی b)(جزئی y_i))^2 `,
    زیرا `S_(x_i)^2 = 0` (ما قبلاً رزرو کردیم که خطای `x` ناچیز است).

    `S_y^2 = S_(y_i)^2` - خطا (واریانس، مجذور انحراف استاندارد) در اندازه گیری `y`، با فرض اینکه خطا برای همه مقادیر `y` یکنواخت است.

    جایگزینی فرمول های محاسبه «a» و «b» در عبارات به دست آمده

    `S_a^2 = S_y^2 فراک (sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 — x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 فراک (جمع_(i=1)^(n) x_i^2) (D)` (4.1)

    `S_b^2 = S_y^2 فرک(sum_(i=1)^(n) (n x_i — sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 فرک( n (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

    در بیشتر آزمایش‌های واقعی، مقدار «Sy» اندازه‌گیری نمی‌شود. برای انجام این کار، انجام چندین اندازه گیری موازی (آزمایش) در یک یا چند نقطه از طرح ضروری است که باعث افزایش زمان (و احتمالاً هزینه) آزمایش می شود. بنابراین، معمولاً فرض می‌شود که انحراف «y» از خط رگرسیون را می‌توان تصادفی در نظر گرفت. برآورد واریانس `y` در این مورد با استفاده از فرمول محاسبه می شود.

    `S_y^2 = S_(y، استراحت)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

    مقسوم علیه n-2 ظاهر می شود زیرا تعداد درجات آزادی ما به دلیل محاسبه دو ضریب با استفاده از نمونه مشابه داده های تجربی کاهش یافته است.

    به این تخمین، واریانس باقیمانده نسبت به خط رگرسیون S_(y، استراحت)^2 نیز گفته می شود.

    معنی داری ضرایب با استفاده از آزمون t Student ارزیابی می شود

    `t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

    اگر معیارهای محاسبه‌شده «t_a»، «t_b» کمتر از معیارهای جدول‌بندی‌شده «t(P, n-2)» باشند، در نظر گرفته می‌شود که ضریب مربوطه تفاوت معنی‌داری با صفر با احتمال داده شده «P» ندارد.

    برای ارزیابی کیفیت توصیف یک رابطه خطی، می‌توانید «S_(y، استراحت)^2» و «S_(bar y)» را نسبت به میانگین با استفاده از معیار فیشر مقایسه کنید.

    `S_(bar y) = frac(sum_(i=1)^n (y_i — bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i — (sum_(i= 1)^n y_i) /n)^2) (n-1)` - برآورد نمونه از واریانس `y` نسبت به میانگین.

    برای ارزیابی اثربخشی معادله رگرسیون برای توصیف وابستگی، ضریب فیشر محاسبه شده است.
    `F = S_(نوار y) / S_(y، استراحت)^2`،
    که با ضریب فیشر جدولی "F(p، n-1، n-2)" مقایسه شده است.

    اگر «F > F(P، n-1، n-2)»، تفاوت بین توصیف رابطه «y = f(x)» با استفاده از معادله رگرسیون و توصیف با استفاده از میانگین از نظر آماری با احتمال معنی دار در نظر گرفته می شود. "P". آن ها رگرسیون وابستگی را بهتر از گسترش «y» حول میانگین توصیف می کند.

    روی نمودار کلیک کنید
    برای اضافه کردن مقادیر به جدول

    روش حداقل مربعات روش حداقل مربعات به معنای تعیین پارامترهای مجهول a، b، c، وابستگی تابعی پذیرفته شده است.

    روش حداقل مربعات به تعیین پارامترهای مجهول اشاره دارد الف، ب، ج، …وابستگی عملکردی پذیرفته شده

    y = f(x,a,b,c,…),

    که حداقل میانگین مربع (واریانس) خطا را فراهم می کند

    , (24)

    که در آن x i، y i مجموعه ای از جفت اعداد به دست آمده از آزمایش است.

    از آنجایی که شرط حداکثر بودن یک تابع از چندین متغیر شرطی است که مشتقات جزئی آن برابر با صفر باشند، پس پارامترها الف، ب، ج، …از سیستم معادلات تعیین می شود:

    ; ; ; … (25)

    باید به خاطر داشت که از روش حداقل مربعات برای انتخاب پارامترهای بعد از نوع تابع استفاده می شود y = f(x)تعریف شده است

    اگر از ملاحظات نظری، هیچ نتیجه‌ای در مورد اینکه فرمول تجربی باید چه باشد، نمی‌توان گرفت، در این صورت باید با بازنمایی‌های بصری، عمدتاً با نمایش‌های گرافیکی داده‌های مشاهده‌شده، هدایت شد.

    در عمل، آنها اغلب به انواع توابع زیر محدود می شوند:

    1) خطی ;

    2) درجه دوم الف.

    ماهیت روش حداقل مربعات این است در یافتن پارامترهای یک مدل روند که به بهترین وجه گرایش توسعه هر پدیده تصادفی را در زمان یا مکان توصیف می کند (روند خطی است که گرایش این توسعه را مشخص می کند). وظیفه روش حداقل مربعات (LSM) به یافتن نه تنها مدل روند، بلکه یافتن بهترین یا بهینه مدل خلاصه می شود. اگر مجموع انحرافات مربع بین مقادیر واقعی مشاهده شده و مقادیر روند محاسبه شده مربوطه حداقل (کوچکترین) باشد، این مدل بهینه خواهد بود:

    انحراف مربع بین مقدار واقعی مشاهده شده کجاست

    و مقدار روند محاسبه شده مربوطه،

    ارزش واقعی (مشاهده شده) پدیده مورد مطالعه،

    مقدار محاسبه شده مدل روند،

    تعداد مشاهدات پدیده مورد مطالعه.

    MNC به ندرت به تنهایی استفاده می شود. به عنوان یک قاعده، اغلب از آن فقط به عنوان یک تکنیک فنی ضروری در مطالعات همبستگی استفاده می شود. باید به خاطر داشت که اساس اطلاعات OLS فقط می تواند یک سری آماری قابل اعتماد باشد و تعداد مشاهدات نباید کمتر از 4 باشد، در غیر این صورت ممکن است روش های هموارسازی OLS عقل سلیم را از دست بدهند.

    جعبه ابزار MNC به رویه های زیر خلاصه می شود:

    روش اول معلوم می‌شود که آیا در هنگام تغییر عامل انتخابی، تمایلی به تغییر ویژگی حاصل وجود دارد یا به عبارت دیگر، آیا ارتباطی بین « در "و" ایکس ».

    رویه دوم مشخص می شود که کدام خط (مسیر) می تواند این روند را به بهترین نحو توصیف یا توصیف کند.

    رویه سوم.

    مثال. فرض کنید اطلاعاتی در مورد میانگین عملکرد آفتابگردان برای مزرعه مورد مطالعه داریم (جدول 9.1).

    جدول 9.1

    شماره مشاهده

    بهره وری، c/ha

    از آنجایی که سطح فناوری تولید آفتابگردان در کشور ما طی 10 سال گذشته تقریباً بدون تغییر باقی مانده است، به این معنی است که ظاهراً نوسانات عملکرد در دوره مورد تجزیه و تحلیل بسیار وابسته به نوسانات آب و هوا و شرایط اقلیمی بوده است. آیا این واقعا درست است؟

    اولین روش OLS فرضیه وجود یک روند در تغییرات عملکرد آفتابگردان بسته به تغییرات آب و هوا و شرایط آب و هوایی در طول 10 سال مورد تجزیه و تحلیل آزمایش شده است.

    در این مثال، برای " y توصیه می شود محصول آفتابگردان را مصرف کنید و برای ایکس » – تعداد سال مشاهده شده در دوره مورد تجزیه و تحلیل. آزمون فرضیه وجود هر گونه رابطه بین " ایکس "و" y به دو صورت دستی و با استفاده از برنامه های کامپیوتری قابل انجام است. البته با در دسترس بودن تکنولوژی کامپیوتری این مشکل به خودی خود قابل حل است. اما برای درک بهتر ابزارهای MNC، توصیه می‌شود که فرضیه وجود رابطه بین ایکس "و" y » به صورت دستی، زمانی که فقط یک خودکار و یک ماشین حساب معمولی در دسترس باشد. در چنین مواردی، فرضیه وجود یک روند به بهترین وجه به صورت بصری توسط مکان تصویر گرافیکی سری تجزیه و تحلیل شده پویا - میدان همبستگی بررسی می شود:

    میدان همبستگی در مثال ما در اطراف یک خط به آرامی در حال افزایش قرار دارد. این خود نشان دهنده وجود روند معینی در تغییرات عملکرد آفتابگردان است. صحبت از وجود هر گرایشی فقط زمانی غیرممکن است که میدان همبستگی شبیه یک دایره، یک دایره، یک ابر کاملاً عمودی یا کاملا افقی باشد یا از نقاط پراکنده پر هرج و مرج تشکیل شده باشد. در همه موارد دیگر، فرضیه وجود رابطه بین « ایکس "و" y "، و به تحقیق ادامه دهید.

    روش دوم OLS. مشخص می شود که کدام خط (مسیر) می تواند به بهترین وجه روند تغییرات عملکرد آفتابگردان را در طول دوره مورد تجزیه و تحلیل توصیف یا توصیف کند.

    اگر فناوری رایانه دارید، انتخاب روند بهینه به طور خودکار اتفاق می افتد. در پردازش "دستی"، انتخاب تابع بهینه، به عنوان یک قاعده، به صورت بصری - با محل میدان همبستگی انجام می شود. یعنی بر اساس نوع نمودار، معادله خطی که بهترین تناسب را با روند تجربی (مسیر واقعی) دارد انتخاب می شود.

    همانطور که مشخص است، در طبیعت تنوع زیادی از وابستگی های عملکردی وجود دارد، بنابراین تجزیه و تحلیل بصری حتی بخش کوچکی از آنها بسیار دشوار است. خوشبختانه، در عمل اقتصادی واقعی، بیشتر روابط را می توان با یک سهمی یا هذلولی یا یک خط مستقیم کاملاً دقیق توصیف کرد. در این راستا، با گزینه “دستی” انتخاب بهترین عملکرد، می توانید خود را تنها به این سه مدل محدود کنید.

    هذلولی:

    سهمی مرتبه دوم: :

    به راحتی می توان فهمید که در مثال ما، روند تغییرات عملکرد آفتابگردان در طول 10 سال تجزیه و تحلیل شده به بهترین وجه با یک خط مستقیم مشخص می شود، بنابراین معادله رگرسیون معادله یک خط مستقیم خواهد بود.

    رویه سوم. پارامترهای معادله رگرسیون مشخص کننده این خط محاسبه می شود، یا به عبارت دیگر، یک فرمول تحلیلی تعیین می شود که بهترین مدل روند را توصیف می کند.

    یافتن مقادیر پارامترهای معادله رگرسیون، در مورد ما پارامترها و هسته OLS است. این فرآیند به حل یک سیستم معادلات عادی ختم می شود.

    (9.2)

    این سیستم معادلات را می توان به راحتی با روش گاوس حل کرد. به یاد بیاوریم که در نتیجه راه حل، در مثال ما، مقادیر پارامترها و یافت می شوند. بنابراین، معادله رگرسیون یافت شده به شکل زیر خواهد بود:

    دسته بندی ها

    مقالات محبوب

    2023 "kingad.ru" - بررسی سونوگرافی اندام های انسان