تجزیه و تحلیل داده ها با استفاده از روش حداقل مربعات. حداقل مربعات در اکسل

روش حداقل مربعات

در درس پایانی مبحث با معروف ترین اپلیکیشن آشنا می شویم FNP، که بیشترین کاربرد را در زمینه های مختلف علمی و عملی پیدا می کند. این می تواند فیزیک، شیمی، زیست شناسی، اقتصاد، جامعه شناسی، روانشناسی و غیره و غیره باشد. به خواست سرنوشت، من اغلب باید با اقتصاد سر و کار داشته باشم، و بنابراین امروز برای شما بلیط یک کشور شگفت انگیز به نام اقتصاد سنجی=) ... چطور این را نمی خواهی؟! آنجا خیلی خوب است - فقط باید تصمیم بگیرید! ... اما چیزی که احتمالاً قطعاً می خواهید این است که یاد بگیرید چگونه مشکلات را حل کنید کمترین مربعات. و به خصوص خوانندگان سخت کوش یاد خواهند گرفت که آنها را نه تنها به طور دقیق، بلکه بسیار سریع نیز حل کنند ;-) اما ابتدا بیان کلی مشکل+ مثال مرتبط:

اجازه دهید شاخص هایی در برخی از حوزه های موضوعی مورد مطالعه قرار گیرند که بیان کمی دارند. در عین حال، دلایل زیادی برای این باور وجود دارد که شاخص به شاخص بستگی دارد. این فرض هم می تواند یک فرضیه علمی باشد و هم بر اساس عقل سلیم ابتدایی. با این حال، بیایید علم را کنار بگذاریم و مناطق اشتها آورتر - یعنی فروشگاه های مواد غذایی - را بررسی کنیم. نشان دادن با:

- فضای خرده فروشی یک فروشگاه مواد غذایی، متر مربع،
- گردش مالی سالانه یک فروشگاه مواد غذایی، میلیون روبل.

کاملاً واضح است که هر چه مساحت فروشگاه بزرگتر باشد، در اکثر موارد گردش مالی آن بیشتر است.

فرض کنید پس از انجام مشاهدات / آزمایش / محاسبات / رقصیدن با یک تنبور، داده های عددی در اختیار داریم:

در مورد فروشگاه های مواد غذایی، من فکر می کنم همه چیز روشن است: - این منطقه اولین فروشگاه است، - گردش مالی سالانه آن، - منطقه فروشگاه 2، - گردش مالی سالانه آن و غیره. به هر حال ، دسترسی به مواد طبقه بندی شده اصلاً ضروری نیست - ارزیابی نسبتاً دقیقی از گردش مالی را می توان با استفاده از آمار ریاضی. با این حال، منحرف نشوید، دوره جاسوسی تجاری قبلاً پرداخت شده است =)

داده های جدولی را نیز می توان به صورت نقطه ای نوشت و به روش معمول برای ما ترسیم کرد. سیستم دکارتی .

بیایید به یک سوال مهم پاسخ دهیم: برای یک مطالعه کیفی چند امتیاز لازم است؟

هرچه بزرگتر بهتر. حداقل مجموعه قابل قبول شامل 5-6 امتیاز است. علاوه بر این، با مقدار کمی داده، نتایج "غیر طبیعی" نباید در نمونه گنجانده شود. بنابراین، برای مثال، یک فروشگاه کوچک نخبه می‌تواند بیشتر از «همکاران خود» به سفارش‌های بزرگ کمک کند، در نتیجه الگوی کلی را که باید پیدا کرد، مخدوش می‌کند!



اگر خیلی ساده است، باید یک تابع را انتخاب کنیم، برنامهکه تا حد امکان نزدیک به نقاط می گذرد . چنین تابعی نامیده می شود تقریبی (تقریبی - تقریبی)یا عملکرد نظری . به طور کلی، در اینجا بلافاصله یک "مدعی" آشکار ظاهر می شود - یک چند جمله ای با درجه بالا، که نمودار آن از تمام نقاط عبور می کند. اما این گزینه پیچیده است و اغلب به سادگی نادرست است. (زیرا نمودار همیشه "باد" می شود و روند اصلی را به خوبی منعکس می کند).

بنابراین، تابع مورد نظر باید به اندازه کافی ساده باشد و در عین حال وابستگی را به اندازه کافی منعکس کند. همانطور که ممکن است حدس بزنید، یکی از روش های یافتن چنین توابعی نامیده می شود کمترین مربعات. ابتدا اجازه دهید ماهیت آن را به صورت کلی تحلیل کنیم. اجازه دهید برخی از تابع ها به داده های تجربی تقریب داشته باشند:


چگونه می توان صحت این تقریب را ارزیابی کرد؟ اجازه دهید تفاوت (انحرافات) بین مقادیر تجربی و عملکردی را نیز محاسبه کنیم (ما نقاشی را مطالعه می کنیم). اولین فکری که به ذهن خطور می کند این است که مقدار مجموع را تخمین بزنیم، اما مشکل اینجاست که تفاوت ها می تواند منفی باشد. (مثلا، ) و انحرافات در نتیجه چنین جمع آوری یکدیگر را خنثی می کنند. بنابراین، به عنوان تخمینی از دقت تقریب، خود را پیشنهاد می کند که مجموع را بگیرد ماژول هاانحرافات:

یا به صورت تا شده: (برای کسانی که نمی دانند: نماد جمع است و - متغیر کمکی - "counter" که مقادیر از 1 تا را می گیرد ) .

با تقریب نقاط آزمایشی با توابع مختلف، مقادیر متفاوتی به دست خواهیم آورد و مشخص است که این مجموع در کجا کمتر است - آن تابع دقیق تر است.

چنین روشی وجود دارد و نامیده می شود روش حداقل مدول. با این حال، در عمل بسیار گسترده تر شده است. روش حداقل مربع، که در آن مقادیر منفی احتمالی نه با مدول، بلکه با مربع کردن انحرافات حذف می شوند:



، پس از آن تلاش ها برای انتخاب چنین تابعی است که مجموع انحرافات مجذور تا حد امکان کوچک بود در واقع، از این رو نام روش است.

و اکنون به یک نکته مهم دیگر باز می گردیم: همانطور که در بالا ذکر شد، تابع انتخاب شده باید کاملاً ساده باشد - اما بسیاری از توابع از این دست نیز وجود دارد: خطی , هذلولی , نمایی , لگاریتمی , درجه دوم و غیره. و البته در اینجا بلافاصله می خواهم "زمینه فعالیت را کاهش دهم." کدام دسته از کارکردها را برای تحقیق انتخاب کنیم؟ تکنیک ابتدایی اما موثر:

- ساده ترین راه برای رسم امتیاز بر روی نقاشی و تجزیه و تحلیل مکان آنها. اگر آنها تمایل دارند در یک خط مستقیم باشند، پس باید به دنبال آن باشید معادله خط مستقیم با مقادیر بهینه و . به عبارت دیگر، وظیفه یافتن چنین ضرایبی است - به طوری که مجموع انحرافات مجذور کوچکترین باشد.

اگر نقاط، به عنوان مثال، در امتداد قرار دارند هایپربولی، پس واضح است که تابع خطی تقریب ضعیفی به دست می دهد. در این مورد، ما به دنبال "مطلوب ترین" ضرایب برای معادله هذلولی هستیم - آنهایی که حداقل مجموع مربع ها را می دهند. .

حال توجه کنید که در هر دو مورد صحبت می کنیم توابع دو متغیر، که استدلال های آن است گزینه های وابستگی را جستجو کرد:

و در اصل، ما باید یک مشکل استاندارد را حل کنیم - پیدا کنیم حداقل یک تابع از دو متغیر.

مثال ما را به خاطر بیاورید: فرض کنید که نقاط "فروشگاه" در یک خط مستقیم قرار دارند و هر دلیلی وجود دارد که وجود آن را باور کنیم. وابستگی خطیگردش مالی از منطقه تجاری بیایید چنین ضرایبی "a" و "be" را پیدا کنیم تا مجذور انحرافات کوچکترین بود همه چیز طبق معمول - اول مشتقات جزئی از مرتبه 1. مطابق با قانون خطی بودنمی توانید درست در زیر نماد جمع متمایز کنید:

اگر می‌خواهید از این اطلاعات برای یک مقاله یا درس استفاده کنید، از لینک موجود در فهرست منابع بسیار سپاسگزار خواهم بود، چنین محاسبات دقیقی را در هیچ کجا پیدا نمی‌کنید:

بیایید یک سیستم استاندارد بسازیم:

هر معادله را یک "دو" کاهش می دهیم و علاوه بر این، مجموع را "از هم جدا می کنیم":

توجه داشته باشید : به طور مستقل تجزیه و تحلیل کنید که چرا می توان "a" و "be" را از نماد جمع خارج کرد. به هر حال، به طور رسمی این را می توان با مجموع انجام داد

بیایید سیستم را به شکل "کاربردی" بازنویسی کنیم:

پس از آن الگوریتم حل مسئله ما شروع به ترسیم می کند:

آیا مختصات نقاط را می دانیم؟ ما میدانیم. مبالغ می توانیم پیدا کنیم؟ به آسانی. ما ساده ترین ها را می سازیم سیستم دو معادله خطی با دو مجهول(«الف» و «به»). ما سیستم را حل می کنیم، به عنوان مثال، روش کرامر، منجر به یک نقطه ثابت می شود. چک کردن شرایط کافی برای یک افراطی، می توانیم تأیید کنیم که در این مرحله تابع دقیقا می رسد کمترین. تأیید با محاسبات اضافی همراه است و بنابراین ما آن را در پشت صحنه رها می کنیم. (در صورت لزوم، قاب گم شده قابل مشاهده استاینجا ) . نتیجه نهایی را می گیریم:

عملکرد بهترین راه (حداقل در مقایسه با هر تابع خطی دیگری)نقاط تجربی را به هم نزدیک می کند . به طور کلی، نمودار آن تا حد ممکن به این نقاط نزدیک می شود. در سنت اقتصاد سنجیتابع تقریبی حاصل نیز نامیده می شود معادله رگرسیون خطی زوجی .

مسئله مورد بررسی از اهمیت عملی بالایی برخوردار است. در وضعیت مثال ما، معادله به شما اجازه می دهد تا نوع گردش مالی را پیش بینی کنید ("یگ")در فروشگاه با یک یا مقدار دیگری از منطقه فروش خواهد بود (یک یا معنای دیگری از "x"). بله، پیش بینی حاصل تنها یک پیش بینی خواهد بود، اما در بسیاری از موارد کاملاً دقیق خواهد بود.

من فقط یک مشکل را با اعداد "واقعی" تجزیه و تحلیل می کنم ، زیرا هیچ مشکلی در آن وجود ندارد - همه محاسبات در سطح برنامه درسی مدرسه در کلاس های 7-8 است. در 95 درصد موارد، از شما خواسته می شود که فقط یک تابع خطی را پیدا کنید، اما در انتهای مقاله نشان خواهم داد که یافتن معادلات هذلولی بهینه، توان و برخی توابع دیگر دشوارتر نیست.

در واقع، توزیع خوبی های وعده داده شده باقی مانده است - به طوری که یاد بگیرید چگونه چنین نمونه هایی را نه تنها با دقت، بلکه به سرعت حل کنید. ما استاندارد را به دقت مطالعه می کنیم:

یک وظیفه

در نتیجه مطالعه رابطه بین دو شاخص، جفت اعداد زیر به دست آمد:

با استفاده از روش حداقل مربعات، تابع خطی را که بهترین تقریب تجربی را دارد، پیدا کنید (با تجربه)داده ها. یک نقاشی بکشید که در یک سیستم مختصات مستطیلی دکارتی، نقاط آزمایشی و نموداری از تابع تقریبی را رسم کنید. . مجموع مجذور انحرافات بین مقادیر تجربی و نظری را بیابید. ببینید آیا عملکرد بهتر است یا خیر (از نظر روش حداقل مربعات)نقاط آزمایشی تقریبی

توجه داشته باشید که مقادیر "x" مقادیر طبیعی هستند و این یک معنای معنی دار مشخصه دارد که کمی بعد در مورد آن صحبت خواهم کرد. اما آنها، البته، می توانند کسری باشند. علاوه بر این، بسته به محتوای یک کار خاص، هر دو مقدار "X" و "G" می توانند به طور کامل یا تا حدی منفی باشند. خوب، به ما یک وظیفه "بی چهره" داده شده است و ما آن را شروع می کنیم راه حل:

ما ضرایب تابع بهینه را به عنوان یک راه حل برای سیستم پیدا می کنیم:

برای یک نماد فشرده تر، می توان متغیر "counter" را حذف کرد، زیرا از قبل مشخص است که جمع بندی از 1 تا .

محاسبه مقادیر مورد نیاز به صورت جدولی راحت تر است:


محاسبات را می توان بر روی یک ریز محاسبه گر انجام داد، اما استفاده از Excel بسیار بهتر است - هم سریعتر و هم بدون خطا. تماشای یک ویدیوی کوتاه:

بنابراین، موارد زیر را بدست می آوریم سیستم:

در اینجا می توانید معادله دوم را در 3 ضرب کنید و عدد 2 را از معادله 1 کم کنید. اما این شانس است - در عمل، سیستم ها اغلب با استعداد نیستند و در چنین مواردی باعث صرفه جویی می شود روش کرامر:
، بنابراین سیستم یک راه حل منحصر به فرد دارد.

بیا چک کنیم می‌دانم که نمی‌خواهم، اما چرا از اشتباهاتی که نمی‌توانی آنها را از دست ندهی، بگذریم؟ جواب پیدا شده را در سمت چپ هر معادله سیستم جایگزین کنید:

قسمت های درست معادلات مربوطه به دست می آید، یعنی سیستم به درستی حل شده است.

بنابراین، تابع تقریبی مورد نظر: – از همه توابع خطیداده های تجربی به بهترین وجه توسط آن تقریب می شوند.

بر خلاف سر راست وابستگی گردش مالی فروشگاه به منطقه آن، وابستگی یافت شده است معکوس (اصل "هرچه بیشتر - کمتر")، و این واقعیت بلافاصله توسط منفی آشکار می شود ضریب زاویه ای. عملکرد به ما اطلاع می دهد که با افزایش 1 واحد در یک شاخص خاص، مقدار اندیکاتور وابسته کاهش می یابد میانگین 0.65 واحد همانطور که می گویند، هر چه قیمت گندم سیاه بیشتر باشد، کمتر فروخته می شود.

برای رسم تابع تقریبی، دو مقدار از آن را پیدا می کنیم:

و نقشه را اجرا کنید:

خط ساخته شده نامیده می شود خط روند (یعنی یک خط روند خطی، یعنی در حالت کلی، یک روند لزوما یک خط مستقیم نیست). همه با عبارت "در ترند بودن" آشنا هستند و فکر می کنم این اصطلاح نیاز به اظهار نظر اضافی ندارد.

مجموع انحرافات مجذور را محاسبه کنید بین ارزش های تجربی و نظری از نظر هندسی، این مجموع مجذور طول قطعات "زرشکی" است (دوتا از آنها آنقدر کوچک هستند که حتی نمی توانید آنها را ببینید).

بیایید محاسبات را در یک جدول خلاصه کنیم:


آنها دوباره می توانند به صورت دستی انجام شوند، فقط در صورتی که برای نکته 1 مثالی بزنم:

اما انجام روشی که قبلاً شناخته شده است بسیار کارآمدتر است:

تکرار کنیم: منظور از نتیجه چیست؟از جانب همه توابع خطیعملکرد توان کوچکترین است، یعنی بهترین تقریب در خانواده خود است. و در اینجا، اتفاقاً، سؤال نهایی مسئله تصادفی نیست: اگر تابع نمایی پیشنهادی بهتر به نقاط آزمایشی نزدیک شود، چه؟

بیایید مجموع متناظر انحرافات مربع را پیدا کنیم - برای تشخیص آنها، آنها را با حرف "epsilon" مشخص می کنم. تکنیک دقیقاً مشابه است:

و دوباره برای هر محاسبه آتش برای نقطه 1:

در اکسل از تابع استاندارد استفاده می کنیم انقضا (سینتکس را می توان در راهنمای اکسل یافت).

نتیجه: بنابراین تابع نمایی نقاط آزمایشی را بدتر از خط مستقیم تقریب می کند .

اما در اینجا باید توجه داشت که «بدتر» است هنوز به این معنی نیست، چه اشکالی دارد. اکنون من یک نمودار از این تابع نمایی ساختم - و همچنین نزدیک به نقاط عبور می کند - به حدی که بدون مطالعه تحلیلی نمی توان گفت کدام تابع دقیق تر است.

این راه حل را کامل می کند و من به سؤال ارزش های طبیعی استدلال برمی گردم. در مطالعات مختلف، به طور معمول، اقتصادی یا جامعه شناختی، ماه ها، سال ها یا سایر فواصل زمانی مساوی با "X" طبیعی شماره گذاری می شوند. برای مثال مشکل زیر را در نظر بگیرید:

ما داده های زیر را در مورد گردش مالی خرده فروشی فروشگاه در نیمه اول سال داریم:

با استفاده از تراز تحلیلی خط مستقیم، حجم فروش ماه جولای را پیدا کنید.

بله، مشکلی نیست: ما ماه ها را 1، 2، 3، 4، 5، 6 شماره گذاری می کنیم و از الگوریتم معمول استفاده می کنیم که در نتیجه معادله ای به دست می آید - تنها چیزی که به زمان می رسد معمولاً حرف "te" است. " (اگرچه مهم نیست). معادله به دست آمده نشان می دهد که در نیمه اول سال، گردش مالی به طور متوسط ​​27.74 مترمربع افزایش یافته است. هر ماه. پیش بینی ماه جولای را دریافت کنید (ماه شماره 7): e.u.

و کارهای مشابه - تاریکی تاریک است. کسانی که مایلند می توانند از یک سرویس اضافی یعنی من استفاده کنند ماشین حساب اکسل (نسخه آزمایشی)، که مشکل را تقریباً بلافاصله حل می کند!نسخه کاری برنامه موجود است در عوضیا برای پرداخت نمادین.

در پایان درس، اطلاعات مختصری در مورد یافتن وابستگی های برخی از انواع دیگر ارائه می شود. در واقع، هیچ چیز خاصی برای گفتن وجود ندارد، زیرا رویکرد اساسی و الگوریتم حل یکسان باقی می مانند.

فرض کنید مکان نقاط آزمایشی شبیه هذلولی است. سپس، برای پیدا کردن ضرایب بهترین هذلولی، باید حداقل تابع را پیدا کنید - کسانی که مایلند می توانند محاسبات دقیق را انجام دهند و به یک سیستم مشابه برسند:

از نقطه نظر فنی رسمی، از سیستم "خطی" به دست می آید (بیایید آن را با یک ستاره مشخص کنیم)جایگزینی "x" با . خوب، مقادیر محاسبه کنید، پس از آن به ضرایب بهینه "a" و "be" در دست.

در صورتی که همه دلایلی وجود داشته باشد که این نکات را باور کنیم در امتداد یک منحنی لگاریتمی مرتب می شوند، سپس مقادیر بهینه را جستجو می کنند و حداقل تابع را پیدا می کنند. . به طور رسمی، در سیستم (*) باید با:

هنگام محاسبه در اکسل، از تابع استفاده کنید لوگاریتم. اعتراف می کنم که ایجاد ماشین حساب برای هر یک از موارد مورد بررسی برای من دشوار نخواهد بود، اما باز هم بهتر است که محاسبات را خودتان "برنامه ریزی" کنید. آموزش های ویدیویی برای کمک.

با وابستگی نمایی، وضعیت کمی پیچیده تر است. برای تقلیل موضوع به حالت خطی، لگاریتم تابع را گرفته و استفاده می کنیم خواص لگاریتم:

حال با مقایسه تابع به دست آمده با تابع خطی به این نتیجه می رسیم که در سیستم (*) باید با , and - با . برای راحتی، ما نشان می دهیم:

لطفا توجه داشته باشید که سیستم با توجه به و حل می شود و بنابراین، پس از یافتن ریشه ها، نباید فراموش کنید که خود ضریب را پیدا کنید.

برای تقریب نقاط تجربی سهمی بهینه ، باید پیدا شود حداقل یک تابع از سه متغیر. پس از انجام اقدامات استاندارد، "کار" زیر را دریافت می کنیم سیستم:

بله، البته، در اینجا مقادیر بیشتری وجود دارد، اما در هنگام استفاده از برنامه مورد علاقه شما هیچ مشکلی وجود ندارد. و در نهایت، من به شما خواهم گفت که چگونه با استفاده از اکسل به سرعت بررسی کنید و خط روند مورد نظر را بسازید: یک نمودار پراکنده ایجاد کنید، هر یک از نقاط را با ماوس انتخاب کنید. و روی گزینه انتخاب کلیک راست کنید "افزودن خط روند". در مرحله بعد، نوع نمودار را انتخاب کنید و در تب "گزینه ها"گزینه را فعال کنید "نمایش معادله در نمودار". خوب

مثل همیشه، می‌خواهم مقاله را با یک عبارت زیبا به پایان برسانم و تقریباً «در ترند باشید!» را تایپ کردم. اما به مرور نظرش عوض شد. و نه به این دلیل که فرمولی است. من نمی دانم چگونه کسی، اما من به هیچ وجه نمی خواهم از روند تبلیغ شده آمریکا و به خصوص اروپا پیروی کنم =) بنابراین، آرزو می کنم هر یک از شما به خط خود پایبند باشید!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

روش حداقل مربعات یکی از رایج ترین و پیشرفته ترین روش ها به دلیل داشتن آن است سادگی و کارایی روش‌های تخمین پارامترهای مدل‌های اقتصادسنجی خطی. در عین حال، هنگام استفاده از آن باید احتیاط کرد، زیرا مدل های ساخته شده با استفاده از آن ممکن است تعدادی از الزامات کیفیت پارامترهای خود را برآورده نکنند و در نتیجه، الگوهای توسعه فرآیند را "به خوبی" منعکس نکنند.

اجازه دهید روند تخمین پارامترهای یک مدل اقتصادسنجی خطی با استفاده از روش حداقل مربعات را با جزئیات بیشتری در نظر بگیریم. چنین مدلی را می توان به صورت کلی با معادله (1.2) نشان داد:

y t = a 0 + a 1 x 1t +...+ a n x nt + ε t .

داده های اولیه هنگام تخمین پارامترهای a 0، a 1،...، a n بردار مقادیر متغیر وابسته است. y= (y 1 , y 2 , ... , y T)" و ماتریس مقادیر متغیرهای مستقل

که در آن ستون اول، متشکل از یکی، با ضریب مدل مطابقت دارد.

روش حداقل مربعات نام خود را بر اساس این اصل اساسی گرفته است که تخمین پارامترهای بدست آمده بر اساس آن باید برآورده شوند: مجموع مربعات خطای مدل باید حداقل باشد.

نمونه هایی از حل مسائل به روش حداقل مربعات

مثال 2.1.شرکت تجاری دارای شبکه ای متشکل از 12 فروشگاه است که اطلاعات فعالیت های آن در جدول ارائه شده است. 2.1.

مدیریت شرکت مایل است بداند که اندازه گردش مالی سالانه چگونه به فضای خرده فروشی فروشگاه بستگی دارد.

جدول 2.1

شماره مغازه گردش مالی سالانه، میلیون روبل منطقه تجاری، هزار متر مربع
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

راه حل حداقل مربعاتاجازه دهید تعیین کنیم - گردش مالی سالانه فروشگاه -میلیون روبل. - متراژ فروش فروشگاه هزار متر مربع.

شکل 2.1. Scatterplot برای مثال 2.1

برای تعیین شکل رابطه عملکردی بین متغیرها و ساختن نمودار پراکندگی (شکل 2.1).

بر اساس نمودار پراکندگی، می‌توان نتیجه گرفت که گردش مالی سالانه به طور مثبت به منطقه فروش وابسته است (یعنی با رشد y افزایش می‌یابد). مناسب ترین شکل اتصال عملکردی است خطی.

اطلاعات برای محاسبات بیشتر در جدول ارائه شده است. 2.2. با استفاده از روش حداقل مربعات، پارامترهای مدل اقتصادسنجی خطی تک عاملی را تخمین می زنیم

جدول 2.2

تی y t x 1t y t 2 x1t2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
اس 819,52 10,68 65008,554 11,4058 858,3991
میانگین 68,29 0,89

به این ترتیب،

بنابراین، با افزایش منطقه تجارت به میزان 1000 متر مربع، با مساوی بودن سایر موارد، میانگین گردش مالی سالانه 67.8871 میلیون روبل افزایش می یابد.

مثال 2.2.مدیریت شرکت متوجه شد که گردش مالی سالانه نه تنها به منطقه فروش فروشگاه (نگاه کنید به مثال 2.1)، بلکه به میانگین تعداد بازدیدکنندگان نیز بستگی دارد. اطلاعات مربوطه در جدول ارائه شده است. 2.3.

جدول 2.3

راه حل.نشان می دهد - میانگین تعداد بازدیدکنندگان از فروشگاه هفتم در روز، هزار نفر.

برای تعیین شکل رابطه عملکردی بین متغیرها و ساختن نمودار پراکندگی (شکل 2.2).

بر اساس نمودار پراکندگی، می‌توان نتیجه گرفت که گردش مالی سالانه با میانگین تعداد بازدیدکنندگان در روز رابطه مثبت دارد (یعنی با رشد y افزایش می‌یابد). شکل وابستگی عملکردی خطی است.

برنج. 2.2. Scatterplot برای مثال 2.2

جدول 2.4

تی x 2 تن x 2t 2 yt x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
اس 127,83 1410,44 9160,9934 118,9728
میانگین 10,65

به طور کلی تعیین پارامترهای مدل اقتصادسنجی دو عاملی ضروری است

y t \u003d a 0 + a 1 x 1t + a 2 x 2t + ε t

اطلاعات مورد نیاز برای محاسبات بیشتر در جدول ارائه شده است. 2.4.

اجازه دهید پارامترهای یک مدل اقتصادسنجی خطی دو عاملی را با استفاده از روش حداقل مربعات تخمین بزنیم.

به این ترتیب،

ارزیابی ضریب = 61.6583 نشان می دهد که همه چیزهای دیگر برابر هستند، با افزایش سطح فروش 1000 متر مربع، گردش مالی سالانه به طور متوسط ​​61.6583 میلیون روبل افزایش می یابد.

برآورد ضریب = 2.2748 نشان می دهد که با مساوی بودن سایر موارد، میانگین تعداد بازدیدکنندگان به ازای هر هزار نفر افزایش می یابد. در روز، گردش مالی سالانه به طور متوسط ​​2.2748 میلیون روبل افزایش می یابد.

مثال 2.3.با استفاده از اطلاعات ارائه شده در جدول 2.2 و 2.4، پارامتر یک مدل اقتصادسنجی تک عاملی را برآورد کنید

ارزش مرکزی گردش مالی سالانه فروشگاه -میلیون روبل کجاست. - ارزش مرکزی میانگین روزانه تعداد بازدیدکنندگان از فروشگاه t-ام، هزار نفر. (نمونه های 2.1-2.2 را ببینید).

راه حل.اطلاعات اضافی مورد نیاز برای محاسبات در جدول ارائه شده است. 2.5.

جدول 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
مجموع 48,4344 431,0566

با استفاده از فرمول (2.35) بدست می آوریم

به این ترتیب،

http://www.cleverstudents.ru/articles/mnk.html

مثال.

داده های تجربی در مورد مقادیر متغیرها ایکسو دردر جدول آورده شده است.

در نتیجه تراز آنها، تابع

استفاده كردن روش حداقل مربع، این داده ها را با یک وابستگی خطی تقریبی کنید y=ax+b(گزینه ها را پیدا کنید آو ب). دریابید که کدام یک از دو خط بهتر است (به معنای روش حداقل مربعات) داده های تجربی را تراز می کند. یک نقاشی بکشید.

راه حل.

در مثال ما n=5. برای راحتی محاسبه مقادیری که در فرمول های ضرایب مورد نیاز گنجانده شده است، جدول را پر می کنیم.

مقادیر سطر چهارم جدول با ضرب مقادیر سطر دوم در مقادیر سطر 3 برای هر عدد به دست می آید. من.

مقادیر ردیف پنجم جدول با مربع کردن مقادیر سطر دوم برای هر عدد به دست می آید. من.

مقادیر آخرین ستون جدول مجموع مقادیر در سراسر سطرها است.

برای یافتن ضرایب از فرمول روش حداقل مربعات استفاده می کنیم آو ب. ما مقادیر مربوطه را از آخرین ستون جدول در آنها جایگزین می کنیم:

در نتیجه، y=0.165x+2.184خط مستقیم تقریبی مورد نظر است.

باقی مانده است که بفهمیم کدام یک از خطوط y=0.165x+2.184یا داده های اصلی را بهتر تقریب می کند، یعنی تخمینی را با استفاده از روش حداقل مربعات انجام می دهد.

اثبات

به طوری که وقتی پیدا شد آو بتابع کوچکترین مقدار را می گیرد، لازم است که در این مرحله ماتریس شکل درجه دوم دیفرانسیل مرتبه دوم برای تابع باشد. مثبت قطعی بود بیایید آن را نشان دهیم.

دیفرانسیل مرتبه دوم به شکل زیر است:

به این معنا که

بنابراین، ماتریس فرم درجه دوم دارای فرم است

و مقادیر عناصر به آن بستگی ندارد آو ب.

اجازه دهید نشان دهیم که ماتریس مثبت قطعی است. این مستلزم آن است که مینورهای زاویه مثبت باشند.

مینور زاویه ای مرتبه اول . نابرابری سخت است، از نقاط

  • آموزش

مقدمه

من یک برنامه نویس کامپیوتر هستم. زمانی که یاد گرفتم بگویم: "من هیچی نمیفهمم!"حالا خجالت نمی‌کشم به مرشد علم بگویم که برای من سخنرانی می‌کند، نمی‌فهمم آن بزرگوار با من از چه حرف می‌زند. و خیلی سخته بله، سخت و شرم آور است که اعتراف کنید که نمی دانید. کسی که دوست دارد اعتراف کند که اصول چیزی را در آنجا نمی داند. به دلیل حرفه ام، مجبورم در تعداد زیادی سخنرانی و سخنرانی شرکت کنم، جایی که، اعتراف می کنم، در اکثر موارد احساس خواب آلودگی می کنم، زیرا چیزی نمی فهمم. و من نمی فهمم زیرا مشکل بزرگ وضعیت فعلی علم در ریاضیات نهفته است. فرض بر این است که همه دانش آموزان کاملاً با تمام زمینه های ریاضیات آشنا هستند (که پوچ است). اعتراف به اینکه نمی دانید مشتق چیست (که این کمی دیرتر است) شرم آور است.

اما یاد گرفتم بگویم که نمی دانم ضرب چیست. بله، من نمی دانم جبر فرعی بر جبر دروغ چیست. بله، نمی دانم چرا معادلات درجه دوم در زندگی مورد نیاز است. به هر حال، اگر مطمئن هستید که می دانید، پس ما باید در مورد آن صحبت کنیم! ریاضیات یک سری ترفند است. ریاضیدانان سعی می کنند مردم را گیج و مرعوب کنند. جایی که هیچ سردرگمی، هیچ شهرت و اقتداری وجود ندارد. بله، صحبت کردن به انتزاعی ترین زبان ممکن اعتبار دارد، که این خود کاملاً مزخرف است.

آیا می دانید مشتق چیست؟ به احتمال زیاد در مورد حد و مرز رابطه تفاوت به من خواهید گفت. در سال اول ریاضیات در دانشگاه دولتی سنت پترزبورگ، ویکتور پتروویچ خاوین من تعریف شده استمشتق به عنوان ضریب اولین جمله از سری تیلور تابع در نقطه (این یک ژیمناستیک جداگانه برای تعیین سری تیلور بدون مشتقات بود). مدت ها به این تعریف خندیدم تا اینکه بالاخره فهمیدم در مورد چیست. مشتق چیزی بیش از اندازه‌گیری نیست که نشان می‌دهد چقدر تابعی که ما متمایز می‌کنیم شبیه تابع y=x، y=x^2، y=x^3 است.

اکنون این افتخار را دارم که به دانشجویانی که ترسریاضیات اگر از ریاضیات می ترسید - ما در راه هستیم. به محض اینکه سعی کردید متنی را بخوانید و به نظرتان رسید که بیش از حد پیچیده است، بدانید که بد نوشته شده است. من استدلال می کنم که هیچ حوزه ای از ریاضیات وجود ندارد که نتوان در مورد آن "روی انگشتان" بدون از دست دادن دقت صحبت کرد.

چالش برای آینده نزدیک: به دانش‌آموزانم دستور دادم که بفهمند یک کنترل‌کننده خطی- درجه دوم چیست. خجالتی نباش، سه دقیقه از عمرت را هدر بده، لینک را دنبال کن. اگر چیزی متوجه نشدید، پس ما در راه هستیم. من (یک ریاضی دان-برنامه نویس حرفه ای) هم چیزی نفهمیدم. و من به شما اطمینان می دهم، این را می توان "بر روی انگشتان دست" مرتب کرد. در حال حاضر نمی‌دانم چیست، اما به شما اطمینان می‌دهم که می‌توانیم آن را کشف کنیم.

بنابراین، اولین سخنرانی ای که قرار است برای دانش آموزانم پس از اینکه آنها با وحشت به سمت من می آیند با این جمله که یک کنترل کننده خطی-مربع یک باگ وحشتناک است که هرگز در زندگی خود به آن مسلط نخواهید شد، خواهم کرد، روش های حداقل مربعات. آیا می توانید معادلات خطی را حل کنید؟ اگر در حال خواندن این متن هستید، به احتمال زیاد نه.

بنابراین، با توجه به دو نقطه (x0، y0)، (x1، y1)، به عنوان مثال، (1،1) و (3،2)، وظیفه پیدا کردن معادله یک خط مستقیم از این دو نقطه است:

تصویر

این خط مستقیم باید معادله ای مانند زیر داشته باشد:

در اینجا آلفا و بتا برای ما ناشناخته هستند، اما دو نقطه از این خط شناخته شده است:

می توانید این معادله را به صورت ماتریسی بنویسید:

در اینجا باید یک انحراف غزلی انجام دهیم: ماتریس چیست؟ ماتریس چیزی نیست جز یک آرایه دو بعدی. این روشی برای ذخیره سازی داده ها است، هیچ ارزش دیگری نباید به آن داده شود. این به ما بستگی دارد که چگونه یک ماتریس خاص را دقیقاً تفسیر کنیم. به صورت دوره ای، من آن را به عنوان یک نقشه خطی، دوره ای به عنوان یک فرم درجه دوم، و گاهی اوقات به سادگی به عنوان مجموعه ای از بردارها تفسیر می کنم. این همه در چارچوب روشن خواهد شد.

بیایید ماتریس های خاص را با نمایش نمادین آنها جایگزین کنیم:

سپس (آلفا، بتا) را می توان به راحتی پیدا کرد:

به طور خاص برای داده های قبلی ما:

که منجر به معادله زیر خط مستقیمی می شود که از نقاط (1،1) و (3،2) می گذرد:

خوب، اینجا همه چیز روشن است. و بیایید معادله یک خط مستقیم را پیدا کنیم سهنقاط: (x0,y0)، (x1,y1) و (x2,y2):

اوه اوه، اما ما سه معادله برای دو مجهول داریم! ریاضیدان استاندارد خواهد گفت که هیچ راه حلی وجود ندارد. برنامه نویس چه خواهد گفت؟ و ابتدا سیستم معادلات قبلی را به شکل زیر بازنویسی می کند:

در مورد ما، بردارهای i، j، b سه بعدی هستند، بنابراین (در حالت کلی) هیچ راه حلی برای این سیستم وجود ندارد. هر بردار (alpha\*i + beta\*j) در صفحه ای قرار دارد که توسط بردارهای (i, j) پوشانده شده است. اگر b به این صفحه تعلق نداشته باشد، هیچ راه حلی وجود ندارد (برابری در معادله به دست نمی آید). چه باید کرد؟ بیایید به دنبال مصالحه باشیم. بیایید نشان دهیم e (آلفا، بتا)دقیقاً چگونه به برابری نرسیدیم:

و ما سعی خواهیم کرد این خطا را به حداقل برسانیم:

چرا مربع؟

ما نه تنها به دنبال حداقل هنجار، بلکه به دنبال حداقل مربع هنجار هستیم. چرا؟ حداقل نقطه به خودی خود منطبق است و مربع یک تابع صاف می دهد (یک تابع درجه دوم از آرگومان ها (آلفا، بتا))، در حالی که فقط طول تابعی را به شکل مخروط می دهد که در نقطه حداقل غیر قابل تمایز است. Brr. مربع راحت تر است.

بدیهی است که هنگام بردار خطا به حداقل می رسد همتعامد به صفحه ای که توسط بردارها پوشانده شده است منو j.

تصویر

به عبارت دیگر: ما به دنبال خطی هستیم که مجموع مجذور طول فواصل تمام نقاط تا این خط حداقل باشد:

به روز رسانی: در اینجا من یک گیره دارم، فاصله تا خط باید به صورت عمودی اندازه گیری شود، نه طرح ریزی املایی. این نظر دهنده درست است.

تصویر

در کلمات کاملاً متفاوت (با دقت، به طور ضعیف رسمی شده است، اما باید روی انگشتان مشخص باشد): ما همه خطوط ممکن را بین همه جفت نقاط می گیریم و به دنبال خط متوسط ​​بین همه می گردیم:

تصویر

توضیح دیگر روی انگشتان: ما بین تمام نقاط داده (در اینجا ما سه نقطه داریم) و خطی که به دنبال آن هستیم یک فنر وصل می کنیم و خط حالت تعادل دقیقاً همان چیزی است که به دنبال آن هستیم.

حداقل فرم درجه دوم

بنابراین، با توجه به بردار بو صفحه ای که توسط ستون ها-بردارهای ماتریس پوشانده شده است آ(در این حالت (x0,x1,x2) و (1,1,1)) به دنبال یک بردار هستیم. هبا حداقل مربع طول بدیهی است که حداقل برای بردار قابل دستیابی است ه، متعامد به صفحه پوشیده شده توسط ستون ها-بردارهای ماتریس آ:

به عبارت دیگر، ما به دنبال یک بردار x=(آلفا، بتا) هستیم که:

یادآوری می کنم که این بردار x=(آلفا، بتا) مینیمم تابع درجه دوم است ||e(آلفا، بتا)||^2:

در اینجا یادآوری این نکته مفید است که ماتریس را می توان به خوبی شکل درجه دوم تفسیر کرد، برای مثال، ماتریس هویت ((1,0),(0,1)) را می توان به عنوان تابعی از x^2 + y تفسیر کرد. ^2:

فرم درجه دوم

تمام این ژیمناستیک به عنوان رگرسیون خطی شناخته می شود.

معادله لاپلاس با شرط مرزی دیریکله

اکنون ساده ترین مشکل واقعی: یک سطح مثلثی مشخص وجود دارد، لازم است آن را صاف کنید. به عنوان مثال، بیایید مدل چهره من را بارگذاری کنیم:

commit اصلی موجود است. برای به حداقل رساندن وابستگی‌های خارجی، کد رندر نرم‌افزارم را که قبلاً روی Habré بود، گرفتم. برای حل سیستم خطی، من از OpenNL استفاده می کنم، این یک حل کننده عالی است، اما نصب آن بسیار دشوار است: شما باید دو فایل (.h + .c) را در پوشه پروژه خود کپی کنید. تمام صاف کردن توسط کد زیر انجام می شود:

برای (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = faces[i]; برای (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

مختصات X، Y و Z قابل جدا شدن هستند، من آنها را جداگانه صاف می کنم. یعنی من سه سیستم معادله خطی را حل می کنم که هر کدام به اندازه تعداد رئوس مدل من متغیر دارند. n سطر اول ماتریس A فقط یک 1 در هر سطر دارند و n سطر اول بردار b مختصات مدل اصلی دارند. یعنی، من بین موقعیت راس جدید و موقعیت راس قدیمی به فنری گره می زنم - موارد جدید نباید خیلی دور از راس های قدیمی باشند.

تمام ردیف‌های بعدی ماتریس A (faces.size()*3 = تعداد یال‌های همه مثلث‌های شبکه) یک رخداد 1 و یک وقوع 1- دارند، در حالی که بردار b دارای مولفه‌های مقابل صفر است. این به این معنی است که من یک فنر در هر لبه مش مثلثی خود قرار می دهم: همه لبه ها سعی می کنند راس یکسانی را با نقطه شروع و پایان خود بدست آورند.

بار دیگر: همه رئوس متغیر هستند و نمی توانند از موقعیت اصلی خود دور شوند، اما در عین حال سعی می کنند شبیه یکدیگر شوند.

در اینجا نتیجه است:

همه چیز خوب خواهد بود، مدل واقعا صاف است، اما از لبه اصلی خود فاصله گرفت. بیایید کد را کمی تغییر دهیم:

برای (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

در ماتریس A، برای رئوس هایی که روی لبه هستند، یک ردیف از دسته v_i = verts[i][d] اضافه نمی کنم، بلکه 1000*v_i = 1000*verts[i][d] اضافه می کنم. چه چیزی را تغییر می دهد؟ و این شکل درجه دوم خطا را تغییر می دهد. اکنون یک انحراف از بالا در لبه نه یک واحد، مانند قبل، بلکه 1000 * 1000 واحد هزینه خواهد داشت. یعنی ما فنر قوی تری را روی راس های افراطی آویزان کردیم، راه حل ترجیح می دهد دیگران را قوی تر بکشد. در اینجا نتیجه است:

بیایید قدرت فنرهای بین رئوس را دو برابر کنیم:
nlCoefficient(face[j], 2); nlCoefficient(face[(j+1)%3], -2);

منطقی است که سطح صاف تر شده است:

و حالا حتی صد برابر قوی تر:

این چیه؟ تصور کنید که یک حلقه سیمی را در آب صابون فرو برده ایم. در نتیجه، فیلم صابونی به دست آمده سعی می کند تا حد ممکن کمترین انحنا را داشته باشد، با لمس همان مرز - حلقه سیمی ما. این دقیقاً همان چیزی است که با تعمیر حاشیه و درخواست سطح صاف در داخل به دست آوردیم. تبریک می گویم، ما به تازگی معادله لاپلاس را با شرایط مرزی دیریکله حل کردیم. باحال به نظر می رسد؟ اما در واقع، فقط یک سیستم از معادلات خطی برای حل.

معادله پواسون

بیایید یک نام جالب دیگر داشته باشیم.

بیایید بگوییم که من تصویری مانند این دارم:

همه خوب هستند، اما من صندلی را دوست ندارم.

عکس رو نصف کردم:



و من یک صندلی را با دستان خود انتخاب می کنم:

سپس هر چیزی که در ماسک سفید است را به سمت چپ تصویر می کشم و در عین حال در کل تصویر می گویم که تفاوت بین دو پیکسل همسایه باید برابر با تفاوت بین دو پیکسل همسایه باشد. تصویر سمت راست:

برای (int i=0; i

در اینجا نتیجه است:

کد و تصاویر موجود است

روش حداقل مربعات (OLS، eng. Ordinary Least Squares، OLS)- یک روش ریاضی که برای حل مسائل مختلف استفاده می شود، بر اساس به حداقل رساندن مجموع مجذور انحراف برخی از توابع از متغیرهای مورد نظر. می توان از آن برای "حل" معادلات بیش از حد تعیین شده استفاده کرد (زمانی که تعداد معادلات از تعداد مجهولات بیشتر شود)، برای یافتن راه حل در مورد سیستم های غیرخطی معادلات معمولی (نه بیش از حد تعیین شده)، برای تقریب مقادیر نقطه ای. از برخی عملکردها OLS یکی از روش های اساسی تحلیل رگرسیون برای تخمین پارامترهای ناشناخته مدل های رگرسیون از داده های نمونه است.

یوتیوب دایره المعارفی

    1 / 5

    ✪ روش حداقل مربعات. موضوع

    ✪ Mitin I. V. - پردازش نتایج فیزیکی. آزمایش - روش حداقل مربعات (سخنرانی 4)

    ✪ حداقل مربعات، درس 1/2. تابع خطی

    ✪ اقتصاد سنجی سخنرانی 5. روش حداقل مربعات

    ✪ روش حداقل مربعات. پاسخ ها

    زیرنویس

داستان

تا اوایل قرن نوزدهم. دانشمندان قوانین خاصی برای حل یک سیستم معادلات که در آن تعداد مجهولات کمتر از تعداد معادلات باشد، نداشتند. تا آن زمان روش‌های خاصی بسته به نوع معادلات و ذکاوت ماشین‌حساب‌ها مورد استفاده قرار می‌گرفت و بنابراین ماشین‌حساب‌های مختلف، با شروع از داده‌های مشاهداتی یکسان، به نتایج متفاوتی می‌رسیدند. اولین کاربرد این روش به گاوس (1795) نسبت داده می شود و لژاندر (1805) به طور مستقل آن را کشف و با نام مدرن خود منتشر کرد (fr. Metode des moindres quarres) . لاپلاس این روش را با نظریه احتمالات مرتبط کرد و ریاضیدان آمریکایی آدرین (1808) کاربردهای احتمالی آن را در نظر گرفت. این روش با تحقیقات بیشتر توسط انکه، بسل، هانسن و دیگران گسترش یافته و بهبود یافته است.

ماهیت روش حداقل مربعات

اجازه دهید x (\displaystyle x)- کیت n (\displaystyle n)متغیرهای ناشناخته (پارامترها) f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- مجموعه ای از توابع از این مجموعه از متغیرها. مشکل انتخاب چنین مقادیری است x (\displaystyle x)به طوری که مقادیر این توابع تا حد امکان به برخی از مقادیر نزدیک باشد y i (\displaystyle y_(i)). در اصل، ما در مورد "حل" سیستم معادلات بیش از حد تعیین شده صحبت می کنیم. f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m)در معنای مشخص شده، حداکثر نزدیکی قسمت های چپ و راست سیستم. ماهیت LSM این است که به عنوان یک "میزان مجاورت" مجموع انحرافات مجذور قسمت های چپ و راست را انتخاب کنید. | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). بنابراین، ماهیت LSM را می توان به صورت زیر بیان کرد:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\پیکان راست \دقیقه _(x)).

اگر سیستم معادلات دارای جواب باشد، حداقل مجموع مربعات برابر با صفر خواهد بود و جواب های دقیق سیستم معادلات را می توان به صورت تحلیلی یا مثلاً با روش های مختلف بهینه سازی عددی یافت. اگر سیستم بیش از حد تعیین شده باشد، یعنی به زبان ساده، تعداد معادلات مستقل از تعداد متغیرهای مجهول بیشتر باشد، در این صورت سیستم راه حل دقیقی ندارد و روش حداقل مربعات به ما امکان می دهد برخی از بردارهای "بهینه" را پیدا کنیم. x (\displaystyle x)به معنای حداکثر نزدیکی بردارها y (\displaystyle y)و f (x) (\displaystyle f(x))یا حداکثر نزدیکی بردار انحراف e (\displaystyle e)به صفر (نزدیک به معنای فاصله اقلیدسی درک می شود).

مثال - سیستم معادلات خطی

به طور خاص، روش حداقل مربعات را می توان برای "حل" سیستم معادلات خطی استفاده کرد

A x = b (\displaystyle Ax=b),

جایی که A (\displaystyle A)ماتریس اندازه مستطیلی m × n، m > n (\displaystyle m\times n,m>n)(یعنی تعداد ردیف های ماتریس A بیشتر از تعداد متغیرهای مورد نیاز است).

چنین سیستم معادلاتی به طور کلی هیچ راه حلی ندارد. بنابراین، این سیستم را می توان تنها به معنای انتخاب چنین بردار "حل" کرد x (\displaystyle x)برای به حداقل رساندن "فاصله" بین بردارها A x (\displaystyle Axe)و b (\displaystyle b). برای این کار می توانید معیار کمینه سازی مجذور اختلاف قسمت های چپ و راست معادلات سیستم را اعمال کنید، یعنی (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\right arrow \min ). به راحتی می توان نشان داد که حل این مسئله کمینه سازی منجر به حل سیستم معادلات زیر می شود

A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (T)b).

OLS در تحلیل رگرسیون (تقریبا داده ها)

بذار باشه n (\displaystyle n)مقادیر برخی از متغیرها y (\displaystyle y)(این ممکن است نتایج مشاهدات، آزمایش ها و غیره باشد) و متغیرهای مربوطه x (\displaystyle x). چالش ایجاد رابطه بین y (\displaystyle y)و x (\displaystyle x)تقریبی توسط برخی تابع شناخته شده تا برخی از پارامترهای ناشناخته b (\displaystyle b)، یعنی در واقع بهترین مقادیر پارامترها را پیدا کنید b (\displaystyle b)، با حداکثر تقریب مقادیر f (x , b) (\displaystyle f(x,b))به ارزش های واقعی y (\displaystyle y). در واقع، این به حالت "حل" یک سیستم معادلات بیش از حد تعیین شده با توجه به b (\displaystyle b):

F (xt، b) = y t، t = 1، …، n (\displaystyle f(x_(t)،b)=y_(t)،t=1،\ldots،n).

در تحلیل رگرسیون و به ویژه در اقتصاد سنجی از مدل های احتمالی رابطه بین متغیرها استفاده می شود.

Y t = f (xt , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

جایی که ε t (\displaystyle \varepsilon _(t))- باصطلاح خطاهای تصادفیمدل ها.

بر این اساس، انحراف مقادیر مشاهده شده y (\displaystyle y)از مدل f (x , b) (\displaystyle f(x,b))قبلاً در خود مدل فرض شده است. ماهیت LSM (معمولی، کلاسیک) یافتن چنین پارامترهایی است b (\displaystyle b)، که در آن مجموع انحرافات مجذور (خطاها، برای مدل های رگرسیون اغلب آنها را باقیمانده رگرسیون می نامند) e t (\displaystyle e_(t))حداقل خواهد بود:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

جایی که R S S (\displaystyle RSS)- انگلیسی. مجموع مربعات باقیمانده به صورت زیر تعریف می شود:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\جمع _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

در حالت کلی می توان این مشکل را با روش های عددی بهینه سازی (حداقل سازی) حل کرد. در این مورد، شخص صحبت می کند حداقل مربعات غیر خطی(NLS یا NLLS - eng. حداقل مربعات غیر خطی). در بسیاری از موارد می توان یک راه حل تحلیلی به دست آورد. برای حل مشکل کمینه سازی، باید نقاط ساکن تابع را پیدا کرد R S (b) (\displaystyle RSS(b))، آن را با توجه به پارامترهای ناشناخته متمایز می کند b (\displaystyle b)، معادل سازی مشتقات با صفر و حل سیستم معادلات حاصل:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t)،b))(\frac (\جزئی f(x_(t)،b))(\جزئی b))=0).

LSM در مورد رگرسیون خطی

بگذارید وابستگی رگرسیون خطی باشد:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

اجازه دهید yبردار ستون مشاهدات متغیر مورد توضیح است و X (\displaystyle X)- این هست (n × k) (\displaystyle ((n\times k)))- ماتریس مشاهدات فاکتورها (ردیف های ماتریس - بردارهای مقادیر عوامل در این مشاهده، توسط ستون ها - بردار مقادیر این عامل در همه مشاهدات). نمایش ماتریسی مدل خطی به شکل زیر است:

y = Xb + ε (\displaystyle y=Xb+\varepsilon).

سپس بردار تخمین های متغیر توضیح داده شده و بردار باقیمانده های رگرسیون برابر با

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

بر این اساس مجموع مجذورهای باقیمانده رگرسیون برابر خواهد بود

R S S = e T e = (y - X b) T (y - X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

متمایز کردن این تابع با توجه به بردار پارامتر b (\displaystyle b)و با معادل سازی مشتقات با صفر، سیستمی از معادلات را به دست می آوریم (به صورت ماتریسی):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

در شکل ماتریس رمزگشایی شده، این سیستم معادلات به شکل زیر است:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t ∑ x t 2 x 3 x 1 x 1 ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b x t 3 ⋮ b x k) = (\y) (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk) \\\ جمع x_(t2)x_(t1)&\مجموع x_(t2)^(2)&\مجموع x_(t2)x_(t3)&\ldots &\ مجموع x_(t2)x_(tk) \\\مجموع x_(t3)x_(t1)&\مجموع x_(t3)x_(t2)&\مجموع x_(t3)^(2)&\ldots &\ جمع x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\ مجموع x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3)\\\vdots \\b_( k)\\\پایان(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \ جمع x_(t3)y_(t )\\\vdots \\\ جمع x_(tk)y_(t)\\\ end (pmatrix)))که در آن تمام مبالغ بر تمام مقادیر مجاز گرفته می شود t (\displaystyle t).

اگر یک ثابت در مدل گنجانده شود (طبق معمول)، پس x t 1 = 1 (\displaystyle x_(t1)=1)برای همه t (\displaystyle t)بنابراین، در گوشه سمت چپ بالای ماتریس سیستم معادلات تعداد مشاهدات است. n (\displaystyle n)، و در عناصر باقی مانده از ردیف اول و ستون اول - فقط مجموع مقادیر متغیرها: ∑ x t j (\displaystyle \sum x_(tj))و اولین عنصر سمت راست سیستم - ∑ y t (\displaystyle \ جمع y_(t)).

حل این سیستم معادلات فرمول کلی را برای برآورد حداقل مربعات برای مدل خطی به دست می دهد:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T )X)^(-1)X^(T)y=\چپ((\frac (1)(n))X^(T)X\راست)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

برای اهداف تحلیلی، آخرین نمایش این فرمول مفید است (در سیستم معادلات وقتی بر n تقسیم می شود، میانگین های حسابی به جای مجموع ظاهر می شوند). اگر داده ها در مدل رگرسیونی متمرکز شده استسپس در این نمایش ماتریس اول به معنای ماتریس کوواریانس نمونه از عوامل است و ماتریس دوم بردار کوواریانس عوامل با یک متغیر وابسته است. اگر علاوه بر این، داده نیز باشد نرمال شدهدر SKO (یعنی در نهایت استاندارد شده، سپس ماتریس اول به معنای ماتریس همبستگی نمونه عوامل است، بردار دوم - بردار همبستگی نمونه عوامل با متغیر وابسته.

ویژگی مهم تخمین LLS برای مدل ها با یک ثابت- خط رگرسیون ساخته شده از مرکز ثقل داده های نمونه می گذرد، یعنی برابری برآورده می شود:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\کلاه (ب))_(j)(\bar (x))_(j)).

به طور خاص، در حالت شدید، زمانی که تنها رگرسیون یک ثابت است، متوجه می‌شویم که تخمین OLS از یک پارامتر واحد (خود ثابت) برابر است با مقدار میانگین متغیر توضیح داده شده. یعنی، میانگین حسابی، که به دلیل خواص خوبش از قوانین اعداد بزرگ شناخته می‌شود، همچنین یک تخمین حداقل مربعات است - این معیار برای حداقل مجموع مجذور انحرافات از آن را برآورده می‌کند.

ساده ترین موارد خاص

در مورد رگرسیون خطی زوجی y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t))، هنگامی که وابستگی خطی یک متغیر به متغیر دیگر تخمین زده می شود، فرمول های محاسبه ساده می شوند (شما می توانید بدون جبر ماتریسی انجام دهید). سیستم معادلات به شکل زیر است:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end (pmatrix))).

از اینجا به راحتی می توان تخمین هایی را برای ضرایب پیدا کرد:

(b ^ = Cov⁡ (x, y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2, a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(موارد) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2)))،\\( \hat (a))=(\bar (y))-b(\bar (x)).\end (موارد)))

علیرغم اینکه به طور کلی مدل های دارای ثابت ارجح هستند، در برخی موارد از ملاحظات نظری مشخص می شود که ثابت a (\displaystyle a)باید برابر با صفر باشد. برای مثال در فیزیک رابطه بین ولتاژ و جریان شکلی دارد U = I ⋅ R (\displaystyle U=I\cdot R); برای اندازه گیری ولتاژ و جریان، لازم است مقاومت را تخمین بزنیم. در این مورد، ما در مورد یک مدل صحبت می کنیم y = b x (\displaystyle y=bx). در این حالت به جای سیستم معادلات، یک معادله واحد داریم

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

بنابراین فرمول تخمین یک ضریب منفرد دارای فرم است

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\ جمع _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\ overline (x^(2)) ))).

مورد یک مدل چند جمله ای

اگر داده ها با تابع رگرسیون چند جمله ای یک متغیر برازش داده شوند f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i))، سپس درک درجات x i (\displaystyle x^(i))به عنوان عوامل مستقل برای هر یک من (\displaystyle i)برآورد پارامترهای مدل بر اساس فرمول کلی برای تخمین پارامترهای مدل خطی امکان پذیر است. برای این کار کافی است در فرمول کلی در نظر بگیریم که با چنین تعبیری x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j))و x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). بنابراین، معادلات ماتریسی در این مورد به شکل زیر خواهد بود:

(n ∑ n x t ... ∑ n x t k ∑ n x t ∑ n x i 2 ... ∑ m x i k + 1 ⋮ ⋱ ⋮ ∑ ∑ n x t k ∑ n x t k + 1 ... ∑ n x t k + 1 ... ∑ n x t k n y t ∑ n x t y t ⋮ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\ جمع \حدود _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ sum \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).)

ویژگی های آماری برآوردهای OLS

اول از همه، توجه می کنیم که برای مدل های خطی، برآوردهای حداقل مربعات، تخمین های خطی هستند، همانطور که از فرمول بالا آمده است. برای بی طرفی برآوردهای حداقل مربعات، تحقق مهمترین شرط تحلیل رگرسیون لازم و کافی است: انتظار ریاضی از یک خطای تصادفی مشروط به عوامل باید برابر با صفر باشد. این شرط ارضا می شود، به ویژه، اگر

  1. انتظار ریاضی خطاهای تصادفی صفر است و
  2. عوامل و خطاهای تصادفی مقادیر مستقل و تصادفی هستند.

شرط دوم - شرط عوامل برونزا - اساسی است. اگر این ویژگی برآورده نشود، می توانیم فرض کنیم که تقریباً هر تخمینی بسیار رضایت بخش خواهد بود: آنها حتی سازگار نخواهند بود (یعنی حتی حجم بسیار زیادی از داده ها امکان به دست آوردن تخمین های کیفی را در این مورد نمی دهد). در مورد کلاسیک، فرض قوی تری در مورد قطعیت عوامل ایجاد می شود، برخلاف یک خطای تصادفی، که به طور خودکار به این معنی است که شرایط برون زا برآورده می شود. در حالت کلی، برای سازگاری برآوردها، ارضای شرط برون زایی همراه با همگرایی ماتریس کافی است. V x (\displaystyle V_(x))با افزایش حجم نمونه تا بی نهایت، به برخی از ماتریس های غیر منحط می رسد.

برای اینکه علاوه بر سازگاری و بی طرفی، تخمین های حداقل مربعات (معمولی) نیز مؤثر باشند (بهترین در کلاس تخمین های بی طرف خطی)، ویژگی های اضافی یک خطای تصادفی باید رعایت شود:

این مفروضات را می توان برای ماتریس کوواریانس بردار خطاهای تصادفی فرموله کرد. V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

مدل خطی که این شرایط را برآورده کند نامیده می شود کلاسیک. تخمین‌های OLS برای رگرسیون خطی کلاسیک، تخمین‌های بی‌طرف، سازگار و کارآمد در کلاس تمام تخمین‌های بی‌طرف خطی هستند (در ادبیات انگلیسی، گاهی اوقات از مخفف استفاده می‌شود. آبی (بهترین برآوردگر خطی بی طرفانه) بهترین تخمین بی طرفانه خطی است. در ادبیات داخلی، قضیه گاوس--مارکف بیشتر مورد استناد قرار می گیرد. همانطور که نشان دادن آسان است، ماتریس کوواریانس بردار برآورد ضریب برابر خواهد بود با:

V (b ^ O L S) = σ 2 (X T X) - 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

کارایی به این معنی است که این ماتریس کوواریانس "حداقل" است (هر ترکیب خطی ضرایب، و به ویژه خود ضرایب، دارای حداقل واریانس هستند)، یعنی در کلاس تخمین های بی طرف خطی، تخمین های OLS بهترین هستند. عناصر مورب این ماتریس - واریانس های تخمین ضرایب - پارامترهای مهم کیفیت برآوردهای به دست آمده هستند. با این حال، محاسبه ماتریس کوواریانس ممکن نیست زیرا واریانس خطای تصادفی ناشناخته است. می توان ثابت کرد که برآورد بی طرفانه و سازگار (برای مدل خطی کلاسیک) از واریانس خطاهای تصادفی مقدار:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

با جایگزینی این مقدار در فرمول ماتریس کوواریانس، تخمینی از ماتریس کوواریانس بدست می آوریم. برآوردهای حاصل نیز بی‌طرفانه و سازگار هستند. همچنین مهم است که تخمین واریانس خطا (و در نتیجه واریانس ضرایب) و تخمین پارامترهای مدل، متغیرهای تصادفی مستقل باشند، که به دست آوردن آمار آزمون برای آزمون فرضیه‌های مربوط به ضرایب مدل را ممکن می‌سازد.

لازم به ذکر است که اگر مفروضات کلاسیک برآورده نشوند، برآوردهای پارامتر حداقل مربعات کارآمدترین نیستند و در جایی که W (\displaystyle W)یک ماتریس وزن قطعی مثبت متقارن است. حداقل مربعات معمولی یک مورد خاص از این رویکرد است، زمانی که ماتریس وزن متناسب با ماتریس هویت باشد. همانطور که مشخص است، برای ماتریس های متقارن (یا عملگرها) تجزیه وجود دارد W = P T P (\displaystyle W=P^(T)P). بنابراین، این تابع را می توان به صورت زیر نشان داد e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *))، یعنی این تابع را می توان به عنوان مجموع مربع های برخی از "باقیمانده های" تبدیل شده نشان داد. بنابراین، ما می توانیم یک کلاس از روش های حداقل مربعات - روش های LS (کمترین مربع) را تشخیص دهیم.

ثابت شده است (قضیه آیتکن) که برای یک مدل رگرسیون خطی تعمیم یافته (که در آن هیچ محدودیتی بر روی ماتریس کوواریانس خطاهای تصادفی اعمال نمی شود)، موثرترین (در کلاس تخمین های بی طرف خطی) تخمین های به اصطلاح هستند. OLS تعمیم یافته (OMNK، GLS - حداقل مربعات تعمیم یافته)- روش LS با ماتریس وزنی برابر با ماتریس کوواریانس معکوس خطاهای تصادفی: W = V ε - 1 (\displaystyle W=V_(\varepsilon)^(-1)).

می توان نشان داد که فرمول تخمین GLS پارامترهای مدل خطی دارای شکل است.

B ^ G L S = (X T V - 1 X) - 1 X T V - 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

ماتریس کوواریانس این برآوردها به ترتیب برابر خواهد بود

V (b ^ G L S) = (X T V - 1 X) - 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- یک)).

در واقع، ماهیت OLS در یک تبدیل خاص (خطی) (P) از داده های اصلی و اعمال حداقل مربعات معمول برای داده های تبدیل شده نهفته است. هدف از این تبدیل این است که برای داده های تبدیل شده، خطاهای تصادفی از قبل مفروضات کلاسیک را برآورده می کنند.

حداقل مربعات وزنی

در مورد ماتریس وزن مورب (و از این رو ماتریس کوواریانس خطاهای تصادفی)، به اصطلاح حداقل مربعات وزنی (WLS - Weighted Least Squares) را داریم. در این حالت، مجموع وزنی مجذورهای باقیمانده مدل به حداقل می رسد، یعنی هر مشاهده یک "وزن" دریافت می کند که با واریانس خطای تصادفی در این مشاهده نسبت معکوس دارد: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ سیگما _(t)^(2)))). در واقع، داده ها با وزن دادن به مشاهدات (تقسیم بر مقداری متناسب با انحراف استاندارد فرضی خطاهای تصادفی) تبدیل می شوند و حداقل مربعات نرمال برای داده های وزنی اعمال می شود.

ISBN 978-5-7749-0473-0.

  • اقتصاد سنجی. کتاب درسی / ویرایش. Eliseeva I. I. - ویرایش دوم. - م.: امور مالی و آمار، 2006. - 576 ص. - ISBN 5-279-02786-3.
  • الکساندروا N.V.تاریخچه اصطلاحات، مفاهیم، ​​نامگذاری های ریاضی: کتاب فرهنگ لغت مرجع. - چاپ سوم - M.: LKI، 2008. - 248 p. - ISBN 978-5-382-00839-4. I.V. Mitin، Rusakov V.S. تجزیه و تحلیل و پردازش داده های تجربی - ویرایش پنجم - 24 ص.
  • تابع را با یک چند جمله ای درجه 2 تقریب می کنیم. برای انجام این کار، ضرایب سیستم نرمال معادلات را محاسبه می کنیم:

    , ,

    اجازه دهید یک سیستم معمولی از حداقل مربعات بسازیم که به شکل زیر است:

    راه حل سیستم به راحتی پیدا می شود:،، .

    بنابراین، چند جمله ای درجه 2 یافت می شود: .

    پیش زمینه نظری

    بازگشت به صفحه<Введение в вычислительную математику. Примеры>

    مثال 2. یافتن درجه بهینه یک چند جمله ای

    بازگشت به صفحه<Введение в вычислительную математику. Примеры>

    مثال 3. استخراج یک سیستم نرمال معادلات برای یافتن پارامترهای یک وابستگی تجربی.

    اجازه دهید سیستمی از معادلات را برای تعیین ضرایب و توابع استخراج کنیم ، که تقریب ریشه میانگین مربع تابع داده شده را با توجه به نقاط انجام می دهد. یک تابع بنویسید و شرط اکستریم لازم برای آن را بنویسید:

    سپس سیستم عادی به شکل زیر در می آید:

    ما یک سیستم خطی معادلات برای پارامترهای مجهول به دست آورده ایم که به راحتی قابل حل است.

    پیش زمینه نظری

    بازگشت به صفحه<Введение в вычислительную математику. Примеры>

    مثال.

    داده های تجربی در مورد مقادیر متغیرها ایکسو دردر جدول آورده شده است.

    در نتیجه تراز آنها، تابع

    استفاده كردن روش حداقل مربع، این داده ها را با یک وابستگی خطی تقریبی کنید y=ax+b(گزینه ها را پیدا کنید آو ب). دریابید که کدام یک از دو خط بهتر است (به معنای روش حداقل مربعات) داده های تجربی را تراز می کند. یک نقاشی بکشید.

    ماهیت روش حداقل مربعات (LSM).

    مشکل پیدا کردن ضرایب وابستگی خطی است که برای آنها تابع دو متغیر است آو بکمترین مقدار را می گیرد. یعنی با توجه به داده ها آو بمجموع انحرافات مجذور داده های تجربی از خط مستقیم یافت شده کوچکترین خواهد بود. این نکته کل روش حداقل مربعات است.

    بنابراین، حل مثال به یافتن حد فاصل یک تابع از دو متغیر خلاصه می شود.

    استخراج فرمول برای یافتن ضرایب.

    یک سیستم دو معادله با دو مجهول گردآوری و حل می شود. یافتن مشتقات جزئی توابع توسط متغیرها آو ب، این مشتقات را با صفر برابر می کنیم.

    ما سیستم معادلات حاصل را با هر روشی حل می کنیم (مثلا روش تعویضیا روش کرامر) و فرمول های یافتن ضرایب را با استفاده از روش حداقل مربعات (LSM) بدست آورید.

    با داده آو بعملکرد کمترین مقدار را می گیرد. اثبات این حقیقت در زیر در متن انتهای صفحه آورده شده است.

    این کل روش حداقل مربعات است. فرمول برای یافتن پارامتر آشامل مجموع ، ، ، و پارامتر است nمقدار داده های تجربی است. مقادیر این مبالغ توصیه می شود به طور جداگانه محاسبه شوند.

    ضریب ببعد از محاسبه پیدا شد آ.

    وقت آن است که نمونه اصلی را به خاطر بسپارید.

    راه حل.

    در مثال ما n=5. برای راحتی محاسبه مقادیری که در فرمول های ضرایب مورد نیاز گنجانده شده است، جدول را پر می کنیم.

    مقادیر سطر چهارم جدول با ضرب مقادیر سطر دوم در مقادیر سطر 3 برای هر عدد به دست می آید. من.

    مقادیر ردیف پنجم جدول با مربع کردن مقادیر سطر دوم برای هر عدد به دست می آید. من.

    مقادیر آخرین ستون جدول مجموع مقادیر در سراسر سطرها است.

    برای یافتن ضرایب از فرمول روش حداقل مربعات استفاده می کنیم آو ب. ما مقادیر مربوطه را از آخرین ستون جدول در آنها جایگزین می کنیم:

    در نتیجه، y=0.165x+2.184خط مستقیم تقریبی مورد نظر است.

    باقی مانده است که بفهمیم کدام یک از خطوط y=0.165x+2.184یا داده های اصلی را بهتر تقریب می کند، یعنی تخمینی را با استفاده از روش حداقل مربعات انجام می دهد.

    برآورد خطای روش حداقل مربعات.

    برای انجام این کار، باید مجموع انحرافات مجذور داده های اصلی را از این خطوط محاسبه کنید و ، یک مقدار کوچکتر مربوط به خطی است که از نظر روش حداقل مربعات، داده های اصلی را بهتر تقریب می کند.

    از آن زمان، پس از آن خط y=0.165x+2.184داده های اصلی را بهتر تقریب می کند.

    تصویر گرافیکی روش حداقل مربعات (LSM).

    همه چیز در نمودارها عالی به نظر می رسد. خط قرمز همان خط یافت شده است y=0.165x+2.184، خط آبی است ، نقاط صورتی داده های اصلی هستند.

    برای چیست، این همه تقریب برای چیست؟

    من شخصاً برای حل مسائل هموارسازی داده ها، مسائل درون یابی و برون یابی استفاده می کنم (در مثال اصلی، می توان از شما درخواست کرد که مقدار مقدار مشاهده شده را پیدا کنید. yدر x=3یا چه زمانی x=6طبق روش MNC). اما در ادامه در بخش دیگری از سایت در این مورد بیشتر صحبت خواهیم کرد.

    بالای صفحه

    اثبات

    به طوری که وقتی پیدا شد آو بتابع کوچکترین مقدار را می گیرد، لازم است که در این مرحله ماتریس شکل درجه دوم دیفرانسیل مرتبه دوم برای تابع باشد. مثبت قطعی بود بیایید آن را نشان دهیم.

    دیفرانسیل مرتبه دوم به شکل زیر است:

    به این معنا که

    بنابراین، ماتریس فرم درجه دوم دارای فرم است

    و مقادیر عناصر به آن بستگی ندارد آو ب.

    اجازه دهید نشان دهیم که ماتریس مثبت قطعی است. این مستلزم آن است که مینورهای زاویه مثبت باشند.

    مینور زاویه ای مرتبه اول . نابرابری سخت است، زیرا نقاط بر هم منطبق نیستند. این امر در مواردی که در ادامه خواهد آمد به طور ضمنی مشخص خواهد شد.

    مینور زاویه ای مرتبه دوم

    این را ثابت کنیم روش استقراء ریاضی

    نتیجه: مقادیر یافت شده آو ببا کوچکترین مقدار تابع مطابقت دارد بنابراین، پارامترهای مورد نظر برای روش حداقل مربعات هستند.

    تا حالا فهمیدی؟
    یک راه حل سفارش دهید

    بالای صفحه

    توسعه پیش بینی با استفاده از روش حداقل مربعات. مثال حل مسئله

    برون یابی - این یک روش تحقیق علمی است که مبتنی بر انتشار روندهای گذشته و حال، الگوها، روابط با توسعه آینده موضوع پیش بینی است. روش های برون یابی شامل روش میانگین متحرک، روش هموارسازی نمایی، روش حداقل مربعات.

    ذات روش حداقل مربعات شامل به حداقل رساندن مجموع انحرافات مربع بین مقادیر مشاهده شده و محاسبه شده است. مقادیر محاسبه شده با توجه به معادله انتخاب شده - معادله رگرسیون پیدا می شود. هرچه فاصله بین مقادیر واقعی و مقادیر محاسبه شده کمتر باشد، پیش بینی بر اساس معادله رگرسیون دقیق تر است.

    تجزیه و تحلیل نظری ماهیت پدیده مورد مطالعه، تغییری که در آن توسط یک سری زمانی نمایش داده می شود، به عنوان مبنایی برای انتخاب یک منحنی عمل می کند. ملاحظاتی در مورد ماهیت رشد سطوح سریال گاهی مورد توجه قرار می گیرد. بنابراین، اگر رشد خروجی در یک تصاعد حسابی انتظار می رود، هموارسازی در یک خط مستقیم انجام می شود. اگر معلوم شد که رشد نمایی است، صاف کردن باید مطابق تابع نمایی انجام شود.

    فرمول کار روش حداقل مربعات : Y t+1 = a*X + b، جایی که t + 1 دوره پیش بینی است. Уt+1 - شاخص پیش بینی شده. a و b ضرایب هستند. X نماد زمان است.

    ضرایب a و b بر اساس فرمول زیر محاسبه می شود:

    جایی که، Uf - مقادیر واقعی سری دینامیک؛ n تعداد سطوح در سری زمانی است.

    هموارسازی سری های زمانی با روش حداقل مربعات در خدمت منعکس کننده الگوهای توسعه پدیده مورد مطالعه است. در بیان تحلیلی یک روند، زمان به عنوان یک متغیر مستقل در نظر گرفته می شود و سطوح سری تابعی از این متغیر مستقل عمل می کنند.

    توسعه یک پدیده به این بستگی ندارد که چند سال از نقطه شروع آن گذشته باشد، بلکه به این بستگی دارد که چه عواملی بر توسعه آن تأثیر گذاشته اند، در چه جهتی و با چه شدتی. از اینجا مشخص می شود که توسعه یک پدیده در زمان در نتیجه عمل این عوامل ظاهر می شود.

    تنظیم صحیح نوع منحنی، نوع وابستگی تحلیلی به زمان یکی از دشوارترین وظایف تحلیل پیش پیش بینی است. .

    انتخاب نوع تابعی که روند را توصیف می کند، که پارامترهای آن با روش حداقل مربعات تعیین می شود، در بیشتر موارد تجربی و با ساخت تعدادی تابع و مقایسه آنها با یکدیگر از نظر مقدار ریشه است. خطای میانگین مربع، با فرمول محاسبه می شود:

    جایی که Uf - مقادیر واقعی سری دینامیک؛ Ur - مقادیر محاسبه شده (هموار) سری های زمانی؛ n تعداد سطوح در سری زمانی است. p تعداد پارامترهای تعریف شده در فرمول های توصیف کننده روند (روند توسعه) است.

    معایب روش حداقل مربعات :

    • هنگام تلاش برای توصیف پدیده اقتصادی مورد مطالعه با استفاده از یک معادله ریاضی، پیش‌بینی برای مدت کوتاهی دقیق خواهد بود و معادله رگرسیون باید با دستیابی به اطلاعات جدید مجدداً محاسبه شود.
    • پیچیدگی انتخاب معادله رگرسیون که با استفاده از برنامه های کامپیوتری استاندارد قابل حل است.

    نمونه ای از استفاده از روش حداقل مربعات برای توسعه پیش بینی

    یک وظیفه . داده هایی وجود دارد که سطح بیکاری در منطقه را مشخص می کند، %

    • با استفاده از روش های میانگین متحرک، هموارسازی نمایی، حداقل مربعات، پیش بینی نرخ بیکاری در منطقه را برای ماه های نوامبر، دسامبر، ژانویه بسازید.
    • با استفاده از هر روش، خطاهای پیش بینی های حاصل را محاسبه کنید.
    • نتایج به دست آمده را مقایسه کنید، نتیجه گیری کنید.

    راه حل حداقل مربعات

    برای حل، جدولی را تهیه می کنیم که در آن محاسبات لازم را انجام می دهیم:

    ε = 28.63/10 = 2.86٪ دقت پیش بینیبالا

    نتیجه : مقایسه نتایج به دست آمده در محاسبات روش میانگین متحرک , هموارسازی نمایی و روش حداقل مربعات، می توان گفت که میانگین خطای نسبی در محاسبات با روش هموارسازی نمایی در محدوده 20-50٪ قرار می گیرد. این بدان معنی است که دقت پیش بینی در این مورد فقط رضایت بخش است.

    در حالت اول و سوم، دقت پیش‌بینی بالا است، زیرا میانگین خطای نسبی کمتر از 10٪ است. اما روش میانگین متحرک امکان دستیابی به نتایج قابل اعتماد تری را فراهم کرد (پیش بینی برای نوامبر - 1.52٪ ، پیش بینی برای دسامبر - 1.53٪ ، پیش بینی ژانویه - 1.49٪) ، زیرا میانگین خطای نسبی هنگام استفاده از این روش کوچکترین است - 1 13 درصد.

    روش حداقل مربعات

    سایر مقالات مرتبط:

    فهرست منابع استفاده شده

    1. توصیه های علمی و روش شناختی در مورد مسائل تشخیص خطرات اجتماعی و پیش بینی چالش ها، تهدیدها و پیامدهای اجتماعی. دانشگاه دولتی اجتماعی روسیه مسکو. 2010;
    2. ولادیمیروا L.P. پیش بینی و برنامه ریزی در شرایط بازار: Proc. کمک هزینه M .: انتشارات داشکوف و شرکت، 2001؛
    3. نوویکووا N.V.، Pozdeeva O.G. پیش بینی اقتصاد ملی: راهنمای آموزشی و روش شناختی. یکاترینبورگ: انتشارات اورال. حالت اقتصاد دانشگاه، 1386;
    4. Slutskin L.N. دوره MBA در پیش بینی کسب و کار. مسکو: کتاب های تجاری آلپینا، 2006.

    برنامه MNE

    داده ها را وارد کنید

    داده ها و تقریب y = a + b x

    من- تعداد نقطه آزمایشی؛
    x i- مقدار پارامتر ثابت در نقطه من;
    y من- مقدار پارامتر اندازه گیری شده در نقطه من;
    ω من- اندازه گیری وزن در نقطه من;
    y i، محاسبه- تفاوت بین مقدار اندازه گیری شده و مقدار محاسبه شده از رگرسیون yدر نقطه من;
    S x i (x i)- برآورد خطا x iهنگام اندازه گیری yدر نقطه من.

    داده ها و تقریب y = k x

    من x i y من ω من y i، محاسبه Δy i S x i (x i)

    روی نمودار کلیک کنید

    راهنمای کاربر برای برنامه آنلاین MNC.

    در قسمت داده، در هر خط جداگانه، مقادیر «x» و «y» را در یک نقطه آزمایشی وارد کنید. مقادیر باید با فضای خالی (فضا یا تب) از هم جدا شوند.

    مقدار سوم می تواند وزن نقطه «w» باشد. اگر وزن نقطه مشخص نشده باشد، برابر با یک است. در اکثریت قریب به اتفاق موارد، وزن نقاط آزمایش ناشناخته یا محاسبه نشده است. تمام داده های تجربی معادل در نظر گرفته می شوند. گاهی اوقات وزن ها در محدوده مقادیر مورد مطالعه قطعاً معادل نیستند و حتی می توان آنها را به صورت تئوری محاسبه کرد. به عنوان مثال، در اسپکتروفتومتری، وزن ها را می توان با استفاده از فرمول های ساده محاسبه کرد، اگرچه اساساً همه برای کاهش هزینه های نیروی کار از این امر غفلت می کنند.

    داده ها را می توان از طریق کلیپ بورد از صفحه گسترده آفیس مانند Excel از Microsoft Office یا Calc از Open Office قرار داد. برای انجام این کار، محدوده داده‌هایی را که قرار است در صفحه‌گسترده کپی شوند انتخاب کنید، آن را در کلیپ بورد کپی کنید و داده‌ها را در فیلد داده در این صفحه جای‌گذاری کنید.

    برای محاسبه با روش حداقل مربعات، حداقل دو نقطه برای تعیین دو ضریب «b» لازم است - مماس زاویه میل خط مستقیم و «a» - مقدار قطع شده توسط خط مستقیم روی «y» محور.

    برای تخمین خطای ضرایب رگرسیون محاسبه شده، باید تعداد نقاط آزمایشی را بیش از دو قرار داد.

    روش حداقل مربعات (LSM).

    هر چه تعداد امتیازات آزمایشی بیشتر باشد، تخمین آماری ضرایب دقیق تر (به دلیل کاهش ضریب دانشجویی) و تخمین به برآورد نمونه عمومی نزدیکتر است.

    به دست آوردن مقادیر در هر نقطه آزمایشی اغلب با هزینه های نیروی کار قابل توجهی همراه است، بنابراین، اغلب آزمایش های توافقی انجام می شود که تخمین قابل هضمی را ارائه می دهد و منجر به هزینه های نیروی کار بیش از حد نمی شود. به عنوان یک قاعده، تعداد نقاط آزمایشی برای وابستگی حداقل مربعات خطی با دو ضریب در منطقه 5-7 امتیاز انتخاب می شود.

    نظریه مختصری از حداقل مربعات برای وابستگی خطی

    فرض کنید مجموعه ای از داده های تجربی به شکل جفت مقادیر [`y_i`, `x_i`] داریم که در آن `i` تعداد یک اندازه گیری آزمایشی از 1 تا n است. "y_i" - مقدار مقدار اندازه گیری شده در نقطه "i"؛ "x_i" - مقدار پارامتری که در نقطه "i" تنظیم می کنیم.

    یک مثال اجرای قانون اهم است. با تغییر ولتاژ (اختلاف پتانسیل) بین مقاطع مدار الکتریکی، مقدار جریان عبوری از این قسمت را اندازه گیری می کنیم. فیزیک به ما این وابستگی را می دهد که به طور تجربی یافت می شود:

    «I=U/R»،
    جایی که "I" - قدرت فعلی. `R` - مقاومت؛ "U" - ولتاژ.

    در این حالت، «y_i» مقدار جریان اندازه‌گیری شده و «x_i» مقدار ولتاژ است.

    به عنوان مثال دیگر، جذب نور توسط محلول یک ماده در محلول را در نظر بگیرید. شیمی این فرمول را به ما می دهد:

    "A = εl C"،
    که در آن "A" چگالی نوری محلول است. `ε` - انتقال املاح. `l` - طول مسیر هنگامی که نور از یک کووت با محلول عبور می کند. "C" غلظت املاح است.

    در این مورد، «y_i» چگالی نوری اندازه‌گیری شده «A» است و «x_i» غلظت ماده‌ای است که ما تنظیم می‌کنیم.

    ما موردی را در نظر خواهیم گرفت که خطای نسبی در تنظیم `x_i` بسیار کمتر از خطای نسبی در اندازه گیری `y_i` باشد. همچنین فرض می‌کنیم که تمام مقادیر اندازه‌گیری‌شده «y_i» تصادفی و به طور معمول توزیع شده‌اند، یعنی. از قانون توزیع نرمال پیروی کنید.

    در مورد وابستگی خطی «y» به «x»، می‌توانیم وابستگی نظری را بنویسیم:
    `y = a + bx`.

    از نقطه نظر هندسی، ضریب «b» مماس شیب خط بر محور «x» را نشان می‌دهد و ضریب «a» مقدار «y» را در نقطه تلاقی خط با «ی» نشان می‌دهد. محور y (با `x = 0`).

    یافتن پارامترهای خط رگرسیون

    در یک آزمایش، مقادیر اندازه‌گیری شده «y_i» به دلیل خطاهای اندازه‌گیری، که همیشه در زندگی واقعی ذاتی هستند، نمی‌توانند دقیقاً روی خط نظری قرار بگیرند. بنابراین، یک معادله خطی باید با یک سیستم معادلات نشان داده شود:
    `y_i = a + b x_i + ε_i` (1)،
    که در آن «ε_i» خطای اندازه‌گیری ناشناخته «y» در آزمایش «i» است.

    وابستگی (1) نیز نامیده می شود پسرفت، یعنی وابستگی دو کمیت به یکدیگر با اهمیت آماری.

    وظیفه بازیابی وابستگی یافتن ضرایب «a» و «b» از نقاط آزمایشی [`y_i`، `x_i`] است.

    برای یافتن ضرایب معمولاً از «a» و «b» استفاده می شود روش حداقل مربع(MNK). این یک مورد خاص از اصل حداکثر احتمال است.

    بیایید (1) را به صورت «ε_i = y_i - a - b x_i» بازنویسی کنیم.

    سپس مجموع مربعات خطاها خواهد بود
    `Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

    اصل روش حداقل مربعات به حداقل رساندن مجموع (2) با توجه به پارامترهای "a" و "b" است..

    حداقل زمانی حاصل می شود که مشتقات جزئی جمع (2) با توجه به ضرایب «a» و «b» برابر با صفر باشد:
    `frac(ف جزئی)(جزئی a) = frac(جمع جزئی_(i=1)^(n) (y_i - a - b x_i)^2)(جزئی a) = 0`
    `frac(ف جزئی)(ب جزئی) = frac(جمع جزئی_(i=1)^(n) (y_i - a - b x_i)^2)(b جزئی) = 0`

    با گسترش مشتقات، سیستمی متشکل از دو معادله با دو مجهول به دست می آوریم:
    `sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
    `sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

    براکت ها را باز می کنیم و مجموع را مستقل از ضرایب مورد نیاز به نیمه دیگر منتقل می کنیم، یک سیستم معادلات خطی به دست می آوریم:
    `sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
    `sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

    با حل سیستم به دست آمده، فرمول هایی برای ضرایب «a» و «b» پیدا می کنیم:

    `a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

    `b = frac(n sum_(i=1)^(n) x_iy_i - sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (جمع_(i=1)^(n) x_i)^2)` (3.2)

    این فرمول‌ها وقتی راه‌حل‌هایی دارند که «n> 1» (خط را می‌توان با حداقل 2 نقطه رسم کرد) و زمانی که تعیین‌کننده «D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1) )^(n) x_i)^2 != 0`، یعنی. هنگامی که نقاط "x_i" در آزمایش متفاوت است (یعنی زمانی که خط عمودی نیست).

    برآورد خطا در ضرایب خط رگرسیون

    برای برآورد دقیق‌تر خطا در محاسبه ضرایب «a» و «b»، تعداد زیادی از نقاط آزمایشی مطلوب است. وقتی n=2 باشد، تخمین خطای ضرایب غیرممکن است، زیرا خط تقریبی به طور منحصر به فرد از دو نقطه عبور می کند.

    خطای متغیر تصادفی "V" مشخص می شود قانون انباشت خطا
    `S_V^2 = sum_(i=1)^p (frac(f جزئی)(جزئی z_i))^2 S_(z_i)^2`,
    که در آن «p» تعداد پارامترهای «z_i» با خطای «S_(z_i)» است که بر خطای «S_V» تأثیر می‌گذارد.
    "f" تابع وابستگی "V" به "z_i" است.

    بیایید قانون انباشت خطاها را برای خطای ضرایب «a» و «b» بنویسیم.
    `S_a^2 = sum_(i=1)^(n)(frac(جزئی a)(جزئی y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(جزئی a )(x_i جزئی))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(جزئی a)(جزئی y_i))^2 `,
    `S_b^2 = sum_(i=1)^(n)(frac(جزئی b)(جزئی y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(b جزئی )(x_i جزئی))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(جزئی b)(جزئی y_i))^2 `,
    زیرا `S_(x_i)^2 = 0` (ما قبلاً رزرو کردیم که خطای `x` ناچیز است).

    `S_y^2 = S_(y_i)^2` - خطا (واریانس، مجذور انحراف استاندارد) در بعد `y`، با فرض اینکه خطا برای همه مقادیر `y` یکنواخت است.

    با جایگزینی فرمول های محاسبه «a» و «b» در عبارات به دست آمده، دریافت می کنیم

    `S_a^2 = S_y^2 فرک(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 فراک (جمع_(i=1)^(n) x_i^2) (D)` (4.1)

    `S_b^2 = S_y^2 فرک(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

    در بیشتر آزمایش‌های واقعی، مقدار «Sy» اندازه‌گیری نمی‌شود. برای انجام این کار، انجام چندین اندازه گیری موازی (آزمایش) در یک یا چند نقطه از طرح ضروری است که باعث افزایش زمان (و احتمالاً هزینه) آزمایش می شود. بنابراین، معمولاً فرض می‌شود که انحراف «y» از خط رگرسیون را می‌توان تصادفی در نظر گرفت. برآورد واریانس `y` در این مورد با فرمول محاسبه می شود.

    `S_y^2 = S_(y، استراحت)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

    مقسوم‌کننده «n-2» به این دلیل ظاهر می‌شود که به دلیل محاسبه دو ضریب برای یک نمونه از داده‌های تجربی، تعداد درجات آزادی را کاهش داده‌ایم.

    به این تخمین، واریانس باقیمانده نسبت به خط رگرسیون S_(y، استراحت)^2 نیز گفته می شود.

    ارزیابی اهمیت ضرایب بر اساس معیار دانشجو انجام می شود

    `t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

    اگر معیارهای محاسبه‌شده «t_a»، «t_b» کمتر از معیارهای جدول «t(P, n-2)» باشند، در نظر گرفته می‌شود که ضریب مربوطه تفاوت معنی‌داری با صفر با احتمال داده شده «P» ندارد.

    برای ارزیابی کیفیت توصیف یک رابطه خطی، می‌توانید «S_(y، استراحت)^2» و «S_(bar y)» را نسبت به میانگین با استفاده از معیار فیشر مقایسه کنید.

    `S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i= 1)^n y_i) /n)^2) (n-1)` - برآورد نمونه از واریانس `y` نسبت به میانگین.

    برای ارزیابی اثربخشی معادله رگرسیون برای توصیف وابستگی، ضریب فیشر محاسبه شده است.
    `F = S_(نوار y) / S_(y، استراحت)^2`،
    که با ضریب فیشر جدولی "F(p، n-1، n-2)" مقایسه شده است.

    اگر «F > F(P، n-1، n-2)»، تفاوت بین توصیف وابستگی `y = f(x)` با استفاده از معادله رگرسیون و توصیف با استفاده از میانگین از نظر آماری با احتمال معنی دار در نظر گرفته می شود. "P". آن ها رگرسیون وابستگی را بهتر از گسترش «y» حول میانگین توصیف می کند.

    روی نمودار کلیک کنید
    برای اضافه کردن مقادیر به جدول

    روش حداقل مربعات روش حداقل مربعات به معنای تعیین پارامترهای مجهول a، b، c، وابستگی تابعی پذیرفته شده است.

    روش حداقل مربعات به معنای تعیین پارامترهای مجهول است الف، ب، ج، …وابستگی عملکردی پذیرفته شده

    y = f(x,a,b,c,…),

    که حداقل میانگین مربع (واریانس) خطا را فراهم می کند

    , (24)

    که در آن x i، y i - مجموعه ای از جفت اعداد به دست آمده از آزمایش.

    از آنجایی که شرط حداکثر بودن یک تابع از چندین متغیر شرطی است که مشتقات جزئی آن برابر با صفر باشند، پس پارامترها الف، ب، ج، …از سیستم معادلات تعیین می شود:

    ; ; ; … (25)

    باید به خاطر داشت که از روش حداقل مربعات برای انتخاب پارامترهای بعد از فرم تابع استفاده می شود y = f(x)تعریف شده است.

    اگر از ملاحظات نظری نتوان نتیجه‌گیری در مورد اینکه فرمول تجربی چگونه باید باشد، نتیجه‌گیری کرد، باید توسط بازنمایی‌های بصری هدایت شود، در درجه اول یک نمایش گرافیکی از داده‌های مشاهده شده.

    در عمل، اغلب به انواع توابع زیر محدود می شود:

    1) خطی ;

    2) درجه دوم الف.

    ماهیت روش حداقل مربعات این است در یافتن پارامترهای مدل روند که به بهترین شکل روند توسعه هر پدیده تصادفی را در زمان یا مکان توصیف می کند (روند خطی است که روند این توسعه را مشخص می کند). وظیفه روش حداقل مربعات (OLS) یافتن نه تنها مدل روند، بلکه یافتن بهترین یا بهینه مدل است. اگر مجموع انحرافات مجذور بین مقادیر واقعی مشاهده شده و مقادیر روند محاسبه شده مربوطه حداقل (کوچکترین) باشد، این مدل بهینه خواهد بود:

    انحراف استاندارد بین مقدار واقعی مشاهده شده کجاست

    و مقدار روند محاسبه شده مربوطه،

    ارزش واقعی (مشاهده شده) پدیده مورد مطالعه،

    ارزش تخمینی مدل روند،

    تعداد مشاهدات پدیده مورد مطالعه.

    MNC به ندرت به تنهایی استفاده می شود. به عنوان یک قاعده، اغلب از آن فقط به عنوان یک تکنیک ضروری در مطالعات همبستگی استفاده می شود. لازم به یادآوری است که اساس اطلاعات LSM تنها می تواند یک سری آماری قابل اعتماد باشد و تعداد مشاهدات نباید کمتر از 4 باشد، در غیر این صورت، رویه های هموارسازی LSM ممکن است حس مشترک خود را از دست بدهند.

    جعبه ابزار OLS به رویه های زیر کاهش می یابد:

    روش اول معلوم می‌شود که آیا اصلاً تمایلی برای تغییر ویژگی حاصله در هنگام تغییر عامل-آگومان انتخابی وجود دارد یا به عبارت دیگر، آیا ارتباطی بین " در "و" ایکس ».

    رویه دوم مشخص می شود که کدام خط (مسیر) بهتر می تواند این روند را توصیف یا توصیف کند.

    رویه سوم.

    مثال. فرض کنید اطلاعاتی در مورد میانگین عملکرد آفتابگردان برای مزرعه مورد مطالعه داریم (جدول 9.1).

    جدول 9.1

    شماره مشاهده

    بهره وری، c/ha

    از آنجایی که سطح فناوری تولید آفتابگردان در کشور ما طی 10 سال گذشته تغییر چندانی نکرده است، به این معنی است که به احتمال زیاد، نوسانات عملکرد در دوره مورد تجزیه و تحلیل بستگی زیادی به نوسانات آب و هوا و شرایط آب و هوایی دارد. آیا حقیقت دارد؟

    اولین روش MNC فرضیه وجود یک روند در تغییر عملکرد آفتابگردان بسته به تغییرات آب و هوا و شرایط آب و هوایی طی 10 سال مورد تجزیه و تحلیل در حال آزمایش است.

    در این مثال، برای " y » توصیه می شود که محصول آفتابگردان را مصرف کنید و برای « ایکس » تعداد سال مشاهده شده در دوره مورد تجزیه و تحلیل است. آزمون فرضیه وجود هر گونه رابطه بین " ایکس "و" y » به دو صورت دستی و با کمک برنامه های کامپیوتری قابل انجام است. البته با در دسترس بودن تکنولوژی کامپیوتری این مشکل خود به خود حل می شود. اما برای درک بهتر ابزارهای OLS، توصیه می‌شود که فرضیه وجود رابطه بین ایکس "و" y » به صورت دستی، زمانی که فقط یک خودکار و یک ماشین حساب معمولی در دسترس باشد. در چنین مواردی، فرضیه وجود یک روند به بهترین وجه از طریق مکان تصویر گرافیکی سری زمانی تحلیل شده - میدان همبستگی، بررسی می شود:

    میدان همبستگی در مثال ما در اطراف یک خط به آرامی در حال افزایش قرار دارد. این خود نشان دهنده وجود روند خاصی در تغییر عملکرد آفتابگردان است. صحبت در مورد وجود هر روندی فقط زمانی غیرممکن است که میدان همبستگی شبیه یک دایره، یک دایره، یک ابر کاملاً عمودی یا کاملا افقی باشد یا از نقاط پراکنده تصادفی تشکیل شده باشد. در تمام موارد دیگر، فرضیه وجود رابطه بین " ایکس "و" y و تحقیقات را ادامه دهید.

    روش دوم MNC. مشخص می‌شود که کدام خط (مسیر) بهتر می‌تواند روند تغییرات عملکرد آفتابگردان را برای دوره مورد تجزیه و تحلیل توصیف یا توصیف کند.

    با در دسترس بودن فناوری رایانه، انتخاب روند بهینه به طور خودکار اتفاق می افتد. با پردازش "دستی"، انتخاب تابع بهینه، به عنوان یک قاعده، به صورت بصری - با محل میدان همبستگی انجام می شود. یعنی با توجه به نوع نمودار، معادله خط انتخاب می شود که به بهترین وجه برای روند تجربی (به مسیر واقعی) مناسب است.

    همانطور که می دانید، در طبیعت تنوع زیادی از وابستگی های عملکردی وجود دارد، بنابراین تجزیه و تحلیل بصری حتی قسمت کوچکی از آنها بسیار دشوار است. خوشبختانه، در عمل اقتصادی واقعی، بیشتر روابط را می توان با دقت یا با سهمی یا هذلولی یا یک خط مستقیم توصیف کرد. در این راستا، با گزینه "دستی" برای انتخاب بهترین عملکرد، می توانید خود را تنها به این سه مدل محدود کنید.

    هذلولی:

    سهمی مرتبه دوم: :

    به راحتی می توان دید که در مثال ما، روند تغییرات عملکرد آفتابگردان در طول 10 سال تجزیه و تحلیل شده به بهترین وجه با یک خط مستقیم مشخص می شود، بنابراین معادله رگرسیون یک معادله خط مستقیم خواهد بود.

    رویه سوم. پارامترهای معادله رگرسیون که این خط را مشخص می کند محاسبه می شود یا به عبارت دیگر یک فرمول تحلیلی تعیین می شود که بهترین مدل روند را توصیف می کند.

    یافتن مقادیر پارامترهای معادله رگرسیون، در مورد ما، پارامترها و هسته LSM است. این فرآیند به حل یک سیستم معادلات عادی کاهش می یابد.

    (9.2)

    این سیستم معادلات به راحتی با روش گاوس حل می شود. به یاد بیاورید که در نتیجه راه حل، در مثال ما، مقادیر پارامترها و یافت می شوند. بنابراین، معادله رگرسیون یافت شده به شکل زیر خواهد بود:

    دسته بندی ها

    مقالات محبوب

    2022 "kingad.ru" - بررسی سونوگرافی اندام های انسان