تجزیه و تحلیل داده ها با استفاده از روش حداقل مربعات. حداقل مربعات در اکسل
روش حداقل مربعات
در درس پایانی مبحث با معروف ترین اپلیکیشن آشنا می شویم FNP، که بیشترین کاربرد را در زمینه های مختلف علمی و عملی پیدا می کند. این می تواند فیزیک، شیمی، زیست شناسی، اقتصاد، جامعه شناسی، روانشناسی و غیره و غیره باشد. به خواست سرنوشت، من اغلب باید با اقتصاد سر و کار داشته باشم، و بنابراین امروز برای شما بلیط یک کشور شگفت انگیز به نام اقتصاد سنجی=) ... چطور این را نمی خواهی؟! آنجا خیلی خوب است - فقط باید تصمیم بگیرید! ... اما چیزی که احتمالاً قطعاً می خواهید این است که یاد بگیرید چگونه مشکلات را حل کنید کمترین مربعات. و به خصوص خوانندگان سخت کوش یاد خواهند گرفت که آنها را نه تنها به طور دقیق، بلکه بسیار سریع نیز حل کنند ;-) اما ابتدا بیان کلی مشکل+ مثال مرتبط:
اجازه دهید شاخص هایی در برخی از حوزه های موضوعی مورد مطالعه قرار گیرند که بیان کمی دارند. در عین حال، دلایل زیادی برای این باور وجود دارد که شاخص به شاخص بستگی دارد. این فرض هم می تواند یک فرضیه علمی باشد و هم بر اساس عقل سلیم ابتدایی. با این حال، بیایید علم را کنار بگذاریم و مناطق اشتها آورتر - یعنی فروشگاه های مواد غذایی - را بررسی کنیم. نشان دادن با:
- فضای خرده فروشی یک فروشگاه مواد غذایی، متر مربع،
- گردش مالی سالانه یک فروشگاه مواد غذایی، میلیون روبل.
کاملاً واضح است که هر چه مساحت فروشگاه بزرگتر باشد، در اکثر موارد گردش مالی آن بیشتر است.
فرض کنید پس از انجام مشاهدات / آزمایش / محاسبات / رقصیدن با یک تنبور، داده های عددی در اختیار داریم:
در مورد فروشگاه های مواد غذایی، من فکر می کنم همه چیز روشن است: - این منطقه اولین فروشگاه است، - گردش مالی سالانه آن، - منطقه فروشگاه 2، - گردش مالی سالانه آن و غیره. به هر حال ، دسترسی به مواد طبقه بندی شده اصلاً ضروری نیست - ارزیابی نسبتاً دقیقی از گردش مالی را می توان با استفاده از آمار ریاضی. با این حال، منحرف نشوید، دوره جاسوسی تجاری قبلاً پرداخت شده است =)
داده های جدولی را نیز می توان به صورت نقطه ای نوشت و به روش معمول برای ما ترسیم کرد. سیستم دکارتی .
بیایید به یک سوال مهم پاسخ دهیم: برای یک مطالعه کیفی چند امتیاز لازم است؟
هرچه بزرگتر بهتر. حداقل مجموعه قابل قبول شامل 5-6 امتیاز است. علاوه بر این، با مقدار کمی داده، نتایج "غیر طبیعی" نباید در نمونه گنجانده شود. بنابراین، برای مثال، یک فروشگاه کوچک نخبه میتواند بیشتر از «همکاران خود» به سفارشهای بزرگ کمک کند، در نتیجه الگوی کلی را که باید پیدا کرد، مخدوش میکند!
اگر خیلی ساده است، باید یک تابع را انتخاب کنیم، برنامهکه تا حد امکان نزدیک به نقاط می گذرد . چنین تابعی نامیده می شود تقریبی (تقریبی - تقریبی)یا عملکرد نظری . به طور کلی، در اینجا بلافاصله یک "مدعی" آشکار ظاهر می شود - یک چند جمله ای با درجه بالا، که نمودار آن از تمام نقاط عبور می کند. اما این گزینه پیچیده است و اغلب به سادگی نادرست است. (زیرا نمودار همیشه "باد" می شود و روند اصلی را به خوبی منعکس می کند).
بنابراین، تابع مورد نظر باید به اندازه کافی ساده باشد و در عین حال وابستگی را به اندازه کافی منعکس کند. همانطور که ممکن است حدس بزنید، یکی از روش های یافتن چنین توابعی نامیده می شود کمترین مربعات. ابتدا اجازه دهید ماهیت آن را به صورت کلی تحلیل کنیم. اجازه دهید برخی از تابع ها به داده های تجربی تقریب داشته باشند:
چگونه می توان صحت این تقریب را ارزیابی کرد؟ اجازه دهید تفاوت (انحرافات) بین مقادیر تجربی و عملکردی را نیز محاسبه کنیم (ما نقاشی را مطالعه می کنیم). اولین فکری که به ذهن خطور می کند این است که مقدار مجموع را تخمین بزنیم، اما مشکل اینجاست که تفاوت ها می تواند منفی باشد. (مثلا، )
و انحرافات در نتیجه چنین جمع آوری یکدیگر را خنثی می کنند. بنابراین، به عنوان تخمینی از دقت تقریب، خود را پیشنهاد می کند که مجموع را بگیرد ماژول هاانحرافات:
یا به صورت تا شده: (برای کسانی که نمی دانند: نماد جمع است و - متغیر کمکی - "counter" که مقادیر از 1 تا را می گیرد ) .
با تقریب نقاط آزمایشی با توابع مختلف، مقادیر متفاوتی به دست خواهیم آورد و مشخص است که این مجموع در کجا کمتر است - آن تابع دقیق تر است.
چنین روشی وجود دارد و نامیده می شود روش حداقل مدول. با این حال، در عمل بسیار گسترده تر شده است. روش حداقل مربع، که در آن مقادیر منفی احتمالی نه با مدول، بلکه با مربع کردن انحرافات حذف می شوند:
، پس از آن تلاش ها برای انتخاب چنین تابعی است که مجموع انحرافات مجذور تا حد امکان کوچک بود در واقع، از این رو نام روش است.
و اکنون به یک نکته مهم دیگر باز می گردیم: همانطور که در بالا ذکر شد، تابع انتخاب شده باید کاملاً ساده باشد - اما بسیاری از توابع از این دست نیز وجود دارد: خطی , هذلولی , نمایی , لگاریتمی , درجه دوم و غیره. و البته در اینجا بلافاصله می خواهم "زمینه فعالیت را کاهش دهم." کدام دسته از کارکردها را برای تحقیق انتخاب کنیم؟ تکنیک ابتدایی اما موثر:
- ساده ترین راه برای رسم امتیاز بر روی نقاشی و تجزیه و تحلیل مکان آنها. اگر آنها تمایل دارند در یک خط مستقیم باشند، پس باید به دنبال آن باشید معادله خط مستقیم با مقادیر بهینه و . به عبارت دیگر، وظیفه یافتن چنین ضرایبی است - به طوری که مجموع انحرافات مجذور کوچکترین باشد.
اگر نقاط، به عنوان مثال، در امتداد قرار دارند هایپربولی، پس واضح است که تابع خطی تقریب ضعیفی به دست می دهد. در این مورد، ما به دنبال "مطلوب ترین" ضرایب برای معادله هذلولی هستیم - آنهایی که حداقل مجموع مربع ها را می دهند. .
حال توجه کنید که در هر دو مورد صحبت می کنیم توابع دو متغیر، که استدلال های آن است گزینه های وابستگی را جستجو کرد:
و در اصل، ما باید یک مشکل استاندارد را حل کنیم - پیدا کنیم حداقل یک تابع از دو متغیر.
مثال ما را به خاطر بیاورید: فرض کنید که نقاط "فروشگاه" در یک خط مستقیم قرار دارند و هر دلیلی وجود دارد که وجود آن را باور کنیم. وابستگی خطیگردش مالی از منطقه تجاری بیایید چنین ضرایبی "a" و "be" را پیدا کنیم تا مجذور انحرافات کوچکترین بود همه چیز طبق معمول - اول مشتقات جزئی از مرتبه 1. مطابق با قانون خطی بودنمی توانید درست در زیر نماد جمع متمایز کنید:
اگر میخواهید از این اطلاعات برای یک مقاله یا درس استفاده کنید، از لینک موجود در فهرست منابع بسیار سپاسگزار خواهم بود، چنین محاسبات دقیقی را در هیچ کجا پیدا نمیکنید:
بیایید یک سیستم استاندارد بسازیم:
هر معادله را یک "دو" کاهش می دهیم و علاوه بر این، مجموع را "از هم جدا می کنیم":
توجه داشته باشید : به طور مستقل تجزیه و تحلیل کنید که چرا می توان "a" و "be" را از نماد جمع خارج کرد. به هر حال، به طور رسمی این را می توان با مجموع انجام داد
بیایید سیستم را به شکل "کاربردی" بازنویسی کنیم:
پس از آن الگوریتم حل مسئله ما شروع به ترسیم می کند:
آیا مختصات نقاط را می دانیم؟ ما میدانیم. مبالغ می توانیم پیدا کنیم؟ به آسانی. ما ساده ترین ها را می سازیم سیستم دو معادله خطی با دو مجهول(«الف» و «به»). ما سیستم را حل می کنیم، به عنوان مثال، روش کرامر، منجر به یک نقطه ثابت می شود. چک کردن شرایط کافی برای یک افراطی، می توانیم تأیید کنیم که در این مرحله تابع دقیقا می رسد کمترین. تأیید با محاسبات اضافی همراه است و بنابراین ما آن را در پشت صحنه رها می کنیم. (در صورت لزوم، قاب گم شده قابل مشاهده استاینجا ) . نتیجه نهایی را می گیریم:
عملکرد بهترین راه (حداقل در مقایسه با هر تابع خطی دیگری)نقاط تجربی را به هم نزدیک می کند . به طور کلی، نمودار آن تا حد ممکن به این نقاط نزدیک می شود. در سنت اقتصاد سنجیتابع تقریبی حاصل نیز نامیده می شود معادله رگرسیون خطی زوجی .
مسئله مورد بررسی از اهمیت عملی بالایی برخوردار است. در وضعیت مثال ما، معادله به شما اجازه می دهد تا نوع گردش مالی را پیش بینی کنید ("یگ")در فروشگاه با یک یا مقدار دیگری از منطقه فروش خواهد بود (یک یا معنای دیگری از "x"). بله، پیش بینی حاصل تنها یک پیش بینی خواهد بود، اما در بسیاری از موارد کاملاً دقیق خواهد بود.
من فقط یک مشکل را با اعداد "واقعی" تجزیه و تحلیل می کنم ، زیرا هیچ مشکلی در آن وجود ندارد - همه محاسبات در سطح برنامه درسی مدرسه در کلاس های 7-8 است. در 95 درصد موارد، از شما خواسته می شود که فقط یک تابع خطی را پیدا کنید، اما در انتهای مقاله نشان خواهم داد که یافتن معادلات هذلولی بهینه، توان و برخی توابع دیگر دشوارتر نیست.
در واقع، توزیع خوبی های وعده داده شده باقی مانده است - به طوری که یاد بگیرید چگونه چنین نمونه هایی را نه تنها با دقت، بلکه به سرعت حل کنید. ما استاندارد را به دقت مطالعه می کنیم:
یک وظیفه
در نتیجه مطالعه رابطه بین دو شاخص، جفت اعداد زیر به دست آمد:
با استفاده از روش حداقل مربعات، تابع خطی را که بهترین تقریب تجربی را دارد، پیدا کنید (با تجربه)داده ها. یک نقاشی بکشید که در یک سیستم مختصات مستطیلی دکارتی، نقاط آزمایشی و نموداری از تابع تقریبی را رسم کنید. . مجموع مجذور انحرافات بین مقادیر تجربی و نظری را بیابید. ببینید آیا عملکرد بهتر است یا خیر (از نظر روش حداقل مربعات)نقاط آزمایشی تقریبی
توجه داشته باشید که مقادیر "x" مقادیر طبیعی هستند و این یک معنای معنی دار مشخصه دارد که کمی بعد در مورد آن صحبت خواهم کرد. اما آنها، البته، می توانند کسری باشند. علاوه بر این، بسته به محتوای یک کار خاص، هر دو مقدار "X" و "G" می توانند به طور کامل یا تا حدی منفی باشند. خوب، به ما یک وظیفه "بی چهره" داده شده است و ما آن را شروع می کنیم راه حل:
ما ضرایب تابع بهینه را به عنوان یک راه حل برای سیستم پیدا می کنیم:
برای یک نماد فشرده تر، می توان متغیر "counter" را حذف کرد، زیرا از قبل مشخص است که جمع بندی از 1 تا .
محاسبه مقادیر مورد نیاز به صورت جدولی راحت تر است:
محاسبات را می توان بر روی یک ریز محاسبه گر انجام داد، اما استفاده از Excel بسیار بهتر است - هم سریعتر و هم بدون خطا. تماشای یک ویدیوی کوتاه:
بنابراین، موارد زیر را بدست می آوریم سیستم:
در اینجا می توانید معادله دوم را در 3 ضرب کنید و عدد 2 را از معادله 1 کم کنید. اما این شانس است - در عمل، سیستم ها اغلب با استعداد نیستند و در چنین مواردی باعث صرفه جویی می شود روش کرامر:
، بنابراین سیستم یک راه حل منحصر به فرد دارد.
بیا چک کنیم میدانم که نمیخواهم، اما چرا از اشتباهاتی که نمیتوانی آنها را از دست ندهی، بگذریم؟ جواب پیدا شده را در سمت چپ هر معادله سیستم جایگزین کنید:
قسمت های درست معادلات مربوطه به دست می آید، یعنی سیستم به درستی حل شده است.
بنابراین، تابع تقریبی مورد نظر: – از همه توابع خطیداده های تجربی به بهترین وجه توسط آن تقریب می شوند.
بر خلاف سر راست وابستگی گردش مالی فروشگاه به منطقه آن، وابستگی یافت شده است معکوس (اصل "هرچه بیشتر - کمتر")، و این واقعیت بلافاصله توسط منفی آشکار می شود ضریب زاویه ای. عملکرد به ما اطلاع می دهد که با افزایش 1 واحد در یک شاخص خاص، مقدار اندیکاتور وابسته کاهش می یابد میانگین 0.65 واحد همانطور که می گویند، هر چه قیمت گندم سیاه بیشتر باشد، کمتر فروخته می شود.
برای رسم تابع تقریبی، دو مقدار از آن را پیدا می کنیم:
و نقشه را اجرا کنید:
خط ساخته شده نامیده می شود خط روند
(یعنی یک خط روند خطی، یعنی در حالت کلی، یک روند لزوما یک خط مستقیم نیست). همه با عبارت "در ترند بودن" آشنا هستند و فکر می کنم این اصطلاح نیاز به اظهار نظر اضافی ندارد.
مجموع انحرافات مجذور را محاسبه کنید بین ارزش های تجربی و نظری از نظر هندسی، این مجموع مجذور طول قطعات "زرشکی" است (دوتا از آنها آنقدر کوچک هستند که حتی نمی توانید آنها را ببینید).
بیایید محاسبات را در یک جدول خلاصه کنیم:
آنها دوباره می توانند به صورت دستی انجام شوند، فقط در صورتی که برای نکته 1 مثالی بزنم:
اما انجام روشی که قبلاً شناخته شده است بسیار کارآمدتر است:
تکرار کنیم: منظور از نتیجه چیست؟از جانب همه توابع خطیعملکرد توان کوچکترین است، یعنی بهترین تقریب در خانواده خود است. و در اینجا، اتفاقاً، سؤال نهایی مسئله تصادفی نیست: اگر تابع نمایی پیشنهادی بهتر به نقاط آزمایشی نزدیک شود، چه؟
بیایید مجموع متناظر انحرافات مربع را پیدا کنیم - برای تشخیص آنها، آنها را با حرف "epsilon" مشخص می کنم. تکنیک دقیقاً مشابه است:
و دوباره برای هر محاسبه آتش برای نقطه 1:
در اکسل از تابع استاندارد استفاده می کنیم انقضا (سینتکس را می توان در راهنمای اکسل یافت).
نتیجه: بنابراین تابع نمایی نقاط آزمایشی را بدتر از خط مستقیم تقریب می کند .
اما در اینجا باید توجه داشت که «بدتر» است هنوز به این معنی نیست، چه اشکالی دارد. اکنون من یک نمودار از این تابع نمایی ساختم - و همچنین نزدیک به نقاط عبور می کند - به حدی که بدون مطالعه تحلیلی نمی توان گفت کدام تابع دقیق تر است.
این راه حل را کامل می کند و من به سؤال ارزش های طبیعی استدلال برمی گردم. در مطالعات مختلف، به طور معمول، اقتصادی یا جامعه شناختی، ماه ها، سال ها یا سایر فواصل زمانی مساوی با "X" طبیعی شماره گذاری می شوند. برای مثال مشکل زیر را در نظر بگیرید:
ما داده های زیر را در مورد گردش مالی خرده فروشی فروشگاه در نیمه اول سال داریم:
با استفاده از تراز تحلیلی خط مستقیم، حجم فروش ماه جولای را پیدا کنید.
بله، مشکلی نیست: ما ماه ها را 1، 2، 3، 4، 5، 6 شماره گذاری می کنیم و از الگوریتم معمول استفاده می کنیم که در نتیجه معادله ای به دست می آید - تنها چیزی که به زمان می رسد معمولاً حرف "te" است. " (اگرچه مهم نیست). معادله به دست آمده نشان می دهد که در نیمه اول سال، گردش مالی به طور متوسط 27.74 مترمربع افزایش یافته است. هر ماه. پیش بینی ماه جولای را دریافت کنید (ماه شماره 7): e.u.
و کارهای مشابه - تاریکی تاریک است. کسانی که مایلند می توانند از یک سرویس اضافی یعنی من استفاده کنند ماشین حساب اکسل (نسخه آزمایشی)، که مشکل را تقریباً بلافاصله حل می کند!نسخه کاری برنامه موجود است در عوضیا برای پرداخت نمادین.
در پایان درس، اطلاعات مختصری در مورد یافتن وابستگی های برخی از انواع دیگر ارائه می شود. در واقع، هیچ چیز خاصی برای گفتن وجود ندارد، زیرا رویکرد اساسی و الگوریتم حل یکسان باقی می مانند.
فرض کنید مکان نقاط آزمایشی شبیه هذلولی است. سپس، برای پیدا کردن ضرایب بهترین هذلولی، باید حداقل تابع را پیدا کنید - کسانی که مایلند می توانند محاسبات دقیق را انجام دهند و به یک سیستم مشابه برسند:
از نقطه نظر فنی رسمی، از سیستم "خطی" به دست می آید (بیایید آن را با یک ستاره مشخص کنیم)جایگزینی "x" با . خوب، مقادیر محاسبه کنید، پس از آن به ضرایب بهینه "a" و "be" در دست.
در صورتی که همه دلایلی وجود داشته باشد که این نکات را باور کنیم در امتداد یک منحنی لگاریتمی مرتب می شوند، سپس مقادیر بهینه را جستجو می کنند و حداقل تابع را پیدا می کنند. . به طور رسمی، در سیستم (*) باید با:
هنگام محاسبه در اکسل، از تابع استفاده کنید لوگاریتم. اعتراف می کنم که ایجاد ماشین حساب برای هر یک از موارد مورد بررسی برای من دشوار نخواهد بود، اما باز هم بهتر است که محاسبات را خودتان "برنامه ریزی" کنید. آموزش های ویدیویی برای کمک.
با وابستگی نمایی، وضعیت کمی پیچیده تر است. برای تقلیل موضوع به حالت خطی، لگاریتم تابع را گرفته و استفاده می کنیم خواص لگاریتم:
حال با مقایسه تابع به دست آمده با تابع خطی به این نتیجه می رسیم که در سیستم (*) باید با , and - با . برای راحتی، ما نشان می دهیم:
لطفا توجه داشته باشید که سیستم با توجه به و حل می شود و بنابراین، پس از یافتن ریشه ها، نباید فراموش کنید که خود ضریب را پیدا کنید.
برای تقریب نقاط تجربی سهمی بهینه ، باید پیدا شود حداقل یک تابع از سه متغیر. پس از انجام اقدامات استاندارد، "کار" زیر را دریافت می کنیم سیستم:
بله، البته، در اینجا مقادیر بیشتری وجود دارد، اما در هنگام استفاده از برنامه مورد علاقه شما هیچ مشکلی وجود ندارد. و در نهایت، من به شما خواهم گفت که چگونه با استفاده از اکسل به سرعت بررسی کنید و خط روند مورد نظر را بسازید: یک نمودار پراکنده ایجاد کنید، هر یک از نقاط را با ماوس انتخاب کنید. و روی گزینه انتخاب کلیک راست کنید "افزودن خط روند". در مرحله بعد، نوع نمودار را انتخاب کنید و در تب "گزینه ها"گزینه را فعال کنید "نمایش معادله در نمودار". خوب
مثل همیشه، میخواهم مقاله را با یک عبارت زیبا به پایان برسانم و تقریباً «در ترند باشید!» را تایپ کردم. اما به مرور نظرش عوض شد. و نه به این دلیل که فرمولی است. من نمی دانم چگونه کسی، اما من به هیچ وجه نمی خواهم از روند تبلیغ شده آمریکا و به خصوص اروپا پیروی کنم =) بنابراین، آرزو می کنم هر یک از شما به خط خود پایبند باشید!
http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html
روش حداقل مربعات یکی از رایج ترین و پیشرفته ترین روش ها به دلیل داشتن آن است سادگی و کارایی روشهای تخمین پارامترهای مدلهای اقتصادسنجی خطی. در عین حال، هنگام استفاده از آن باید احتیاط کرد، زیرا مدل های ساخته شده با استفاده از آن ممکن است تعدادی از الزامات کیفیت پارامترهای خود را برآورده نکنند و در نتیجه، الگوهای توسعه فرآیند را "به خوبی" منعکس نکنند.
اجازه دهید روند تخمین پارامترهای یک مدل اقتصادسنجی خطی با استفاده از روش حداقل مربعات را با جزئیات بیشتری در نظر بگیریم. چنین مدلی را می توان به صورت کلی با معادله (1.2) نشان داد:
y t = a 0 + a 1 x 1t +...+ a n x nt + ε t .
داده های اولیه هنگام تخمین پارامترهای a 0، a 1،...، a n بردار مقادیر متغیر وابسته است. y= (y 1 , y 2 , ... , y T)" و ماتریس مقادیر متغیرهای مستقل
که در آن ستون اول، متشکل از یکی، با ضریب مدل مطابقت دارد.
روش حداقل مربعات نام خود را بر اساس این اصل اساسی گرفته است که تخمین پارامترهای بدست آمده بر اساس آن باید برآورده شوند: مجموع مربعات خطای مدل باید حداقل باشد.
نمونه هایی از حل مسائل به روش حداقل مربعات
مثال 2.1.شرکت تجاری دارای شبکه ای متشکل از 12 فروشگاه است که اطلاعات فعالیت های آن در جدول ارائه شده است. 2.1.
مدیریت شرکت مایل است بداند که اندازه گردش مالی سالانه چگونه به فضای خرده فروشی فروشگاه بستگی دارد.
جدول 2.1
شماره مغازه | گردش مالی سالانه، میلیون روبل | منطقه تجاری، هزار متر مربع |
19,76 | 0,24 | |
38,09 | 0,31 | |
40,95 | 0,55 | |
41,08 | 0,48 | |
56,29 | 0,78 | |
68,51 | 0,98 | |
75,01 | 0,94 | |
89,05 | 1,21 | |
91,13 | 1,29 | |
91,26 | 1,12 | |
99,84 | 1,29 | |
108,55 | 1,49 |
راه حل حداقل مربعاتاجازه دهید تعیین کنیم - گردش مالی سالانه فروشگاه -میلیون روبل. - متراژ فروش فروشگاه هزار متر مربع.
شکل 2.1. Scatterplot برای مثال 2.1
برای تعیین شکل رابطه عملکردی بین متغیرها و ساختن نمودار پراکندگی (شکل 2.1).
بر اساس نمودار پراکندگی، میتوان نتیجه گرفت که گردش مالی سالانه به طور مثبت به منطقه فروش وابسته است (یعنی با رشد y افزایش مییابد). مناسب ترین شکل اتصال عملکردی است خطی.
اطلاعات برای محاسبات بیشتر در جدول ارائه شده است. 2.2. با استفاده از روش حداقل مربعات، پارامترهای مدل اقتصادسنجی خطی تک عاملی را تخمین می زنیم
جدول 2.2
تی | y t | x 1t | y t 2 | x1t2 | x 1t y t |
19,76 | 0,24 | 390,4576 | 0,0576 | 4,7424 | |
38,09 | 0,31 | 1450,8481 | 0,0961 | 11,8079 | |
40,95 | 0,55 | 1676,9025 | 0,3025 | 22,5225 | |
41,08 | 0,48 | 1687,5664 | 0,2304 | 19,7184 | |
56,29 | 0,78 | 3168,5641 | 0,6084 | 43,9062 | |
68,51 | 0,98 | 4693,6201 | 0,9604 | 67,1398 | |
75,01 | 0,94 | 5626,5001 | 0,8836 | 70,5094 | |
89,05 | 1,21 | 7929,9025 | 1,4641 | 107,7505 | |
91,13 | 1,29 | 8304,6769 | 1,6641 | 117,5577 | |
91,26 | 1,12 | 8328,3876 | 1,2544 | 102,2112 | |
99,84 | 1,29 | 9968,0256 | 1,6641 | 128,7936 | |
108,55 | 1,49 | 11783,1025 | 2,2201 | 161,7395 | |
اس | 819,52 | 10,68 | 65008,554 | 11,4058 | 858,3991 |
میانگین | 68,29 | 0,89 |
به این ترتیب،
بنابراین، با افزایش منطقه تجارت به میزان 1000 متر مربع، با مساوی بودن سایر موارد، میانگین گردش مالی سالانه 67.8871 میلیون روبل افزایش می یابد.
مثال 2.2.مدیریت شرکت متوجه شد که گردش مالی سالانه نه تنها به منطقه فروش فروشگاه (نگاه کنید به مثال 2.1)، بلکه به میانگین تعداد بازدیدکنندگان نیز بستگی دارد. اطلاعات مربوطه در جدول ارائه شده است. 2.3.
جدول 2.3
راه حل.نشان می دهد - میانگین تعداد بازدیدکنندگان از فروشگاه هفتم در روز، هزار نفر.
برای تعیین شکل رابطه عملکردی بین متغیرها و ساختن نمودار پراکندگی (شکل 2.2).
بر اساس نمودار پراکندگی، میتوان نتیجه گرفت که گردش مالی سالانه با میانگین تعداد بازدیدکنندگان در روز رابطه مثبت دارد (یعنی با رشد y افزایش مییابد). شکل وابستگی عملکردی خطی است.
برنج. 2.2. Scatterplot برای مثال 2.2
جدول 2.4
تی | x 2 تن | x 2t 2 | yt x 2t | x 1t x 2t |
8,25 | 68,0625 | 163,02 | 1,98 | |
10,24 | 104,8575 | 390,0416 | 3,1744 | |
9,31 | 86,6761 | 381,2445 | 5,1205 | |
11,01 | 121,2201 | 452,2908 | 5,2848 | |
8,54 | 72,9316 | 480,7166 | 6,6612 | |
7,51 | 56,4001 | 514,5101 | 7,3598 | |
12,36 | 152,7696 | 927,1236 | 11,6184 | |
10,81 | 116,8561 | 962,6305 | 13,0801 | |
9,89 | 97,8121 | 901,2757 | 12,7581 | |
13,72 | 188,2384 | 1252,0872 | 15,3664 | |
12,27 | 150,5529 | 1225,0368 | 15,8283 | |
13,92 | 193,7664 | 1511,016 | 20,7408 | |
اس | 127,83 | 1410,44 | 9160,9934 | 118,9728 |
میانگین | 10,65 |
به طور کلی تعیین پارامترهای مدل اقتصادسنجی دو عاملی ضروری است
y t \u003d a 0 + a 1 x 1t + a 2 x 2t + ε t
اطلاعات مورد نیاز برای محاسبات بیشتر در جدول ارائه شده است. 2.4.
اجازه دهید پارامترهای یک مدل اقتصادسنجی خطی دو عاملی را با استفاده از روش حداقل مربعات تخمین بزنیم.
به این ترتیب،
ارزیابی ضریب = 61.6583 نشان می دهد که همه چیزهای دیگر برابر هستند، با افزایش سطح فروش 1000 متر مربع، گردش مالی سالانه به طور متوسط 61.6583 میلیون روبل افزایش می یابد.
برآورد ضریب = 2.2748 نشان می دهد که با مساوی بودن سایر موارد، میانگین تعداد بازدیدکنندگان به ازای هر هزار نفر افزایش می یابد. در روز، گردش مالی سالانه به طور متوسط 2.2748 میلیون روبل افزایش می یابد.
مثال 2.3.با استفاده از اطلاعات ارائه شده در جدول 2.2 و 2.4، پارامتر یک مدل اقتصادسنجی تک عاملی را برآورد کنید
ارزش مرکزی گردش مالی سالانه فروشگاه -میلیون روبل کجاست. - ارزش مرکزی میانگین روزانه تعداد بازدیدکنندگان از فروشگاه t-ام، هزار نفر. (نمونه های 2.1-2.2 را ببینید).
راه حل.اطلاعات اضافی مورد نیاز برای محاسبات در جدول ارائه شده است. 2.5.
جدول 2.5
-48,53 | -2,40 | 5,7720 | 116,6013 | |
-30,20 | -0,41 | 0,1702 | 12,4589 | |
-27,34 | -1,34 | 1,8023 | 36,7084 | |
-27,21 | 0,36 | 0,1278 | -9,7288 | |
-12,00 | -2,11 | 4,4627 | 25,3570 | |
0,22 | -3,14 | 9,8753 | -0,6809 | |
6,72 | 1,71 | 2,9156 | 11,4687 | |
20,76 | 0,16 | 0,0348 | 3,2992 | |
22,84 | -0,76 | 0,5814 | -17,413 | |
22,97 | 3,07 | 9,4096 | 70,4503 | |
31,55 | 1,62 | 2,6163 | 51,0267 | |
40,26 | 3,27 | 10,6766 | 131,5387 | |
مجموع | 48,4344 | 431,0566 |
با استفاده از فرمول (2.35) بدست می آوریم
به این ترتیب،
http://www.cleverstudents.ru/articles/mnk.html
مثال.
داده های تجربی در مورد مقادیر متغیرها ایکسو دردر جدول آورده شده است.
در نتیجه تراز آنها، تابع
استفاده كردن روش حداقل مربع، این داده ها را با یک وابستگی خطی تقریبی کنید y=ax+b(گزینه ها را پیدا کنید آو ب). دریابید که کدام یک از دو خط بهتر است (به معنای روش حداقل مربعات) داده های تجربی را تراز می کند. یک نقاشی بکشید.
راه حل.
در مثال ما n=5. برای راحتی محاسبه مقادیری که در فرمول های ضرایب مورد نیاز گنجانده شده است، جدول را پر می کنیم.
مقادیر سطر چهارم جدول با ضرب مقادیر سطر دوم در مقادیر سطر 3 برای هر عدد به دست می آید. من.
مقادیر ردیف پنجم جدول با مربع کردن مقادیر سطر دوم برای هر عدد به دست می آید. من.
مقادیر آخرین ستون جدول مجموع مقادیر در سراسر سطرها است.
برای یافتن ضرایب از فرمول روش حداقل مربعات استفاده می کنیم آو ب. ما مقادیر مربوطه را از آخرین ستون جدول در آنها جایگزین می کنیم:
در نتیجه، y=0.165x+2.184خط مستقیم تقریبی مورد نظر است.
باقی مانده است که بفهمیم کدام یک از خطوط y=0.165x+2.184یا داده های اصلی را بهتر تقریب می کند، یعنی تخمینی را با استفاده از روش حداقل مربعات انجام می دهد.
اثبات
به طوری که وقتی پیدا شد آو بتابع کوچکترین مقدار را می گیرد، لازم است که در این مرحله ماتریس شکل درجه دوم دیفرانسیل مرتبه دوم برای تابع باشد. مثبت قطعی بود بیایید آن را نشان دهیم.
دیفرانسیل مرتبه دوم به شکل زیر است:
به این معنا که
بنابراین، ماتریس فرم درجه دوم دارای فرم است
و مقادیر عناصر به آن بستگی ندارد آو ب.
اجازه دهید نشان دهیم که ماتریس مثبت قطعی است. این مستلزم آن است که مینورهای زاویه مثبت باشند.
مینور زاویه ای مرتبه اول . نابرابری سخت است، از نقاط
- آموزش
مقدمه
من یک برنامه نویس کامپیوتر هستم. زمانی که یاد گرفتم بگویم: "من هیچی نمیفهمم!"حالا خجالت نمیکشم به مرشد علم بگویم که برای من سخنرانی میکند، نمیفهمم آن بزرگوار با من از چه حرف میزند. و خیلی سخته بله، سخت و شرم آور است که اعتراف کنید که نمی دانید. کسی که دوست دارد اعتراف کند که اصول چیزی را در آنجا نمی داند. به دلیل حرفه ام، مجبورم در تعداد زیادی سخنرانی و سخنرانی شرکت کنم، جایی که، اعتراف می کنم، در اکثر موارد احساس خواب آلودگی می کنم، زیرا چیزی نمی فهمم. و من نمی فهمم زیرا مشکل بزرگ وضعیت فعلی علم در ریاضیات نهفته است. فرض بر این است که همه دانش آموزان کاملاً با تمام زمینه های ریاضیات آشنا هستند (که پوچ است). اعتراف به اینکه نمی دانید مشتق چیست (که این کمی دیرتر است) شرم آور است.
اما یاد گرفتم بگویم که نمی دانم ضرب چیست. بله، من نمی دانم جبر فرعی بر جبر دروغ چیست. بله، نمی دانم چرا معادلات درجه دوم در زندگی مورد نیاز است. به هر حال، اگر مطمئن هستید که می دانید، پس ما باید در مورد آن صحبت کنیم! ریاضیات یک سری ترفند است. ریاضیدانان سعی می کنند مردم را گیج و مرعوب کنند. جایی که هیچ سردرگمی، هیچ شهرت و اقتداری وجود ندارد. بله، صحبت کردن به انتزاعی ترین زبان ممکن اعتبار دارد، که این خود کاملاً مزخرف است.
آیا می دانید مشتق چیست؟ به احتمال زیاد در مورد حد و مرز رابطه تفاوت به من خواهید گفت. در سال اول ریاضیات در دانشگاه دولتی سنت پترزبورگ، ویکتور پتروویچ خاوین من تعریف شده استمشتق به عنوان ضریب اولین جمله از سری تیلور تابع در نقطه (این یک ژیمناستیک جداگانه برای تعیین سری تیلور بدون مشتقات بود). مدت ها به این تعریف خندیدم تا اینکه بالاخره فهمیدم در مورد چیست. مشتق چیزی بیش از اندازهگیری نیست که نشان میدهد چقدر تابعی که ما متمایز میکنیم شبیه تابع y=x، y=x^2، y=x^3 است.
اکنون این افتخار را دارم که به دانشجویانی که ترسریاضیات اگر از ریاضیات می ترسید - ما در راه هستیم. به محض اینکه سعی کردید متنی را بخوانید و به نظرتان رسید که بیش از حد پیچیده است، بدانید که بد نوشته شده است. من استدلال می کنم که هیچ حوزه ای از ریاضیات وجود ندارد که نتوان در مورد آن "روی انگشتان" بدون از دست دادن دقت صحبت کرد.
چالش برای آینده نزدیک: به دانشآموزانم دستور دادم که بفهمند یک کنترلکننده خطی- درجه دوم چیست. خجالتی نباش، سه دقیقه از عمرت را هدر بده، لینک را دنبال کن. اگر چیزی متوجه نشدید، پس ما در راه هستیم. من (یک ریاضی دان-برنامه نویس حرفه ای) هم چیزی نفهمیدم. و من به شما اطمینان می دهم، این را می توان "بر روی انگشتان دست" مرتب کرد. در حال حاضر نمیدانم چیست، اما به شما اطمینان میدهم که میتوانیم آن را کشف کنیم.
بنابراین، اولین سخنرانی ای که قرار است برای دانش آموزانم پس از اینکه آنها با وحشت به سمت من می آیند با این جمله که یک کنترل کننده خطی-مربع یک باگ وحشتناک است که هرگز در زندگی خود به آن مسلط نخواهید شد، خواهم کرد، روش های حداقل مربعات. آیا می توانید معادلات خطی را حل کنید؟ اگر در حال خواندن این متن هستید، به احتمال زیاد نه.
بنابراین، با توجه به دو نقطه (x0، y0)، (x1، y1)، به عنوان مثال، (1،1) و (3،2)، وظیفه پیدا کردن معادله یک خط مستقیم از این دو نقطه است:
تصویر
این خط مستقیم باید معادله ای مانند زیر داشته باشد:
در اینجا آلفا و بتا برای ما ناشناخته هستند، اما دو نقطه از این خط شناخته شده است:
می توانید این معادله را به صورت ماتریسی بنویسید:
در اینجا باید یک انحراف غزلی انجام دهیم: ماتریس چیست؟ ماتریس چیزی نیست جز یک آرایه دو بعدی. این روشی برای ذخیره سازی داده ها است، هیچ ارزش دیگری نباید به آن داده شود. این به ما بستگی دارد که چگونه یک ماتریس خاص را دقیقاً تفسیر کنیم. به صورت دوره ای، من آن را به عنوان یک نقشه خطی، دوره ای به عنوان یک فرم درجه دوم، و گاهی اوقات به سادگی به عنوان مجموعه ای از بردارها تفسیر می کنم. این همه در چارچوب روشن خواهد شد.
بیایید ماتریس های خاص را با نمایش نمادین آنها جایگزین کنیم:
سپس (آلفا، بتا) را می توان به راحتی پیدا کرد:
به طور خاص برای داده های قبلی ما:
که منجر به معادله زیر خط مستقیمی می شود که از نقاط (1،1) و (3،2) می گذرد:
خوب، اینجا همه چیز روشن است. و بیایید معادله یک خط مستقیم را پیدا کنیم سهنقاط: (x0,y0)، (x1,y1) و (x2,y2):
اوه اوه، اما ما سه معادله برای دو مجهول داریم! ریاضیدان استاندارد خواهد گفت که هیچ راه حلی وجود ندارد. برنامه نویس چه خواهد گفت؟ و ابتدا سیستم معادلات قبلی را به شکل زیر بازنویسی می کند:
در مورد ما، بردارهای i، j، b سه بعدی هستند، بنابراین (در حالت کلی) هیچ راه حلی برای این سیستم وجود ندارد. هر بردار (alpha\*i + beta\*j) در صفحه ای قرار دارد که توسط بردارهای (i, j) پوشانده شده است. اگر b به این صفحه تعلق نداشته باشد، هیچ راه حلی وجود ندارد (برابری در معادله به دست نمی آید). چه باید کرد؟ بیایید به دنبال مصالحه باشیم. بیایید نشان دهیم e (آلفا، بتا)دقیقاً چگونه به برابری نرسیدیم:
و ما سعی خواهیم کرد این خطا را به حداقل برسانیم:
چرا مربع؟
ما نه تنها به دنبال حداقل هنجار، بلکه به دنبال حداقل مربع هنجار هستیم. چرا؟ حداقل نقطه به خودی خود منطبق است و مربع یک تابع صاف می دهد (یک تابع درجه دوم از آرگومان ها (آلفا، بتا))، در حالی که فقط طول تابعی را به شکل مخروط می دهد که در نقطه حداقل غیر قابل تمایز است. Brr. مربع راحت تر است.
بدیهی است که هنگام بردار خطا به حداقل می رسد همتعامد به صفحه ای که توسط بردارها پوشانده شده است منو j.
تصویر
به عبارت دیگر: ما به دنبال خطی هستیم که مجموع مجذور طول فواصل تمام نقاط تا این خط حداقل باشد:
به روز رسانی: در اینجا من یک گیره دارم، فاصله تا خط باید به صورت عمودی اندازه گیری شود، نه طرح ریزی املایی. این نظر دهنده درست است.
تصویر
در کلمات کاملاً متفاوت (با دقت، به طور ضعیف رسمی شده است، اما باید روی انگشتان مشخص باشد): ما همه خطوط ممکن را بین همه جفت نقاط می گیریم و به دنبال خط متوسط بین همه می گردیم:
تصویر
توضیح دیگر روی انگشتان: ما بین تمام نقاط داده (در اینجا ما سه نقطه داریم) و خطی که به دنبال آن هستیم یک فنر وصل می کنیم و خط حالت تعادل دقیقاً همان چیزی است که به دنبال آن هستیم.
حداقل فرم درجه دوم
بنابراین، با توجه به بردار بو صفحه ای که توسط ستون ها-بردارهای ماتریس پوشانده شده است آ(در این حالت (x0,x1,x2) و (1,1,1)) به دنبال یک بردار هستیم. هبا حداقل مربع طول بدیهی است که حداقل برای بردار قابل دستیابی است ه، متعامد به صفحه پوشیده شده توسط ستون ها-بردارهای ماتریس آ:به عبارت دیگر، ما به دنبال یک بردار x=(آلفا، بتا) هستیم که:
یادآوری می کنم که این بردار x=(آلفا، بتا) مینیمم تابع درجه دوم است ||e(آلفا، بتا)||^2:
در اینجا یادآوری این نکته مفید است که ماتریس را می توان به خوبی شکل درجه دوم تفسیر کرد، برای مثال، ماتریس هویت ((1,0),(0,1)) را می توان به عنوان تابعی از x^2 + y تفسیر کرد. ^2:
فرم درجه دوم
تمام این ژیمناستیک به عنوان رگرسیون خطی شناخته می شود.
معادله لاپلاس با شرط مرزی دیریکله
اکنون ساده ترین مشکل واقعی: یک سطح مثلثی مشخص وجود دارد، لازم است آن را صاف کنید. به عنوان مثال، بیایید مدل چهره من را بارگذاری کنیم:commit اصلی موجود است. برای به حداقل رساندن وابستگیهای خارجی، کد رندر نرمافزارم را که قبلاً روی Habré بود، گرفتم. برای حل سیستم خطی، من از OpenNL استفاده می کنم، این یک حل کننده عالی است، اما نصب آن بسیار دشوار است: شما باید دو فایل (.h + .c) را در پوشه پروژه خود کپی کنید. تمام صاف کردن توسط کد زیر انجام می شود:
برای (int d=0; d<3; d++) {
nlNewContext();
nlSolverParameteri(NL_NB_VARIABLES, verts.size());
nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE);
nlBegin(NL_SYSTEM);
nlBegin(NL_MATRIX);
for (int i=0; i<(int)verts.size(); i++) {
nlBegin(NL_ROW);
nlCoefficient(i, 1);
nlRightHandSide(verts[i][d]);
nlEnd(NL_ROW);
}
for (unsigned int i=0; i
مختصات X، Y و Z قابل جدا شدن هستند، من آنها را جداگانه صاف می کنم. یعنی من سه سیستم معادله خطی را حل می کنم که هر کدام به اندازه تعداد رئوس مدل من متغیر دارند. n سطر اول ماتریس A فقط یک 1 در هر سطر دارند و n سطر اول بردار b مختصات مدل اصلی دارند. یعنی، من بین موقعیت راس جدید و موقعیت راس قدیمی به فنری گره می زنم - موارد جدید نباید خیلی دور از راس های قدیمی باشند.
تمام ردیفهای بعدی ماتریس A (faces.size()*3 = تعداد یالهای همه مثلثهای شبکه) یک رخداد 1 و یک وقوع 1- دارند، در حالی که بردار b دارای مولفههای مقابل صفر است. این به این معنی است که من یک فنر در هر لبه مش مثلثی خود قرار می دهم: همه لبه ها سعی می کنند راس یکسانی را با نقطه شروع و پایان خود بدست آورند.
بار دیگر: همه رئوس متغیر هستند و نمی توانند از موقعیت اصلی خود دور شوند، اما در عین حال سعی می کنند شبیه یکدیگر شوند.
در اینجا نتیجه است:
همه چیز خوب خواهد بود، مدل واقعا صاف است، اما از لبه اصلی خود فاصله گرفت. بیایید کد را کمی تغییر دهیم:
برای (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }
در ماتریس A، برای رئوس هایی که روی لبه هستند، یک ردیف از دسته v_i = verts[i][d] اضافه نمی کنم، بلکه 1000*v_i = 1000*verts[i][d] اضافه می کنم. چه چیزی را تغییر می دهد؟ و این شکل درجه دوم خطا را تغییر می دهد. اکنون یک انحراف از بالا در لبه نه یک واحد، مانند قبل، بلکه 1000 * 1000 واحد هزینه خواهد داشت. یعنی ما فنر قوی تری را روی راس های افراطی آویزان کردیم، راه حل ترجیح می دهد دیگران را قوی تر بکشد. در اینجا نتیجه است:
بیایید قدرت فنرهای بین رئوس را دو برابر کنیم:
nlCoefficient(face[j], 2); nlCoefficient(face[(j+1)%3], -2);
منطقی است که سطح صاف تر شده است:
و حالا حتی صد برابر قوی تر:
این چیه؟ تصور کنید که یک حلقه سیمی را در آب صابون فرو برده ایم. در نتیجه، فیلم صابونی به دست آمده سعی می کند تا حد ممکن کمترین انحنا را داشته باشد، با لمس همان مرز - حلقه سیمی ما. این دقیقاً همان چیزی است که با تعمیر حاشیه و درخواست سطح صاف در داخل به دست آوردیم. تبریک می گویم، ما به تازگی معادله لاپلاس را با شرایط مرزی دیریکله حل کردیم. باحال به نظر می رسد؟ اما در واقع، فقط یک سیستم از معادلات خطی برای حل.
معادله پواسون
بیایید یک نام جالب دیگر داشته باشیم.بیایید بگوییم که من تصویری مانند این دارم:
همه خوب هستند، اما من صندلی را دوست ندارم.
عکس رو نصف کردم:
و من یک صندلی را با دستان خود انتخاب می کنم:
سپس هر چیزی که در ماسک سفید است را به سمت چپ تصویر می کشم و در عین حال در کل تصویر می گویم که تفاوت بین دو پیکسل همسایه باید برابر با تفاوت بین دو پیکسل همسایه باشد. تصویر سمت راست:
برای (int i=0; i در اینجا نتیجه است: کد و تصاویر موجود است روش حداقل مربعات (OLS، eng. Ordinary Least Squares، OLS)- یک روش ریاضی که برای حل مسائل مختلف استفاده می شود، بر اساس به حداقل رساندن مجموع مجذور انحراف برخی از توابع از متغیرهای مورد نظر. می توان از آن برای "حل" معادلات بیش از حد تعیین شده استفاده کرد (زمانی که تعداد معادلات از تعداد مجهولات بیشتر شود)، برای یافتن راه حل در مورد سیستم های غیرخطی معادلات معمولی (نه بیش از حد تعیین شده)، برای تقریب مقادیر نقطه ای. از برخی عملکردها OLS یکی از روش های اساسی تحلیل رگرسیون برای تخمین پارامترهای ناشناخته مدل های رگرسیون از داده های نمونه است. 1
/
5 ✪ روش حداقل مربعات. موضوع ✪ Mitin I. V. - پردازش نتایج فیزیکی. آزمایش - روش حداقل مربعات (سخنرانی 4) ✪ حداقل مربعات، درس 1/2. تابع خطی ✪ اقتصاد سنجی سخنرانی 5. روش حداقل مربعات ✪ روش حداقل مربعات. پاسخ ها تا اوایل قرن نوزدهم. دانشمندان قوانین خاصی برای حل یک سیستم معادلات که در آن تعداد مجهولات کمتر از تعداد معادلات باشد، نداشتند. تا آن زمان روشهای خاصی بسته به نوع معادلات و ذکاوت ماشینحسابها مورد استفاده قرار میگرفت و بنابراین ماشینحسابهای مختلف، با شروع از دادههای مشاهداتی یکسان، به نتایج متفاوتی میرسیدند. اولین کاربرد این روش به گاوس (1795) نسبت داده می شود و لژاندر (1805) به طور مستقل آن را کشف و با نام مدرن خود منتشر کرد (fr. Metode des moindres quarres) . لاپلاس این روش را با نظریه احتمالات مرتبط کرد و ریاضیدان آمریکایی آدرین (1808) کاربردهای احتمالی آن را در نظر گرفت. این روش با تحقیقات بیشتر توسط انکه، بسل، هانسن و دیگران گسترش یافته و بهبود یافته است. اجازه دهید x (\displaystyle x)- کیت n (\displaystyle n)متغیرهای ناشناخته (پارامترها) f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- مجموعه ای از توابع از این مجموعه از متغیرها. مشکل انتخاب چنین مقادیری است x (\displaystyle x)به طوری که مقادیر این توابع تا حد امکان به برخی از مقادیر نزدیک باشد y i (\displaystyle y_(i)). در اصل، ما در مورد "حل" سیستم معادلات بیش از حد تعیین شده صحبت می کنیم. f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m)در معنای مشخص شده، حداکثر نزدیکی قسمت های چپ و راست سیستم. ماهیت LSM این است که به عنوان یک "میزان مجاورت" مجموع انحرافات مجذور قسمت های چپ و راست را انتخاب کنید. | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). بنابراین، ماهیت LSM را می توان به صورت زیر بیان کرد: اگر سیستم معادلات دارای جواب باشد، حداقل مجموع مربعات برابر با صفر خواهد بود و جواب های دقیق سیستم معادلات را می توان به صورت تحلیلی یا مثلاً با روش های مختلف بهینه سازی عددی یافت. اگر سیستم بیش از حد تعیین شده باشد، یعنی به زبان ساده، تعداد معادلات مستقل از تعداد متغیرهای مجهول بیشتر باشد، در این صورت سیستم راه حل دقیقی ندارد و روش حداقل مربعات به ما امکان می دهد برخی از بردارهای "بهینه" را پیدا کنیم. x (\displaystyle x)به معنای حداکثر نزدیکی بردارها y (\displaystyle y)و f (x) (\displaystyle f(x))یا حداکثر نزدیکی بردار انحراف e (\displaystyle e)به صفر (نزدیک به معنای فاصله اقلیدسی درک می شود). به طور خاص، روش حداقل مربعات را می توان برای "حل" سیستم معادلات خطی استفاده کرد جایی که A (\displaystyle A)ماتریس اندازه مستطیلی m × n، m > n (\displaystyle m\times n,m>n)(یعنی تعداد ردیف های ماتریس A بیشتر از تعداد متغیرهای مورد نیاز است). چنین سیستم معادلاتی به طور کلی هیچ راه حلی ندارد. بنابراین، این سیستم را می توان تنها به معنای انتخاب چنین بردار "حل" کرد x (\displaystyle x)برای به حداقل رساندن "فاصله" بین بردارها A x (\displaystyle Axe)و b (\displaystyle b). برای این کار می توانید معیار کمینه سازی مجذور اختلاف قسمت های چپ و راست معادلات سیستم را اعمال کنید، یعنی (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\right arrow \min ). به راحتی می توان نشان داد که حل این مسئله کمینه سازی منجر به حل سیستم معادلات زیر می شود بذار باشه n (\displaystyle n)مقادیر برخی از متغیرها y (\displaystyle y)(این ممکن است نتایج مشاهدات، آزمایش ها و غیره باشد) و متغیرهای مربوطه x (\displaystyle x). چالش ایجاد رابطه بین y (\displaystyle y)و x (\displaystyle x)تقریبی توسط برخی تابع شناخته شده تا برخی از پارامترهای ناشناخته b (\displaystyle b)، یعنی در واقع بهترین مقادیر پارامترها را پیدا کنید b (\displaystyle b)، با حداکثر تقریب مقادیر f (x , b) (\displaystyle f(x,b))به ارزش های واقعی y (\displaystyle y). در واقع، این به حالت "حل" یک سیستم معادلات بیش از حد تعیین شده با توجه به b (\displaystyle b): F (xt، b) = y t، t = 1، …، n (\displaystyle f(x_(t)،b)=y_(t)،t=1،\ldots،n). در تحلیل رگرسیون و به ویژه در اقتصاد سنجی از مدل های احتمالی رابطه بین متغیرها استفاده می شود. Y t = f (xt , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)), جایی که ε t (\displaystyle \varepsilon _(t))- باصطلاح خطاهای تصادفیمدل ها. بر این اساس، انحراف مقادیر مشاهده شده y (\displaystyle y)از مدل f (x , b) (\displaystyle f(x,b))قبلاً در خود مدل فرض شده است. ماهیت LSM (معمولی، کلاسیک) یافتن چنین پارامترهایی است b (\displaystyle b)، که در آن مجموع انحرافات مجذور (خطاها، برای مدل های رگرسیون اغلب آنها را باقیمانده رگرسیون می نامند) e t (\displaystyle e_(t))حداقل خواهد بود: جایی که R S S (\displaystyle RSS)- انگلیسی. مجموع مربعات باقیمانده به صورت زیر تعریف می شود: در حالت کلی می توان این مشکل را با روش های عددی بهینه سازی (حداقل سازی) حل کرد. در این مورد، شخص صحبت می کند حداقل مربعات غیر خطی(NLS یا NLLS - eng. حداقل مربعات غیر خطی). در بسیاری از موارد می توان یک راه حل تحلیلی به دست آورد. برای حل مشکل کمینه سازی، باید نقاط ساکن تابع را پیدا کرد R S (b) (\displaystyle RSS(b))، آن را با توجه به پارامترهای ناشناخته متمایز می کند b (\displaystyle b)، معادل سازی مشتقات با صفر و حل سیستم معادلات حاصل: بگذارید وابستگی رگرسیون خطی باشد: اجازه دهید yبردار ستون مشاهدات متغیر مورد توضیح است و X (\displaystyle X)- این هست (n × k) (\displaystyle ((n\times k)))- ماتریس مشاهدات فاکتورها (ردیف های ماتریس - بردارهای مقادیر عوامل در این مشاهده، توسط ستون ها - بردار مقادیر این عامل در همه مشاهدات). نمایش ماتریسی مدل خطی به شکل زیر است: سپس بردار تخمین های متغیر توضیح داده شده و بردار باقیمانده های رگرسیون برابر با بر این اساس مجموع مجذورهای باقیمانده رگرسیون برابر خواهد بود متمایز کردن این تابع با توجه به بردار پارامتر b (\displaystyle b)و با معادل سازی مشتقات با صفر، سیستمی از معادلات را به دست می آوریم (به صورت ماتریسی): در شکل ماتریس رمزگشایی شده، این سیستم معادلات به شکل زیر است: (∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t ∑ x t 2 x 3 x 1 x 1 ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b x t 3 ⋮ b x k) = (\y) (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk) \\\ جمع x_(t2)x_(t1)&\مجموع x_(t2)^(2)&\مجموع x_(t2)x_(t3)&\ldots &\ مجموع x_(t2)x_(tk) \\\مجموع x_(t3)x_(t1)&\مجموع x_(t3)x_(t2)&\مجموع x_(t3)^(2)&\ldots &\ جمع x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\ مجموع x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3)\\\vdots \\b_( k)\\\پایان(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \ جمع x_(t3)y_(t )\\\vdots \\\ جمع x_(tk)y_(t)\\\ end (pmatrix)))که در آن تمام مبالغ بر تمام مقادیر مجاز گرفته می شود t (\displaystyle t). اگر یک ثابت در مدل گنجانده شود (طبق معمول)، پس x t 1 = 1 (\displaystyle x_(t1)=1)برای همه t (\displaystyle t)بنابراین، در گوشه سمت چپ بالای ماتریس سیستم معادلات تعداد مشاهدات است. n (\displaystyle n)، و در عناصر باقی مانده از ردیف اول و ستون اول - فقط مجموع مقادیر متغیرها: ∑ x t j (\displaystyle \sum x_(tj))و اولین عنصر سمت راست سیستم - ∑ y t (\displaystyle \ جمع y_(t)). حل این سیستم معادلات فرمول کلی را برای برآورد حداقل مربعات برای مدل خطی به دست می دهد: برای اهداف تحلیلی، آخرین نمایش این فرمول مفید است (در سیستم معادلات وقتی بر n تقسیم می شود، میانگین های حسابی به جای مجموع ظاهر می شوند). اگر داده ها در مدل رگرسیونی متمرکز شده استسپس در این نمایش ماتریس اول به معنای ماتریس کوواریانس نمونه از عوامل است و ماتریس دوم بردار کوواریانس عوامل با یک متغیر وابسته است. اگر علاوه بر این، داده نیز باشد نرمال شدهدر SKO (یعنی در نهایت استاندارد شده، سپس ماتریس اول به معنای ماتریس همبستگی نمونه عوامل است، بردار دوم - بردار همبستگی نمونه عوامل با متغیر وابسته. ویژگی مهم تخمین LLS برای مدل ها با یک ثابت- خط رگرسیون ساخته شده از مرکز ثقل داده های نمونه می گذرد، یعنی برابری برآورده می شود: به طور خاص، در حالت شدید، زمانی که تنها رگرسیون یک ثابت است، متوجه میشویم که تخمین OLS از یک پارامتر واحد (خود ثابت) برابر است با مقدار میانگین متغیر توضیح داده شده. یعنی، میانگین حسابی، که به دلیل خواص خوبش از قوانین اعداد بزرگ شناخته میشود، همچنین یک تخمین حداقل مربعات است - این معیار برای حداقل مجموع مجذور انحرافات از آن را برآورده میکند. در مورد رگرسیون خطی زوجی y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t))، هنگامی که وابستگی خطی یک متغیر به متغیر دیگر تخمین زده می شود، فرمول های محاسبه ساده می شوند (شما می توانید بدون جبر ماتریسی انجام دهید). سیستم معادلات به شکل زیر است: از اینجا به راحتی می توان تخمین هایی را برای ضرایب پیدا کرد: علیرغم اینکه به طور کلی مدل های دارای ثابت ارجح هستند، در برخی موارد از ملاحظات نظری مشخص می شود که ثابت a (\displaystyle a)باید برابر با صفر باشد. برای مثال در فیزیک رابطه بین ولتاژ و جریان شکلی دارد U = I ⋅ R (\displaystyle U=I\cdot R); برای اندازه گیری ولتاژ و جریان، لازم است مقاومت را تخمین بزنیم. در این مورد، ما در مورد یک مدل صحبت می کنیم y = b x (\displaystyle y=bx). در این حالت به جای سیستم معادلات، یک معادله واحد داریم (∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)). بنابراین فرمول تخمین یک ضریب منفرد دارای فرم است B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\ جمع _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\ overline (x^(2)) ))). اگر داده ها با تابع رگرسیون چند جمله ای یک متغیر برازش داده شوند f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i))، سپس درک درجات x i (\displaystyle x^(i))به عنوان عوامل مستقل برای هر یک من (\displaystyle i)برآورد پارامترهای مدل بر اساس فرمول کلی برای تخمین پارامترهای مدل خطی امکان پذیر است. برای این کار کافی است در فرمول کلی در نظر بگیریم که با چنین تعبیری x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j))و x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). بنابراین، معادلات ماتریسی در این مورد به شکل زیر خواهد بود: (n ∑ n x t ... ∑ n x t k ∑ n x t ∑ n x i 2 ... ∑ m x i k + 1 ⋮ ⋱ ⋮ ∑ ∑ n x t k ∑ n x t k + 1 ... ∑ n x t k + 1 ... ∑ n x t k n y t ∑ n x t y t ⋮ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\ جمع \حدود _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ sum \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).) اول از همه، توجه می کنیم که برای مدل های خطی، برآوردهای حداقل مربعات، تخمین های خطی هستند، همانطور که از فرمول بالا آمده است. برای بی طرفی برآوردهای حداقل مربعات، تحقق مهمترین شرط تحلیل رگرسیون لازم و کافی است: انتظار ریاضی از یک خطای تصادفی مشروط به عوامل باید برابر با صفر باشد. این شرط ارضا می شود، به ویژه، اگر شرط دوم - شرط عوامل برونزا - اساسی است. اگر این ویژگی برآورده نشود، می توانیم فرض کنیم که تقریباً هر تخمینی بسیار رضایت بخش خواهد بود: آنها حتی سازگار نخواهند بود (یعنی حتی حجم بسیار زیادی از داده ها امکان به دست آوردن تخمین های کیفی را در این مورد نمی دهد). در مورد کلاسیک، فرض قوی تری در مورد قطعیت عوامل ایجاد می شود، برخلاف یک خطای تصادفی، که به طور خودکار به این معنی است که شرایط برون زا برآورده می شود. در حالت کلی، برای سازگاری برآوردها، ارضای شرط برون زایی همراه با همگرایی ماتریس کافی است. V x (\displaystyle V_(x))با افزایش حجم نمونه تا بی نهایت، به برخی از ماتریس های غیر منحط می رسد. برای اینکه علاوه بر سازگاری و بی طرفی، تخمین های حداقل مربعات (معمولی) نیز مؤثر باشند (بهترین در کلاس تخمین های بی طرف خطی)، ویژگی های اضافی یک خطای تصادفی باید رعایت شود: این مفروضات را می توان برای ماتریس کوواریانس بردار خطاهای تصادفی فرموله کرد. V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I). مدل خطی که این شرایط را برآورده کند نامیده می شود کلاسیک. تخمینهای OLS برای رگرسیون خطی کلاسیک، تخمینهای بیطرف، سازگار و کارآمد در کلاس تمام تخمینهای بیطرف خطی هستند (در ادبیات انگلیسی، گاهی اوقات از مخفف استفاده میشود. آبی (بهترین برآوردگر خطی بی طرفانه) بهترین تخمین بی طرفانه خطی است. در ادبیات داخلی، قضیه گاوس--مارکف بیشتر مورد استناد قرار می گیرد. همانطور که نشان دادن آسان است، ماتریس کوواریانس بردار برآورد ضریب برابر خواهد بود با: V (b ^ O L S) = σ 2 (X T X) - 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )). کارایی به این معنی است که این ماتریس کوواریانس "حداقل" است (هر ترکیب خطی ضرایب، و به ویژه خود ضرایب، دارای حداقل واریانس هستند)، یعنی در کلاس تخمین های بی طرف خطی، تخمین های OLS بهترین هستند. عناصر مورب این ماتریس - واریانس های تخمین ضرایب - پارامترهای مهم کیفیت برآوردهای به دست آمده هستند. با این حال، محاسبه ماتریس کوواریانس ممکن نیست زیرا واریانس خطای تصادفی ناشناخته است. می توان ثابت کرد که برآورد بی طرفانه و سازگار (برای مدل خطی کلاسیک) از واریانس خطاهای تصادفی مقدار: S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)). با جایگزینی این مقدار در فرمول ماتریس کوواریانس، تخمینی از ماتریس کوواریانس بدست می آوریم. برآوردهای حاصل نیز بیطرفانه و سازگار هستند. همچنین مهم است که تخمین واریانس خطا (و در نتیجه واریانس ضرایب) و تخمین پارامترهای مدل، متغیرهای تصادفی مستقل باشند، که به دست آوردن آمار آزمون برای آزمون فرضیههای مربوط به ضرایب مدل را ممکن میسازد. لازم به ذکر است که اگر مفروضات کلاسیک برآورده نشوند، برآوردهای پارامتر حداقل مربعات کارآمدترین نیستند و در جایی که W (\displaystyle W)یک ماتریس وزن قطعی مثبت متقارن است. حداقل مربعات معمولی یک مورد خاص از این رویکرد است، زمانی که ماتریس وزن متناسب با ماتریس هویت باشد. همانطور که مشخص است، برای ماتریس های متقارن (یا عملگرها) تجزیه وجود دارد W = P T P (\displaystyle W=P^(T)P). بنابراین، این تابع را می توان به صورت زیر نشان داد e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *))، یعنی این تابع را می توان به عنوان مجموع مربع های برخی از "باقیمانده های" تبدیل شده نشان داد. بنابراین، ما می توانیم یک کلاس از روش های حداقل مربعات - روش های LS (کمترین مربع) را تشخیص دهیم. ثابت شده است (قضیه آیتکن) که برای یک مدل رگرسیون خطی تعمیم یافته (که در آن هیچ محدودیتی بر روی ماتریس کوواریانس خطاهای تصادفی اعمال نمی شود)، موثرترین (در کلاس تخمین های بی طرف خطی) تخمین های به اصطلاح هستند. OLS تعمیم یافته (OMNK، GLS - حداقل مربعات تعمیم یافته)- روش LS با ماتریس وزنی برابر با ماتریس کوواریانس معکوس خطاهای تصادفی: W = V ε - 1 (\displaystyle W=V_(\varepsilon)^(-1)). می توان نشان داد که فرمول تخمین GLS پارامترهای مدل خطی دارای شکل است. B ^ G L S = (X T V - 1 X) - 1 X T V - 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y). ماتریس کوواریانس این برآوردها به ترتیب برابر خواهد بود V (b ^ G L S) = (X T V - 1 X) - 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- یک)). در واقع، ماهیت OLS در یک تبدیل خاص (خطی) (P) از داده های اصلی و اعمال حداقل مربعات معمول برای داده های تبدیل شده نهفته است. هدف از این تبدیل این است که برای داده های تبدیل شده، خطاهای تصادفی از قبل مفروضات کلاسیک را برآورده می کنند. در مورد ماتریس وزن مورب (و از این رو ماتریس کوواریانس خطاهای تصادفی)، به اصطلاح حداقل مربعات وزنی (WLS - Weighted Least Squares) را داریم. در این حالت، مجموع وزنی مجذورهای باقیمانده مدل به حداقل می رسد، یعنی هر مشاهده یک "وزن" دریافت می کند که با واریانس خطای تصادفی در این مشاهده نسبت معکوس دارد: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ سیگما _(t)^(2)))). در واقع، داده ها با وزن دادن به مشاهدات (تقسیم بر مقداری متناسب با انحراف استاندارد فرضی خطاهای تصادفی) تبدیل می شوند و حداقل مربعات نرمال برای داده های وزنی اعمال می شود. ISBN 978-5-7749-0473-0. تابع را با یک چند جمله ای درجه 2 تقریب می کنیم. برای انجام این کار، ضرایب سیستم نرمال معادلات را محاسبه می کنیم: , , اجازه دهید یک سیستم معمولی از حداقل مربعات بسازیم که به شکل زیر است: راه حل سیستم به راحتی پیدا می شود:،، . بنابراین، چند جمله ای درجه 2 یافت می شود: . پیش زمینه نظری بازگشت به صفحه<Введение в вычислительную математику. Примеры> مثال 2. یافتن درجه بهینه یک چند جمله ای بازگشت به صفحه<Введение в вычислительную математику. Примеры> مثال 3. استخراج یک سیستم نرمال معادلات برای یافتن پارامترهای یک وابستگی تجربی. اجازه دهید سیستمی از معادلات را برای تعیین ضرایب و توابع استخراج کنیم ، که تقریب ریشه میانگین مربع تابع داده شده را با توجه به نقاط انجام می دهد. یک تابع بنویسید و شرط اکستریم لازم برای آن را بنویسید: سپس سیستم عادی به شکل زیر در می آید: ما یک سیستم خطی معادلات برای پارامترهای مجهول به دست آورده ایم که به راحتی قابل حل است. پیش زمینه نظری بازگشت به صفحه<Введение в вычислительную математику. Примеры> مثال. داده های تجربی در مورد مقادیر متغیرها ایکسو دردر جدول آورده شده است. در نتیجه تراز آنها، تابع استفاده كردن روش حداقل مربع، این داده ها را با یک وابستگی خطی تقریبی کنید y=ax+b(گزینه ها را پیدا کنید آو ب). دریابید که کدام یک از دو خط بهتر است (به معنای روش حداقل مربعات) داده های تجربی را تراز می کند. یک نقاشی بکشید. مشکل پیدا کردن ضرایب وابستگی خطی است که برای آنها تابع دو متغیر است آو بکمترین مقدار را می گیرد. یعنی با توجه به داده ها آو بمجموع انحرافات مجذور داده های تجربی از خط مستقیم یافت شده کوچکترین خواهد بود. این نکته کل روش حداقل مربعات است. بنابراین، حل مثال به یافتن حد فاصل یک تابع از دو متغیر خلاصه می شود. یک سیستم دو معادله با دو مجهول گردآوری و حل می شود. یافتن مشتقات جزئی توابع توسط متغیرها آو ب، این مشتقات را با صفر برابر می کنیم. ما سیستم معادلات حاصل را با هر روشی حل می کنیم (مثلا روش تعویضیا روش کرامر) و فرمول های یافتن ضرایب را با استفاده از روش حداقل مربعات (LSM) بدست آورید. با داده آو بعملکرد کمترین مقدار را می گیرد. اثبات این حقیقت در زیر در متن انتهای صفحه آورده شده است. این کل روش حداقل مربعات است. فرمول برای یافتن پارامتر آشامل مجموع ، ، ، و پارامتر است nمقدار داده های تجربی است. مقادیر این مبالغ توصیه می شود به طور جداگانه محاسبه شوند. ضریب ببعد از محاسبه پیدا شد آ. وقت آن است که نمونه اصلی را به خاطر بسپارید. راه حل. در مثال ما n=5. برای راحتی محاسبه مقادیری که در فرمول های ضرایب مورد نیاز گنجانده شده است، جدول را پر می کنیم. مقادیر سطر چهارم جدول با ضرب مقادیر سطر دوم در مقادیر سطر 3 برای هر عدد به دست می آید. من. مقادیر ردیف پنجم جدول با مربع کردن مقادیر سطر دوم برای هر عدد به دست می آید. من. مقادیر آخرین ستون جدول مجموع مقادیر در سراسر سطرها است. برای یافتن ضرایب از فرمول روش حداقل مربعات استفاده می کنیم آو ب. ما مقادیر مربوطه را از آخرین ستون جدول در آنها جایگزین می کنیم: در نتیجه، y=0.165x+2.184خط مستقیم تقریبی مورد نظر است. باقی مانده است که بفهمیم کدام یک از خطوط y=0.165x+2.184یا داده های اصلی را بهتر تقریب می کند، یعنی تخمینی را با استفاده از روش حداقل مربعات انجام می دهد. برای انجام این کار، باید مجموع انحرافات مجذور داده های اصلی را از این خطوط محاسبه کنید و ، یک مقدار کوچکتر مربوط به خطی است که از نظر روش حداقل مربعات، داده های اصلی را بهتر تقریب می کند. از آن زمان، پس از آن خط y=0.165x+2.184داده های اصلی را بهتر تقریب می کند. همه چیز در نمودارها عالی به نظر می رسد. خط قرمز همان خط یافت شده است y=0.165x+2.184، خط آبی است ، نقاط صورتی داده های اصلی هستند. برای چیست، این همه تقریب برای چیست؟ من شخصاً برای حل مسائل هموارسازی داده ها، مسائل درون یابی و برون یابی استفاده می کنم (در مثال اصلی، می توان از شما درخواست کرد که مقدار مقدار مشاهده شده را پیدا کنید. yدر x=3یا چه زمانی x=6طبق روش MNC). اما در ادامه در بخش دیگری از سایت در این مورد بیشتر صحبت خواهیم کرد. بالای صفحه اثبات به طوری که وقتی پیدا شد آو بتابع کوچکترین مقدار را می گیرد، لازم است که در این مرحله ماتریس شکل درجه دوم دیفرانسیل مرتبه دوم برای تابع باشد. مثبت قطعی بود بیایید آن را نشان دهیم. دیفرانسیل مرتبه دوم به شکل زیر است: به این معنا که بنابراین، ماتریس فرم درجه دوم دارای فرم است اجازه دهید نشان دهیم که ماتریس مثبت قطعی است. این مستلزم آن است که مینورهای زاویه مثبت باشند. مینور زاویه ای مرتبه اول . نابرابری سخت است، زیرا نقاط بر هم منطبق نیستند. این امر در مواردی که در ادامه خواهد آمد به طور ضمنی مشخص خواهد شد. مینور زاویه ای مرتبه دوم این را ثابت کنیم روش استقراء ریاضی نتیجه: مقادیر یافت شده آو ببا کوچکترین مقدار تابع مطابقت دارد بنابراین، پارامترهای مورد نظر برای روش حداقل مربعات هستند. تا حالا فهمیدی؟ بالای صفحه برون یابی
- این یک روش تحقیق علمی است که مبتنی بر انتشار روندهای گذشته و حال، الگوها، روابط با توسعه آینده موضوع پیش بینی است. روش های برون یابی شامل
روش میانگین متحرک، روش هموارسازی نمایی، روش حداقل مربعات. ذات روش حداقل مربعات
شامل به حداقل رساندن مجموع انحرافات مربع بین مقادیر مشاهده شده و محاسبه شده است. مقادیر محاسبه شده با توجه به معادله انتخاب شده - معادله رگرسیون پیدا می شود. هرچه فاصله بین مقادیر واقعی و مقادیر محاسبه شده کمتر باشد، پیش بینی بر اساس معادله رگرسیون دقیق تر است. تجزیه و تحلیل نظری ماهیت پدیده مورد مطالعه، تغییری که در آن توسط یک سری زمانی نمایش داده می شود، به عنوان مبنایی برای انتخاب یک منحنی عمل می کند. ملاحظاتی در مورد ماهیت رشد سطوح سریال گاهی مورد توجه قرار می گیرد. بنابراین، اگر رشد خروجی در یک تصاعد حسابی انتظار می رود، هموارسازی در یک خط مستقیم انجام می شود. اگر معلوم شد که رشد نمایی است، صاف کردن باید مطابق تابع نمایی انجام شود. فرمول کار روش حداقل مربعات
: Y t+1 = a*X + b، جایی که t + 1 دوره پیش بینی است. Уt+1 - شاخص پیش بینی شده. a و b ضرایب هستند. X نماد زمان است. ضرایب a و b بر اساس فرمول زیر محاسبه می شود: جایی که، Uf - مقادیر واقعی سری دینامیک؛ n تعداد سطوح در سری زمانی است. هموارسازی سری های زمانی با روش حداقل مربعات در خدمت منعکس کننده الگوهای توسعه پدیده مورد مطالعه است. در بیان تحلیلی یک روند، زمان به عنوان یک متغیر مستقل در نظر گرفته می شود و سطوح سری تابعی از این متغیر مستقل عمل می کنند. توسعه یک پدیده به این بستگی ندارد که چند سال از نقطه شروع آن گذشته باشد، بلکه به این بستگی دارد که چه عواملی بر توسعه آن تأثیر گذاشته اند، در چه جهتی و با چه شدتی. از اینجا مشخص می شود که توسعه یک پدیده در زمان در نتیجه عمل این عوامل ظاهر می شود. تنظیم صحیح نوع منحنی، نوع وابستگی تحلیلی به زمان یکی از دشوارترین وظایف تحلیل پیش پیش بینی است.
. انتخاب نوع تابعی که روند را توصیف می کند، که پارامترهای آن با روش حداقل مربعات تعیین می شود، در بیشتر موارد تجربی و با ساخت تعدادی تابع و مقایسه آنها با یکدیگر از نظر مقدار ریشه است. خطای میانگین مربع، با فرمول محاسبه می شود: جایی که Uf - مقادیر واقعی سری دینامیک؛ Ur - مقادیر محاسبه شده (هموار) سری های زمانی؛ n تعداد سطوح در سری زمانی است. p تعداد پارامترهای تعریف شده در فرمول های توصیف کننده روند (روند توسعه) است. معایب روش حداقل مربعات
: یک وظیفه
. داده هایی وجود دارد که سطح بیکاری در منطقه را مشخص می کند، % راه حل حداقل مربعات
برای حل، جدولی را تهیه می کنیم که در آن محاسبات لازم را انجام می دهیم: ε = 28.63/10 = 2.86٪ دقت پیش بینیبالا نتیجه
: مقایسه نتایج به دست آمده در محاسبات روش میانگین متحرک
, هموارسازی نمایی
و روش حداقل مربعات، می توان گفت که میانگین خطای نسبی در محاسبات با روش هموارسازی نمایی در محدوده 20-50٪ قرار می گیرد. این بدان معنی است که دقت پیش بینی در این مورد فقط رضایت بخش است. در حالت اول و سوم، دقت پیشبینی بالا است، زیرا میانگین خطای نسبی کمتر از 10٪ است. اما روش میانگین متحرک امکان دستیابی به نتایج قابل اعتماد تری را فراهم کرد (پیش بینی برای نوامبر - 1.52٪ ، پیش بینی برای دسامبر - 1.53٪ ، پیش بینی ژانویه - 1.49٪) ، زیرا میانگین خطای نسبی هنگام استفاده از این روش کوچکترین است - 1 13 درصد. فهرست منابع استفاده شده من- تعداد نقطه آزمایشی؛ روی نمودار کلیک کنید در قسمت داده، در هر خط جداگانه، مقادیر «x» و «y» را در یک نقطه آزمایشی وارد کنید. مقادیر باید با فضای خالی (فضا یا تب) از هم جدا شوند. مقدار سوم می تواند وزن نقطه «w» باشد. اگر وزن نقطه مشخص نشده باشد، برابر با یک است. در اکثریت قریب به اتفاق موارد، وزن نقاط آزمایش ناشناخته یا محاسبه نشده است. تمام داده های تجربی معادل در نظر گرفته می شوند. گاهی اوقات وزن ها در محدوده مقادیر مورد مطالعه قطعاً معادل نیستند و حتی می توان آنها را به صورت تئوری محاسبه کرد. به عنوان مثال، در اسپکتروفتومتری، وزن ها را می توان با استفاده از فرمول های ساده محاسبه کرد، اگرچه اساساً همه برای کاهش هزینه های نیروی کار از این امر غفلت می کنند. داده ها را می توان از طریق کلیپ بورد از صفحه گسترده آفیس مانند Excel از Microsoft Office یا Calc از Open Office قرار داد. برای انجام این کار، محدوده دادههایی را که قرار است در صفحهگسترده کپی شوند انتخاب کنید، آن را در کلیپ بورد کپی کنید و دادهها را در فیلد داده در این صفحه جایگذاری کنید. برای محاسبه با روش حداقل مربعات، حداقل دو نقطه برای تعیین دو ضریب «b» لازم است - مماس زاویه میل خط مستقیم و «a» - مقدار قطع شده توسط خط مستقیم روی «y» محور. برای تخمین خطای ضرایب رگرسیون محاسبه شده، باید تعداد نقاط آزمایشی را بیش از دو قرار داد. هر چه تعداد امتیازات آزمایشی بیشتر باشد، تخمین آماری ضرایب دقیق تر (به دلیل کاهش ضریب دانشجویی) و تخمین به برآورد نمونه عمومی نزدیکتر است. به دست آوردن مقادیر در هر نقطه آزمایشی اغلب با هزینه های نیروی کار قابل توجهی همراه است، بنابراین، اغلب آزمایش های توافقی انجام می شود که تخمین قابل هضمی را ارائه می دهد و منجر به هزینه های نیروی کار بیش از حد نمی شود. به عنوان یک قاعده، تعداد نقاط آزمایشی برای وابستگی حداقل مربعات خطی با دو ضریب در منطقه 5-7 امتیاز انتخاب می شود. فرض کنید مجموعه ای از داده های تجربی به شکل جفت مقادیر [`y_i`, `x_i`] داریم که در آن `i` تعداد یک اندازه گیری آزمایشی از 1 تا n است. "y_i" - مقدار مقدار اندازه گیری شده در نقطه "i"؛ "x_i" - مقدار پارامتری که در نقطه "i" تنظیم می کنیم. یک مثال اجرای قانون اهم است. با تغییر ولتاژ (اختلاف پتانسیل) بین مقاطع مدار الکتریکی، مقدار جریان عبوری از این قسمت را اندازه گیری می کنیم. فیزیک به ما این وابستگی را می دهد که به طور تجربی یافت می شود: «I=U/R»، در این حالت، «y_i» مقدار جریان اندازهگیری شده و «x_i» مقدار ولتاژ است. به عنوان مثال دیگر، جذب نور توسط محلول یک ماده در محلول را در نظر بگیرید. شیمی این فرمول را به ما می دهد: "A = εl C"، در این مورد، «y_i» چگالی نوری اندازهگیری شده «A» است و «x_i» غلظت مادهای است که ما تنظیم میکنیم. ما موردی را در نظر خواهیم گرفت که خطای نسبی در تنظیم `x_i` بسیار کمتر از خطای نسبی در اندازه گیری `y_i` باشد. همچنین فرض میکنیم که تمام مقادیر اندازهگیریشده «y_i» تصادفی و به طور معمول توزیع شدهاند، یعنی. از قانون توزیع نرمال پیروی کنید. در مورد وابستگی خطی «y» به «x»، میتوانیم وابستگی نظری را بنویسیم: از نقطه نظر هندسی، ضریب «b» مماس شیب خط بر محور «x» را نشان میدهد و ضریب «a» مقدار «y» را در نقطه تلاقی خط با «ی» نشان میدهد. محور y (با `x = 0`). در یک آزمایش، مقادیر اندازهگیری شده «y_i» به دلیل خطاهای اندازهگیری، که همیشه در زندگی واقعی ذاتی هستند، نمیتوانند دقیقاً روی خط نظری قرار بگیرند. بنابراین، یک معادله خطی باید با یک سیستم معادلات نشان داده شود: وابستگی (1) نیز نامیده می شود پسرفت، یعنی وابستگی دو کمیت به یکدیگر با اهمیت آماری. وظیفه بازیابی وابستگی یافتن ضرایب «a» و «b» از نقاط آزمایشی [`y_i`، `x_i`] است. برای یافتن ضرایب معمولاً از «a» و «b» استفاده می شود روش حداقل مربع(MNK). این یک مورد خاص از اصل حداکثر احتمال است. بیایید (1) را به صورت «ε_i = y_i - a - b x_i» بازنویسی کنیم. سپس مجموع مربعات خطاها خواهد بود اصل روش حداقل مربعات به حداقل رساندن مجموع (2) با توجه به پارامترهای "a" و "b" است.. حداقل زمانی حاصل می شود که مشتقات جزئی جمع (2) با توجه به ضرایب «a» و «b» برابر با صفر باشد: با گسترش مشتقات، سیستمی متشکل از دو معادله با دو مجهول به دست می آوریم: براکت ها را باز می کنیم و مجموع را مستقل از ضرایب مورد نیاز به نیمه دیگر منتقل می کنیم، یک سیستم معادلات خطی به دست می آوریم: با حل سیستم به دست آمده، فرمول هایی برای ضرایب «a» و «b» پیدا می کنیم: `a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1) `b = frac(n sum_(i=1)^(n) x_iy_i - sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (جمع_(i=1)^(n) x_i)^2)` (3.2) این فرمولها وقتی راهحلهایی دارند که «n> 1» (خط را میتوان با حداقل 2 نقطه رسم کرد) و زمانی که تعیینکننده «D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1) )^(n) x_i)^2 != 0`، یعنی. هنگامی که نقاط "x_i" در آزمایش متفاوت است (یعنی زمانی که خط عمودی نیست). برای برآورد دقیقتر خطا در محاسبه ضرایب «a» و «b»، تعداد زیادی از نقاط آزمایشی مطلوب است. وقتی n=2 باشد، تخمین خطای ضرایب غیرممکن است، زیرا خط تقریبی به طور منحصر به فرد از دو نقطه عبور می کند. خطای متغیر تصادفی "V" مشخص می شود قانون انباشت خطا بیایید قانون انباشت خطاها را برای خطای ضرایب «a» و «b» بنویسیم. `S_y^2 = S_(y_i)^2` - خطا (واریانس، مجذور انحراف استاندارد) در بعد `y`، با فرض اینکه خطا برای همه مقادیر `y` یکنواخت است. با جایگزینی فرمول های محاسبه «a» و «b» در عبارات به دست آمده، دریافت می کنیم `S_a^2 = S_y^2 فرک(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 فراک (جمع_(i=1)^(n) x_i^2) (D)` (4.1) `S_b^2 = S_y^2 فرک(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2) در بیشتر آزمایشهای واقعی، مقدار «Sy» اندازهگیری نمیشود. برای انجام این کار، انجام چندین اندازه گیری موازی (آزمایش) در یک یا چند نقطه از طرح ضروری است که باعث افزایش زمان (و احتمالاً هزینه) آزمایش می شود. بنابراین، معمولاً فرض میشود که انحراف «y» از خط رگرسیون را میتوان تصادفی در نظر گرفت. برآورد واریانس `y` در این مورد با فرمول محاسبه می شود. `S_y^2 = S_(y، استراحت)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`. مقسومکننده «n-2» به این دلیل ظاهر میشود که به دلیل محاسبه دو ضریب برای یک نمونه از دادههای تجربی، تعداد درجات آزادی را کاهش دادهایم. به این تخمین، واریانس باقیمانده نسبت به خط رگرسیون S_(y، استراحت)^2 نیز گفته می شود. ارزیابی اهمیت ضرایب بر اساس معیار دانشجو انجام می شود `t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)` اگر معیارهای محاسبهشده «t_a»، «t_b» کمتر از معیارهای جدول «t(P, n-2)» باشند، در نظر گرفته میشود که ضریب مربوطه تفاوت معنیداری با صفر با احتمال داده شده «P» ندارد. برای ارزیابی کیفیت توصیف یک رابطه خطی، میتوانید «S_(y، استراحت)^2» و «S_(bar y)» را نسبت به میانگین با استفاده از معیار فیشر مقایسه کنید. `S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i= 1)^n y_i) /n)^2) (n-1)` - برآورد نمونه از واریانس `y` نسبت به میانگین. برای ارزیابی اثربخشی معادله رگرسیون برای توصیف وابستگی، ضریب فیشر محاسبه شده است. اگر «F > F(P، n-1، n-2)»، تفاوت بین توصیف وابستگی `y = f(x)` با استفاده از معادله رگرسیون و توصیف با استفاده از میانگین از نظر آماری با احتمال معنی دار در نظر گرفته می شود. "P". آن ها رگرسیون وابستگی را بهتر از گسترش «y» حول میانگین توصیف می کند. روی نمودار کلیک کنید روش حداقل مربعات به معنای تعیین پارامترهای مجهول است الف، ب، ج، …وابستگی عملکردی پذیرفته شده y = f(x,a,b,c,…), که حداقل میانگین مربع (واریانس) خطا را فراهم می کند , (24) که در آن x i، y i - مجموعه ای از جفت اعداد به دست آمده از آزمایش. از آنجایی که شرط حداکثر بودن یک تابع از چندین متغیر شرطی است که مشتقات جزئی آن برابر با صفر باشند، پس پارامترها الف، ب، ج، …از سیستم معادلات تعیین می شود: ; ; ; … (25) باید به خاطر داشت که از روش حداقل مربعات برای انتخاب پارامترهای بعد از فرم تابع استفاده می شود y = f(x)تعریف شده است. اگر از ملاحظات نظری نتوان نتیجهگیری در مورد اینکه فرمول تجربی چگونه باید باشد، نتیجهگیری کرد، باید توسط بازنماییهای بصری هدایت شود، در درجه اول یک نمایش گرافیکی از دادههای مشاهده شده. در عمل، اغلب به انواع توابع زیر محدود می شود: 1) خطی ; 2) درجه دوم الف. ماهیت روش حداقل مربعات این است
در یافتن پارامترهای مدل روند که به بهترین شکل روند توسعه هر پدیده تصادفی را در زمان یا مکان توصیف می کند (روند خطی است که روند این توسعه را مشخص می کند). وظیفه روش حداقل مربعات (OLS) یافتن نه تنها مدل روند، بلکه یافتن بهترین یا بهینه مدل است. اگر مجموع انحرافات مجذور بین مقادیر واقعی مشاهده شده و مقادیر روند محاسبه شده مربوطه حداقل (کوچکترین) باشد، این مدل بهینه خواهد بود: انحراف استاندارد بین مقدار واقعی مشاهده شده کجاست و مقدار روند محاسبه شده مربوطه، ارزش واقعی (مشاهده شده) پدیده مورد مطالعه، ارزش تخمینی مدل روند، تعداد مشاهدات پدیده مورد مطالعه. MNC به ندرت به تنهایی استفاده می شود. به عنوان یک قاعده، اغلب از آن فقط به عنوان یک تکنیک ضروری در مطالعات همبستگی استفاده می شود.
لازم به یادآوری است که اساس اطلاعات LSM تنها می تواند یک سری آماری قابل اعتماد باشد و تعداد مشاهدات نباید کمتر از 4 باشد، در غیر این صورت، رویه های هموارسازی LSM ممکن است حس مشترک خود را از دست بدهند. جعبه ابزار OLS به رویه های زیر کاهش می یابد: روش اول
معلوم میشود که آیا اصلاً تمایلی برای تغییر ویژگی حاصله در هنگام تغییر عامل-آگومان انتخابی وجود دارد یا به عبارت دیگر، آیا ارتباطی بین " در
"و" ایکس
». رویه دوم
مشخص می شود که کدام خط (مسیر) بهتر می تواند این روند را توصیف یا توصیف کند. رویه سوم.
مثال. فرض کنید اطلاعاتی در مورد میانگین عملکرد آفتابگردان برای مزرعه مورد مطالعه داریم (جدول 9.1). جدول 9.1 شماره مشاهده بهره وری، c/ha از آنجایی که سطح فناوری تولید آفتابگردان در کشور ما طی 10 سال گذشته تغییر چندانی نکرده است، به این معنی است که به احتمال زیاد، نوسانات عملکرد در دوره مورد تجزیه و تحلیل بستگی زیادی به نوسانات آب و هوا و شرایط آب و هوایی دارد. آیا حقیقت دارد؟ اولین روش MNC
فرضیه وجود یک روند در تغییر عملکرد آفتابگردان بسته به تغییرات آب و هوا و شرایط آب و هوایی طی 10 سال مورد تجزیه و تحلیل در حال آزمایش است. در این مثال، برای " y
» توصیه می شود که محصول آفتابگردان را مصرف کنید و برای « ایکس
» تعداد سال مشاهده شده در دوره مورد تجزیه و تحلیل است. آزمون فرضیه وجود هر گونه رابطه بین " ایکس
"و" y
» به دو صورت دستی و با کمک برنامه های کامپیوتری قابل انجام است. البته با در دسترس بودن تکنولوژی کامپیوتری این مشکل خود به خود حل می شود. اما برای درک بهتر ابزارهای OLS، توصیه میشود که فرضیه وجود رابطه بین ایکس
"و" y
» به صورت دستی، زمانی که فقط یک خودکار و یک ماشین حساب معمولی در دسترس باشد. در چنین مواردی، فرضیه وجود یک روند به بهترین وجه از طریق مکان تصویر گرافیکی سری زمانی تحلیل شده - میدان همبستگی، بررسی می شود: میدان همبستگی در مثال ما در اطراف یک خط به آرامی در حال افزایش قرار دارد. این خود نشان دهنده وجود روند خاصی در تغییر عملکرد آفتابگردان است. صحبت در مورد وجود هر روندی فقط زمانی غیرممکن است که میدان همبستگی شبیه یک دایره، یک دایره، یک ابر کاملاً عمودی یا کاملا افقی باشد یا از نقاط پراکنده تصادفی تشکیل شده باشد. در تمام موارد دیگر، فرضیه وجود رابطه بین " ایکس
"و" y
و تحقیقات را ادامه دهید. روش دوم MNC.
مشخص میشود که کدام خط (مسیر) بهتر میتواند روند تغییرات عملکرد آفتابگردان را برای دوره مورد تجزیه و تحلیل توصیف یا توصیف کند. با در دسترس بودن فناوری رایانه، انتخاب روند بهینه به طور خودکار اتفاق می افتد. با پردازش "دستی"، انتخاب تابع بهینه، به عنوان یک قاعده، به صورت بصری - با محل میدان همبستگی انجام می شود. یعنی با توجه به نوع نمودار، معادله خط انتخاب می شود که به بهترین وجه برای روند تجربی (به مسیر واقعی) مناسب است. همانطور که می دانید، در طبیعت تنوع زیادی از وابستگی های عملکردی وجود دارد، بنابراین تجزیه و تحلیل بصری حتی قسمت کوچکی از آنها بسیار دشوار است. خوشبختانه، در عمل اقتصادی واقعی، بیشتر روابط را می توان با دقت یا با سهمی یا هذلولی یا یک خط مستقیم توصیف کرد. در این راستا، با گزینه "دستی" برای انتخاب بهترین عملکرد، می توانید خود را تنها به این سه مدل محدود کنید. هذلولی: سهمی مرتبه دوم: : به راحتی می توان دید که در مثال ما، روند تغییرات عملکرد آفتابگردان در طول 10 سال تجزیه و تحلیل شده به بهترین وجه با یک خط مستقیم مشخص می شود، بنابراین معادله رگرسیون یک معادله خط مستقیم خواهد بود. رویه سوم.
پارامترهای معادله رگرسیون که این خط را مشخص می کند محاسبه می شود یا به عبارت دیگر یک فرمول تحلیلی تعیین می شود که بهترین مدل روند را توصیف می کند. یافتن مقادیر پارامترهای معادله رگرسیون، در مورد ما، پارامترها و هسته LSM است. این فرآیند به حل یک سیستم معادلات عادی کاهش می یابد. (9.2) این سیستم معادلات به راحتی با روش گاوس حل می شود. به یاد بیاورید که در نتیجه راه حل، در مثال ما، مقادیر پارامترها و یافت می شوند. بنابراین، معادله رگرسیون یافت شده به شکل زیر خواهد بود: یوتیوب دایره المعارفی
زیرنویس
داستان
ماهیت روش حداقل مربعات
مثال - سیستم معادلات خطی
OLS در تحلیل رگرسیون (تقریبا داده ها)
LSM در مورد رگرسیون خطی
ساده ترین موارد خاص
مورد یک مدل چند جمله ای
ویژگی های آماری برآوردهای OLS
حداقل مربعات وزنی
ماهیت روش حداقل مربعات (LSM).
استخراج فرمول برای یافتن ضرایب.
برآورد خطای روش حداقل مربعات.
تصویر گرافیکی روش حداقل مربعات (LSM).
و مقادیر عناصر به آن بستگی ندارد آو ب.
یک راه حل سفارش دهیدتوسعه پیش بینی با استفاده از روش حداقل مربعات. مثال حل مسئله
نمونه ای از استفاده از روش حداقل مربعات برای توسعه پیش بینی
روش حداقل مربعات
سایر مقالات مرتبط:
برنامه MNE
داده ها را وارد کنید
داده ها و تقریب y = a + b x
x i- مقدار پارامتر ثابت در نقطه من;
y من- مقدار پارامتر اندازه گیری شده در نقطه من;
ω من- اندازه گیری وزن در نقطه من;
y i، محاسبه- تفاوت بین مقدار اندازه گیری شده و مقدار محاسبه شده از رگرسیون yدر نقطه من;
S x i (x i)- برآورد خطا x iهنگام اندازه گیری yدر نقطه من.داده ها و تقریب y = k x
من
x i
y من
ω من
y i، محاسبه
Δy i
S x i (x i)
راهنمای کاربر برای برنامه آنلاین MNC.
روش حداقل مربعات (LSM).
نظریه مختصری از حداقل مربعات برای وابستگی خطی
جایی که "I" - قدرت فعلی. `R` - مقاومت؛ "U" - ولتاژ.
که در آن "A" چگالی نوری محلول است. `ε` - انتقال املاح. `l` - طول مسیر هنگامی که نور از یک کووت با محلول عبور می کند. "C" غلظت املاح است.
`y = a + bx`.یافتن پارامترهای خط رگرسیون
`y_i = a + b x_i + ε_i` (1)،
که در آن «ε_i» خطای اندازهگیری ناشناخته «y» در آزمایش «i» است.
`Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)
`frac(ف جزئی)(جزئی a) = frac(جمع جزئی_(i=1)^(n) (y_i - a - b x_i)^2)(جزئی a) = 0`
`frac(ف جزئی)(ب جزئی) = frac(جمع جزئی_(i=1)^(n) (y_i - a - b x_i)^2)(b جزئی) = 0`
`sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`برآورد خطا در ضرایب خط رگرسیون
`S_V^2 = sum_(i=1)^p (frac(f جزئی)(جزئی z_i))^2 S_(z_i)^2`,
که در آن «p» تعداد پارامترهای «z_i» با خطای «S_(z_i)» است که بر خطای «S_V» تأثیر میگذارد.
"f" تابع وابستگی "V" به "z_i" است.
`S_a^2 = sum_(i=1)^(n)(frac(جزئی a)(جزئی y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(جزئی a )(x_i جزئی))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(جزئی a)(جزئی y_i))^2 `,
`S_b^2 = sum_(i=1)^(n)(frac(جزئی b)(جزئی y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(b جزئی )(x_i جزئی))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(جزئی b)(جزئی y_i))^2 `,
زیرا `S_(x_i)^2 = 0` (ما قبلاً رزرو کردیم که خطای `x` ناچیز است).
`F = S_(نوار y) / S_(y، استراحت)^2`،
که با ضریب فیشر جدولی "F(p، n-1، n-2)" مقایسه شده است.
برای اضافه کردن مقادیر به جدولروش حداقل مربعات روش حداقل مربعات به معنای تعیین پارامترهای مجهول a، b، c، وابستگی تابعی پذیرفته شده است.