न्यूनतम वर्ग विधि का उपयोग करके डेटा विश्लेषण। एक्सेल में न्यूनतम वर्ग

न्यूनतम वर्ग विधि

विषय के अंतिम पाठ में हम सबसे प्रसिद्ध एप्लिकेशन से परिचित होंगे एफएनपी, जो विज्ञान और अभ्यास के विभिन्न क्षेत्रों में सबसे व्यापक अनुप्रयोग पाता है। यह भौतिकी, रसायन विज्ञान, जीव विज्ञान, अर्थशास्त्र, समाजशास्त्र, मनोविज्ञान इत्यादि हो सकता है। भाग्य की इच्छा से, मुझे अक्सर अर्थव्यवस्था से निपटना पड़ता है, और इसलिए आज मैं आपके लिए एक अद्भुत देश के लिए टिकट की व्यवस्था करूंगा जिसे कहा जाता है अर्थमिति=)...आप ऐसा कैसे नहीं चाहते?! यह वहां बहुत अच्छा है - आपको बस निर्णय लेना है! ...लेकिन आप निश्चित रूप से यह सीखना चाहते हैं कि समस्याओं को कैसे हल किया जाए कम से कम वर्गों. और विशेष रूप से मेहनती पाठक उन्हें न केवल सटीक रूप से, बल्कि बहुत तेजी से हल करना सीखेंगे ;-) लेकिन पहले समस्या का सामान्य विवरण+संबंधित उदाहरण:

कुछ विषय क्षेत्र में संकेतकों का अध्ययन किया जाए जिनकी मात्रात्मक अभिव्यक्ति हो। साथ ही, यह मानने का हर कारण है कि संकेतक संकेतक पर निर्भर करता है। यह धारणा वैज्ञानिक परिकल्पना और प्राथमिक सामान्य ज्ञान पर आधारित दोनों हो सकती है। हालाँकि, आइए विज्ञान को एक तरफ छोड़ दें, और अधिक स्वादिष्ट क्षेत्रों का पता लगाएं - अर्थात् किराना स्टोर। द्वारा निरूपित करें:

- किराने की दुकान का खुदरा स्थान, वर्ग मीटर,
- किराना स्टोर का वार्षिक कारोबार, मिलियन रूबल।

यह बिल्कुल स्पष्ट है कि स्टोर का क्षेत्रफल जितना बड़ा होगा, ज्यादातर मामलों में उसका टर्नओवर उतना ही अधिक होगा।

मान लीजिए कि अवलोकन/प्रयोग/गणना/डफ के साथ नृत्य करने के बाद, हमारे पास संख्यात्मक डेटा है:

किराने की दुकानों के साथ, मुझे लगता है कि सब कुछ स्पष्ट है: - यह पहली दुकान का क्षेत्र है, - इसका वार्षिक कारोबार, - दूसरी दुकान का क्षेत्र, - इसका वार्षिक कारोबार, आदि। वैसे, वर्गीकृत सामग्रियों तक पहुंच होना बिल्कुल भी आवश्यक नहीं है - टर्नओवर का काफी सटीक मूल्यांकन इसका उपयोग करके प्राप्त किया जा सकता है गणितीय सांख्यिकी. हालाँकि, विचलित न हों, व्यावसायिक जासूसी का कोर्स पहले ही भुगतान किया जा चुका है =)

सारणीबद्ध डेटा को बिंदुओं के रूप में भी लिखा जा सकता है और हमारे लिए सामान्य तरीके से दर्शाया जा सकता है। कार्तीय प्रणाली .

आइए एक महत्वपूर्ण प्रश्न का उत्तर दें: गुणात्मक अध्ययन के लिए कितने अंक आवश्यक हैं?

जितना बड़ा उतना बेहतर। न्यूनतम स्वीकार्य सेट में 5-6 अंक होते हैं। इसके अलावा, डेटा की थोड़ी मात्रा के साथ, "असामान्य" परिणामों को नमूने में शामिल नहीं किया जाना चाहिए। इसलिए, उदाहरण के लिए, एक छोटा संभ्रांत स्टोर "अपने सहयोगियों" से अधिक परिमाण के ऑर्डरों में मदद कर सकता है, जिससे सामान्य पैटर्न को विकृत किया जा सकता है जिसे खोजने की आवश्यकता है!



यदि यह काफी सरल है, तो हमें एक फ़ंक्शन चुनना होगा, अनुसूचीजो जितना संभव हो सके बिंदुओं के करीब से गुजरता है . ऐसे फ़ंक्शन को कहा जाता है अनुमान करने वाले (अनुमान - सन्निकटन)या सैद्धांतिक कार्य . सामान्यतया, यहां एक स्पष्ट "दिखावा" तुरंत प्रकट होता है - उच्च डिग्री का एक बहुपद, जिसका ग्राफ सभी बिंदुओं से होकर गुजरता है। लेकिन यह विकल्प जटिल है, और अक्सर ग़लत भी होता है। (क्योंकि चार्ट हर समय "हवा" करेगा और मुख्य प्रवृत्ति को खराब रूप से प्रतिबिंबित करेगा).

इस प्रकार, वांछित कार्य पर्याप्त रूप से सरल होना चाहिए और साथ ही निर्भरता को पर्याप्त रूप से प्रतिबिंबित करना चाहिए। जैसा कि आप अनुमान लगा सकते हैं, ऐसे फ़ंक्शंस को खोजने के तरीकों में से एक को कहा जाता है कम से कम वर्गों. सबसे पहले, आइए इसके सार का सामान्य तरीके से विश्लेषण करें। कुछ फ़ंक्शन को प्रायोगिक डेटा का अनुमान लगाने दें:


इस सन्निकटन की सटीकता का मूल्यांकन कैसे करें? आइए हम प्रयोगात्मक और कार्यात्मक मूल्यों के बीच अंतर (विचलन) की भी गणना करें (हम ड्राइंग का अध्ययन करते हैं). पहला विचार जो मन में आता है वह यह अनुमान लगाना है कि राशि कितनी बड़ी है, लेकिन समस्या यह है कि अंतर नकारात्मक हो सकते हैं। (उदाहरण के लिए, ) और ऐसे योग के परिणामस्वरूप विचलन एक दूसरे को रद्द कर देंगे। इसलिए, अनुमान की सटीकता के अनुमान के रूप में, यह योग लेने का सुझाव देता है मॉड्यूलविचलन:

या मुड़े हुए रूप में: (उन लोगों के लिए जो नहीं जानते: योग चिह्न है, और - सहायक चर - "काउंटर", जो 1 से मान लेता है ) .

विभिन्न कार्यों के साथ प्रयोगात्मक बिंदुओं का अनुमान लगाने पर, हमें अलग-अलग मान मिलेंगे, और यह स्पष्ट है कि जहां यह योग कम है - वह फ़ंक्शन अधिक सटीक है।

ऐसी विधि मौजूद है और इसे कहा जाता है न्यूनतम मापांक विधि. हालाँकि, व्यवहार में यह बहुत अधिक व्यापक हो गया है। न्यूनतम वर्ग विधि, जिसमें संभावित नकारात्मक मान मापांक द्वारा नहीं, बल्कि विचलनों का वर्ग करके समाप्त किए जाते हैं:



, जिसके बाद ऐसे फ़ंक्शन के चयन के लिए प्रयास किए जाते हैं जो वर्ग विचलन का योग हो जितना संभव हो उतना छोटा था. दरअसल, इसलिए विधि का नाम.

और अब हम एक और महत्वपूर्ण बिंदु पर लौटते हैं: जैसा कि ऊपर बताया गया है, चयनित फ़ंक्शन काफी सरल होना चाहिए - लेकिन ऐसे कई फ़ंक्शन भी हैं: रेखीय , अतिपरवलिक , घातीय , लघुगणक , द्विघात वगैरह। और, निःसंदेह, यहां मैं तुरंत "गतिविधि के क्षेत्र को कम करना" चाहूंगा। अनुसंधान के लिए किस वर्ग के कार्यों को चुनना है? आदिम लेकिन प्रभावी तकनीक:

- अंक निकालने का सबसे आसान तरीका ड्राइंग पर और उनके स्थान का विश्लेषण करें। यदि वे एक सीधी रेखा में होते हैं, तो आपको तलाश करनी चाहिए सीधी रेखा समीकरण इष्टतम मूल्यों के साथ और। दूसरे शब्दों में, कार्य ऐसे गुणांक ढूंढना है - ताकि वर्ग विचलन का योग सबसे छोटा हो।

यदि बिंदु स्थित हैं, उदाहरण के लिए, साथ में अतिशयोक्ति, तो यह स्पष्ट है कि रैखिक फ़ंक्शन खराब सन्निकटन देगा। इस मामले में, हम हाइपरबोला समीकरण के लिए सबसे "अनुकूल" गुणांक की तलाश कर रहे हैं - वे जो वर्गों का न्यूनतम योग देते हैं .

अब गौर करें कि हम दोनों मामलों में किस बारे में बात कर रहे हैं दो चर के कार्य, किसके तर्क हैं निर्भरता विकल्प खोजे गए:

और संक्षेप में, हमें एक मानक समस्या को हल करने की आवश्यकता है - खोजने के लिए दो चर वाले फ़ंक्शन का न्यूनतम.

हमारे उदाहरण को याद करें: मान लीजिए कि "दुकान" बिंदु एक सीधी रेखा में स्थित होते हैं और उपस्थिति पर विश्वास करने का हर कारण है रैखिक निर्भरताव्यापारिक क्षेत्र से कारोबार। आइए ऐसे गुणांक "ए" और "बी" ढूंढें ताकि वर्ग विचलन का योग हो सबसे छोटा था. सब कुछ हमेशा की तरह - पहले प्रथम क्रम का आंशिक व्युत्पन्न. के अनुसार रैखिकता नियमआप योग चिह्न के ठीक नीचे अंतर कर सकते हैं:

यदि आप इस जानकारी का उपयोग किसी निबंध या टर्म पेपर के लिए करना चाहते हैं, तो मैं स्रोतों की सूची में लिंक के लिए बहुत आभारी रहूंगा, आपको ऐसी विस्तृत गणना कहीं भी नहीं मिलेगी:

आइए एक मानक प्रणाली बनाएं:

हम प्रत्येक समीकरण को "दो" से कम करते हैं और, इसके अलावा, योग को "विभाजित" करते हैं:

टिप्पणी : स्वतंत्र रूप से विश्लेषण करें कि "ए" और "बी" को योग चिह्न से क्यों हटाया जा सकता है। वैसे, औपचारिक तौर पर रकम से ऐसा किया जा सकता है

आइए सिस्टम को "लागू" रूप में फिर से लिखें:

जिसके बाद हमारी समस्या को हल करने के लिए एल्गोरिदम तैयार किया जाना शुरू होता है:

क्या हम बिंदुओं के निर्देशांक जानते हैं? हम जानते हैं। रकम क्या हम ढूंढ सकते हैं? आसानी से। हम सबसे सरल रचना करते हैं दो अज्ञात के साथ दो रैखिक समीकरणों की प्रणाली("ए" और "बेह"). हम सिस्टम को हल करते हैं, उदाहरण के लिए, क्रैमर विधि, जिसके परिणामस्वरूप एक स्थिर बिंदु बनता है . चेकिंग चरम सीमा के लिए पर्याप्त स्थिति, हम इस बिंदु पर फ़ंक्शन को सत्यापित कर सकते हैं सटीक पहुंचता है न्यूनतम. सत्यापन अतिरिक्त गणनाओं से जुड़ा है और इसलिए हम इसे पर्दे के पीछे छोड़ देंगे। (यदि आवश्यक हो, तो लापता फ़्रेम को देखा जा सकता हैयहाँ ) . हम अंतिम निष्कर्ष निकालते हैं:

समारोह सबसे अच्छा तरीका (कम से कम किसी अन्य रैखिक फ़ंक्शन की तुलना में)प्रयोगात्मक बिंदुओं को करीब लाता है . मोटे तौर पर कहें तो इसका ग्राफ जितना संभव हो सके इन बिंदुओं के करीब से गुजरता है। परंपरा में अर्थमितिपरिणामी सन्निकटन फलन को भी कहा जाता है युग्मित रैखिक प्रतिगमन समीकरण .

विचाराधीन समस्या अत्यधिक व्यावहारिक महत्व की है। हमारे उदाहरण की स्थिति में, समीकरण आपको यह अनुमान लगाने की अनुमति देता है कि किस प्रकार का टर्नओवर होगा ("यिग")विक्रय क्षेत्र के किसी न किसी मूल्य के साथ स्टोर पर होगा ("x" का एक या दूसरा अर्थ). हां, परिणामी पूर्वानुमान केवल एक पूर्वानुमान होगा, लेकिन कई मामलों में यह काफी सटीक साबित होगा।

मैं "वास्तविक" संख्याओं के साथ सिर्फ एक समस्या का विश्लेषण करूंगा, क्योंकि इसमें कोई कठिनाई नहीं है - सभी गणनाएं ग्रेड 7-8 में स्कूल पाठ्यक्रम के स्तर पर हैं। 95 प्रतिशत मामलों में, आपको केवल एक रैखिक फ़ंक्शन खोजने के लिए कहा जाएगा, लेकिन लेख के अंत में मैं दिखाऊंगा कि इष्टतम हाइपरबोला, घातांक और कुछ अन्य कार्यों के लिए समीकरण ढूंढना अधिक कठिन नहीं है।

वास्तव में, यह वादा किए गए उपहारों को वितरित करने के लिए बना हुआ है - ताकि आप सीखें कि ऐसे उदाहरणों को न केवल सटीक रूप से, बल्कि जल्दी से कैसे हल किया जाए। हम मानक का ध्यानपूर्वक अध्ययन करते हैं:

काम

दो संकेतकों के बीच संबंध का अध्ययन करने के परिणामस्वरूप, संख्याओं के निम्नलिखित जोड़े प्राप्त हुए:

न्यूनतम वर्ग विधि का उपयोग करके, वह रैखिक फ़ंक्शन ढूंढें जो अनुभवजन्य का सबसे अच्छा अनुमान लगाता है (अनुभव)डेटा। एक चित्र बनाएं जिस पर, कार्टेशियन आयताकार समन्वय प्रणाली में, प्रयोगात्मक बिंदु और अनुमानित फ़ंक्शन का एक ग्राफ़ बनाएं . अनुभवजन्य और सैद्धांतिक मूल्यों के बीच वर्ग विचलन का योग ज्ञात कीजिए। पता लगाएं कि क्या फ़ंक्शन बेहतर है (न्यूनतम वर्ग विधि के संदर्भ में)अनुमानित प्रायोगिक बिंदु.

ध्यान दें कि "x" मान प्राकृतिक मान हैं, और इसका एक विशिष्ट सार्थक अर्थ है, जिसके बारे में मैं थोड़ी देर बाद बात करूंगा; लेकिन निस्संदेह, वे भिन्नात्मक हो सकते हैं। इसके अलावा, किसी विशेष कार्य की सामग्री के आधार पर, "X" और "G" दोनों मान पूर्ण या आंशिक रूप से नकारात्मक हो सकते हैं। खैर, हमें एक "फेसलेस" कार्य दिया गया है, और हम इसे शुरू करते हैं समाधान:

हम सिस्टम के समाधान के रूप में इष्टतम फ़ंक्शन के गुणांक पाते हैं:

अधिक संक्षिप्त नोटेशन के प्रयोजनों के लिए, "काउंटर" वेरिएबल को छोड़ा जा सकता है, क्योंकि यह पहले से ही स्पष्ट है कि योग 1 से 1 तक किया जाता है।

आवश्यक राशियों की गणना सारणीबद्ध रूप में करना अधिक सुविधाजनक है:


गणना माइक्रोकैलकुलेटर पर की जा सकती है, लेकिन एक्सेल का उपयोग करना बहुत बेहतर है - तेज और त्रुटियों के बिना; एक छोटा वीडियो देखें:

इस प्रकार, हमें निम्नलिखित प्राप्त होता है प्रणाली:

यहां आप दूसरे समीकरण को 3 से गुणा कर सकते हैं पहले समीकरण से दूसरे को पद दर पद घटाएँ. लेकिन यह भाग्य है - व्यवहार में, सिस्टम अक्सर उपहार में नहीं दिए जाते हैं, और ऐसे मामलों में यह बचाता है क्रैमर विधि:
, इसलिए सिस्टम के पास एक अनूठा समाधान है।

चलो एक जाँच करते हैं. मैं समझता हूं कि मैं ऐसा नहीं करना चाहता, लेकिन उन गलतियों को क्यों छोड़ें जहां आप उन्हें बिल्कुल नहीं भूल सकते? सिस्टम के प्रत्येक समीकरण के बाईं ओर पाए गए समाधान को प्रतिस्थापित करें:

संगत समीकरणों के सही भाग प्राप्त होते हैं, जिसका अर्थ है कि सिस्टम सही ढंग से हल हो गया है।

इस प्रकार, वांछित सन्निकटन फलन:- से सभी रैखिक कार्यप्रायोगिक डेटा का सबसे अच्छा अनुमान इसके द्वारा लगाया जाता है।

भिन्न सीधा स्टोर के टर्नओवर की उसके क्षेत्र पर निर्भरता, पाई गई निर्भरता है रिवर्स (सिद्धांत "जितना अधिक - उतना कम"), और यह तथ्य तुरंत नकारात्मक द्वारा प्रकट हो जाता है कोणीय गुणांक. समारोह हमें सूचित करता है कि एक निश्चित संकेतक में 1 इकाई की वृद्धि के साथ, आश्रित संकेतक का मूल्य घट जाता है औसत 0.65 इकाइयों द्वारा. जैसा कि वे कहते हैं, एक प्रकार का अनाज की कीमत जितनी अधिक होगी, उतनी ही कम बिक्री होगी।

अनुमानित फ़ंक्शन को प्लॉट करने के लिए, हम इसके दो मान पाते हैं:

और ड्राइंग निष्पादित करें:

निर्मित रेखा कहलाती है प्रवृत्ति रेखा (अर्थात्, एक रैखिक प्रवृत्ति रेखा, यानी सामान्य स्थिति में, एक प्रवृत्ति जरूरी नहीं कि एक सीधी रेखा हो). हर कोई "प्रवृत्ति में रहना" अभिव्यक्ति से परिचित है, और मुझे लगता है कि इस शब्द को अतिरिक्त टिप्पणियों की आवश्यकता नहीं है।

वर्ग विचलनों के योग की गणना करें अनुभवजन्य और सैद्धांतिक मूल्यों के बीच. ज्यामितीय रूप से, यह "क्रिमसन" खंडों की लंबाई के वर्गों का योग है (जिनमें से दो इतने छोटे हैं कि आप उन्हें देख भी नहीं सकते).

आइए एक तालिका में गणनाओं को संक्षेप में प्रस्तुत करें:


इन्हें फिर से मैन्युअल रूप से किया जा सकता है, बस मामले में मैं पहले बिंदु के लिए एक उदाहरण दूंगा:

लेकिन पहले से ज्ञात तरीके से ऐसा करना कहीं अधिक कुशल है:

आइए दोहराएँ: परिणाम का मतलब क्या है?से सभी रैखिक कार्यसमारोह प्रतिपादक सबसे छोटा है, अर्थात यह अपने परिवार में सबसे अच्छा सन्निकटन है। और यहाँ, वैसे, समस्या का अंतिम प्रश्न आकस्मिक नहीं है: क्या होगा यदि प्रस्तावित घातीय फ़ंक्शन प्रयोगात्मक बिंदुओं का बेहतर अनुमान लगाएगा?

आइए वर्ग विचलनों का संगत योग ज्ञात करें - उन्हें अलग करने के लिए, मैं उन्हें "एप्सिलॉन" अक्षर से नामित करूंगा। तकनीक बिल्कुल वैसी ही है:

और फिर से प्रत्येक अग्नि गणना के लिए पहले बिंदु के लिए:

एक्सेल में, हम मानक फ़ंक्शन का उपयोग करते हैं ऍक्स्प (सिंटैक्स एक्सेल सहायता में पाया जा सकता है).

निष्कर्ष: , इसलिए घातांकीय फ़ंक्शन प्रयोगात्मक बिंदुओं का अनुमान सीधी रेखा से भी बदतर लगाता है .

लेकिन यहां यह ध्यान दिया जाना चाहिए कि "बदतर" है अभी तक इसका मतलब नहीं है, गलत क्या है। अब मैंने इस घातीय फ़ंक्शन का एक ग्राफ़ बनाया - और यह बिंदुओं के करीब से भी गुजरता है - इतना कि विश्लेषणात्मक अध्ययन के बिना यह कहना मुश्किल है कि कौन सा फ़ंक्शन अधिक सटीक है।

यह समाधान पूरा करता है, और मैं तर्क के प्राकृतिक मूल्यों के प्रश्न पर लौटता हूं। विभिन्न अध्ययनों में, एक नियम के रूप में, आर्थिक या समाजशास्त्रीय, महीनों, वर्षों या अन्य समान समय अंतरालों को प्राकृतिक "X" के साथ क्रमांकित किया जाता है। उदाहरण के लिए, निम्नलिखित समस्या पर विचार करें:

हमारे पास वर्ष की पहली छमाही के लिए स्टोर के खुदरा कारोबार पर निम्नलिखित डेटा है:

सीधी रेखा विश्लेषणात्मक संरेखण का उपयोग करके, जुलाई के लिए बिक्री की मात्रा ज्ञात करें.

हां, कोई समस्या नहीं: हम महीनों को 1, 2, 3, 4, 5, 6 नंबर देते हैं और सामान्य एल्गोरिदम का उपयोग करते हैं, जिसके परिणामस्वरूप हमें एक समीकरण मिलता है - जब समय की बात आती है तो आमतौर पर केवल अक्षर "ते" होता है। " (हालाँकि यह महत्वपूर्ण नहीं है). परिणामी समीकरण से पता चलता है कि वर्ष की पहली छमाही में टर्नओवर में औसतन CU 27.74 की वृद्धि हुई। प्रति महीने। जुलाई के लिए पूर्वानुमान प्राप्त करें (माह #7): यूरोपीय संघ।

और इसी प्रकार के कार्य - अँधेरा ही अँधेरा है। जो लोग चाहें वे एक अतिरिक्त सेवा का उपयोग कर सकते हैं, अर्थात् मेरी एक्सेल कैलकुलेटर (प्रदर्शन के लिए संस्करण), कौन समस्या को लगभग तुरंत हल करता है!प्रोग्राम का कार्यशील संस्करण उपलब्ध है बदले मेंया के लिए प्रतीकात्मक भुगतान.

पाठ के अंत में, कुछ अन्य प्रकार की निर्भरताएँ खोजने के बारे में एक संक्षिप्त जानकारी। दरअसल, बताने के लिए कुछ खास नहीं है, क्योंकि मौलिक दृष्टिकोण और समाधान एल्गोरिदम वही रहते हैं।

आइए मान लें कि प्रयोगात्मक बिंदुओं का स्थान हाइपरबोला जैसा दिखता है। फिर, सर्वोत्तम हाइपरबोला के गुणांकों को खोजने के लिए, आपको न्यूनतम फ़ंक्शन को खोजने की आवश्यकता है - जो लोग विस्तृत गणना करना चाहते हैं और एक समान प्रणाली में आ सकते हैं:

औपचारिक तकनीकी दृष्टि से इसे "रैखिक" प्रणाली से प्राप्त किया जाता है (आइए इसे तारांकन चिह्न से चिह्नित करें)"x" को . से प्रतिस्थापित करना। ख़ैर, रकमें गणना करें, जिसके बाद इष्टतम गुणांक "ए" और "बीई" करें उपलब्ध.

यदि उस बात पर विश्वास करने का हर कारण है एक लघुगणकीय वक्र के साथ व्यवस्थित किया जाता है, फिर इष्टतम मानों की खोज करने और फ़ंक्शन का न्यूनतम खोजने के लिए . औपचारिक रूप से, सिस्टम में (*) को इसके द्वारा प्रतिस्थापित किया जाना चाहिए:

एक्सेल में गणना करते समय, फ़ंक्शन का उपयोग करें एल.एन. मैं स्वीकार करता हूं कि विचाराधीन प्रत्येक मामले के लिए कैलकुलेटर बनाना मेरे लिए मुश्किल नहीं होगा, लेकिन यह तब भी बेहतर होगा यदि आप गणनाओं को स्वयं "प्रोग्राम" करें। मदद के लिए वीडियो ट्यूटोरियल.

घातीय निर्भरता के साथ, स्थिति थोड़ी अधिक जटिल है। मामले को रैखिक मामले में कम करने के लिए, हम फ़ंक्शन का लघुगणक लेते हैं और उपयोग करते हैं लघुगणक के गुण:

अब, प्राप्त फ़ंक्शन की तुलना रैखिक फ़ंक्शन से करते हुए, हम इस निष्कर्ष पर पहुंचते हैं कि सिस्टम में (*) को और - द्वारा प्रतिस्थापित किया जाना चाहिए। सुविधा के लिए, हम निरूपित करते हैं:

कृपया ध्यान दें कि सिस्टम को और के संबंध में हल किया गया है, और इसलिए, जड़ों को खोजने के बाद, आपको स्वयं गुणांक को ढूंढना नहीं भूलना चाहिए।

प्रायोगिक बिंदुओं का अनुमान लगाना इष्टतम परवलय , मिलना चाहिए न्यूनतम तीन चर वाला एक फ़ंक्शन. मानक क्रियाएं करने के बाद, हमें निम्नलिखित "कार्य" मिलता है प्रणाली:

हाँ, बेशक, यहाँ अधिक मात्राएँ हैं, लेकिन अपने पसंदीदा एप्लिकेशन का उपयोग करते समय कोई कठिनाई नहीं होती है। और अंत में, मैं आपको बताऊंगा कि एक्सेल का उपयोग करके जल्दी से कैसे जांच करें और वांछित ट्रेंड लाइन बनाएं: एक स्कैटर चार्ट बनाएं, माउस से किसी भी बिंदु का चयन करें और चयन विकल्प पर राइट क्लिक करें "ट्रेंड लाइन जोड़ें". इसके बाद, चार्ट का प्रकार और टैब चुनें "विकल्प"विकल्प सक्रिय करें "चार्ट पर समीकरण दिखाएँ". ठीक है

हमेशा की तरह, मैं लेख को कुछ सुंदर वाक्यांश के साथ समाप्त करना चाहता हूं, और मैंने लगभग टाइप किया "ट्रेंड में रहें!"। लेकिन समय के साथ उन्होंने अपना मन बदल लिया. और इसलिए नहीं कि यह फार्मूलाबद्ध है। मैं किसी को नहीं जानता, लेकिन मैं प्रचारित अमेरिकी और विशेष रूप से यूरोपीय प्रवृत्ति का बिल्कुल भी पालन नहीं करना चाहता =) इसलिए, मैं चाहता हूं कि आप में से प्रत्येक अपनी-अपनी लाइन पर कायम रहे!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

न्यूनतम वर्ग विधि सबसे आम में से एक है और इसके कारण यह सबसे अधिक विकसित है रैखिक अर्थमिति मॉडल के मापदंडों का आकलन करने के तरीकों की सादगी और दक्षता. उसी समय, इसका उपयोग करते समय कुछ सावधानी बरतनी चाहिए, क्योंकि इसका उपयोग करके बनाए गए मॉडल अपने मापदंडों की गुणवत्ता के लिए कई आवश्यकताओं को पूरा नहीं कर सकते हैं और परिणामस्वरूप, प्रक्रिया विकास के पैटर्न को "अच्छी तरह से" प्रतिबिंबित नहीं करते हैं।

आइए कम से कम वर्ग विधि का उपयोग करके एक रैखिक अर्थमिति मॉडल के मापदंडों का अनुमान लगाने की प्रक्रिया पर अधिक विस्तार से विचार करें। ऐसे मॉडल को सामान्य रूप में समीकरण (1.2) द्वारा दर्शाया जा सकता है:

y t = a 0 + a 1 x 1t +...+ a n x nt + ε t।

मापदंडों का अनुमान लगाते समय प्रारंभिक डेटा a 0 , a 1 ,..., a n निर्भर चर के मानों का वेक्टर है = (y 1 , y 2 , ... , y T)" और स्वतंत्र चर के मानों का मैट्रिक्स

जिसमें पहला कॉलम, जिसमें एक शामिल है, मॉडल के गुणांक से मेल खाता है।

न्यूनतम वर्ग विधि को इसका नाम इस मूल सिद्धांत के आधार पर मिला है कि इसके आधार पर प्राप्त पैरामीटर अनुमान को संतुष्ट करना चाहिए: मॉडल त्रुटि के वर्गों का योग न्यूनतम होना चाहिए।

न्यूनतम वर्ग विधि द्वारा समस्याओं को हल करने के उदाहरण

उदाहरण 2.1.व्यापारिक उद्यम का एक नेटवर्क है जिसमें 12 स्टोर शामिल हैं, जिनकी गतिविधियों की जानकारी तालिका में प्रस्तुत की गई है। 2.1.

कंपनी का प्रबंधन जानना चाहेगा कि वार्षिक कारोबार का आकार स्टोर के खुदरा स्थान पर कैसे निर्भर करता है।

तालिका 2.1

दुकान का नंबर वार्षिक कारोबार, मिलियन रूबल व्यापार क्षेत्र, हजार मी 2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

न्यूनतम वर्ग समाधान.आइए नामित करें - -वें स्टोर का वार्षिक कारोबार, मिलियन रूबल; -वें स्टोर का विक्रय क्षेत्र, हजार मी 2।

चित्र.2.1. उदाहरण 2.1 के लिए स्कैटरप्लॉट

चरों के बीच कार्यात्मक संबंध का स्वरूप निर्धारित करना और एक स्कैटरप्लॉट का निर्माण करना (चित्र 2.1)।

स्कैटर आरेख के आधार पर, हम यह निष्कर्ष निकाल सकते हैं कि वार्षिक कारोबार बिक्री क्षेत्र पर सकारात्मक रूप से निर्भर है (यानी, y की वृद्धि के साथ वृद्धि होगी)। कार्यात्मक कनेक्शन का सबसे उपयुक्त रूप है रेखीय.

आगे की गणना के लिए जानकारी तालिका में प्रस्तुत की गई है। 2.2. न्यूनतम वर्ग विधि का उपयोग करके, हम रैखिक एक-कारक अर्थमिति मॉडल के मापदंडों का अनुमान लगाते हैं

तालिका 2.2

टी आप टी एक्स 1t य टी 2 x1t2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
एस 819,52 10,68 65008,554 11,4058 858,3991
औसत 68,29 0,89

इस प्रकार,

इसलिए, व्यापार क्षेत्र में 1 हजार मीटर 2 की वृद्धि के साथ, अन्य चीजें समान होने पर, औसत वार्षिक कारोबार 67.8871 मिलियन रूबल बढ़ जाता है।

उदाहरण 2.2.उद्यम के प्रबंधन ने देखा कि वार्षिक कारोबार न केवल स्टोर के बिक्री क्षेत्र पर निर्भर करता है (उदाहरण 2.1 देखें), बल्कि आगंतुकों की औसत संख्या पर भी निर्भर करता है। प्रासंगिक जानकारी तालिका में प्रस्तुत की गई है। 2.3.

तालिका 2.3

समाधान।निरूपित करें - प्रति दिन वें स्टोर पर आगंतुकों की औसत संख्या, हजार लोग।

चरों के बीच कार्यात्मक संबंध का स्वरूप निर्धारित करना और एक स्कैटरप्लॉट का निर्माण करना (चित्र 2.2)।

स्कैटर आरेख के आधार पर, हम यह निष्कर्ष निकाल सकते हैं कि वार्षिक कारोबार सकारात्मक रूप से प्रति दिन आगंतुकों की औसत संख्या से संबंधित है (यानी, y की वृद्धि के साथ वृद्धि होगी)। कार्यात्मक निर्भरता का रूप रैखिक है।

चावल। 2.2. उदाहरण 2.2 के लिए स्कैटरप्लॉट

तालिका 2.4

टी एक्स 2t एक्स 2टी 2 yt x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
एस 127,83 1410,44 9160,9934 118,9728
औसत 10,65

सामान्य तौर पर, दो-कारक अर्थमितीय मॉडल के मापदंडों को निर्धारित करना आवश्यक है

y t = a 0 + a 1 x 1t + a 2 x 2t + ε t

आगे की गणना के लिए आवश्यक जानकारी तालिका में प्रस्तुत की गई है। 2.4.

आइए हम न्यूनतम वर्ग विधि का उपयोग करके एक रैखिक दो-कारक अर्थमिति मॉडल के मापदंडों का अनुमान लगाएं।

इस प्रकार,

गुणांक का मूल्यांकन = 61.6583 से पता चलता है कि, अन्य चीजें समान होने पर, व्यापार क्षेत्र में 1 हजार मीटर 2 की वृद्धि के साथ, वार्षिक कारोबार में औसतन 61.6583 मिलियन रूबल की वृद्धि होगी।

गुणांक का अनुमान = 2.2748 दर्शाता है कि, अन्य चीजें समान होने पर, प्रति 1 हजार लोगों पर आगंतुकों की औसत संख्या में वृद्धि होती है। प्रति दिन, वार्षिक कारोबार में औसतन 2.2748 मिलियन रूबल की वृद्धि होगी।

उदाहरण 2.3.तालिका में प्रस्तुत जानकारी का उपयोग करना। 2.2 और 2.4, एकल-कारक अर्थमिति मॉडल के पैरामीटर का अनुमान लगाएं

-वें स्टोर के वार्षिक कारोबार का केंद्रित मूल्य कहां है, मिलियन रूबल; - टी-वें स्टोर, हजार लोगों पर आगंतुकों की औसत दैनिक संख्या का केंद्रित मूल्य। (उदाहरण 2.1-2.2 देखें)।

समाधान।गणना के लिए आवश्यक अतिरिक्त जानकारी तालिका में प्रस्तुत की गई है। 2.5.

तालिका 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
जोड़ 48,4344 431,0566

सूत्र (2.35) का उपयोग करके, हम प्राप्त करते हैं

इस प्रकार,

http://www.cleverstudents.ru/articles/mnk.html

उदाहरण।

चर के मूल्यों पर प्रायोगिक डेटा एक्सऔर परतालिका में दिए गए हैं।

उनके संरेखण के परिणामस्वरूप, फ़ंक्शन

का उपयोग करते हुए न्यूनतम वर्ग विधि, इन आंकड़ों को एक रैखिक निर्भरता के साथ अनुमानित करें y=ax+b(पैरामीटर खोजें और बी). पता लगाएं कि दोनों में से कौन सी रेखा बेहतर है (न्यूनतम वर्ग विधि के अर्थ में) प्रयोगात्मक डेटा को संरेखित करती है। एक चित्र बनाओ.

समाधान।

हमारे उदाहरण में एन=5. आवश्यक गुणांकों के सूत्रों में शामिल राशियों की गणना की सुविधा के लिए हम तालिका भरते हैं।

तालिका की चौथी पंक्ति के मान प्रत्येक संख्या के लिए दूसरी पंक्ति के मानों को तीसरी पंक्ति के मानों से गुणा करके प्राप्त किए जाते हैं मैं.

तालिका की पाँचवीं पंक्ति के मान प्रत्येक संख्या के लिए दूसरी पंक्ति के मानों का वर्ग करके प्राप्त किए जाते हैं मैं.

तालिका के अंतिम कॉलम के मान पंक्तियों के मानों का योग हैं।

गुणांक ज्ञात करने के लिए हम न्यूनतम वर्ग विधि के सूत्रों का उपयोग करते हैं और बी. हम उनमें तालिका के अंतिम कॉलम से संबंधित मान प्रतिस्थापित करते हैं:

इस तरह, y=0.165x+2.184वांछित अनुमानित सीधी रेखा है।

यह पता लगाना बाकी है कि कौन सी पंक्तियाँ हैं y=0.165x+2.184या मूल डेटा का बेहतर अनुमान लगाना, यानी न्यूनतम वर्ग विधि का उपयोग करके अनुमान लगाना।

सबूत।

ताकि जब मिले और बीफ़ंक्शन सबसे छोटा मान लेता है, यह आवश्यक है कि इस बिंदु पर फ़ंक्शन के लिए दूसरे क्रम के अंतर के द्विघात रूप का मैट्रिक्स सकारात्मक निश्चित था. चलिए दिखाते हैं.

दूसरे क्रम के अंतर का रूप है:

वह है

इसलिए, द्विघात रूप के मैट्रिक्स का रूप होता है

और तत्वों का मान निर्भर नहीं करता है और बी.

आइए हम दिखाएं कि मैट्रिक्स सकारात्मक निश्चित है। इसके लिए आवश्यक है कि कोण माइनर सकारात्मक हों।

प्रथम क्रम का कोणीय लघु . बिंदुओं के बाद से असमानता सख्त है

  • ट्यूटोरियल

परिचय

मैं एक कंप्यूटर प्रोग्रामर हूं. मैंने अपने करियर में सबसे बड़ी छलांग तब लगाई जब मैंने यह कहना सीखा: "मैं कुछ भी समझ में नहीं आ रहा!"अब मुझे विज्ञान के उस प्रकाशक को यह बताने में कोई शर्म नहीं है कि वह मुझे व्याख्यान दे रहा है, कि मुझे समझ नहीं आ रहा है कि वह, वह प्रकाशक, मुझसे किस बारे में बात कर रहा है। और यह बहुत कठिन है. हाँ, यह स्वीकार करना कठिन और शर्मनाक है कि आप नहीं जानते। कौन यह स्वीकार करना पसंद करता है कि वह किसी चीज़ की मूल बातें नहीं जानता है। अपने पेशे के कारण, मुझे बड़ी संख्या में प्रस्तुतियों और व्याख्यानों में भाग लेना पड़ता है, जहाँ, मैं स्वीकार करता हूँ, अधिकांश मामलों में मुझे नींद आती है, क्योंकि मुझे कुछ भी समझ नहीं आता है। और मुझे समझ नहीं आता क्योंकि विज्ञान की वर्तमान स्थिति की सबसे बड़ी समस्या गणित में है। यह मानता है कि सभी छात्र गणित के सभी क्षेत्रों से परिचित हैं (जो बेतुका है)। यह स्वीकार करना कि आप नहीं जानते कि व्युत्पन्न क्या है (कि यह थोड़ी देर बाद की बात है) शर्म की बात है।

लेकिन मैंने यह कहना सीख लिया है कि मैं नहीं जानता कि गुणा क्या है। हाँ, मैं नहीं जानता कि झूठ बीजगणित पर उपबीजगणित क्या है। हाँ, मैं नहीं जानता कि जीवन में द्विघात समीकरणों की आवश्यकता क्यों है। वैसे, यदि आप आश्वस्त हैं कि आप जानते हैं, तो हमारे पास बात करने के लिए कुछ है! गणित युक्तियों की एक श्रृंखला है। गणितज्ञ जनता को भ्रमित करने और डराने की कोशिश करते हैं; जहां कोई भ्रम नहीं, कोई प्रतिष्ठा नहीं, कोई अधिकार नहीं. हां, सबसे अमूर्त भाषा में बोलना प्रतिष्ठित है, जो अपने आप में पूरी तरह से बकवास है।

क्या आप जानते हैं कि व्युत्पन्न क्या है? सबसे अधिक संभावना है कि आप मुझे अंतर संबंध की सीमा के बारे में बताएंगे। सेंट पीटर्सबर्ग स्टेट यूनिवर्सिटी में गणित के प्रथम वर्ष में, विक्टर पेट्रोविच खविन ने मुझे परिभाषितबिंदु पर फ़ंक्शन की टेलर श्रृंखला के पहले पद के गुणांक के रूप में व्युत्पन्न (यह व्युत्पन्न के बिना टेलर श्रृंखला निर्धारित करने के लिए एक अलग जिम्नास्टिक था)। मैं इस परिभाषा पर बहुत देर तक हँसता रहा, जब तक कि आख़िरकार मुझे समझ नहीं आया कि यह किस बारे में है। व्युत्पन्न केवल इस माप से अधिक कुछ नहीं है कि जिस फ़ंक्शन को हम विभेदित कर रहे हैं वह फ़ंक्शन y=x, y=x^2, y=x^3 के कितना समान है।

अब मुझे उन छात्रों को व्याख्यान देने का सम्मान प्राप्त हुआ है डरनाअंक शास्त्र। यदि आप गणित से डरते हैं - तो हम रास्ते पर हैं। जैसे ही आप कोई पाठ पढ़ने की कोशिश करें और आपको लगे कि यह अत्यधिक जटिल है, तो समझ लें कि वह ख़राब तरीके से लिखा गया है। मेरा तर्क है कि गणित का एक भी क्षेत्र ऐसा नहीं है जिसके बारे में सटीकता खोए बिना "उंगलियों पर" बात नहीं की जा सकती।

निकट भविष्य के लिए चुनौती: मैंने अपने छात्रों को यह समझने का निर्देश दिया कि एक रैखिक-द्विघात नियंत्रक क्या है। शरमाओ मत, अपने जीवन के तीन मिनट बर्बाद करो, लिंक का अनुसरण करो। अगर आपको कुछ समझ नहीं आया तो हम रास्ते पर हैं. मुझे (पेशेवर गणितज्ञ-प्रोग्रामर) भी कुछ समझ नहीं आया। और मैं आपको विश्वास दिलाता हूं, इसे "उंगलियों पर" सुलझाया जा सकता है। फिलहाल मुझे नहीं पता कि यह क्या है, लेकिन मैं आपको विश्वास दिलाता हूं कि हम इसका पता लगाने में सक्षम होंगे।

तो, पहला व्याख्यान जो मैं अपने विद्यार्थियों को देने जा रहा हूँ, जब वे मेरे पास यह कहकर भयभीत होकर दौड़ने आएँगे कि रैखिक-द्विघात नियंत्रक एक भयानक बग है जिस पर आप अपने जीवन में कभी भी काबू नहीं पा सकेंगे, वह है न्यूनतम वर्ग विधियाँ. क्या आप रैखिक समीकरण हल कर सकते हैं? यदि आप यह पाठ पढ़ रहे हैं, तो संभवतः नहीं।

तो, दो बिंदु (x0, y0), (x1, y1) दिए गए हैं, उदाहरण के लिए, (1,1) और (3,2), कार्य इन दो बिंदुओं से गुजरने वाली सीधी रेखा के समीकरण को ढूंढना है:

चित्रण

इस सीधी रेखा में निम्नलिखित जैसा समीकरण होना चाहिए:

यहां अल्फा और बीटा हमारे लिए अज्ञात हैं, लेकिन इस रेखा के दो बिंदु ज्ञात हैं:

आप इस समीकरण को मैट्रिक्स रूप में लिख सकते हैं:

यहां हमें एक गीतात्मक विषयांतर करना चाहिए: मैट्रिक्स क्या है? मैट्रिक्स और कुछ नहीं बल्कि एक द्वि-आयामी सरणी है। यह डेटा स्टोर करने का एक तरीका है, इससे अधिक वैल्यू नहीं दी जानी चाहिए। यह हम पर निर्भर है कि किसी निश्चित मैट्रिक्स की सटीक व्याख्या कैसे की जाए। समय-समय पर, मैं इसे एक रैखिक मानचित्रण के रूप में, समय-समय पर एक द्विघात रूप के रूप में, और कभी-कभी केवल वैक्टर के एक सेट के रूप में व्याख्या करूंगा। यह सब सन्दर्भ में स्पष्ट हो जायेगा।

आइए विशिष्ट मैट्रिक्स को उनके प्रतीकात्मक प्रतिनिधित्व से बदलें:

तब (अल्फा, बीटा) आसानी से पाया जा सकता है:

हमारे पिछले डेटा के लिए अधिक विशेष रूप से:

जो बिंदु (1,1) और (3,2) से गुजरने वाली एक सीधी रेखा के निम्नलिखित समीकरण की ओर ले जाता है:

ठीक है, यहाँ सब कुछ स्पष्ट है। और आइए इससे होकर गुजरने वाली एक सीधी रेखा का समीकरण ज्ञात करें तीनअंक: (x0,y0), (x1,y1) और (x2,y2):

ओह-ओह-ओह, लेकिन हमारे पास दो अज्ञातों के लिए तीन समीकरण हैं! मानक गणितज्ञ कहेंगे कि कोई समाधान नहीं है। प्रोग्रामर क्या कहेगा? और वह सबसे पहले समीकरणों की पिछली प्रणाली को निम्नलिखित रूप में फिर से लिखेगा:

हमारे मामले में, वेक्टर i, j, b त्रि-आयामी हैं, इसलिए, (सामान्य मामले में) इस प्रणाली का कोई समाधान नहीं है। कोई भी सदिश (alpha\*i + beta\*j) सदिशों (i, j) द्वारा फैलाए गए तल में स्थित होता है। यदि b इस तल से संबंधित नहीं है, तो कोई समाधान नहीं है (समीकरण में समानता प्राप्त नहीं की जा सकती)। क्या करें? आइए एक समझौते की तलाश करें. आइए निरूपित करें ई(अल्फा, बीटा)वास्तव में हमने समानता कैसे हासिल नहीं की:

और हम इस त्रुटि को कम करने का प्रयास करेंगे:

एक वर्ग क्यों?

हम न केवल मानदंड के न्यूनतम की तलाश कर रहे हैं, बल्कि मानदंड के न्यूनतम वर्ग की भी तलाश कर रहे हैं। क्यों? न्यूनतम बिंदु स्वयं मेल खाता है, और वर्ग एक सहज फ़ंक्शन (तर्कों का एक द्विघात फ़ंक्शन (अल्फा, बीटा)) देता है, जबकि केवल लंबाई एक शंकु के रूप में एक फ़ंक्शन देती है, जो न्यूनतम बिंदु पर गैर-विभेदित होती है। ब्र्र. वर्ग अधिक सुविधाजनक है.

जाहिर है, वेक्टर होने पर त्रुटि कम हो जाती है सदिशों द्वारा फैलाए गए समतल का ओर्थोगोनल मैंऔर जे.

चित्रण

दूसरे शब्दों में: हम एक ऐसी रेखा की तलाश कर रहे हैं, जिसमें इस रेखा के सभी बिंदुओं से दूरियों की वर्ग लंबाई का योग न्यूनतम हो:

अद्यतन: यहां मेरे पास एक जंब है, लाइन की दूरी को लंबवत रूप से मापा जाना चाहिए, न कि ऑर्थोग्राफ़िक प्रक्षेपण से। यह टिप्पणीकार सही है.

चित्रण

पूरी तरह से अलग शब्दों में (सावधानीपूर्वक, खराब रूप से औपचारिक, लेकिन यह उंगलियों पर स्पष्ट होना चाहिए): हम सभी जोड़ों के बीच सभी संभावित रेखाएं लेते हैं और सभी के बीच औसत रेखा की तलाश करते हैं:

चित्रण

उंगलियों पर एक और स्पष्टीकरण: हम सभी डेटा बिंदुओं (यहां हमारे पास तीन हैं) और उस रेखा के बीच एक स्प्रिंग जोड़ते हैं जिसे हम ढूंढ रहे हैं, और संतुलन स्थिति की रेखा बिल्कुल वही है जिसे हम ढूंढ रहे हैं।

द्विघात रूप न्यूनतम

तो, वेक्टर दिया गया है बीऔर मैट्रिक्स के कॉलम-वेक्टर द्वारा फैला हुआ विमान (इस मामले में (x0,x1,x2) और (1,1,1)), हम एक वेक्टर की तलाश कर रहे हैं लंबाई के न्यूनतम वर्ग के साथ. जाहिर है, न्यूनतम केवल वेक्टर के लिए ही प्राप्त किया जा सकता है , मैट्रिक्स के कॉलम-वेक्टर द्वारा फैलाए गए विमान के लिए ऑर्थोगोनल :

दूसरे शब्दों में, हम एक वेक्टर x=(alpha, beta) की तलाश कर रहे हैं जैसे:

मैं आपको याद दिलाता हूं कि यह वेक्टर x=(alpha, beta) द्विघात फलन का न्यूनतम है ||e(alpha, beta)||^2:

यहां यह याद रखना उपयोगी है कि मैट्रिक्स की व्याख्या द्विघात रूप के साथ-साथ की जा सकती है, उदाहरण के लिए, पहचान मैट्रिक्स ((1,0),(0,1)) की व्याख्या x^2 + y के एक फ़ंक्शन के रूप में की जा सकती है। ^2:

द्विघात रूप

इस सभी जिम्नास्टिक को रैखिक प्रतिगमन के रूप में जाना जाता है।

डिरिचलेट सीमा स्थिति के साथ लाप्लास समीकरण

अब सबसे सरल वास्तविक समस्या: एक निश्चित त्रिकोणीय सतह है, इसे चिकना करना आवश्यक है। उदाहरण के लिए, आइए मेरा चेहरा मॉडल लोड करें:

मूल प्रतिबद्धता उपलब्ध है. बाहरी निर्भरता को कम करने के लिए, मैंने अपने सॉफ़्टवेयर रेंडरर का कोड लिया, जो पहले से ही हैब्रे पर था। रैखिक प्रणाली को हल करने के लिए, मैं ओपनएनएल का उपयोग करता हूं, यह एक बेहतरीन सॉल्वर है, लेकिन इसे इंस्टॉल करना बहुत मुश्किल है: आपको अपने प्रोजेक्ट फ़ोल्डर में दो फ़ाइलों (.h + .c) को कॉपी करने की आवश्यकता है। सभी स्मूथिंग निम्नलिखित कोड द्वारा की जाती है:

(int d=0; d के लिए)<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&चेहरा =चेहरे[i]; (int j=0; j के लिए)<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

एक्स, वाई और जेड निर्देशांक अलग-अलग हैं, मैं उन्हें अलग से सुचारू करता हूं। यानी, मैं रैखिक समीकरणों की तीन प्रणालियों को हल करता हूं, जिनमें से प्रत्येक में चरों की संख्या मेरे मॉडल में शीर्षों की संख्या के समान है। मैट्रिक्स A की पहली n पंक्तियों में प्रति पंक्ति केवल एक 1 है, और वेक्टर b की पहली n पंक्तियों में मूल मॉडल निर्देशांक हैं। यानी, मैं नई शीर्ष स्थिति और पुरानी शीर्ष स्थिति के बीच स्प्रिंग-टाई करता हूं - नए को पुराने से बहुत दूर नहीं होना चाहिए।

मैट्रिक्स A की सभी बाद की पंक्तियाँ (faces.size()*3 = ग्रिड में सभी त्रिकोणों के किनारों की संख्या) में 1 की एक घटना और -1 की एक घटना होती है, जबकि वेक्टर b के विपरीत शून्य घटक होते हैं। इसका मतलब है कि मैं हमारे त्रिकोणीय जाल के प्रत्येक किनारे पर एक स्प्रिंग लगाता हूं: सभी किनारे अपने शुरुआती और अंतिम बिंदुओं के समान शीर्ष प्राप्त करने का प्रयास करते हैं।

एक बार फिर: सभी शीर्ष परिवर्तनशील हैं, और वे अपनी मूल स्थिति से अधिक दूर नहीं जा सकते, लेकिन साथ ही वे एक-दूसरे के समान बनने का प्रयास करते हैं।

यहाँ परिणाम है:

सब कुछ ठीक हो जाएगा, मॉडल वास्तव में चिकना है, लेकिन यह अपने मूल किनारे से दूर चला गया है। आइए कोड को थोड़ा बदलें:

(int i=0; i के लिए)<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

हमारे मैट्रिक्स ए में, किनारे पर मौजूद शीर्षों के लिए, मैं श्रेणी v_i = verts[i][d] से एक पंक्ति नहीं जोड़ता, बल्कि 1000*v_i = 1000*verts[i][d] जोड़ता हूं। इससे क्या परिवर्तन होता है? और इससे हमारी त्रुटि का द्विघात रूप बदल जाता है। अब किनारे पर शीर्ष से एक विचलन पर पहले की तरह एक यूनिट नहीं, बल्कि 1000 * 1000 यूनिट खर्च होंगे। यही है, हमने चरम शिखर पर एक मजबूत स्प्रिंग लटका दिया, समाधान दूसरों को अधिक मजबूती से खींचना पसंद करता है। यहाँ परिणाम है:

आइए शीर्षों के बीच स्प्रिंग्स की ताकत को दोगुना करें:
nlगुणांक(चेहरा[जे], 2); nlगुणांक(चेहरा[(j+1)%3], -2);

यह तर्कसंगत है कि सतह चिकनी हो गई है:

और अब तो सौ गुना भी मजबूत:

यह क्या है? कल्पना कीजिए कि हमने एक तार की अंगूठी को साबुन के पानी में डुबोया है। परिणामस्वरूप, परिणामी साबुन फिल्म उसी सीमा - हमारे तार की अंगूठी को छूते हुए, यथासंभव सबसे छोटी वक्रता रखने का प्रयास करेगी। बॉर्डर को ठीक करने और अंदर एक चिकनी सतह की मांग करने से हमें बिल्कुल यही मिला है। बधाई हो, हमने डिरिचलेट सीमा शर्तों के साथ लाप्लास समीकरण को हल कर लिया है। ठीक लगता है? लेकिन वास्तव में, हल करने के लिए रैखिक समीकरणों की केवल एक प्रणाली।

पॉइसन समीकरण

चलिए एक और बढ़िया नाम लेते हैं.

मान लीजिए कि मेरे पास इस तरह की एक छवि है:

सब अच्छे हैं, लेकिन कुर्सी मुझे पसंद नहीं.

मैं चित्र को आधा काट दूँगा:



और मैं अपने हाथों से एक कुर्सी चुनूंगा:

फिर मैं मास्क में जो भी सफेद है उसे तस्वीर के बाईं ओर खींच लूंगा, और साथ ही मैं पूरी तस्वीर में कहूंगा कि दो पड़ोसी पिक्सल के बीच का अंतर दो पड़ोसी पिक्सल के बीच के अंतर के बराबर होना चाहिए। सही छवि:

(int i=0; i के लिए)

यहाँ परिणाम है:

कोड और चित्र उपलब्ध हैं

न्यूनतम वर्ग विधि (ओएलएस, इंजी. साधारण न्यूनतम वर्ग, ओएलएस)- विभिन्न समस्याओं को हल करने के लिए उपयोग की जाने वाली एक गणितीय विधि, जो वांछित चर से कुछ कार्यों के वर्ग विचलन के योग को कम करने पर आधारित है। इसका उपयोग समीकरणों की अतिनिर्धारित प्रणालियों को "हल" करने के लिए किया जा सकता है (जब समीकरणों की संख्या अज्ञात की संख्या से अधिक हो जाती है), समीकरणों की सामान्य (अतिनिर्धारित नहीं) गैर-रेखीय प्रणालियों के मामले में समाधान ढूंढने के लिए, बिंदु मानों का अनुमान लगाने के लिए किया जा सकता है। एक निश्चित कार्य का. नमूना डेटा से प्रतिगमन मॉडल के अज्ञात मापदंडों का अनुमान लगाने के लिए ओएलएस प्रतिगमन विश्लेषण के बुनियादी तरीकों में से एक है।

विश्वकोश यूट्यूब

    1 / 5

    ✪ न्यूनतम वर्ग विधि। विषय

    ✪ मितिन आई.वी. - भौतिक परिणामों का प्रसंस्करण। प्रयोग - न्यूनतम वर्ग विधि (व्याख्यान 4)

    ✪ न्यूनतम वर्ग, पाठ 1/2. रैखिक प्रकार्य

    ✪ अर्थमिति। व्याख्यान 5. न्यूनतम वर्ग विधि

    ✪ न्यूनतम वर्ग विधि। जवाब

    उपशीर्षक

कहानी

XIX सदी की शुरुआत तक। वैज्ञानिकों के पास समीकरणों की ऐसी प्रणाली को हल करने के लिए कुछ निश्चित नियम नहीं थे जिनमें अज्ञात की संख्या समीकरणों की संख्या से कम हो; उस समय तक, समीकरणों के प्रकार और कैलकुलेटर की सरलता के आधार पर विशेष तरीकों का उपयोग किया जाता था, और इसलिए अलग-अलग कैलकुलेटर, एक ही अवलोकन डेटा से शुरू होकर, अलग-अलग निष्कर्ष पर आते थे। गॉस (1795) को विधि के पहले अनुप्रयोग का श्रेय दिया जाता है, और लिजेंड्रे (1805) ने स्वतंत्र रूप से इसे इसके आधुनिक नाम (एफआर) के तहत खोजा और प्रकाशित किया। मेथोडे डेस मोइंड्रेस क्वारेस) . लाप्लास ने इस पद्धति को संभाव्यता के सिद्धांत से जोड़ा और अमेरिकी गणितज्ञ एड्रेन (1808) ने इसके संभाव्य अनुप्रयोगों पर विचार किया। यह विधि व्यापक है और एन्के, बेसेल, हैनसेन और अन्य लोगों के आगे के शोध से इसमें सुधार हुआ है।

न्यूनतम वर्ग विधि का सार

होने देना एक्स (\डिस्प्लेस्टाइल x)- किट एन (\डिस्प्लेस्टाइल एन)अज्ञात चर (पैरामीटर), f i (x) (\displaystyle f_(i)(x)), , एम > एन (\डिस्प्लेस्टाइल एम>एन)- चर के इस सेट से कार्यों का सेट। समस्या ऐसे मूल्यों को चुनने की है एक्स (\डिस्प्लेस्टाइल x)ताकि इन फ़ंक्शंस के मान कुछ मानों के जितना संभव हो उतना करीब हों y i (\displaystyle y_(i)). संक्षेप में, हम समीकरणों की अतिनिर्धारित प्रणाली के "समाधान" के बारे में बात कर रहे हैं f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m)संकेतित अर्थ में, सिस्टम के बाएँ और दाएँ भागों की अधिकतम निकटता। एलएसएम का सार "निकटता के माप" के रूप में बाएँ और दाएँ भागों के वर्ग विचलन के योग को चुनना है | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). इस प्रकार, एलएसएम का सार इस प्रकार व्यक्त किया जा सकता है:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\दायाँ तीर \min _(x)).

यदि समीकरणों की प्रणाली का कोई समाधान है, तो वर्गों का न्यूनतम योग शून्य के बराबर होगा और समीकरणों की प्रणाली का सटीक समाधान विश्लेषणात्मक रूप से या, उदाहरण के लिए, विभिन्न संख्यात्मक अनुकूलन विधियों द्वारा पाया जा सकता है। यदि सिस्टम अतिनिर्धारित है, यानी, मोटे तौर पर कहें तो, स्वतंत्र समीकरणों की संख्या अज्ञात चर की संख्या से अधिक है, तो सिस्टम के पास सटीक समाधान नहीं है और कम से कम वर्ग विधि हमें कुछ "इष्टतम" वेक्टर खोजने की अनुमति देती है एक्स (\डिस्प्लेस्टाइल x)सदिशों की अधिकतम निकटता के अर्थ में वाई (\डिस्प्लेस्टाइल वाई)और एफ (एक्स) (\डिस्प्लेस्टाइल एफ(एक्स))या विचलन वेक्टर की अधिकतम निकटता ई (\डिस्प्लेस्टाइल ई)शून्य तक (निकटता को यूक्लिडियन दूरी के अर्थ में समझा जाता है)।

उदाहरण - रैखिक समीकरणों की प्रणाली

विशेष रूप से, न्यूनतम वर्ग विधि का उपयोग रैखिक समीकरणों की प्रणाली को "हल" करने के लिए किया जा सकता है

ए एक्स = बी (\displaystyle एक्स=बी),

कहाँ ए (\डिस्प्लेस्टाइल ए)आयताकार आकार मैट्रिक्स m × n , m > n (\displaystyle m\times n,m>n)(अर्थात मैट्रिक्स ए की पंक्तियों की संख्या आवश्यक चर की संख्या से अधिक है)।

समीकरणों की ऐसी प्रणाली का आम तौर पर कोई समाधान नहीं होता है। इसलिए, इस प्रणाली को केवल ऐसे वेक्टर को चुनने के अर्थ में "हल" किया जा सकता है एक्स (\डिस्प्लेस्टाइल x)वैक्टरों के बीच "दूरी" को कम करने के लिए ए एक्स (\डिस्प्लेस्टाइल एक्स)और बी (\डिस्प्लेस्टाइल बी). ऐसा करने के लिए, आप सिस्टम के समीकरणों के बाएँ और दाएँ भागों के वर्ग अंतरों के योग को न्यूनतम करने के लिए मानदंड लागू कर सकते हैं, अर्थात (ए एक्स - बी) टी (ए एक्स - बी) → मिनट (\displaystyle (एक्स-बी)^(टी)(एक्स-बी)\राइटएरो \मिनट ). यह दिखाना आसान है कि इस न्यूनतमकरण समस्या का समाधान समीकरणों की निम्नलिखित प्रणाली के समाधान की ओर ले जाता है

ए टी ए एक्स = ए टी बी ⇒ एक्स = (ए टी ए) - 1 ए टी बी (\displaystyle ए^(टी)एएक्स=ए^(टी)बी\राइटएरो x=(ए^(टी)ए)^(-1)ए^ (टी)बी).

प्रतिगमन विश्लेषण में ओएलएस (डेटा सन्निकटन)

उसको रहनो दो एन (\डिस्प्लेस्टाइल एन)कुछ चर के मान वाई (\डिस्प्लेस्टाइल वाई)(यह अवलोकनों, प्रयोगों आदि के परिणाम हो सकते हैं) और संबंधित चर एक्स (\डिस्प्लेस्टाइल x). चुनौती बीच संबंध बनाने की है वाई (\डिस्प्लेस्टाइल वाई)और एक्स (\डिस्प्लेस्टाइल x)कुछ अज्ञात मापदंडों तक ज्ञात कुछ फ़ंक्शन द्वारा अनुमानित बी (\डिस्प्लेस्टाइल बी), अर्थात्, वास्तव में मापदंडों का सर्वोत्तम मान खोजें बी (\डिस्प्लेस्टाइल बी), मूल्यों का अधिकतम अनुमान लगाना f (x , b) (\displaystyle f(x,b))वास्तविक मूल्यों के लिए वाई (\डिस्प्लेस्टाइल वाई). वास्तव में, यह समीकरणों की एक अतिनिर्धारित प्रणाली के "समाधान" के मामले को कम कर देता है बी (\डिस्प्लेस्टाइल बी):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

प्रतिगमन विश्लेषण में, और विशेष रूप से अर्थमिति में, चर के बीच संबंधों के संभाव्य मॉडल का उपयोग किया जाता है।

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

कहाँ ε t (\displaystyle \varepsilon _(t))- तथाकथित यादृच्छिक त्रुटियाँमॉडल।

तदनुसार, देखे गए मूल्यों का विचलन वाई (\डिस्प्लेस्टाइल वाई)मॉडल से f (x , b) (\displaystyle f(x,b))मॉडल में पहले से ही मान लिया गया है। एलएसएम (साधारण, शास्त्रीय) का सार ऐसे मापदंडों को खोजना है बी (\डिस्प्लेस्टाइल बी), जिस पर वर्ग विचलन का योग (त्रुटियाँ, प्रतिगमन मॉडल के लिए उन्हें अक्सर प्रतिगमन अवशेष कहा जाता है) e t (\displaystyle e_(t))न्यूनतम होगा:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

कहाँ आर एस एस (\डिस्प्लेस्टाइल आरएसएस)- अंग्रेज़ी। वर्गों के अवशिष्ट योग को इस प्रकार परिभाषित किया गया है:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t - f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\sum _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

सामान्य स्थिति में, इस समस्या को अनुकूलन (न्यूनीकरण) के संख्यात्मक तरीकों से हल किया जा सकता है। इस मामले में, एक बोलता है अरैखिक न्यूनतम वर्ग(एनएलएस या एनएलएलएस - इंजी. गैर-रैखिक न्यूनतम वर्ग)। कई मामलों में, एक विश्लेषणात्मक समाधान प्राप्त किया जा सकता है। न्यूनतमकरण समस्या को हल करने के लिए, फ़ंक्शन के स्थिर बिंदुओं को खोजना आवश्यक है आर एस एस (बी) (\displaystyle आरएसएस(बी)), अज्ञात मापदंडों के संबंध में इसे अलग करना बी (\डिस्प्लेस्टाइल बी), डेरिवेटिव को शून्य के बराबर करना और समीकरणों की परिणामी प्रणाली को हल करना:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\आंशिक f(x_(t),b))(\आंशिक b))=0).

रैखिक प्रतिगमन के मामले में एलएसएम

प्रतिगमन निर्भरता को रैखिक होने दें:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

होने देना समझाए जा रहे चर के अवलोकनों का कॉलम वेक्टर है, और एक्स (\डिस्प्लेस्टाइल एक्स)- यह (n × k) (\displaystyle ((n\times k)))- कारक अवलोकनों का मैट्रिक्स (मैट्रिक्स की पंक्तियाँ - किसी दिए गए अवलोकन में कारक मूल्यों के वेक्टर, कॉलम द्वारा - सभी अवलोकनों में किसी दिए गए कारक के मूल्यों के वेक्टर)। रैखिक मॉडल के मैट्रिक्स प्रतिनिधित्व का रूप है:

y = Xb + ε (\displaystyle y=Xb+\varepsilon ).

तब समझाए गए चर के अनुमानों का वेक्टर और प्रतिगमन अवशेषों का वेक्टर बराबर होगा

y ^ = X b , e = y - y ^ = y - X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

तदनुसार, प्रतिगमन अवशेषों के वर्गों का योग बराबर होगा

आर एस एस = ई टी ई = (वाई - एक्स बी) टी (वाई - एक्स बी) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

पैरामीटर वेक्टर के संबंध में इस फ़ंक्शन को अलग करना बी (\डिस्प्लेस्टाइल बी)और डेरिवेटिव को शून्य के बराबर करने पर, हमें समीकरणों की एक प्रणाली प्राप्त होती है (मैट्रिक्स रूप में):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

गूढ़ मैट्रिक्स रूप में, समीकरणों की यह प्रणाली इस तरह दिखती है:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 3 x t 1 ∑ x t 3 x t 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (∑ x t 1 y) टी ∑ एक्स टी 2 वाई टी ∑ एक्स टी 3 y t ⋮ ∑ x t k y t) , (\displaystyle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_(tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ योग x_(t2)x_(tk)\\\sum x_(t3)x_(t1)&\sum x_(t3)x_(t2)&\sum x_(t3)^(2)&\ldots &\sum x_ (t3)x_(tk)\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3) )\\vdots \\b_(k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vdots \\\sum x_(tk)y_(t)\\\end(pmatrix)),)जहां सभी रकमों को सभी स्वीकार्य मूल्यों से ऊपर लिया जाता है टी (\डिस्प्लेस्टाइल टी).

यदि मॉडल में एक स्थिरांक शामिल किया गया है (हमेशा की तरह), तो x t 1 = 1 (\displaystyle x_(t1)=1)सभी के लिए टी (\डिस्प्लेस्टाइल टी)इसलिए, समीकरणों की प्रणाली के मैट्रिक्स के ऊपरी बाएँ कोने में अवलोकनों की संख्या है एन (\डिस्प्लेस्टाइल एन), और पहली पंक्ति और पहले कॉलम के शेष तत्वों में - केवल चर के मानों का योग: ∑ x t j (\displaystyle \sum x_(tj))और सिस्टम के दाईं ओर का पहला तत्व - ∑ y t (\displaystyle \sum y_(t)).

समीकरणों की इस प्रणाली का समाधान रैखिक मॉडल के लिए न्यूनतम वर्ग अनुमान के लिए सामान्य सूत्र देता है:

b ^ O L S = (X T X) - 1 X T y = (1 n X T X) - 1 1 n )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\right)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

विश्लेषणात्मक उद्देश्यों के लिए, इस सूत्र का अंतिम प्रतिनिधित्व उपयोगी साबित होता है (समीकरणों की प्रणाली में जब n से विभाजित किया जाता है, तो योग के बजाय अंकगणितीय साधन दिखाई देते हैं)। यदि प्रतिगमन मॉडल में डेटा केंद्रित, तो इस प्रतिनिधित्व में पहले मैट्रिक्स में कारकों के नमूना सहप्रसरण मैट्रिक्स का अर्थ है, और दूसरा आश्रित चर के साथ कारकों के सहप्रसरण का वेक्टर है। यदि, इसके अतिरिक्त, डेटा भी है सामान्यीकृत SKO पर (अर्थात, अंततः मानकीकृत), तो पहले मैट्रिक्स में कारकों के नमूना सहसंबंध मैट्रिक्स का अर्थ है, दूसरा वेक्टर - आश्रित चर के साथ कारकों के नमूना सहसंबंध का वेक्टर।

मॉडलों के लिए एलएलएस अनुमान की एक महत्वपूर्ण संपत्ति एक स्थिरांक के साथ- निर्मित प्रतिगमन की रेखा नमूना डेटा के गुरुत्वाकर्षण के केंद्र से होकर गुजरती है, अर्थात समानता पूरी होती है:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\टोपी (b_(1)))+\sum _(j=2)^(k) (\टोपी (बी))_(जे)(\बार (एक्स))_(जे)).

विशेष रूप से, चरम मामले में जब एकमात्र प्रतिगामी एक स्थिरांक होता है, तो हम पाते हैं कि एकल पैरामीटर (स्वयं स्थिरांक) का ओएलएस अनुमान समझाए जा रहे चर के औसत मूल्य के बराबर है। अर्थात्, बड़ी संख्या के नियमों से अपने अच्छे गुणों के लिए जाना जाने वाला अंकगणितीय माध्य भी एक न्यूनतम वर्ग अनुमान है - यह इससे वर्ग विचलन के न्यूनतम योग की कसौटी को पूरा करता है।

सबसे सरल विशेष मामले

जोड़ीवार रैखिक प्रतिगमन के मामले में y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), जब एक चर की दूसरे पर रैखिक निर्भरता का अनुमान लगाया जाता है, तो गणना सूत्र सरल हो जाते हैं (आप मैट्रिक्स बीजगणित के बिना कर सकते हैं)। समीकरणों की प्रणाली का रूप है:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

यहां से गुणांकों का अनुमान ढूंढना आसान है:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ - x ¯ y ¯ x 2 ¯ - x ¯ 2 , a ^ = y ¯ - b x ¯ । (\displaystyle (\begin(cases) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(cases)))

इस तथ्य के बावजूद कि सामान्य स्थिति में स्थिरांक वाले मॉडल बेहतर होते हैं, कुछ मामलों में सैद्धांतिक विचारों से यह ज्ञात होता है कि स्थिरांक ए (\डिस्प्लेस्टाइल ए)शून्य के बराबर होना चाहिए. उदाहरण के लिए, भौतिकी में, वोल्टेज और करंट के बीच संबंध का रूप होता है यू = आई ⋅ आर (\displaystyle यू=आई\सीडॉट आर); वोल्टेज और करंट को मापने के लिए प्रतिरोध का अनुमान लगाना आवश्यक है। ऐसे में हम बात कर रहे हैं एक मॉडल की y = b x (\displaystyle y=bx). इस मामले में, समीकरणों की एक प्रणाली के बजाय, हमारे पास एक एकल समीकरण है

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

इसलिए, एकल गुणांक का अनुमान लगाने के सूत्र का रूप है

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

बहुपद मॉडल का मामला

यदि डेटा एक चर के बहुपद प्रतिगमन फ़ंक्शन द्वारा फिट किया गया है f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), फिर, डिग्री को समझना x i (\displaystyle x^(i))प्रत्येक के लिए स्वतंत्र कारकों के रूप में मैं (\डिस्प्लेस्टाइल मैं)रैखिक मॉडल के मापदंडों के आकलन के लिए सामान्य सूत्र के आधार पर मॉडल के मापदंडों का अनुमान लगाना संभव है। ऐसा करने के लिए, सामान्य सूत्र में इस तरह की व्याख्या के साथ इसे ध्यान में रखना पर्याप्त है x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j))और x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). इसलिए, इस मामले में मैट्रिक्स समीकरण रूप लेंगे:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x i 2 … ∑ m x i k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 … ∑ n x t 2 k) [ b 0 b 1 ⋮ b k ] = [ ∑ n y t ∑ n x t y t ⋮ ∑ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ योग \सीमा _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).)

ओएलएस अनुमानों के सांख्यिकीय गुण

सबसे पहले, हम ध्यान दें कि रैखिक मॉडल के लिए, न्यूनतम वर्ग अनुमान रैखिक अनुमान हैं, जैसा कि उपरोक्त सूत्र से मिलता है। न्यूनतम वर्ग अनुमानों की निष्पक्षता के लिए, प्रतिगमन विश्लेषण की सबसे महत्वपूर्ण शर्त को पूरा करना आवश्यक और पर्याप्त है: कारकों पर सशर्त यादृच्छिक त्रुटि की गणितीय अपेक्षा शून्य के बराबर होनी चाहिए। यह शर्त पूरी होती है, विशेषकर, यदि

  1. यादृच्छिक त्रुटियों की गणितीय अपेक्षा शून्य है, और
  2. कारक और यादृच्छिक त्रुटियाँ स्वतंत्र यादृच्छिक मान हैं।

दूसरी स्थिति - बहिर्जात कारकों की स्थिति - मौलिक है। यदि यह संपत्ति संतुष्ट नहीं है, तो हम मान सकते हैं कि लगभग कोई भी अनुमान बेहद असंतोषजनक होगा: वे सुसंगत भी नहीं होंगे (अर्थात, बहुत बड़ी मात्रा में डेटा भी इस मामले में गुणात्मक अनुमान प्राप्त करने की अनुमति नहीं देता है)। शास्त्रीय मामले में, यादृच्छिक त्रुटि के विपरीत, कारकों के नियतत्ववाद के बारे में एक मजबूत धारणा बनाई जाती है, जिसका स्वचालित रूप से मतलब है कि बहिर्जात स्थिति संतुष्ट है। सामान्य स्थिति में, अनुमानों की स्थिरता के लिए, मैट्रिक्स के अभिसरण के साथ-साथ बहिर्जातता की स्थिति को संतुष्ट करना पर्याप्त है वी एक्स (\डिस्प्लेस्टाइल वी_(एक्स))जैसे-जैसे नमूना आकार अनंत तक बढ़ता है, कुछ गैर-अपक्षयी मैट्रिक्स में बदल जाता है।

निरंतरता और निष्पक्षता के अलावा, (सामान्य) एलएसएम के अनुमान भी प्रभावी (रैखिक निष्पक्ष अनुमानों की श्रेणी में सर्वश्रेष्ठ) होने के लिए, एक यादृच्छिक त्रुटि के अतिरिक्त गुणों को पूरा करना आवश्यक है:

इन धारणाओं को यादृच्छिक त्रुटियों के वेक्टर के सहप्रसरण मैट्रिक्स के लिए तैयार किया जा सकता है V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

एक रैखिक मॉडल जो इन शर्तों को पूरा करता है उसे कहा जाता है क्लासिक. शास्त्रीय रैखिक प्रतिगमन के लिए न्यूनतम वर्ग अनुमानक निष्पक्ष, सुसंगत और सभी रैखिक निष्पक्ष अनुमानकों के वर्ग में सबसे कुशल अनुमानक हैं (संक्षिप्त नाम नीला (सर्वोत्तम रैखिक निष्पक्ष अनुमानक) सर्वोत्तम रैखिक निष्पक्ष अनुमान है; घरेलू साहित्य में, गॉस - मार्कोव प्रमेय को अधिक बार उद्धृत किया जाता है)। जैसा कि यह दिखाना आसान है, गुणांक अनुमान वेक्टर का सहप्रसरण मैट्रिक्स इसके बराबर होगा:

V (b ^ O L S) = σ 2 (X T )).

दक्षता का अर्थ है कि यह सहप्रसरण मैट्रिक्स "न्यूनतम" है (गुणांकों का कोई भी रैखिक संयोजन, और विशेष रूप से स्वयं गुणांकों में न्यूनतम विचरण होता है), अर्थात, रैखिक निष्पक्ष अनुमानों की श्रेणी में, ओएलएस अनुमान सर्वोत्तम हैं। इस मैट्रिक्स के विकर्ण तत्व - गुणांक के अनुमानों के प्रसरण - प्राप्त अनुमानों की गुणवत्ता के महत्वपूर्ण पैरामीटर हैं। हालाँकि, सहप्रसरण मैट्रिक्स की गणना करना संभव नहीं है क्योंकि यादृच्छिक त्रुटि विचरण अज्ञात है। यह साबित किया जा सकता है कि यादृच्छिक त्रुटियों के विचरण का निष्पक्ष और सुसंगत (शास्त्रीय रैखिक मॉडल के लिए) अनुमान मूल्य है:

एस 2 = आर एस एस / (एन - के) (\displaystyle एस^(2)=आरएसएस/(एन-के)).

इस मान को सहप्रसरण मैट्रिक्स के सूत्र में प्रतिस्थापित करने पर, हमें सहप्रसरण मैट्रिक्स का एक अनुमान प्राप्त होता है। परिणामी अनुमान भी निष्पक्ष और सुसंगत हैं। यह भी महत्वपूर्ण है कि त्रुटि भिन्नता का अनुमान (और इसलिए गुणांक के भिन्नता) और मॉडल पैरामीटर के अनुमान स्वतंत्र यादृच्छिक चर हैं, जो मॉडल गुणांक के बारे में परिकल्पनाओं के परीक्षण के लिए परीक्षण आंकड़े प्राप्त करना संभव बनाता है।

यह ध्यान दिया जाना चाहिए कि यदि शास्त्रीय मान्यताओं को पूरा नहीं किया जाता है, तो न्यूनतम वर्ग पैरामीटर अनुमान सबसे कुशल नहीं हैं और, जहां डब्ल्यू (\डिस्प्लेस्टाइल डब्ल्यू)कुछ सममित सकारात्मक निश्चित भार मैट्रिक्स है। साधारण न्यूनतम वर्ग इस दृष्टिकोण का एक विशेष मामला है, जब भार मैट्रिक्स पहचान मैट्रिक्स के समानुपाती होता है। जैसा कि ज्ञात है, सममित मैट्रिक्स (या ऑपरेटरों) के लिए एक अपघटन होता है डब्ल्यू = पी टी पी (\displaystyle डब्ल्यू=पी^(टी)पी). इसलिए, इस कार्यात्मकता को निम्नानुसार दर्शाया जा सकता है e T P T P e = (P e) T P e = e * T e * (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), अर्थात्, इस कार्यात्मकता को कुछ रूपांतरित "अवशेषों" के वर्गों के योग के रूप में दर्शाया जा सकता है। इस प्रकार, हम न्यूनतम वर्ग विधियों के एक वर्ग को अलग कर सकते हैं - एलएस-विधियाँ (न्यूनतम वर्ग)।

यह साबित हो गया है (ऐटकेन का प्रमेय) कि एक सामान्यीकृत रैखिक प्रतिगमन मॉडल (जिसमें यादृच्छिक त्रुटियों के सहप्रसरण मैट्रिक्स पर कोई प्रतिबंध नहीं लगाया जाता है) के लिए, सबसे प्रभावी (रैखिक निष्पक्ष अनुमानों के वर्ग में) तथाकथित के अनुमान हैं। सामान्यीकृत ओएलएस (ओएमएनके, जीएलएस - सामान्यीकृत न्यूनतम वर्ग)- यादृच्छिक त्रुटियों के व्युत्क्रम सहप्रसरण मैट्रिक्स के बराबर भार मैट्रिक्स के साथ एलएस-विधि: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

यह दिखाया जा सकता है कि रैखिक मॉडल के मापदंडों के जीएलएस-अनुमान के सूत्र का रूप है

बी ^ जी एल एस = (एक्स टी वी - 1 एक्स) - 1 एक्स टी वी - 1 वाई (\displaystyle (\टोपी (बी))_(जीएलएस)=(एक्स^(टी)वी^(-1)एक्स)^(-1) एक्स^(टी)वी^(-1)y).

इन अनुमानों का सहप्रसरण मैट्रिक्स क्रमशः बराबर होगा

वी (बी ^ जी एल एस) = (एक्स टी वी - 1 एक्स) - 1 (\displaystyle वी((\टोपी (बी))_(जीएलएस))=(एक्स^(टी)वी^(-1)एक्स)^(- 1)).

वास्तव में, ओएलएस का सार मूल डेटा के एक निश्चित (रैखिक) परिवर्तन (पी) और रूपांतरित डेटा के लिए सामान्य न्यूनतम वर्गों के अनुप्रयोग में निहित है। इस परिवर्तन का उद्देश्य यह है कि रूपांतरित डेटा के लिए, यादृच्छिक त्रुटियां पहले से ही शास्त्रीय मान्यताओं को संतुष्ट करती हैं।

भारित न्यूनतम वर्ग

एक विकर्ण भार मैट्रिक्स (और इसलिए यादृच्छिक त्रुटियों के सहप्रसरण मैट्रिक्स) के मामले में, हमारे पास तथाकथित भारित न्यूनतम वर्ग (डब्ल्यूएलएस - भारित न्यूनतम वर्ग) हैं। इस मामले में, मॉडल के अवशेषों के वर्गों का भारित योग कम से कम किया जाता है, अर्थात, प्रत्येक अवलोकन को एक "वजन" प्राप्त होता है जो इस अवलोकन में यादृच्छिक त्रुटि के विचरण के व्युत्क्रमानुपाती होता है: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ सिग्मा _(टी)^(2)))). वास्तव में, डेटा को अवलोकनों को भारित करके (यादृच्छिक त्रुटियों के अनुमानित मानक विचलन के आनुपातिक राशि से विभाजित करके) रूपांतरित किया जाता है, और भारित डेटा पर सामान्य न्यूनतम वर्ग लागू किया जाता है।

आईएसबीएन 978-5-7749-0473-0।

  • अर्थमिति। पाठ्यपुस्तक / एड. एलिसेवा आई. आई. - दूसरा संस्करण। - एम.: वित्त और सांख्यिकी, 2006. - 576 पी. - आईएसबीएन 5-279-02786-3।
  • अलेक्जेंड्रोवा एन.वी.गणितीय शब्दों, अवधारणाओं, पदनामों का इतिहास: एक शब्दकोश-संदर्भ पुस्तक। - तीसरा संस्करण - एम.: एलकेआई, 2008. - 248 पी। - आईएसबीएन 978-5-382-00839-4।आई.वी. मितिन, रुसाकोव वी.एस. प्रायोगिक डेटा का विश्लेषण और प्रसंस्करण - 5वां संस्करण - 24पी।
  • हम फ़ंक्शन को दूसरी डिग्री के बहुपद द्वारा अनुमानित करते हैं। ऐसा करने के लिए, हम समीकरणों की सामान्य प्रणाली के गुणांकों की गणना करते हैं:

    , ,

    आइए हम न्यूनतम वर्गों की एक सामान्य प्रणाली बनाएं, जिसका रूप इस प्रकार है:

    सिस्टम का समाधान ढूंढना आसान है:, , .

    इस प्रकार, दूसरी डिग्री का बहुपद पाया जाता है:।

    सैद्धांतिक संदर्भ

    पृष्ठ पर वापस जाएँ<Введение в вычислительную математику. Примеры>

    उदाहरण 2. एक बहुपद की इष्टतम घात ज्ञात करना।

    पृष्ठ पर वापस जाएँ<Введение в вычислительную математику. Примеры>

    उदाहरण 3. अनुभवजन्य निर्भरता के मापदंडों को खोजने के लिए समीकरणों की एक सामान्य प्रणाली की व्युत्पत्ति।

    आइए हम गुणांकों और कार्यों को निर्धारित करने के लिए समीकरणों की एक प्रणाली प्राप्त करें , जो बिंदुओं के संबंध में दिए गए फ़ंक्शन का मूल-माध्य-वर्ग सन्निकटन करता है। एक फ़ंक्शन लिखें और इसके लिए आवश्यक चरम स्थिति लिखें:

    तब सामान्य प्रणाली यह रूप ले लेगी:

    हमने अज्ञात मापदंडों के लिए समीकरणों की एक रैखिक प्रणाली प्राप्त की है, जिसे आसानी से हल किया जा सकता है।

    सैद्धांतिक संदर्भ

    पृष्ठ पर वापस जाएँ<Введение в вычислительную математику. Примеры>

    उदाहरण।

    चर के मूल्यों पर प्रायोगिक डेटा एक्सऔर परतालिका में दिए गए हैं।

    उनके संरेखण के परिणामस्वरूप, फ़ंक्शन

    का उपयोग करते हुए न्यूनतम वर्ग विधि, इन आंकड़ों को एक रैखिक निर्भरता के साथ अनुमानित करें y=ax+b(पैरामीटर खोजें और बी). पता लगाएं कि दोनों में से कौन सी रेखा बेहतर है (न्यूनतम वर्ग विधि के अर्थ में) प्रयोगात्मक डेटा को संरेखित करती है। एक चित्र बनाओ.

    न्यूनतम वर्ग विधि (एलएसएम) का सार।

    समस्या रैखिक निर्भरता गुणांक को खोजने की है जिसके लिए दो चर का कार्य होता है और बीसबसे छोटा मान लेता है. यानी डेटा दिया गया है और बीपाई गई सीधी रेखा से प्रयोगात्मक डेटा के वर्ग विचलन का योग सबसे छोटा होगा। यह न्यूनतम वर्ग विधि का संपूर्ण बिंदु है।

    इस प्रकार, उदाहरण का समाधान दो चर वाले फ़ंक्शन के चरम को खोजने तक कम हो गया है।

    गुणांक ज्ञात करने के लिए सूत्रों की व्युत्पत्ति।

    दो अज्ञात वाले दो समीकरणों की एक प्रणाली संकलित और हल की जाती है। कार्यों के आंशिक व्युत्पन्न ढूँढना चर द्वारा और बी, हम इन व्युत्पन्नों को शून्य के बराबर करते हैं।

    हम समीकरणों की परिणामी प्रणाली को किसी भी विधि से हल करते हैं (उदाहरण के लिए)। प्रतिस्थापन विधिया क्रैमर विधि) और न्यूनतम वर्ग विधि (एलएसएम) का उपयोग करके गुणांक खोजने के लिए सूत्र प्राप्त करें।

    डेटा के साथ और बीसमारोह सबसे छोटा मान लेता है. इस तथ्य का प्रमाण नीचे पृष्ठ के अंत में पाठ में दिया गया है।

    यह न्यूनतम वर्गों की पूरी विधि है। पैरामीटर खोजने का सूत्र इसमें योग , , , और पैरामीटर शामिल हैं एनप्रायोगिक डेटा की मात्रा है. इन राशियों के मूल्यों की गणना अलग से करने की अनुशंसा की जाती है।

    गुणक बीगणना के बाद पाया गया .

    मूल उदाहरण को याद करने का समय आ गया है।

    समाधान।

    हमारे उदाहरण में एन=5. आवश्यक गुणांकों के सूत्रों में शामिल राशियों की गणना की सुविधा के लिए हम तालिका भरते हैं।

    तालिका की चौथी पंक्ति के मान प्रत्येक संख्या के लिए दूसरी पंक्ति के मानों को तीसरी पंक्ति के मानों से गुणा करके प्राप्त किए जाते हैं मैं.

    तालिका की पाँचवीं पंक्ति के मान प्रत्येक संख्या के लिए दूसरी पंक्ति के मानों का वर्ग करके प्राप्त किए जाते हैं मैं.

    तालिका के अंतिम कॉलम के मान पंक्तियों के मानों का योग हैं।

    गुणांक ज्ञात करने के लिए हम न्यूनतम वर्ग विधि के सूत्रों का उपयोग करते हैं और बी. हम उनमें तालिका के अंतिम कॉलम से संबंधित मान प्रतिस्थापित करते हैं:

    इस तरह, y=0.165x+2.184वांछित अनुमानित सीधी रेखा है।

    यह पता लगाना बाकी है कि कौन सी पंक्तियाँ हैं y=0.165x+2.184या मूल डेटा का बेहतर अनुमान लगाना, यानी न्यूनतम वर्ग विधि का उपयोग करके अनुमान लगाना।

    न्यूनतम वर्ग विधि की त्रुटि का अनुमान.

    ऐसा करने के लिए, आपको इन पंक्तियों से मूल डेटा के वर्ग विचलन के योग की गणना करने की आवश्यकता है और , एक छोटा मान उस रेखा से मेल खाता है जो न्यूनतम वर्ग विधि के संदर्भ में मूल डेटा का बेहतर अनुमान लगाता है।

    चूँकि , तब से पंक्ति y=0.165x+2.184मूल डेटा का बेहतर अनुमान लगाता है।

    न्यूनतम वर्ग विधि (एलएसएम) का ग्राफिक चित्रण।

    चार्ट पर सब कुछ बहुत अच्छा लग रहा है। लाल रेखा पाई गई रेखा है y=0.165x+2.184, नीली रेखा है , गुलाबी बिंदु मूल डेटा हैं।

    यह किस लिए है, ये सभी अनुमान किस लिए हैं?

    मैं व्यक्तिगत रूप से डेटा स्मूथिंग समस्याओं, इंटरपोलेशन और एक्सट्रपलेशन समस्याओं को हल करने के लिए उपयोग करता हूं (मूल उदाहरण में, आपको देखे गए मूल्य का मूल्य खोजने के लिए कहा जा सकता है पर एक्स=3या जब एक्स=6एमएनसी पद्धति के अनुसार)। लेकिन हम इसके बारे में बाद में साइट के दूसरे अनुभाग में अधिक बात करेंगे।

    पृष्ठ के सबसे ऊपर

    सबूत।

    ताकि जब मिले और बीफ़ंक्शन सबसे छोटा मान लेता है, यह आवश्यक है कि इस बिंदु पर फ़ंक्शन के लिए दूसरे क्रम के अंतर के द्विघात रूप का मैट्रिक्स सकारात्मक निश्चित था. चलिए दिखाते हैं.

    दूसरे क्रम के अंतर का रूप है:

    वह है

    इसलिए, द्विघात रूप के मैट्रिक्स का रूप होता है

    और तत्वों का मान निर्भर नहीं करता है और बी.

    आइए हम दिखाएं कि मैट्रिक्स सकारात्मक निश्चित है। इसके लिए आवश्यक है कि कोण माइनर सकारात्मक हों।

    प्रथम क्रम का कोणीय लघु . असमानता सख्त है, क्योंकि अंक मेल नहीं खाते। यह निम्नलिखित में निहित होगा।

    दूसरे क्रम का कोणीय लघु

    आइए इसे साबित करें गणितीय प्रेरण की विधि.

    निष्कर्ष: मान मिले और बीफ़ंक्शन के सबसे छोटे मान के अनुरूप इसलिए, न्यूनतम वर्ग विधि के लिए वांछित पैरामीटर हैं।

    कभी समझे?
    समाधान का आदेश दें

    पृष्ठ के सबसे ऊपर

    न्यूनतम वर्ग विधि का उपयोग करके पूर्वानुमान का विकास। समस्या समाधान उदाहरण

    एक्सट्रपलेशन - यह वैज्ञानिक अनुसंधान की एक विधि है, जो पूर्वानुमान की वस्तु के भविष्य के विकास के लिए अतीत और वर्तमान प्रवृत्तियों, पैटर्न, संबंधों के प्रसार पर आधारित है। एक्सट्रपलेशन विधियों में शामिल हैं चलती औसत विधि, घातीय चौरसाई विधि, न्यूनतम वर्ग विधि।

    सार न्यूनतम वर्ग विधि इसमें प्रेक्षित और परिकलित मानों के बीच वर्ग विचलन के योग को न्यूनतम करना शामिल है। परिकलित मान चयनित समीकरण - प्रतिगमन समीकरण के अनुसार पाए जाते हैं। वास्तविक मानों और परिकलित मानों के बीच की दूरी जितनी कम होगी, प्रतिगमन समीकरण के आधार पर पूर्वानुमान उतना ही अधिक सटीक होगा।

    अध्ययन के तहत घटना के सार का सैद्धांतिक विश्लेषण, जिसमें परिवर्तन एक समय श्रृंखला द्वारा प्रदर्शित होता है, एक वक्र चुनने के आधार के रूप में कार्य करता है। श्रृंखला के स्तरों की वृद्धि की प्रकृति के बारे में कभी-कभी विचार किया जाता है। इसलिए, यदि आउटपुट की वृद्धि अंकगणितीय प्रगति में अपेक्षित है, तो स्मूथिंग एक सीधी रेखा में की जाती है। यदि यह पता चलता है कि वृद्धि घातांकीय है, तो घातीय फलन के अनुसार चौरसाई की जानी चाहिए।

    न्यूनतम वर्ग विधि का कार्य सूत्र : Y t+1 = a*X + b, जहां t + 1 पूर्वानुमानित अवधि है; Уt+1 - अनुमानित संकेतक; ए और बी गुणांक हैं; X समय का प्रतीक है.

    गुणांक ए और बी की गणना निम्नलिखित सूत्रों के अनुसार की जाती है:

    जहां, यूएफ - गतिशीलता की श्रृंखला के वास्तविक मूल्य; n समय श्रृंखला में स्तरों की संख्या है;

    न्यूनतम वर्ग विधि द्वारा समय श्रृंखला को सुचारू करना अध्ययन के तहत घटना के विकास के पैटर्न को प्रतिबिंबित करने का कार्य करता है। किसी प्रवृत्ति की विश्लेषणात्मक अभिव्यक्ति में, समय को एक स्वतंत्र चर के रूप में माना जाता है, और श्रृंखला के स्तर इस स्वतंत्र चर के एक कार्य के रूप में कार्य करते हैं।

    किसी घटना का विकास इस बात पर निर्भर नहीं करता है कि शुरुआती बिंदु से कितने साल बीत चुके हैं, बल्कि इस बात पर निर्भर करता है कि किन कारकों ने इसके विकास को, किस दिशा में और किस तीव्रता से प्रभावित किया है। इससे यह स्पष्ट है कि समय में किसी घटना का विकास इन कारकों की क्रिया के परिणामस्वरूप प्रकट होता है।

    वक्र के प्रकार, समय पर विश्लेषणात्मक निर्भरता के प्रकार को सही ढंग से निर्धारित करना पूर्व-भविष्यवाणी विश्लेषण के सबसे कठिन कार्यों में से एक है। .

    प्रवृत्ति का वर्णन करने वाले फ़ंक्शन के प्रकार का चयन, जिसके पैरामीटर कम से कम वर्ग विधि द्वारा निर्धारित किए जाते हैं, ज्यादातर मामलों में अनुभवजन्य होता है, कई कार्यों का निर्माण करके और मूल-माध्य के मूल्य से उनकी एक-दूसरे के साथ तुलना करके -वर्ग त्रुटि सूत्र द्वारा गणना की गई:

    जहां यूएफ - गतिशीलता की श्रृंखला के वास्तविक मूल्य; उर - समय श्रृंखला के परिकलित (सुचारू) मान; n समय श्रृंखला में स्तरों की संख्या है; पी प्रवृत्ति (विकास की प्रवृत्ति) का वर्णन करने वाले सूत्रों में परिभाषित मापदंडों की संख्या है।

    न्यूनतम वर्ग विधि के नुकसान :

    • गणितीय समीकरण का उपयोग करके अध्ययन के तहत आर्थिक घटना का वर्णन करने का प्रयास करते समय, पूर्वानुमान थोड़े समय के लिए सटीक होगा और नई जानकारी उपलब्ध होने पर प्रतिगमन समीकरण की पुनर्गणना की जानी चाहिए;
    • प्रतिगमन समीकरण के चयन की जटिलता, जिसे मानक कंप्यूटर प्रोग्राम का उपयोग करके हल किया जा सकता है।

    पूर्वानुमान विकसित करने के लिए न्यूनतम वर्ग विधि का उपयोग करने का एक उदाहरण

    काम . क्षेत्र में बेरोजगारी के स्तर को दर्शाने वाले आंकड़े हैं,%

    • निम्न विधियों का उपयोग करके नवंबर, दिसंबर, जनवरी के महीनों के लिए क्षेत्र में बेरोजगारी दर का पूर्वानुमान बनाएं: चलती औसत, घातांकीय स्मूथिंग, न्यूनतम वर्ग।
    • प्रत्येक विधि का उपयोग करके परिणामी पूर्वानुमानों में त्रुटियों की गणना करें।
    • प्राप्त परिणामों की तुलना करें, निष्कर्ष निकालें।

    न्यूनतम वर्ग समाधान

    समाधान के लिए, हम एक तालिका संकलित करेंगे जिसमें हम आवश्यक गणनाएँ करेंगे:

    ε = 28.63/10 = 2.86% पूर्वानुमान सटीकताउच्च।

    निष्कर्ष : गणना में प्राप्त परिणामों की तुलना करना चलती औसत विधि , घातांक सुगम करना और न्यूनतम वर्ग विधि, हम कह सकते हैं कि घातांकीय स्मूथिंग विधि द्वारा गणना में औसत सापेक्ष त्रुटि 20-50% के भीतर आती है। इसका मतलब यह है कि इस मामले में भविष्यवाणी की सटीकता केवल संतोषजनक है।

    पहले और तीसरे मामले में, पूर्वानुमान सटीकता अधिक है, क्योंकि औसत सापेक्ष त्रुटि 10% से कम है। लेकिन चलती औसत पद्धति ने अधिक विश्वसनीय परिणाम प्राप्त करना संभव बना दिया (नवंबर के लिए पूर्वानुमान - 1.52%, दिसंबर के लिए पूर्वानुमान - 1.53%, जनवरी के लिए पूर्वानुमान - 1.49%), क्योंकि इस पद्धति का उपयोग करते समय औसत सापेक्ष त्रुटि सबसे छोटी है - 1 ,13%।

    न्यूनतम वर्ग विधि

    अन्य संबंधित लेख:

    प्रयुक्त स्रोतों की सूची

    1. सामाजिक जोखिमों के निदान और चुनौतियों, खतरों और सामाजिक परिणामों की भविष्यवाणी के मुद्दों पर वैज्ञानिक और पद्धतिगत सिफारिशें। रूसी राज्य सामाजिक विश्वविद्यालय। मास्को. 2010;
    2. व्लादिमीरोवा एल.पी. बाज़ार स्थितियों में पूर्वानुमान और योजना: प्रो. भत्ता. एम.: पब्लिशिंग हाउस "दशकोव एंड कंपनी", 2001;
    3. नोविकोवा एन.वी., पॉज़्डीवा ओ.जी. राष्ट्रीय अर्थव्यवस्था का पूर्वानुमान: शैक्षिक और पद्धति संबंधी मार्गदर्शिका। येकातेरिनबर्ग: पब्लिशिंग हाउस यूराल। राज्य अर्थव्यवस्था विश्वविद्यालय, 2007;
    4. स्लटस्किन एल.एन. व्यवसाय पूर्वानुमान में एमबीए पाठ्यक्रम। मॉस्को: एल्पिना बिजनेस बुक्स, 2006।

    एमएनई कार्यक्रम

    डेटा दर्ज करें

    डेटा और अनुमान वाई = ए + बी एक्स

    मैं- प्रयोगात्मक बिंदु की संख्या;
    एक्स मैं- बिंदु पर निश्चित पैरामीटर का मान मैं;
    यी- बिंदु पर मापा पैरामीटर का मान मैं;
    ω मैं- बिंदु पर माप वजन मैं;
    मैं, कैल्क।- मापा मूल्य और प्रतिगमन से गणना मूल्य के बीच का अंतर बिंदु पर मैं;
    एस एक्स आई (एक्स आई)- त्रुटि अनुमान एक्स मैंमापते समय बिंदु पर मैं.

    डेटा और अनुमान वाई = केएक्स

    मैं एक्स मैं यी ω मैं मैं, कैल्क। Δy मैं एस एक्स आई (एक्स आई)

    चार्ट पर क्लिक करें

    एमएनसी ऑनलाइन कार्यक्रम के लिए उपयोगकर्ता पुस्तिका।

    डेटा फ़ील्ड में, प्रत्येक अलग पंक्ति पर एक प्रयोगात्मक बिंदु पर `x` और `y` के मान दर्ज करें। मानों को रिक्त स्थान (स्पेस या टैब) द्वारा अलग किया जाना चाहिए।

    तीसरा मान `w` का बिंदु भार हो सकता है। यदि बिंदु भार निर्दिष्ट नहीं है, तो यह एक के बराबर है। अधिकांश मामलों में, प्रायोगिक बिंदुओं का भार अज्ञात है या गणना नहीं की गई है; सभी प्रायोगिक डेटा को समतुल्य माना जाता है। कभी-कभी मूल्यों की अध्ययन की गई सीमा में वजन निश्चित रूप से समकक्ष नहीं होते हैं और सैद्धांतिक रूप से भी गणना की जा सकती है। उदाहरण के लिए, स्पेक्ट्रोफोटोमेट्री में, वजन की गणना सरल सूत्रों का उपयोग करके की जा सकती है, हालांकि मूल रूप से हर कोई श्रम लागत को कम करने के लिए इसकी उपेक्षा करता है।

    डेटा को ऑफिस सूट स्प्रेडशीट से क्लिपबोर्ड के माध्यम से चिपकाया जा सकता है, जैसे माइक्रोसॉफ्ट ऑफिस से एक्सेल या ओपन ऑफिस से कैल्क। ऐसा करने के लिए, स्प्रेडशीट में, कॉपी करने के लिए डेटा की श्रेणी का चयन करें, क्लिपबोर्ड पर कॉपी करें, और डेटा को इस पृष्ठ पर डेटा फ़ील्ड में पेस्ट करें।

    न्यूनतम वर्ग विधि द्वारा गणना करने के लिए, दो गुणांक `बी` निर्धारित करने के लिए कम से कम दो बिंदुओं की आवश्यकता होती है - सीधी रेखा के झुकाव के कोण की स्पर्शरेखा और `ए` - `y पर सीधी रेखा द्वारा काटा गया मान `अक्ष.

    परिकलित प्रतिगमन गुणांक की त्रुटि का अनुमान लगाने के लिए, प्रयोगात्मक बिंदुओं की संख्या दो से अधिक निर्धारित करना आवश्यक है।

    न्यूनतम वर्ग विधि (एलएसएम)।

    प्रयोगात्मक बिंदुओं की संख्या जितनी अधिक होगी, गुणांक का सांख्यिकीय अनुमान उतना ही अधिक सटीक होगा (छात्र के गुणांक में कमी के कारण) और अनुमान सामान्य नमूने के अनुमान के जितना करीब होगा।

    प्रत्येक प्रयोगात्मक बिंदु पर मूल्य प्राप्त करना अक्सर महत्वपूर्ण श्रम लागत से जुड़ा होता है, इसलिए, प्रयोगों की एक समझौता संख्या अक्सर की जाती है, जो एक सुपाच्य अनुमान देता है और अत्यधिक श्रम लागत का कारण नहीं बनता है। एक नियम के रूप में, दो गुणांक वाले रैखिक न्यूनतम वर्ग निर्भरता के लिए प्रयोगात्मक बिंदुओं की संख्या 5-7 बिंदुओं के क्षेत्र में चुनी जाती है।

    रैखिक निर्भरता के लिए न्यूनतम वर्गों का एक संक्षिप्त सिद्धांत

    मान लीजिए कि हमारे पास मानों के जोड़े के रूप में प्रयोगात्मक डेटा का एक सेट है [`y_i`, `x_i`], जहां `i` 1 से `n` तक एक प्रयोगात्मक माप की संख्या है; `y_i` - बिंदु `i` पर मापा गया मान का मान; `x_i` - पैरामीटर का मान जिसे हम बिंदु `i` पर सेट करते हैं।

    एक उदाहरण ओम के नियम का संचालन है। विद्युत परिपथ के अनुभागों के बीच वोल्टेज (संभावित अंतर) को बदलकर, हम इस अनुभाग से गुजरने वाली धारा की मात्रा को मापते हैं। भौतिकी हमें प्रयोगात्मक रूप से पाई गई निर्भरता देती है:

    `आई=यू/आर`,
    जहां `मैं` - वर्तमान ताकत; `आर` - प्रतिरोध; `यू` - वोल्टेज।

    इस मामले में, `y_i` मापा गया वर्तमान मान है, और `x_i` वोल्टेज मान है।

    एक अन्य उदाहरण के रूप में, घोल में किसी पदार्थ के घोल द्वारा प्रकाश के अवशोषण पर विचार करें। रसायन विज्ञान हमें सूत्र देता है:

    `ए = εएल सी`,
    जहां `ए` समाधान का ऑप्टिकल घनत्व है; `ε` - विलेय संप्रेषण; `एल` - पथ की लंबाई जब प्रकाश एक समाधान के साथ क्युवेट से गुजरता है; `C` विलेय की सांद्रता है।

    इस मामले में, `y_i` मापा गया ऑप्टिकल घनत्व `A` है, और `x_i` उस पदार्थ की सांद्रता है जिसे हम निर्धारित करते हैं।

    हम उस मामले पर विचार करेंगे जब `x_i` सेट करने में सापेक्ष त्रुटि `y_i` मापने में सापेक्ष त्रुटि से बहुत कम है। हम यह भी मानेंगे कि `y_i` के सभी मापे गए मान यादृच्छिक और सामान्य रूप से वितरित हैं, अर्थात। सामान्य वितरण कानून का पालन करें.

    `y` की `x` पर रैखिक निर्भरता के मामले में, हम एक सैद्धांतिक निर्भरता लिख ​​सकते हैं:
    `y = a + bx`.

    ज्यामितीय दृष्टिकोण से, गुणांक `बी` `x` अक्ष पर रेखा के झुकाव के कोण के स्पर्शरेखा को दर्शाता है, और गुणांक `a` - के चौराहे के बिंदु पर `y` का मान है `y` अक्ष के साथ रेखा (`x = 0` के साथ)।

    प्रतिगमन रेखा के मापदंडों का पता लगाना।

    एक प्रयोग में, माप त्रुटियों के कारण `y_i` के मापा मान सैद्धांतिक रेखा पर बिल्कुल झूठ नहीं बोल सकते, जो हमेशा वास्तविक जीवन में अंतर्निहित होते हैं। इसलिए, एक रैखिक समीकरण को समीकरणों की एक प्रणाली द्वारा दर्शाया जाना चाहिए:
    `y_i = a + b x_i + ε_i` (1),
    जहां `ε_i` `i`वें प्रयोग में `y` की अज्ञात माप त्रुटि है।

    निर्भरता (1) भी कहा जाता है प्रतिगमन, अर्थात। सांख्यिकीय महत्व के साथ दो मात्राओं की एक दूसरे पर निर्भरता।

    निर्भरता को बहाल करने का कार्य प्रयोगात्मक बिंदुओं [`y_i`, `x_i`] से गुणांक `a` और `b` को खोजना है।

    गुणांक ज्ञात करने के लिए आमतौर पर `a` और `b` का उपयोग किया जाता है न्यूनतम वर्ग विधि(एमएनके)। यह अधिकतम संभावना सिद्धांत का एक विशेष मामला है।

    आइए (1) को `ε_i = y_i - a - b x_i` के रूप में फिर से लिखें।

    तब चुकता त्रुटियों का योग होगा
    `Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

    न्यूनतम वर्ग विधि का सिद्धांत पैरामीटर `ए` और `बी` के संबंध में योग (2) को कम करना है.

    न्यूनतम तब पहुँच जाता है जब गुणांक `ए` और `बी` के संबंध में योग (2) का आंशिक व्युत्पन्न शून्य के बराबर होता है:
    `frac(आंशिक Φ)(आंशिक a) = frac(आंशिक sum_(i=1)^(n) (y_i - a - b x_i)^2)(आंशिक a) = 0`
    `frac(आंशिक Φ)(आंशिक b) = frac(आंशिक sum_(i=1)^(n) (y_i - a - b x_i)^2)(आंशिक b) = 0`

    डेरिवेटिव का विस्तार करते हुए, हमें दो अज्ञात के साथ दो समीकरणों की एक प्रणाली प्राप्त होती है:
    `sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
    `sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

    हम कोष्ठक खोलते हैं और वांछित गुणांकों से स्वतंत्र योगों को दूसरे आधे भाग में स्थानांतरित करते हैं, हमें रैखिक समीकरणों की एक प्रणाली मिलती है:
    `sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
    `sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

    परिणामी प्रणाली को हल करते हुए, हम गुणांक `ए` और `बी` के लिए सूत्र पाते हैं:

    `a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2)` (3.1)

    `b = frac(n sum_(i=1)^(n) x_iy_i - sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (sum_(i=1)^(n) x_i)^2)` (3.2)

    इन सूत्रों में समाधान होते हैं जब `n > 1` (रेखा कम से कम 2 बिंदुओं का उपयोग करके खींची जा सकती है) और जब निर्धारक `D = n sum_(i=1)^(n) x_i^2 - (sum_(i= 1) )^(n) x_i)^2 != 0`, अर्थात. जब प्रयोग में `x_i` बिंदु भिन्न हों (अर्थात जब रेखा लंबवत न हो)।

    प्रतिगमन रेखा के गुणांकों में त्रुटियों का अनुमान

    गुणांक `ए` और `बी` की गणना में त्रुटि के अधिक सटीक अनुमान के लिए, बड़ी संख्या में प्रयोगात्मक बिंदु वांछनीय हैं। जब `n = 2`, तो गुणांक की त्रुटि का अनुमान लगाना असंभव है, क्योंकि अनुमानित रेखा विशिष्ट रूप से दो बिंदुओं से होकर गुजरेगी।

    यादृच्छिक चर `V` की त्रुटि निर्धारित की जाती है त्रुटि संचय कानून
    `S_V^2 = sum_(i=1)^p (frac(आंशिक f)(आंशिक z_i))^2 S_(z_i)^2`,
    जहां `p` `S_(z_i)` त्रुटि वाले `z_i` पैरामीटर की संख्या है जो `S_V` त्रुटि को प्रभावित करती है;
    `f` `z_i` पर `V` का निर्भरता फ़ंक्शन है।

    आइए गुणांक `ए` और `बी` की त्रुटि के लिए त्रुटियों के संचय का नियम लिखें
    `S_a^2 = sum_(i=1)^(n)(frac(आंशिक a)(आंशिक y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(आंशिक a) )(आंशिक x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(आंशिक a)(आंशिक y_i))^2 `,
    `S_b^2 = sum_(i=1)^(n)(frac(आंशिक b)(आंशिक y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(आंशिक b) )(आंशिक x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(आंशिक b)(आंशिक y_i))^2 `,
    क्योंकि `S_(x_i)^2 = 0` (हमने पहले आरक्षण दिया था कि `x` की त्रुटि नगण्य है)।

    `S_y^2 = S_(y_i)^2` - `y` आयाम में त्रुटि (विचरण, वर्ग मानक विचलन), यह मानते हुए कि त्रुटि सभी `y` मानों के लिए एक समान है।

    परिणामी अभिव्यक्तियों में `a` और `b` की गणना के लिए सूत्रों को प्रतिस्थापित करने पर, हमें मिलता है

    `S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

    `S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

    अधिकांश वास्तविक प्रयोगों में, `Sy` का मान मापा नहीं जाता है। ऐसा करने के लिए, योजना के एक या कई बिंदुओं पर कई समानांतर माप (प्रयोग) करना आवश्यक है, जिससे प्रयोग का समय (और संभवतः लागत) बढ़ जाता है। इसलिए, आमतौर पर यह माना जाता है कि प्रतिगमन रेखा से `y` के विचलन को यादृच्छिक माना जा सकता है। इस मामले में विचरण अनुमान `y` की गणना सूत्र द्वारा की जाती है।

    `S_y^2 = S_(y,rest)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

    भाजक `n-2` प्रकट होता है क्योंकि हमने प्रयोगात्मक डेटा के एक ही नमूने के लिए दो गुणांकों की गणना के कारण स्वतंत्रता की डिग्री की संख्या कम कर दी है।

    इस अनुमान को प्रतिगमन रेखा `S_(y,rest)^2` के सापेक्ष अवशिष्ट विचरण भी कहा जाता है।

    गुणांकों के महत्व का आकलन छात्र की कसौटी के अनुसार किया जाता है

    `t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

    यदि परिकलित मानदंड `t_a`, `t_b` तालिका मानदंड `t(P, n-2)` से कम हैं, तो यह माना जाता है कि संबंधित गुणांक दी गई संभावना `P` के साथ शून्य से काफी भिन्न नहीं है।

    एक रैखिक संबंध के विवरण की गुणवत्ता का आकलन करने के लिए, आप फिशर मानदंड का उपयोग करके माध्य के सापेक्ष `S_(y,rest)^2` और `S_(bar y)` की तुलना कर सकते हैं।

    `S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i=) 1)^n y_i) /n)^2) (n-1)` - माध्य के सापेक्ष `y` के विचरण का नमूना अनुमान।

    निर्भरता का वर्णन करने के लिए प्रतिगमन समीकरण की प्रभावशीलता का मूल्यांकन करने के लिए, फिशर गुणांक की गणना की जाती है
    `F = S_(बार y) / S_(y, बाकी)^2`,
    जिसकी तुलना सारणीबद्ध फिशर गुणांक `F(p, n-1, n-2)` से की जाती है।

    यदि `F > F(P, n-1, n-2)`, प्रतिगमन समीकरण का उपयोग करके निर्भरता के विवरण `y = f(x)` और माध्य का उपयोग करके विवरण के बीच का अंतर संभाव्यता के साथ सांख्यिकीय रूप से महत्वपूर्ण माना जाता है `पी`. वे। प्रतिगमन माध्य के चारों ओर `y` के प्रसार की तुलना में निर्भरता का बेहतर वर्णन करता है।

    चार्ट पर क्लिक करें
    तालिका में मान जोड़ने के लिए

    न्यूनतम वर्ग विधि. न्यूनतम वर्गों की विधि का अर्थ है अज्ञात मापदंडों ए, बी, सी, स्वीकृत कार्यात्मक निर्भरता का निर्धारण

    न्यूनतम वर्ग विधि का अर्थ है अज्ञात मापदंडों का निर्धारण ए, बी, सी,…स्वीकृत कार्यात्मक निर्भरता

    y = f(x,a,b,c,…),

    जो त्रुटि का न्यूनतम माध्य वर्ग (विचरण) प्रदान करेगा

    , (24)

    जहाँ x i , y i - प्रयोग से प्राप्त संख्याओं के युग्मों का समुच्चय।

    चूंकि कई चर वाले किसी फ़ंक्शन के चरम की स्थिति यह है कि इसका आंशिक व्युत्पन्न शून्य के बराबर है, तो पैरामीटर ए, बी, सी,…समीकरणों की प्रणाली से निर्धारित होते हैं:

    ; ; ; … (25)

    यह याद रखना चाहिए कि फ़ंक्शन के रूप के बाद पैरामीटर का चयन करने के लिए न्यूनतम वर्ग विधि का उपयोग किया जाता है वाई = एफ(एक्स)परिभाषित।

    यदि सैद्धांतिक विचारों से यह निष्कर्ष निकालना असंभव है कि अनुभवजन्य सूत्र क्या होना चाहिए, तो किसी को दृश्य अभ्यावेदन द्वारा निर्देशित किया जाना चाहिए, मुख्य रूप से देखे गए डेटा का चित्रमय प्रतिनिधित्व।

    व्यवहार में, यह प्रायः निम्नलिखित प्रकार के कार्यों तक सीमित होता है:

    1) रैखिक ;

    2) द्विघात ए .

    न्यूनतम वर्ग विधि का सार है एक प्रवृत्ति मॉडल के मापदंडों को खोजने में जो समय या स्थान में कुछ यादृच्छिक घटना के विकास की प्रवृत्ति का सबसे अच्छा वर्णन करता है (एक प्रवृत्ति एक रेखा है जो इस विकास की प्रवृत्ति को दर्शाती है)। न्यूनतम वर्ग विधि (ओएलएस) का कार्य न केवल कुछ ट्रेंड मॉडल ढूंढना है, बल्कि सर्वोत्तम या इष्टतम मॉडल ढूंढना है। यह मॉडल इष्टतम होगा यदि देखे गए वास्तविक मूल्यों और संबंधित गणना प्रवृत्ति मूल्यों के बीच वर्ग विचलन का योग न्यूनतम (सबसे छोटा) हो:

    प्रेक्षित वास्तविक मान के बीच मानक विचलन कहां है

    और संबंधित गणना प्रवृत्ति मूल्य,

    अध्ययन के तहत घटना का वास्तविक (मनाया गया) मूल्य,

    ट्रेंड मॉडल का अनुमानित मूल्य,

    अध्ययनाधीन घटना के अवलोकनों की संख्या।

    बहुराष्ट्रीय कंपनी का प्रयोग शायद ही कभी किया जाता है। एक नियम के रूप में, अक्सर इसका उपयोग केवल सहसंबंध अध्ययन में एक आवश्यक तकनीक के रूप में किया जाता है। यह याद रखना चाहिए कि एलएसएम का सूचना आधार केवल एक विश्वसनीय सांख्यिकीय श्रृंखला हो सकता है, और टिप्पणियों की संख्या 4 से कम नहीं होनी चाहिए, अन्यथा, एलएसएम की सुचारु प्रक्रियाएं अपना सामान्य ज्ञान खो सकती हैं।

    ओएलएस टूलकिट को निम्नलिखित प्रक्रियाओं में घटा दिया गया है:

    पहली प्रक्रिया. यह पता चलता है कि क्या चयनित कारक-तर्क बदलने पर परिणामी विशेषता में बदलाव की कोई प्रवृत्ति है, या दूसरे शब्दों में, क्या "के बीच कोई संबंध है" पर " और " एक्स ».

    दूसरी प्रक्रिया. यह निर्धारित किया जाता है कि कौन सी रेखा (प्रक्षेपवक्र) इस प्रवृत्ति का वर्णन या विशेषता बताने में सबसे सक्षम है।

    तीसरी प्रक्रिया.

    उदाहरण. मान लीजिए कि हमारे पास अध्ययन के तहत खेत के लिए औसत सूरजमुखी उपज की जानकारी है (तालिका 9.1)।

    तालिका 9.1

    अवलोकन संख्या

    उत्पादकता, सी/हे

    चूँकि हमारे देश में सूरजमुखी के उत्पादन में प्रौद्योगिकी का स्तर पिछले 10 वर्षों में बहुत अधिक नहीं बदला है, इसका मतलब है कि, सबसे अधिक संभावना है, विश्लेषण अवधि में उपज में उतार-चढ़ाव मौसम और जलवायु परिस्थितियों में उतार-चढ़ाव पर बहुत अधिक निर्भर था। क्या यह सच है?

    पहली एमएनसी प्रक्रिया. विश्लेषण किए गए 10 वर्षों में मौसम और जलवायु परिस्थितियों में बदलाव के आधार पर सूरजमुखी की उपज में बदलाव की प्रवृत्ति के अस्तित्व के बारे में परिकल्पना का परीक्षण किया जा रहा है।

    इस उदाहरण में, "के लिए » सूरजमुखी की उपज लेने की सलाह दी जाती है, और के लिए एक्स » विश्लेषित अवधि में देखे गए वर्ष की संख्या है। के बीच किसी भी रिश्ते के अस्तित्व के बारे में परिकल्पना का परीक्षण एक्स " और " »दो तरीकों से किया जा सकता है: मैन्युअल रूप से और कंप्यूटर प्रोग्राम की मदद से। निःसंदेह, कंप्यूटर प्रौद्योगिकी की उपलब्धता से यह समस्या अपने आप हल हो जाती है। लेकिन, ओएलएस टूलकिट को बेहतर ढंग से समझने के लिए, "के बीच संबंध के अस्तित्व के बारे में परिकल्पना का परीक्षण करना उचित है।" एक्स " और " » मैन्युअल रूप से, जब केवल एक पेन और एक साधारण कैलकुलेटर हाथ में हो। ऐसे मामलों में, किसी प्रवृत्ति के अस्तित्व की परिकल्पना को विश्लेषण की गई समय श्रृंखला - सहसंबंध क्षेत्र की ग्राफिक छवि के स्थान द्वारा सबसे अच्छी तरह से जांचा जाता है:

    हमारे उदाहरण में सहसंबंध क्षेत्र धीरे-धीरे बढ़ती हुई रेखा के आसपास स्थित है। यह अपने आप में सूरजमुखी की पैदावार में बदलाव की एक निश्चित प्रवृत्ति के अस्तित्व को इंगित करता है। किसी प्रवृत्ति की उपस्थिति के बारे में केवल तभी बोलना असंभव है जब सहसंबंध क्षेत्र एक वृत्त, एक वृत्त, एक सख्ती से ऊर्ध्वाधर या सख्ती से क्षैतिज बादल जैसा दिखता है, या इसमें बेतरतीब ढंग से बिखरे हुए बिंदु होते हैं। अन्य सभी मामलों में, "के बीच संबंध के अस्तित्व की परिकल्पना की पुष्टि करना आवश्यक है" एक्स " और " और अनुसंधान जारी रखें.

    दूसरी एमएनसी प्रक्रिया. यह निर्धारित किया जाता है कि कौन सी रेखा (प्रक्षेपवक्र) विश्लेषण की गई अवधि के लिए सूरजमुखी की उपज में बदलाव की प्रवृत्ति का वर्णन या विशेषता बताने में सबसे सक्षम है।

    कंप्यूटर प्रौद्योगिकी की उपलब्धता के साथ, इष्टतम प्रवृत्ति का चयन स्वचालित रूप से होता है। "मैनुअल" प्रसंस्करण के साथ, इष्टतम फ़ंक्शन का चुनाव, एक नियम के रूप में, दृश्य तरीके से किया जाता है - सहसंबंध क्षेत्र के स्थान के अनुसार। अर्थात्, चार्ट के प्रकार के अनुसार, रेखा के समीकरण का चयन किया जाता है, जो अनुभवजन्य प्रवृत्ति (वास्तविक प्रक्षेपवक्र के लिए) के लिए सबसे उपयुक्त है।

    जैसा कि आप जानते हैं, प्रकृति में कार्यात्मक निर्भरताओं की एक विशाल विविधता है, इसलिए उनमें से एक छोटे से हिस्से का भी दृश्य विश्लेषण करना बेहद मुश्किल है। सौभाग्य से, वास्तविक आर्थिक व्यवहार में, अधिकांश रिश्तों को या तो परवलय, या अतिपरवलय, या एक सीधी रेखा द्वारा सटीक रूप से वर्णित किया जा सकता है। इस संबंध में, सर्वोत्तम फ़ंक्शन का चयन करने के लिए "मैनुअल" विकल्प के साथ, आप स्वयं को केवल इन तीन मॉडलों तक सीमित कर सकते हैं।

    अतिपरवलय:

    दूसरे क्रम का परवलय: :

    यह देखना आसान है कि हमारे उदाहरण में, विश्लेषण किए गए 10 वर्षों में सूरजमुखी की उपज में बदलाव की प्रवृत्ति को एक सीधी रेखा द्वारा सबसे अच्छी तरह से चित्रित किया गया है, इसलिए प्रतिगमन समीकरण एक सीधी रेखा समीकरण होगा।

    तीसरी प्रक्रिया. इस रेखा की विशेषता बताने वाले प्रतिगमन समीकरण के मापदंडों की गणना की जाती है, या दूसरे शब्दों में, एक विश्लेषणात्मक सूत्र निर्धारित किया जाता है जो सर्वोत्तम प्रवृत्ति मॉडल का वर्णन करता है।

    प्रतिगमन समीकरण के मापदंडों के मूल्यों का पता लगाना, हमारे मामले में, पैरामीटर और, सबसे कम वर्गों का मूल है। यह प्रक्रिया सामान्य समीकरणों की एक प्रणाली को हल करने तक सिमट कर रह गई है।

    (9.2)

    समीकरणों की इस प्रणाली को गॉस विधि द्वारा काफी आसानी से हल किया जा सकता है। याद रखें कि समाधान के परिणामस्वरूप, हमारे उदाहरण में, मापदंडों के मान पाए जाते हैं। इस प्रकार, पाए गए प्रतिगमन समीकरण का निम्नलिखित रूप होगा:

    श्रेणियाँ

    लोकप्रिय लेख

    2023 "kingad.ru" - मानव अंगों की अल्ट्रासाउंड जांच