वितरण की एक अंतराल भिन्नता श्रृंखला लिखें। सांख्यिकीय सारांश और समूहीकरण

यदि अध्ययन के तहत यादृच्छिक चर निरंतर है, तो देखे गए मूल्यों की रैंकिंग और समूहीकरण अक्सर हमें इसके मूल्यों की भिन्नता की विशिष्ट विशेषताओं को उजागर करने की अनुमति नहीं देता है। यह इस तथ्य से समझाया गया है कि एक यादृच्छिक चर के अलग-अलग मान एक दूसरे से वांछित के रूप में भिन्न हो सकते हैं, और इसलिए, देखे गए डेटा की समग्रता में, मात्रा के समान मान शायद ही कभी हो सकते हैं, और आवृत्तियां वेरिएंट एक दूसरे से बहुत कम भिन्न होते हैं।

असतत यादृच्छिक चर के लिए असतत श्रृंखला का निर्माण करना भी अव्यावहारिक है, जिसके संभावित मानों की संख्या बड़ी है। ऐसे में निर्माण करना चाहिए अंतराल भिन्नता श्रृंखला वितरण।

ऐसी श्रृंखला का निर्माण करने के लिए, एक यादृच्छिक चर के देखे गए मूल्यों की भिन्नता के पूरे अंतराल को एक श्रृंखला में विभाजित किया जाता है आंशिक अंतराल और प्रत्येक आंशिक अंतराल में परिमाण मानों की घटना की आवृत्ति की गणना करना।

अंतराल भिन्नता श्रृंखलामूल्य के प्रत्येक मान में संबंधित आवृत्तियों या हिट की सापेक्ष आवृत्तियों के साथ एक यादृच्छिक चर के मूल्यों की भिन्नता के अंतराल का एक आदेशित सेट कहा जाता है।

अंतराल श्रृंखला बनाने के लिए, आपको चाहिए:

  1. परिभाषित करना कीमत आंशिक अंतराल;
  2. परिभाषित करना चौड़ाई अंतराल;
  3. प्रत्येक अंतराल के लिए सेट करें ऊपर और निम्न परिबंध ;
  4. अवलोकन के परिणामों को समूहीकृत करें।

1 . समूहीकरण अंतराल की संख्या और चौड़ाई को चुनने का प्रश्न प्रत्येक विशिष्ट मामले के आधार पर तय किया जाना है लक्ष्य शोध करना, आयतन नमूनाकरण और भिन्नता की डिग्री नमूने में सुविधा।

अंतराल की अनुमानित संख्या केवल नमूना आकार से अनुमान लगाया जा सकता है एन निम्नलिखित तरीकों में से एक में:

  • सूत्र के अनुसार स्टर्ज : के = 1 + 3.32 लॉग एन ;
  • तालिका 1 का उपयोग करना।

तालिका नंबर एक

2 . समान चौड़ाई के अंतराल आमतौर पर पसंद किए जाते हैं। अंतराल की चौड़ाई निर्धारित करने के लिए एच गणना करें:

  • भिन्नता की सीमा आर - नमूना मान: आर = एक्स अधिकतम - एक्स मिनट ,

कहाँ xmax और xmin - अधिकतम और न्यूनतम नमूना विकल्प;

  • प्रत्येक अंतराल की चौड़ाई एच निम्नलिखित सूत्र द्वारा निर्धारित: एच = आर / के .

3 . जमीनी स्तर पहला अंतराल एक्स एच 1 चुना जाता है ताकि न्यूनतम नमूना संस्करण हो xmin इस अंतराल के लगभग बीच में गिर गया: एक्स एच 1 = एक्स मिनट - 0.5 एच .

अंतरालपिछले अंतराल के अंत में आंशिक अंतराल की लंबाई जोड़कर प्राप्त किया गया एच :

xhi = xhi-1 +h.

अंतराल की सीमाओं की गणना के आधार पर अंतराल के पैमाने का निर्माण मूल्य तक जारी रहता है एक्स हाय संबंध को संतुष्ट करता है:

एक्स हाय< x max + 0,5·h .

4 . अंतराल के पैमाने के अनुसार, विशेषता के मूल्यों को समूहीकृत किया जाता है - प्रत्येक आंशिक अंतराल के लिए, आवृत्तियों के योग की गणना की जाती है एन मैं वेरिएंट पकड़ा गया मैं -वाँ अंतराल। इस मामले में, अंतराल में निचली सीमा से अधिक या बराबर और अंतराल की ऊपरी सीमा से कम यादृच्छिक चर के मान शामिल होते हैं।

बहुभुज और हिस्टोग्राम

स्पष्टता के लिए, सांख्यिकीय वितरण के विभिन्न रेखांकन बनाए गए हैं।

असतत परिवर्तनशील श्रृंखला के आंकड़ों के आधार पर, हम निर्माण करते हैं बहुभुज आवृत्तियों या सापेक्ष आवृत्तियों।

आवृत्ति बहुभुज एक्स 1 ; एन 1 ), (x2 ; एन 2 ), ..., (एक्स के ; एनके ). भुज अक्ष पर आवृत्तियों का बहुभुज बनाने के लिए, विकल्प अलग रखे गए हैं एक्स मैं , और y-अक्ष पर - संगत आवृत्तियाँ एन मैं . अंक ( एक्स मैं ; एन मैं ) सीधी रेखाओं के खंडों से जुड़े होते हैं और एक आवृत्ति बहुभुज प्राप्त होता है (चित्र 1)।

सापेक्ष आवृत्ति बहुभुजएक पॉलीलाइन कहलाती है जिसके खंड बिंदुओं को जोड़ते हैं ( एक्स 1 ; डब्ल्यू 1 ), (x2 ; डब्ल्यू 2 ), ..., (एक्स के ; सप्त ). एब्सिस्सा पर सापेक्ष आवृत्तियों के बहुभुज का निर्माण करने के लिए, विकल्पों को हटा दें एक्स मैं , और y- अक्ष पर - उनके अनुरूप सापेक्ष आवृत्तियाँ वाई के . अंक ( एक्स मैं ; वाई के ) सीधी रेखाओं के खंडों से जुड़े होते हैं और सापेक्ष आवृत्तियों का बहुभुज प्राप्त होता है।

कब निरंतर सुविधा बनाना समीचीन है हिस्टोग्राम .

आवृत्ति हिस्टोग्रामएक चरणबद्ध आकृति कहा जाता है जिसमें आयताकार होते हैं जिनके आधार लंबाई के आंशिक अंतराल होते हैं एच , और ऊंचाई अनुपात के बराबर हैं एनआईएच (आवृत्ति घनत्व)।

फ़्रीक्वेंसी का हिस्टोग्राम बनाने के लिए, आंशिक अंतराल को एब्सिस्सा अक्ष पर प्लॉट किया जाता है, और उनके ऊपर कुछ दूरी पर एब्सिस्सा अक्ष के समानांतर खंड खींचे जाते हैं एनआईएच .

समूहों की संख्या (अंतराल)लगभग स्टर्गेस सूत्र द्वारा निर्धारित किया जाता है:

एम = 1 + 3.322 × लॉग (एन)

जहां n अवलोकन की इकाइयों की कुल संख्या है (आबादी में तत्वों की कुल संख्या, आदि), lg(n) n का दशमलव लघुगणक है।

प्राप्त स्टर्गेस सूत्र के अनुसार, मान आमतौर पर एक पूरे बड़े तक गोल होता हैसंख्याएँ, क्योंकि समूहों की संख्या भिन्नात्मक संख्या नहीं हो सकती।

यदि इतने सारे समूहों के साथ अंतराल श्रृंखला की श्रृंखला कुछ मानदंडों से संतुष्ट नहीं होती है, तो एक और अंतराल श्रृंखला का निर्माण किया जा सकता है एमएक पूर्णांक छोटी संख्या के लिए और दो पंक्तियों में से सबसे उपयुक्त चुनें।

समूहों की संख्या 15 से अधिक नहीं होनी चाहिए।

यदि दशमलव लघुगणक की गणना करना संभव नहीं है, तो आप निम्न तालिका का भी उपयोग कर सकते हैं।

    अंतराल की चौड़ाई का निर्धारण

अंतराल चौड़ाईअंतराल भिन्नता श्रृंखला के लिए समान अंतराल के साथ सूत्र द्वारा निर्धारित किया जाता है:

जहाँ X अधिकतम x i का अधिकतम मान है, X मिनट x i का न्यूनतम मान है; मी - समूहों की संख्या (अंतराल)।

अंतराल मान (मैं ) आमतौर पर निकटतम पूर्ण संख्या में गोल होते हैं,एकमात्र अपवाद ऐसे मामले हैं जब किसी विशेषता के मामूली उतार-चढ़ाव का अध्ययन किया जाता है (उदाहरण के लिए, जब नाममात्र मूल्य से विचलन के आकार के अनुसार भागों को समूहीकृत किया जाता है, जिसे एक मिलीमीटर के अंशों में मापा जाता है)।

निम्नलिखित नियम अक्सर लागू होता है:

दशमलव स्थानों की संख्या

अल्पविराम के बाद कई प्रतीक

सूत्र के अनुसार अंतराल की चौड़ाई का एक उदाहरण

हम किस चिन्ह पर चक्कर लगा रहे हैं

राउंडेड स्पेसिंग चौड़ाई का उदाहरण

    हम अंतराल की सीमाओं को परिभाषित करते हैं

निम्न परिबंध पहला अंतरालविशेषता के न्यूनतम मूल्य के बराबर लिया जाता है (अक्सर यह अंतराल की चौड़ाई के समान अंक के साथ एक छोटे पूर्णांक के लिए प्रारंभिक रूप से गोल होता है)। उदाहरण के लिए, पहले अंतराल का x मिनट = 15, i=130, x n = 10।

x n1 ≈ x मिनट

ऊपरी सीमापहला अंतराल मूल्य से मेल खाता है (Хmin + मैं).

दूसरे अंतराल की निचली सीमा हमेशा पहले अंतराल की ऊपरी सीमा के बराबर होती है। बाद के समूहों के लिए, सीमाएं समान रूप से निर्धारित की जाती हैं, अर्थात, अंतराल का मान क्रमिक रूप से जोड़ा जाता है।

एक्स वी मैं = एक्स एन मैं + मैं

एक्स एन मैं = एक्स वी मैं -1

    हम अंतराल की आवृत्तियों का निर्धारण करते हैं।

हम विचार करते हैं कि प्रत्येक अंतराल में कितने मान गिरे। उसी समय, याद रखें कि यदि किसी इकाई में अंतराल की ऊपरी सीमा के मूल्य के बराबर एक सुविधा मूल्य है, तो इसे अगले अंतराल के लिए जिम्मेदार ठहराया जाना चाहिए।

    हम तालिका के रूप में एक अंतराल श्रृंखला बनाते हैं।

    अंतराल के मध्य बिंदु निर्धारित करें।

अंतराल श्रृंखला के आगे के विश्लेषण के लिए, आपको प्रत्येक अंतराल के लिए एक विशेषता मान का चयन करना होगा। यह सुविधा मान इस अंतराल के अंतर्गत आने वाली सभी अवलोकन इकाइयों के लिए सामान्य होगा। वे। अलग-अलग तत्व अपने व्यक्तिगत विशेषता मूल्यों को "खो" देते हैं और उन्हें एक सामान्य विशेषता मूल्य सौंपा जाता है। यह सामान्य मूल्य है अंतराल के मध्य, जिसे निरूपित किया जाता है एक्स" मैं .

बच्चों के विकास के उदाहरण का उपयोग करके विचार करें कि समान अंतराल के साथ एक अंतराल श्रृंखला कैसे बनाई जाए।

शुरुआती आंकड़े हैं।

90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

कई मामलों में, यदि सांख्यिकीय आबादी में एक बड़ी या इससे भी अधिक अनंत संख्या में विकल्प शामिल हैं, जो अक्सर निरंतर भिन्नता के साथ सामना किया जाता है, तो प्रत्येक विकल्प के लिए इकाइयों का एक समूह बनाना व्यावहारिक रूप से असंभव और अव्यावहारिक है। ऐसे मामलों में, सांख्यिकीय इकाइयों का समूहों में जुड़ाव अंतराल के आधार पर ही संभव है, अर्थात ऐसा समूह जिसमें भिन्न गुण के मानों की निश्चित सीमा होती है। इन सीमाओं को प्रत्येक समूह की ऊपरी और निचली सीमाओं को इंगित करने वाली दो संख्याओं द्वारा दर्शाया गया है। अंतरालों के उपयोग से अंतराल वितरण श्रृंखला का निर्माण होता है।

अंतराल रेडएक परिवर्तनशील श्रृंखला है, जिसके वेरिएंट को अंतराल के रूप में प्रस्तुत किया जाता है।

अंतराल श्रृंखला को समान और असमान अंतराल के साथ बनाया जा सकता है, जबकि इस श्रृंखला के निर्माण के सिद्धांत का चुनाव मुख्य रूप से सांख्यिकीय आबादी की प्रतिनिधित्व और सुविधा की डिग्री पर निर्भर करता है। यदि सेट इकाइयों की संख्या के संदर्भ में पर्याप्त रूप से बड़ा (प्रतिनिधि) है और रचना में काफी सजातीय है, तो अंतराल श्रृंखला के गठन को समान अंतराल पर आधारित करने की सलाह दी जाती है। आमतौर पर, इस सिद्धांत के अनुसार, उन आबादी के लिए एक अंतराल श्रृंखला बनाई जाती है जहां भिन्नता की सीमा अपेक्षाकृत छोटी होती है, अर्थात। अधिकतम और न्यूनतम संस्करण आमतौर पर एक दूसरे से कई बार भिन्न होते हैं। इस मामले में, समान अंतरालों के मान की गणना विशेषता भिन्नता की सीमा के अनुपात द्वारा बनाई गई अंतरालों की दी गई संख्या से की जाती है। बराबर निर्धारित करना औरअंतराल, स्टर्गेस सूत्र का उपयोग किया जा सकता है (आमतौर पर अंतराल सुविधाओं में एक छोटे से बदलाव और सांख्यिकीय आबादी में बड़ी संख्या में इकाइयों के साथ):

जहां x मैं - एक समान अंतराल का मान; एक्स अधिकतम, एक्स मिनट - सांख्यिकीय आबादी में अधिकतम और न्यूनतम विकल्प; एन . - जनसंख्या में इकाइयों की संख्या।

उदाहरण. सीज़ियम के साथ रेडियोधर्मी संदूषण के घनत्व के अनुसार एक समान अंतराल के आकार की गणना करना उचित है - मोगिलेव क्षेत्र के क्रास्नोपोलस्की जिले की 100 बस्तियों में 137, अगर यह ज्ञात है कि प्रारंभिक (न्यूनतम) संस्करण I किमी के बराबर है / किमी 2, फाइनल (अधिकतम) - 65 किमी / किमी 2। सूत्र 5.1 का उपयोग करना। हम पाते हैं:

इसलिए, सीज़ियम प्रदूषण के घनत्व के लिए समान अंतराल के साथ एक अंतराल श्रृंखला बनाने के लिए - क्रास्नोपोलस्की जिले की 137 बस्तियाँ, एक समान अंतराल का आकार 8 किमी / किमी 2 हो सकता है।

असमान वितरण की स्थिति में अर्थात जब अधिकतम और न्यूनतम विकल्प सैकड़ों बार हों, तो अंतराल श्रृंखला बनाते समय, आप सिद्धांत लागू कर सकते हैं असमानअंतराल। जैसे ही आप सुविधा के बड़े मूल्यों पर जाते हैं, असमान अंतराल आमतौर पर बढ़ जाते हैं।

अंतराल का आकार बंद और खुला हो सकता है। बंद किया हुआयह उन अंतरालों को नाम देने की प्रथा है जिनके लिए निचली और ऊपरी दोनों सीमाएँ इंगित की गई हैं। खुलाअंतराल की केवल एक सीमा होती है: पहले अंतराल में - ऊपरी, आखिरी में - निचली सीमा।

अंतराल श्रृंखला का मूल्यांकन करने की सलाह दी जाती है, विशेष रूप से उन असमान अंतरालों को ध्यान में रखते हुए वितरण घनत्व, अंतराल के आकार के लिए स्थानीय आवृत्ति (या आवृत्ति) का अनुपात कौन सा गणना करने का सबसे आसान तरीका है।

अंतराल श्रृंखला के व्यावहारिक गठन के लिए, आप तालिका के लेआउट का उपयोग कर सकते हैं। 5.3।

टी ए बी एल ई 5.3। सीज़ियम -137 के साथ रेडियोधर्मी संदूषण के घनत्व के अनुसार क्रास्नोपोलस्की जिले में बस्तियों की एक अंतराल श्रृंखला के गठन की प्रक्रिया

अंतराल श्रृंखला का मुख्य लाभ इसकी सीमा है सघनता।उसी समय, वितरण की अंतराल श्रृंखला में, विशेषता के अलग-अलग वेरिएंट इसी अंतराल में छिपे होते हैं

जब आयताकार निर्देशांक की एक प्रणाली में एक अंतराल श्रृंखला का एक ग्राफिकल प्रतिनिधित्व होता है, तो अंतराल की ऊपरी सीमाओं को भुज अक्ष पर प्लॉट किया जाता है, और श्रृंखला की स्थानीय आवृत्तियाँ कोटि अक्ष पर होती हैं। एक अंतराल श्रृंखला का ग्राफिकल निर्माण एक वितरण बहुभुज के निर्माण से भिन्न होता है जिसमें प्रत्येक अंतराल की निचली और ऊपरी सीमा होती है, और दो भुज समन्वय के किसी भी मूल्य के अनुरूप होते हैं। इसलिए, अंतराल श्रृंखला के ग्राफ़ पर, बहुभुज के रूप में एक बिंदु नहीं, बल्कि दो बिंदुओं को जोड़ने वाली रेखा को चिह्नित किया जाता है। ये क्षैतिज रेखाएँ एक दूसरे से खड़ी रेखाओं से जुड़ी होती हैं और एक चरणबद्ध बहुभुज की आकृति प्राप्त होती है, जिसे सामान्यतः कहा जाता है हिस्टोग्रामवितरण (चित्र 5.3)।

पर्याप्त रूप से बड़ी सांख्यिकीय आबादी के लिए अंतराल श्रृंखला के ग्राफिकल निर्माण में, हिस्टोग्राम दृष्टिकोण सममितवितरण प्रपत्र। उन मामलों में जहां सांख्यिकीय आबादी छोटी है, एक नियम के रूप में, यह बनती है असममितबार चार्ट।

कुछ मामलों में, कई संचित आवृत्तियों के निर्माण में समीचीनता होती है, अर्थात। संचयीपंक्ति। असतत या अंतराल वितरण श्रृंखला के आधार पर एक संचयी श्रृंखला बनाई जा सकती है। जब एक संचयी श्रृंखला को ग्राफिक रूप से आयताकार निर्देशांक की एक प्रणाली में प्रदर्शित किया जाता है, तो एब्सिस्सा अक्ष पर विकल्पों को प्लॉट किया जाता है, और संचित आवृत्तियों (आवृत्तियों) को ऑर्डिनेट अक्ष पर प्लॉट किया जाता है। परिणामी वक्र रेखा कहलाती है संचयीवितरण (चित्र 5.4)।

विभिन्न प्रकार की परिवर्तनशील श्रृंखलाओं का गठन और चित्रमय प्रतिनिधित्व मुख्य सांख्यिकीय विशेषताओं की सरलीकृत गणना में योगदान देता है, जिस पर विषय 6 में विस्तार से चर्चा की गई है, सांख्यिकीय आबादी के वितरण के नियमों के सार को बेहतर ढंग से समझने में मदद करता है। भिन्नता श्रृंखला का विश्लेषण उन मामलों में विशेष महत्व रखता है जहां वेरिएंट और फ़्रीक्वेंसी (आवृत्तियों) के बीच संबंधों की पहचान करना और उनका पता लगाना आवश्यक है। यह निर्भरता इस तथ्य में प्रकट होती है कि प्रत्येक संस्करण के लिए मामलों की संख्या एक निश्चित तरीके से इस संस्करण के मूल्य से संबंधित है, अर्थात। इन मूल्यों की आवृत्ति (आवृत्ति) के अलग-अलग संकेतों के मूल्यों में वृद्धि के साथ, वे कुछ निश्चित, व्यवस्थित परिवर्तनों का अनुभव करते हैं। इसका मतलब यह है कि आवृत्तियों (आवृत्तियों) के कॉलम में संख्याएं अराजक उतार-चढ़ाव के अधीन नहीं हैं, लेकिन एक निश्चित क्रम और क्रम में एक निश्चित दिशा में बदलती हैं।

यदि उनके परिवर्तनों में बारंबारता एक निश्चित व्यवस्थितता दिखाती है, तो इसका मतलब है कि हम पैटर्न की पहचान करने के रास्ते पर हैं। बदलती आवृत्तियों में प्रणाली, क्रम, क्रम सामान्य कारणों, सामान्य स्थितियों का प्रतिबिंब है जो संपूर्ण जनसंख्या की विशेषता है।

यह नहीं मान लेना चाहिए कि वितरण का पैटर्न हमेशा बना-बनाया होता है। ऐसी बहुत सी परिवर्तनशील श्रृंखलाएँ हैं जिनमें आवृत्तियाँ विचित्र रूप से उछलती हैं, या तो बढ़ती हैं या घटती हैं। ऐसे मामलों में, यह पता लगाने की सलाह दी जाती है कि शोधकर्ता किस प्रकार के वितरण से निपट रहा है: या तो यह वितरण पैटर्न में निहित नहीं है, या इसकी प्रकृति अभी तक पहचानी नहीं गई है: पहला मामला दुर्लभ है, जबकि दूसरा, दूसरा मामला एक बार-बार और बहुत ही सामान्य घटना है।

इसलिए, एक अंतराल श्रृंखला बनाते समय, सांख्यिकीय इकाइयों की कुल संख्या छोटी हो सकती है, और प्रत्येक अंतराल में बहुत कम संख्या में विकल्प आते हैं (उदाहरण के लिए, 1-3 इकाइयाँ)। ऐसे मामलों में, किसी नियमितता के प्रकटीकरण पर भरोसा करना जरूरी नहीं है। यादृच्छिक अवलोकनों के आधार पर नियमित परिणाम प्राप्त करने के लिए, बड़ी संख्या के कानून को लागू होना चाहिए, यानी। ताकि प्रत्येक अंतराल के लिए कई नहीं, बल्कि दसियों और सैकड़ों सांख्यिकीय इकाइयाँ हों। इसके लिए, हमें यथासंभव अधिक से अधिक अवलोकनों की संख्या बढ़ाने का प्रयास करना चाहिए। सामूहिक प्रक्रियाओं में पैटर्न का पता लगाने का यह सबसे पक्का तरीका है। यदि अवलोकनों की संख्या बढ़ाने का कोई वास्तविक अवसर नहीं है, तो वितरण श्रृंखला में अंतरालों की संख्या को कम करके पैटर्न की पहचान प्राप्त की जा सकती है। विविधता श्रृंखला में अंतरालों की संख्या कम करना, जिससे प्रत्येक अंतराल में आवृत्तियों की संख्या में वृद्धि होती है। इसका मतलब यह है कि प्रत्येक सांख्यिकीय इकाई के यादृच्छिक उतार-चढ़ाव एक दूसरे पर आरोपित होते हैं, "सुचारू", एक पैटर्न में बदल जाते हैं।

परिवर्तनशील श्रृंखला का गठन और निर्माण आपको सांख्यिकीय आबादी के वितरण की केवल एक सामान्य, अनुमानित तस्वीर प्राप्त करने की अनुमति देता है। उदाहरण के लिए, एक हिस्टोग्राम केवल मोटे तौर पर एक विशेषता के मूल्यों और इसकी आवृत्तियों (आवृत्तियों) के बीच के संबंध को व्यक्त करता है। इसलिए, परिवर्तनशील श्रृंखला अनिवार्य रूप से केवल एक स्थिर वितरण की आंतरिक नियमितता के गहन अध्ययन का आधार है।

टॉपिक 5 प्रश्न

1. विचरण क्या है? एक सांख्यिकीय आबादी में एक विशेषता की भिन्नता का क्या कारण बनता है?

2. सांख्यिकी में किस प्रकार के चर चिह्न हो सकते हैं?

3. विचरण श्रृंखला क्या है? विविधता श्रृंखला के प्रकार क्या हैं?

4. रैंक श्रृंखला क्या है? इसके फायदे और नुकसान क्या हैं?

5. असतत श्रृंखला क्या है और इसके क्या फायदे और नुकसान हैं?

6. अंतराल श्रृंखला के गठन का क्रम क्या है, इसके फायदे और नुकसान क्या हैं?

7. रैंक, असतत, अंतराल वितरण श्रृंखला का ग्राफिकल प्रतिनिधित्व क्या है?

8. वितरण संचयी क्या है और इसकी विशेषता क्या है?

गणित के आँकड़े- वैज्ञानिक और व्यावहारिक निष्कर्ष के लिए सांख्यिकीय डेटा के प्रसंस्करण, व्यवस्थितकरण और उपयोग के गणितीय तरीकों के लिए समर्पित गणित का एक भाग।

3.1। गणितीय सांख्यिकी की बुनियादी अवधारणाएँ

बायोमेडिकल समस्याओं में, बहुत बड़ी संख्या में व्यक्तियों के लिए एक या दूसरे लक्षण के वितरण की जांच करना अक्सर आवश्यक होता है। अलग-अलग व्यक्तियों के लिए, इस विशेषता का एक अलग अर्थ है, इसलिए यह एक यादृच्छिक चर है। उदाहरण के लिए, किसी भी चिकित्सीय दवा की अलग-अलग रोगियों पर लागू होने पर अलग-अलग प्रभावकारिता होती है। हालांकि, इस दवा की प्रभावशीलता का अंदाजा लगाने के लिए, इसे लागू करना आवश्यक नहीं है सब लोगबीमार। उपचार प्रक्रिया की आवश्यक विशेषताओं (प्रभावकारिता, contraindications) की पहचान करने के लिए प्राप्त आंकड़ों के आधार पर, रोगियों के अपेक्षाकृत छोटे समूह में दवा का उपयोग करने के परिणामों का पता लगाना संभव है।

जनसंख्या- सजातीय तत्वों का एक सेट जिसका अध्ययन किया जाना है, कुछ विशेषताओं की विशेषता है। यह चिन्ह है निरंतरवितरण घनत्व के साथ यादृच्छिक चर च (एक्स)।

उदाहरण के लिए, यदि हम एक निश्चित क्षेत्र में किसी बीमारी की व्यापकता में रुचि रखते हैं, तो सामान्य जनसंख्या क्षेत्र की पूरी जनसंख्या है। यदि हम पुरुषों और महिलाओं की इस बीमारी की अलग-अलग संवेदनशीलता का पता लगाना चाहते हैं, तो दो सामान्य आबादी पर विचार किया जाना चाहिए।

सामान्य जनसंख्या के गुणों का अध्ययन करने के लिए, इसके तत्वों का एक निश्चित भाग चुना जाता है।

नमूना- परीक्षा (उपचार) के लिए चुनी गई सामान्य आबादी का हिस्सा।

यदि यह भ्रम पैदा नहीं करता है, तो नमूने को कहा जाता है वस्तुओं का संग्रहपरीक्षा के लिए चयनित, और समग्रता

मानअध्ययन के तहत विशेषता, परीक्षा के दौरान प्राप्त की। इन मूल्यों को कई तरह से दर्शाया जा सकता है।

सरल सांख्यिकीय श्रृंखला -अध्ययन के तहत विशेषता के मूल्य, जिस क्रम में उन्हें प्राप्त किया गया था, उसमें दर्ज किया गया।

20 रोगियों के माथे की त्वचा में सरफेस वेव वेलोसिटी (एम/एस) को मापकर प्राप्त एक साधारण सांख्यिकीय श्रृंखला का एक उदाहरण तालिका में दिखाया गया है। 3.1।

तालिका 3.1।सरल सांख्यिकीय श्रृंखला

सर्वेक्षण परिणामों को रिकॉर्ड करने के लिए एक साधारण सांख्यिकीय श्रृंखला मुख्य और सबसे पूर्ण तरीका है। इसमें सैकड़ों तत्व हो सकते हैं। इस तरह के समुच्चय को एक नज़र में देखना बहुत मुश्किल है। इसलिए, बड़े नमूने आमतौर पर समूहों में विभाजित होते हैं। ऐसा करने के लिए, विशेषता के परिवर्तन का क्षेत्र कई (एन) में बांटा गया है अंतरालसमान चौड़ाई की और इन अंतरालों में आने वाली विशेषता की सापेक्ष आवृत्तियों (n/n) की गणना करें। प्रत्येक अंतराल की चौड़ाई है:

अंतराल की सीमाओं के निम्नलिखित अर्थ हैं:

यदि नमूने का कोई तत्व दो आसन्न अंतरालों के बीच की सीमा है, तो इसे कहा जाता है बाएंमध्यान्तर। इस तरह से समूहीकृत डेटा को कहा जाता है अंतराल सांख्यिकीय श्रृंखला।

- यह एक तालिका है जो विशेषता के मूल्यों के अंतराल और इन अंतरालों में गिरने वाले लक्षण की सापेक्ष आवृत्तियों को दर्शाती है।

हमारे मामले में, हम बना सकते हैं, उदाहरण के लिए, ऐसी एक अंतराल सांख्यिकीय श्रृंखला (N = 5, डी= 4), टैब। 3.2।

तालिका 3.2।अंतराल सांख्यिकीय श्रृंखला

यहां, 28 के बराबर दो मान अंतराल 28-32 (तालिका 3.1) को निर्दिष्ट किए गए हैं, और मान 32, 33, 34 और 35 अंतराल 32-36 को निर्दिष्ट किए गए हैं।

एक अंतराल सांख्यिकीय श्रृंखला को रेखांकन द्वारा दर्शाया जा सकता है। ऐसा करने के लिए, चारित्रिक मानों के अंतराल को एब्सिस्सा अक्ष के साथ प्लॉट किया जाता है, और उनमें से प्रत्येक के आधार पर, सापेक्ष आवृत्ति के बराबर ऊँचाई के साथ एक आयत बनाया जाता है। परिणामी बार चार्ट कहा जाता है हिस्टोग्राम।

चावल। 3.1।बार चार्ट

हिस्टोग्राम पर, फीचर के वितरण के सांख्यिकीय पैटर्न काफी स्पष्ट रूप से दिखाई देते हैं।

एक बड़े नमूना आकार (कई हजार) और स्तंभों की एक छोटी चौड़ाई के साथ, हिस्टोग्राम का आकार ग्राफ के आकार के करीब होता है वितरण घनत्वसंकेत।

निम्नलिखित सूत्र का उपयोग करके हिस्टोग्राम के स्तंभों की संख्या का चयन किया जा सकता है:

मैन्युअल रूप से हिस्टोग्राम बनाना एक लंबी प्रक्रिया है। इसलिए, उनके स्वचालित निर्माण के लिए कंप्यूटर प्रोग्राम विकसित किए गए हैं।

3.2। सांख्यिकीय श्रृंखला की संख्यात्मक विशेषताएं

कई सांख्यिकीय प्रक्रियाएं जनसंख्या के माध्य और भिन्नता (या मानक विचलन) के लिए नमूना अनुमानों का उपयोग करती हैं।

नमूना माध्य(एक्स) एक साधारण सांख्यिकीय श्रृंखला के सभी तत्वों का अंकगणितीय माध्य है:

हमारे उदाहरण के लिए एक्स= 37.05 (एम/एस)।

नमूना माध्य हैसर्वश्रेष्ठसामान्य औसत का अनुमानएम।

नमूना विचरण एस 2द्वारा विभाजित नमूना माध्य से तत्वों के वर्ग विचलन के योग के बराबर है एन- 1:

हमारे उदाहरण में, एस 2 \u003d 25.2 (एम / एस) 2।

कृपया ध्यान दें कि नमूना विचरण की गणना करते समय, सूत्र का भाजक नमूना आकार n नहीं, बल्कि n-1 होता है। यह इस तथ्य के कारण है कि सूत्र (3.3) में विचलन की गणना करते समय, अज्ञात गणितीय अपेक्षा के बजाय, इसके अनुमान का उपयोग किया जाता है - नमूना माध्य।

नमूना विचरण है सर्वश्रेष्ठसामान्य विचरण का अनुमान (σ 2)।

नमूना मानक विचलन(एस) नमूना भिन्नता का वर्गमूल है:

हमारे उदाहरण के लिए एस= 5.02 (एम/एस)।

चयनात्मक आरएमएसविचलन सामान्य आरएमएसई (σ) का सबसे अच्छा अनुमान है।

नमूना आकार में असीमित वृद्धि के साथ, सभी नमूना विशेषताएँ सामान्य जनसंख्या की संगत विशेषताओं की ओर प्रवृत्त होती हैं।

नमूना विशेषताओं की गणना करने के लिए, कंप्यूटर फ़ार्मुलों का उपयोग किया जाता है। एक्सेल में, ये गणना सांख्यिकीय कार्य औसत, VARR करती हैं। STDEV।

3.3। अंतराल अनुमान

सभी नमूना विशेषताएँ हैं यादृच्छिक मूल्य।इसका मतलब यह है कि एक ही आकार के दूसरे नमूने के लिए, नमूना विशेषताओं के मूल्य अलग-अलग होंगे। इस प्रकार, चयनात्मक

विशेषताएँ ही हैं अनुमानसामान्य आबादी की प्रासंगिक विशेषताएं।

यह चयनात्मक मूल्यांकन की कमियों की भरपाई करता है अंतराल अनुमान,का प्रतिनिधित्व संख्या अंतराल,जिसके अंदर एक दी गई संभावना के साथ आर डीअनुमानित पैरामीटर का सही मान पाया जाता है।

होने देना यू आर - सामान्य जनसंख्या के कुछ पैरामीटर (सामान्य माध्य, सामान्य विचरण, आदि)।

अंतराल अनुमानपैरामीटर यू आर को अंतराल कहा जाता है (यू 1, यू 2),शर्त को पूरा करना:

पी (यू < Ur < U2) = Рд. (3.5)

संभावना आर डीबुलाया आत्मविश्वास की संभावना।

आत्मविश्वास की संभावना पीडी - संभावना है कि अनुमानित मात्रा का सही मूल्य है अंदरनिर्दिष्ट अंतराल।

उसी समय, अंतराल (यू 1, यू 2)बुलाया विश्वास अंतरालअनुमानित पैरामीटर के लिए

अक्सर, विश्वास संभावना के बजाय संबद्ध मान α = 1 - R d, जिसे कहा जाता है महत्वपूर्ण स्तर।

महत्वपूर्ण स्तरसंभावना है कि अनुमानित पैरामीटर का सही मान है बाहरविश्वास अंतराल।

कभी-कभी α और R d को प्रतिशत के रूप में व्यक्त किया जाता है, उदाहरण के लिए, 0.05 के बजाय 5% और 0.95 के बजाय 95%।

अंतराल अनुमान में, पहले उपयुक्त चुनें आत्मविश्वास स्तर(आमतौर पर 0.95 या 0.99), और फिर अनुमानित पैरामीटर के मूल्यों के संगत अंतराल का पता लगाएं।

हम अंतराल अनुमानों के कुछ सामान्य गुणों पर ध्यान देते हैं।

1. महत्व का स्तर जितना कम होगा (उतना ही अधिक आर डी),व्यापक अंतराल अनुमान। इसलिए, यदि 0.05 के महत्व स्तर पर सामान्य माध्य का अंतराल अनुमान 34.7 है< एम< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < एम< 40,25.

2. नमूना आकार जितना बड़ा होगा एन,महत्व के चयनित स्तर के साथ अंतराल अनुमान जितना संकीर्ण होगा। मान लीजिए, उदाहरण के लिए, 5 20 वस्तुओं के नमूने से प्राप्त सामान्य औसत (β=0.05) का प्रतिशत अनुमान है, तो 34.7< एम< 39,4.

नमूना आकार को 80 तक बढ़ाकर, हम समान महत्व स्तर पर अधिक सटीक अनुमान प्राप्त करेंगे: 35.5< एम< 38,6.

सामान्य स्थिति में, विश्वसनीय विश्वास अनुमानों के निर्माण के लिए कानून के ज्ञान की आवश्यकता होती है जिसके अनुसार अनुमानित यादृच्छिक विशेषता सामान्य जनसंख्या में वितरित की जाती है। विचार करें कि अंतराल अनुमान कैसे बनाया जाता है सामान्य औसतविशेषता, जो सामान्य आबादी में के अनुसार वितरित की जाती है सामान्यकानून।

3.4। सामान्य वितरण कानून के लिए सामान्य माध्य का अंतराल अनुमान

सामान्य वितरण कानून के साथ सामान्य आबादी के लिए सामान्य माध्य एम के अंतराल अनुमान का निर्माण निम्नलिखित संपत्ति पर आधारित है। वॉल्यूम सैंपलिंग के लिए एननज़रिया

स्वतंत्रता ν = की डिग्री की संख्या के साथ छात्र वितरण का पालन करता है एन- 1.

यहाँ एक्सनमूना माध्य है, और एस- चयनात्मक मानक विचलन।

छात्र की वितरण तालिका या उनके कंप्यूटर एनालॉग का उपयोग करके, कोई ऐसा सीमा मान पा सकता है कि एक निश्चित विश्वास संभावना के साथ निम्नलिखित असमानता संतुष्ट हो:

यह असमानता एम के लिए असमानता से मेल खाती है:

कहाँ ε कॉन्फ़िडेंस इंटरवल की आधी-चौड़ाई है।

इस प्रकार, M के लिए एक विश्वास अंतराल का निर्माण निम्नलिखित क्रम में किया जाता है।

1. आत्मविश्वास की संभावना पी डी (आमतौर पर 0.95 या 0.99) चुनें और इसके लिए, छात्र की वितरण तालिका के अनुसार, पैरामीटर टी पाया जाता है

2. विश्वास अंतराल ε की आधी-चौड़ाई की गणना करें:

3. चयनित विश्वास संभावना के साथ सामान्य औसत का एक अंतराल अनुमान प्राप्त किया जाता है:

इसे संक्षेप में इस प्रकार लिखा गया है:

अंतराल अनुमानों को खोजने के लिए कंप्यूटर प्रक्रियाएं विकसित की गई हैं।

आइए बताते हैं कि छात्र की वितरण तालिका का उपयोग कैसे करें। इस तालिका में दो "प्रवेश द्वार" हैं: बायां स्तंभ, जिसे स्वतंत्रता की डिग्री की संख्या ν = कहा जाता है एन- 1, और शीर्ष पंक्ति महत्व स्तर α है। संबंधित पंक्ति और स्तंभ के चौराहे पर, छात्र का गुणांक पाया जाता है टी।

आइए इस पद्धति को अपने नमूने पर लागू करें। छात्र वितरण तालिका का एक अंश नीचे प्रस्तुत किया गया है।

तालिका 3.3। छात्र की वितरण तालिका का टुकड़ा

20 लोगों के नमूने के लिए एक साधारण सांख्यिकीय श्रृंखला (एन= 20, ν =19) तालिका में प्रस्तुत किया गया है। 3.1। इस श्रृंखला के लिए, सूत्र (3.1-3.3) का उपयोग करके गणना: एक्स= 37,05; एस= 5,02.

चलो चुनते हैं α = 0.05 (पी डी = 0.95)। पंक्ति "19" और स्तंभ "0.05" के चौराहे पर हम पाते हैं टी= 2,09.

आइए हम सूत्र (3.6) द्वारा अनुमान सटीकता की गणना करें: ε = 2.09?5.02/λ /20 = 2.34।

आइए एक अंतराल अनुमान बनाएं: 95% की संभावना के साथ, अज्ञात सामान्य माध्य असमानता को संतुष्ट करता है:

37,05 - 2,34 < एम< 37,05 + 2,34, или एम= 37.05 ± 2.34 (एम/एस), पी डी = 0.95।

3.5। सांख्यिकीय परिकल्पनाओं के सत्यापन के तरीके

सांख्यिकीय परिकल्पना

एक सांख्यिकीय परिकल्पना क्या है, इसे तैयार करने से पहले, निम्नलिखित उदाहरण पर विचार करें।

एक निश्चित बीमारी के इलाज के दो तरीकों की तुलना करने के लिए, 20 लोगों के रोगियों के दो समूहों का चयन किया गया था, जिनका उपचार इन विधियों के अनुसार किया गया था। प्रत्येक रोगी के लिए, ए प्रक्रियाओं की संख्याइसके बाद सकारात्मक प्रभाव पड़ता है। इन आंकड़ों के अनुसार, प्रत्येक समूह के लिए, हमने नमूना माध्य (X), नमूना प्रसरण पाया (एस 2)और नमूना आरएमएस (एस)।

परिणाम तालिका में प्रस्तुत किए गए हैं। 3.4।

तालिका 3.4

एक सकारात्मक प्रभाव प्राप्त करने के लिए आवश्यक प्रक्रियाओं की संख्या एक यादृच्छिक चर है, जिसके बारे में सभी जानकारी वर्तमान में उपरोक्त नमूने में निहित है।

तालिका से। 3.4 से पता चलता है कि पहले समूह में नमूना माध्य दूसरे की तुलना में कम है। क्या इसका मतलब यह है कि समान अनुपात सामान्य औसत के लिए है: एम 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает परिकल्पनाओं का सांख्यिकीय परीक्षण।

सांख्यिकीय परिकल्पना- यह आबादी के गुणों के बारे में एक धारणा है।

हम गुणों के बारे में परिकल्पनाओं पर विचार करेंगे दोसामान्य आबादी।

अगर आबादी है ज्ञात, वहीमूल्य का वितरण अनुमानित किया जा रहा है, और धारणाएं मात्राओं से संबंधित हैं कुछ पैरामीटरयह वितरण, तो परिकल्पना कहलाती है पैरामीट्रिक।उदाहरण के लिए, नमूने जनसंख्या से लिए गए हैं सामान्य कानूनवितरण और समान विचरण। इसका पता लगाना आवश्यक है समान हैंइन आबादी का सामान्य औसत।

यदि सामान्य जनसंख्या के वितरण के नियमों के बारे में कुछ भी ज्ञात नहीं है, तो उनके गुणों के बारे में परिकल्पना कहलाती है nonparametric।उदाहरण के लिए, समान हैंआबादी के वितरण कानून जिनसे नमूने लिए गए हैं।

अशक्त और वैकल्पिक परिकल्पनाएँ।

परिकल्पनाओं के परीक्षण का कार्य। महत्वपूर्ण स्तर

आइए परिकल्पना परीक्षण में प्रयुक्त शब्दावली से परिचित हों।

एच 0 - अशक्त परिकल्पना (संदेह परिकल्पना) - यह एक परिकल्पना है कोई फर्क नहीं के बारे मेंतुलना किए गए नमूनों के बीच। संशयवादी का मानना ​​है कि अनुसंधान के परिणामों से प्राप्त नमूना अनुमानों के बीच अंतर यादृच्छिक हैं;

एच 1- एक वैकल्पिक परिकल्पना (आशावादी की परिकल्पना) तुलना किए गए नमूनों के बीच अंतर की उपस्थिति के बारे में एक परिकल्पना है। आशावादी का मानना ​​है कि नमूना अनुमानों के बीच अंतर वस्तुनिष्ठ कारणों से होता है और सामान्य आबादी में अंतर के अनुरूप होता है।

सांख्यिकीय परिकल्पनाओं का परीक्षण तभी संभव है जब तुलना किए गए नमूनों के तत्वों का उपयोग कुछ बनाने के लिए किया जा सकता है कीमत(मानदंड), वितरण कानून जिसमें निष्पक्षता के मामले में एच 0प्रसिद्ध। फिर, इस मात्रा के लिए, कोई निर्दिष्ट कर सकता है विश्वास अंतराल,जिसमें दी गई संभावना के साथ आर डीउसका मूल्य मिलता है। यह अंतराल कहा जाता है महत्वपूर्ण क्षेत्र।यदि कसौटी मूल्य महत्वपूर्ण क्षेत्र में आता है, तो परिकल्पना को स्वीकार किया जाता है एच 0।अन्यथा, परिकल्पना एच 1 स्वीकार की जाती है।

चिकित्सा अनुसंधान में, P d = 0.95 या P d = 0.99 का उपयोग किया जाता है। ये मान मेल खाते हैं महत्व का स्तरα = 0.05 या α = 0.01।

सांख्यिकीय परिकल्पनाओं का परीक्षण करते समयमहत्वपूर्ण स्तर(α) शून्य परिकल्पना के सत्य होने पर उसे अस्वीकार करने की संभावना है।

ध्यान दें कि, इसके मूल में, परिकल्पना परीक्षण प्रक्रिया का उद्देश्य है अंतर का पता लगाने,उनकी अनुपस्थिति की पुष्टि करने के लिए नहीं। जब मानदंड मूल्य महत्वपूर्ण क्षेत्र से आगे निकल जाता है, तो हम शुद्ध हृदय से "संदेह" कह सकते हैं - ठीक है, आप और क्या चाहते हैं?! यदि कोई अंतर नहीं था, तो 95% (या 99%) की संभावना के साथ परिकलित मूल्य निर्दिष्ट सीमा के भीतर होगा। तो नहीं!...

ठीक है, यदि कसौटी का मान महत्वपूर्ण क्षेत्र में आता है, तो यह मानने का कोई कारण नहीं है कि परिकल्पना H0 सही है। यह सबसे अधिक संभावना दो संभावित कारणों में से एक को इंगित करता है।

1. अंतर का पता लगाने के लिए नमूना आकार काफी बड़ा नहीं है। संभावना है कि लगातार प्रयोग करने से सफलता मिलेगी।

2. मतभेद हैं। लेकिन वे इतने छोटे हैं कि उनका कोई व्यावहारिक महत्व नहीं है। ऐसे में प्रयोगों को जारी रखने का कोई मतलब नहीं बनता।

आइए चिकित्सा अनुसंधान में उपयोग की जाने वाली कुछ सांख्यिकीय परिकल्पनाओं पर विचार करें।

3.6। भिन्नताओं की समानता पर परिकल्पना परीक्षण, फिशर एफ-मानदंड

कुछ नैदानिक ​​​​अध्ययनों में, एक सकारात्मक प्रभाव का इतना अधिक प्रमाण नहीं है आकारअध्ययन के तहत पैरामीटर, कितना स्थिरीकरण,इसके उतार-चढ़ाव को कम करना। इस मामले में, नमूना सर्वेक्षण के परिणामों के आधार पर दो सामान्य भिन्नताओं की तुलना करने पर सवाल उठता है। इस कार्य का उपयोग करके हल किया जा सकता है फिशर की कसौटी।

समस्या का निरूपण

सामान्य कानूनवितरण। नमूना आकार -

एन 1और एन 2,नमूना भिन्नताबराबर एस 1 और एस 2 2 सामान्य भिन्नता।

परीक्षण परिकल्पना:

एच 0- सामान्य विचलन समान हैं;

एच 1- सामान्य विचलन अलग।

के साथ आबादी से नमूने लिए गए हैं तो दिखाया गया है सामान्य कानूनवितरण, तो यदि परिकल्पना सत्य है एच 0नमूना प्रसरण का अनुपात फिशर वितरण का पालन करता है। इसलिए, वैधता के परीक्षण के लिए एक मानदंड के रूप में एच 0मान लिया जाता है एफ,सूत्र द्वारा गणना:

कहाँ s 1 और s 2 - नमूना प्रसरण।

यह अनुपात अंश ν 1 = की स्वतंत्रता की डिग्री की संख्या के साथ फिशर वितरण का पालन करता है एन 1- 1 और भाजक ν 2 = n 2 - 1 की स्वतंत्रता की डिग्री की संख्या। महत्वपूर्ण क्षेत्र की सीमाएं फिशर के वितरण की तालिकाओं के अनुसार या कंप्यूटर फ़ंक्शन BRASPOBR का उपयोग करके पाई जाती हैं।

तालिका में प्रस्तुत उदाहरण के लिए। 3.4, हमें मिलता है: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19; एफ= 2.16/4.05 = 0.53। α = 0.05 पर, महत्वपूर्ण क्षेत्र की सीमाएं क्रमशः बराबर होती हैं: = 0.40, = 2.53।

कसौटी मूल्य महत्वपूर्ण क्षेत्र में गिर गया है, इसलिए परिकल्पना को स्वीकार किया जाता है एच 0:सामान्य नमूना विचलन समान हैं।

3.7। औसत की समानता के संबंध में परिकल्पना परीक्षण, छात्र का टी-टेस्ट

तुलना समस्या मध्यमदो सामान्य आबादी उत्पन्न होती है जब यह होती है आकारअध्ययन के तहत विशेषता। उदाहरण के लिए, दो अलग-अलग तरीकों से उपचार की अवधि की तुलना करते समय या उनके उपयोग से उत्पन्न होने वाली जटिलताओं की संख्या। ऐसे में स्टूडेंट के टी-टेस्ट का इस्तेमाल किया जा सकता है।

समस्या का निरूपण

के साथ जनसंख्या से दो नमूने (X 1 ) और (X 2 ) प्राप्त किए गए थे सामान्य कानूनवितरण और समान फैलाव।नमूना आकार - एन 1 और एन 2, नमूना मतलब X 1 और X 2 के बराबर हैं, और नमूना भिन्नता- एस 1 2 और एस 2 2क्रमश। तुलना करने की जरूरत है सामान्य औसत।

परीक्षण परिकल्पना:

एच 0- सामान्य औसत समान हैं;

एच 1- सामान्य औसत अलग।

यह दिखाया गया है कि यदि परिकल्पना सत्य है एच 0सूत्र द्वारा परिकलित t का मान:

स्वतंत्रता की डिग्री की संख्या के साथ छात्र के कानून के अनुसार वितरित ν = ν 1 + + ν2 - 2।

यहाँ जहाँ ν 1 = एन 1 - 1 - पहले नमूने के लिए स्वतंत्रता की डिग्री की संख्या; वी2 = एन 2 - 1 - दूसरे नमूने के लिए स्वतंत्रता की डिग्री की संख्या।

महत्वपूर्ण क्षेत्र की सीमाएं टी-वितरण की तालिकाओं से या कंप्यूटर फ़ंक्शन STUDRASP का उपयोग करके पाई जाती हैं। छात्र का वितरण शून्य के बारे में सममित है, इसलिए महत्वपूर्ण क्षेत्र की बाएँ और दाएँ सीमाएँ निरपेक्ष मान में समान हैं और संकेत में विपरीत हैं: -और

तालिका में प्रस्तुत उदाहरण के लिए। 3.4, हम प्राप्त करते हैं:

वी 1 \u003d वी 2 \u003d 20 - 1 \u003d 19; वी = 38, टी= -2.51। α = 0.05 = 2.02 के साथ।

मानदंड मान महत्वपूर्ण क्षेत्र की बाईं सीमा से आगे जाता है, इसलिए हम परिकल्पना को स्वीकार करते हैं एच 1:सामान्य औसत अलग।इसी समय, सामान्य आबादी का औसत पहला नमूनाकम।

छात्र के टी-टेस्ट की प्रयोज्यता

छात्र का टी-टेस्ट केवल नमूनों पर लागू होता है सामान्यके साथ एकत्र करता है वही सामान्य भिन्नताएं।यदि कम से कम एक शर्त का उल्लंघन किया जाता है, तो मानदंड की प्रयोज्यता संदिग्ध है। सामान्य आबादी की सामान्यता की आवश्यकता को आमतौर पर अनदेखा कर दिया जाता है केंद्रीय सीमा प्रमेय।वास्तव में, नमूना साधनों में अंतर, जो अंश (3.10) में है, को सामान्य रूप से ν > 30 के लिए वितरित माना जा सकता है। लेकिन भिन्नताओं की समानता का प्रश्न सत्यापन के अधीन नहीं है, और इस तथ्य के संदर्भ में है कि फिशर परीक्षण में पता नहीं चला कि मतभेदों को ध्यान में नहीं रखा जा सकता है। फिर भी, पर्याप्त सबूत के बिना, आबादी के साधनों में अंतर का पता लगाने के लिए टी-टेस्ट का व्यापक रूप से उपयोग किया जाता है।

नीचे माना जाता है गैर पैरामीट्रिक मानदंड,जो समान उद्देश्यों के लिए सफलतापूर्वक उपयोग किया जाता है और जिसके लिए किसी की आवश्यकता नहीं होती है सामान्यता,कोई भी नहीं भिन्नताओं की समानता।

3.8। दो नमूनों की गैर-पैरामीट्रिक तुलना: मान-व्हिटनी परीक्षण

दो सामान्य आबादी के वितरण के कानूनों में अंतर का पता लगाने के लिए गैर-पैरामीट्रिक मानदंड तैयार किए गए हैं। मानदंड जो सामान्य रूप से मतभेदों के प्रति संवेदनशील हैं मध्यम,मानदंड कहा जाता है बदलाव।मानदंड जो सामान्य रूप से मतभेदों के प्रति संवेदनशील हैं फैलाव,मानदंड कहा जाता है पैमाना।मान-व्हिटनी परीक्षण मानदंड को संदर्भित करता है कतरनीऔर इसका उपयोग दो आबादी के साधनों में अंतर का पता लगाने के लिए किया जाता है, जिसमें से नमूने प्रस्तुत किए जाते हैं रैंकिंग पैमाने।मापा संकेत इस पैमाने पर आरोही क्रम में स्थित होते हैं, और फिर पूर्णांक 1, 2 के साथ गिने जाते हैं ... इन संख्याओं को कहा जाता है रैंक।समान मान समान रैंक असाइन किए जाते हैं। यह उस विशेषता का मूल्य नहीं है जो मायने रखता है, बल्कि केवल क्रमसूचक स्थान,जिसे यह अन्य मूल्यों के बीच धारण करता है।

तालिका में। 3.5। तालिका 3.4 से पहला समूह विस्तारित रूप (पंक्ति 1) में प्रस्तुत किया गया है, रैंकिंग (पंक्ति 2) के अधीन है, और फिर समान मूल्यों के रैंकों को अंकगणितीय माध्य मानों से बदल दिया जाता है। उदाहरण के लिए, पहली पंक्ति में तत्व 4 और 4 को रैंक 2 और 3 दिए गए थे, जिन्हें बाद में 2.5 के समान मान से बदल दिया गया था।

तालिका 3.5

समस्या का निरूपण

स्वतंत्र नमूने (एक्स 1)और (एक्स 2)अज्ञात वितरण कानूनों वाली आबादी से निकाला गया। नमूना आकार एन 1और एन 2क्रमश। नमूने के तत्वों के मान में प्रस्तुत किए गए हैं रैंकिंग पैमाने।यह जाँचना आवश्यक है कि क्या ये सामान्य जनसंख्या एक दूसरे से भिन्न हैं?

परीक्षण परिकल्पना:

एच 0- नमूने समान सामान्य जनसंख्या के हैं; एच 1- नमूने विभिन्न सामान्य आबादी के हैं।

ऐसी परिकल्पनाओं का परीक्षण करने के लिए, (/-मैन-व्हिटनी परीक्षण का उपयोग किया जाता है।

सबसे पहले, एक संयुक्त नमूना (एक्स) दो नमूनों से बना है, जिनमें से तत्वों को रैंक किया गया है। फिर पहले नमूने के तत्वों के अनुरूप रैंकों का योग पाया जाता है। यह योग परिकल्पनाओं के परीक्षण की कसौटी है।

यू= पहले नमूने के रैंकों का योग। (3.11)

20 से बड़े स्वतंत्र नमूनों के लिए, मान यूएक सामान्य वितरण का पालन करता है, गणितीय अपेक्षा और मानक विचलन जिसके बराबर हैं:

इसलिए, महत्वपूर्ण क्षेत्र की सीमाएँ सामान्य वितरण तालिका के अनुसार पाई जाती हैं।

तालिका में प्रस्तुत उदाहरण के लिए। 3.4, हमें मिलता है: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19, यू= 339, μ = 410, σ = 37. α = 0.05 के लिए हमें मिलता है: बाएँ = 338 और दाएँ = 482।

कसौटी का मान महत्वपूर्ण क्षेत्र की बाईं सीमा से परे चला जाता है, इसलिए परिकल्पना एच 1 को स्वीकार किया जाता है: सामान्य आबादी के अलग-अलग वितरण कानून होते हैं। इसी समय, सामान्य आबादी का औसत पहला नमूनाकम।

अंतराल वितरण श्रृंखला का निर्माण करते समय, तीन प्रश्न हल किए जाते हैं:

  • 1. मुझे कितने अंतराल लेने चाहिए?
  • 2. अंतरालों की लंबाई कितनी है?
  • 3. अंतरालों की सीमाओं में जनसंख्या इकाइयों को शामिल करने की क्या प्रक्रिया है?
  • 1. अंतराल की संख्याद्वारा निर्धारित किया जा सकता है स्टर्गेस सूत्र:

2. अंतराल लंबाई, या अंतराल चरण, आमतौर पर सूत्र द्वारा निर्धारित किया जाता है

कहाँ आर-भिन्नता की सीमा।

3. अंतराल की सीमाओं में जनसंख्या इकाइयों को शामिल करने का क्रम

अलग हो सकता है, लेकिन एक अंतराल श्रृंखला का निर्माण करते समय, वितरण अनिवार्य रूप से सख्ती से परिभाषित होता है।

उदाहरण के लिए, यह: [), जिसमें जनसंख्या की इकाइयों को निचली सीमा में शामिल किया जाता है, और ऊपरी सीमा में शामिल नहीं किया जाता है, लेकिन अगले अंतराल में स्थानांतरित कर दिया जाता है। इस नियम का अपवाद अंतिम अंतराल है, जिसकी ऊपरी सीमा में क्रमित श्रृंखला की अंतिम संख्या शामिल है।

अंतराल की सीमाएं हैं:

  • बंद - विशेषता के दो चरम मूल्यों के साथ;
  • खुला - सुविधा के एक चरम मूल्य के साथ (पहलेकुछ संख्या या ऊपरऐसी संख्या)।

सैद्धांतिक सामग्री को आत्मसात करने के लिए, हम परिचय देते हैं पृष्ठभूमि की जानकारीसमाधान के लिए कार्यों के माध्यम से।

बिक्री प्रबंधकों की औसत संख्या, उनके द्वारा बेचे गए एकल-गुणवत्ता वाले सामानों की संख्या, इस उत्पाद के लिए व्यक्तिगत बाजार मूल्य, साथ ही रूसी संघ के एक क्षेत्र में 30 फर्मों की बिक्री की मात्रा पर सशर्त डेटा हैं। रिपोर्टिंग वर्ष की पहली तिमाही (तालिका 2.1)।

तालिका 2.1

क्रॉस-कटिंग कार्य के लिए प्रारंभिक जानकारी

जनसंख्या

प्रबंधकों

मूल्य, हजार रूबल

बिक्री की मात्रा, मिलियन रूबल

जनसंख्या

प्रबंधकों

बेचे गए माल की मात्रा, पीसी।

मूल्य, हजार रूबल

बिक्री की मात्रा, मिलियन रूबल

प्रारंभिक जानकारी के साथ-साथ अतिरिक्त जानकारी के आधार पर, हम अलग-अलग कार्य निर्धारित करेंगे। फिर हम उन्हें हल करने की पद्धति और स्वयं समाधान प्रस्तुत करते हैं।

क्रॉस-कटिंग कार्य। कार्य 2.1

मूल डेटा तालिका का उपयोग करना। 2.1 आवश्यकबेची गई वस्तुओं की संख्या (तालिका 2.2) द्वारा फर्मों के वितरण की असतत श्रृंखला बनाएं।

समाधान:

तालिका 2.2

रिपोर्टिंग वर्ष की पहली तिमाही में रूसी संघ के किसी एक क्षेत्र में बेचे गए सामानों की संख्या से फर्मों के वितरण की असतत श्रृंखला

क्रॉस-कटिंग कार्य। कार्य 2.2

आवश्यकप्रबंधकों की औसत संख्या के आधार पर 30 फर्मों की रैंक वाली श्रृंखला बनाएं।

समाधान:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

क्रॉस-कटिंग कार्य। कार्य 2.3

मूल डेटा तालिका का उपयोग करना। 2.1, आवश्यक:

  • 1. प्रबंधकों की संख्या द्वारा फर्मों के वितरण के लिए एक अंतराल श्रृंखला का निर्माण करें।
  • 2. फर्मों की वितरण श्रृंखला की आवृत्तियों की गणना करें।
  • 3. निष्कर्ष निकालना।

समाधान:

स्टर्गेस सूत्र (2.5) का उपयोग करके गणना करें अंतराल की संख्या:

इस प्रकार, हम 6 अंतराल (समूह) लेते हैं।

अंतराल की लंबाई, या अंतराल चरण, सूत्र द्वारा गणना करें

टिप्पणी।अंतराल की सीमाओं में जनसंख्या की इकाइयों को शामिल करने का क्रम इस प्रकार है: I), जिसमें जनसंख्या की इकाइयाँ निचली सीमाओं में शामिल हैं, और ऊपरी में शामिल नहीं हैं, लेकिन अगली में स्थानांतरित कर दी गई हैं मध्यान्तर। इस नियम का अपवाद अंतिम अंतराल I] है, जिसकी ऊपरी सीमा में क्रमित श्रृंखला की अंतिम संख्या शामिल है।

हम एक अंतराल श्रृंखला (तालिका 2.3) बनाते हैं।

फर्मों के वितरण की अंतराल श्रृंखला लेकिन रिपोर्टिंग वर्ष की पहली तिमाही में रूसी संघ के एक क्षेत्र में प्रबंधकों की औसत संख्या

निष्कर्ष।फर्मों का सबसे अधिक समूह 25-30 लोगों के प्रबंधकों की औसत संख्या वाला समूह है, जिसमें 8 फर्म (27%) शामिल हैं; 40-45 लोगों के प्रबंधकों की औसत संख्या वाले सबसे छोटे समूह में केवल एक फर्म (3%) शामिल है।

मूल डेटा तालिका का उपयोग करना। 2.1, साथ ही प्रबंधकों की संख्या (तालिका 2.3) द्वारा फर्मों के वितरण की अंतराल श्रृंखला, आवश्यकप्रबंधकों की संख्या और फर्मों की बिक्री की मात्रा के बीच संबंधों का एक विश्लेषणात्मक समूह बनाना और इसके आधार पर, संकेतित संकेतों के बीच संबंध की उपस्थिति (या अनुपस्थिति) के बारे में निष्कर्ष निकालना।

समाधान:

विश्लेषणात्मक समूहीकरण एक कारक के आधार पर बनाया गया है। हमारी समस्या में, कारक चिन्ह (x) प्रबंधकों की संख्या है, और परिणामी चिन्ह (y) बिक्री की मात्रा है (तालिका 2.4)।

चलो अब बनाते हैं विश्लेषणात्मक समूहन(तालिका 2.5)।

निष्कर्ष।निर्मित विश्लेषणात्मक समूह के आंकड़ों के आधार पर, यह कहा जा सकता है कि बिक्री प्रबंधकों की संख्या में वृद्धि के साथ, समूह में कंपनी की औसत बिक्री की मात्रा भी बढ़ जाती है, जो इन सुविधाओं के बीच सीधा संबंध होने का संकेत देती है।

तालिका 2.4

एक विश्लेषणात्मक समूह बनाने के लिए सहायक तालिका

प्रबंधकों, व्यक्तियों की संख्या,

कंपनी संख्या

बिक्री की मात्रा, मिलियन रूबल, वाई

»= 59 एफ = 9.97

मैं-™ 4 -यू.22

74 '25 1PY1

यू4 = 7 = 10,61

पर = ’ =10,31 30

तालिका 2.5

रिपोर्टिंग वर्ष की पहली तिमाही में रूसी संघ के किसी एक क्षेत्र में कंपनी प्रबंधकों की संख्या पर बिक्री की मात्रा की निर्भरता

नियंत्रण प्रश्न
  • 1. सांख्यिकीय अवलोकन का सार क्या है?
  • 2. सांख्यिकीय प्रेक्षण की अवस्थाओं के नाम लिखिए।
  • 3. सांख्यिकीय अवलोकन के संगठनात्मक रूप क्या हैं?
  • 4. सांख्यिकीय प्रेक्षण के प्रकारों के नाम लिखिए।
  • 5. सांख्यिकीय सारांश क्या है?
  • 6. सांख्यिकीय रिपोर्ट के प्रकारों के नाम बताइए।
  • 7. सांख्यिकीय समूहीकरण क्या है?
  • 8. सांख्यिकीय समूहों के प्रकारों के नाम बताइए।
  • 9. वितरण श्रृंखला क्या है?
  • 10. वितरण श्रृंखला के संरचनात्मक तत्वों के नाम बताइए।
  • 11. वितरण श्रृंखला के निर्माण की प्रक्रिया क्या है?
श्रेणियाँ

लोकप्रिय लेख

2023 "Kingad.ru" - मानव अंगों की अल्ट्रासाउंड परीक्षा