स्नातकोत्तर → प्रायिकता और सांख्यिकी ↓
सांख्यिकीय व्युत्पत्ति
सांख्यिकीय व्युत्पत्ति एक विधि है जो किसी जनसंख्या से लिए गए डेटा के नमूने के आधार पर उस जनसंख्या के बारे में निर्णय या भविष्यवाणियाँ करती है। यह सांख्यिकी का एक मौलिक पहलू है और एक छोटे उपसमूह की जांच करके एक बड़े समूह की विशेषताओं या मापदंडों के बारे में निष्कर्ष निकालने से संबंधित है। इस प्रक्रिया में परिकल्पना परीक्षण, अनुमानीकरण और आत्मविश्वास अंतराल की गणना शामिल होती है।
सांख्यिकीय व्युत्पत्ति की प्रमुख अवधारणाएँ
सांख्यिकीय व्युत्पत्ति को समझने के लिए, कुछ मूलभूत अवधारणाओं को पहले समझना महत्वपूर्ण है:
जनसंख्या और नमूना
जनसंख्या उन सभी डेटा बिंदुओं या वस्तुओं को शामिल करती है जिनका हम अध्ययन करने में रुचि रखते हैं, जबकि नमूना जनसंख्या का एक उपसमूह है जिसे हम वास्तव में अवलोकन और विश्लेषण करते हैं। उदाहरण के लिए, यदि कोई कार निर्माता एक नए मॉडल की औसत ईंधन दक्षता का परीक्षण करना चाहता है, तो जनसंख्या में उत्पादित सभी इकाइयाँ शामिल होंगी, और नमूना ईंधन दक्षता के लिए परीक्षण की गई 100 कारें हो सकती हैं।
मापदंड और सांख्यिकी
एक मापदंड जनसंख्या की विशेषता का वर्णन करने वाला एक उपाय है, जैसे कि माध्य या मानक विचलन। इसके विपरीत, सांख्यिकी नमूने की विशेषता का वर्णन करने वाला एक उपाय है। उदाहरण के लिए, यदि 100 यादृच्छिक लोगों के नमूने की औसत ऊंचाई 5'7 है, तो वह औसत एक सांख्यिकी है।
नमूना वितरण
नमूनाकरण वितरण यादृच्छिक नमूने के आधार पर दिए गए सांख्यिकी का वितरण है। यह एक महत्वपूर्ण अवधारणा है क्योंकि यह हमें यह समझने की अनुमति देती है कि कैसे एक सांख्यिकी एक नमूने से दूसरे तक भिन्न हो सकती है, जिससे हमें जनसंख्या मापदंड के बारे में निष्कर्ष निकालने में मदद मिलती है।
यह ग्राफ जनसंख्या वितरण को दर्शाता है, जिसमें यादृच्छिक नमूने के डेटा बिंदु लाल घेरे में दिखाए गए हैं।
सांख्यिकीय व्युत्पत्ति में प्रक्रियाएँ
सांख्यिकीय व्युत्पत्ति में आमतौर पर कई प्रक्रियाएँ शामिल होती हैं:
बिंदु अनुमानीकरण
बिंदु अनुमानीकरण में नमूना डेटा का उपयोग करके एकल मान की गणना शामिल होती है (जिसे बिंदु अनुमानीकरण कहते हैं) जो किसी अज्ञात जनसंख्या मापदंड का "सर्वोत्तम अनुमान" या अनुमान होता है। सामान्य बिंदु अनुमा नियमक हैं नमूना माध्य, नमूना विचरण, और नमूना अनुपात।
उदाहरण के लिए, यदि हम किसी शहर में सभी वयस्क पुरुषों की औसत ऊंचाई का अनुमान लगाना चाहते हैं, तो हम उस शहर के 100 वयस्क पुरुषों के नमूने की औसत ऊंचाई का उपयोग कर सकते हैं। यदि नमूने की औसत ऊंचाई 70 इंच है, तो जनसंख्या के औसत के लिए हमारा बिंदु अनुमान भी 70 इंच होगा।
अंतराल अनुमानीकरण
बिंदु अनुमानीकरण की तुलना में, अंतराल अनुमानीकरण मानों की एक रेंज प्रदान करता है (जो एक अंतराल है) और एक संबंधित आत्मविश्वास स्तर है कि मापदंड इस अंतराल के भीतर है। इसे आत्मविश्वास अंतराल के रूप में जाना जाता है।
[ text{आत्मविश्वास अंतराल} = left( bar{x} - Z cdot frac{sigma}{sqrt{n}}, bar{x} + Z cdot frac{sigma}{sqrt{n}} right) ]
यहाँ, ( bar{x} ) नमूना माध्य है, ( Z ) मानक सामान्य वितरण से Z-स्कोर है जो इच्छित आत्मविश्वास स्तर पर आधारित है, ( sigma ) जनसंख्या मानक विचलन है, और ( n ) नमूना आकार है।
परिकल्पना परीक्षण
परिकल्पना परीक्षण डेटा का उपयोग करके निर्णय लेने की विधि है, चाहे वह नियंत्रित प्रयोग से हुई हो या अवलोकनीय अध्ययन से। परिकल्पना जनसंख्या मापदंड के बारे में एक संभावना या कथन होती है। परिकल्पना परीक्षण इन धारणाओं को अस्वीकार या स्वीकार करने के लिए ढांचा परिभाषित करता है।
H_0: mu = mu_0 \ H_a: mu neq mu_0
यहाँ, ( H_0 ) शून्य परिकल्पना का प्रतिनिधित्व करता है, जो कहता है कि कोई प्रभाव या अंतर नहीं है, और ( H_a ) वैकल्पिक परिकल्पना को दर्शाता है, जो कहता है कि कुछ प्रभाव या अंतर है।
इस प्रक्रिया में p-मूल्य निर्धारित करना शामिल होता है, जो यह संभावना है कि शून्य परिकल्पना सच होने की धारणा के तहत देखे गए परिणामों के समान कम से कम जितने गंभीर परीक्षा परिणाम प्राप्त होते हैं।
सांख्यिकीय व्युत्पत्ति में उपयोग की जाने वाली सामान्य विधियाँ
डेटा से निष्कर्ष निकालने के लिए सांख्यिकीय व्युत्पत्ति में कई विधियों का उपयोग किया जाता है:
बायेसियन व्युत्पत्ति
बायेसियन व्युत्पत्ति किसी संभावना का अद्यतन करने की प्रक्रिया है क्योंकि अधिक सबूत या जानकारी उपलब्ध होती है। यह मुख्य रूप से बायेस प्रमेय पर निर्भर रहती है:
[ P(H|E) = frac{P(E|H) cdot P(H)}{P(E)} ]
जहाँ ( P(H|E) ) उत्तरकालिक संभावना है, ( P(E|H) ) संभावना है, ( P(H) ) पूर्वकालिक संभावना है, और ( P(E) ) सीमा संभावना है।
प्रायिक्ती अनुमानीकरण
प्रायिक्ती व्युत्पत्ति नमूना डेटा से निष्कर्ष निकालने की प्रक्रिया है जो डेटा की आवृत्ति या अनुपात पर जोर देती है। प्रायिक्ती शास्त्री परिकल्पना परीक्षणों को डिज़ाइन करते हैं और पूर्वकालिक संभावनाओं के उपयोग के बिना आत्मविश्वास अंतराल की गणना करते हैं।
अधिकतम संभावना अनुमानीकरण
अधिकतम संभावना अनुमानीकरण (MLE) सांख्यिकीय मॉडल के मापदंडों का अनुमानीकरण करने के लिए उपयोग किया जाता है। MLE की विधि में उन मापदंडों के मान निकालने शामिल होते हैं जो देखे गए डेटा की घटना की संभावना को अधिकतम करते हैं।
यदि हमारे पास एक नमूना डेटा सेट और एक सांख्यिकीय मॉडल है, तो संभावना कार्य यह मापती है कि मॉडल देखे गए डेटा को कितनी अच्छी तरह समझाता है। इसे इस प्रकार व्यक्त किया जाता है:
L(theta | x) = prod_{i=1}^{n} f(x_i | theta)
जहाँ ( theta ) मापदंड है, ( X ) डेटा है, और ( f(x_i | theta) ) एक डेटा बिंदु ( x_i ) की संभावना है जो ( theta ) को दिया गया है।
सांख्यिकीय व्युत्पत्ति के उदाहरण
आइए इन अवधारणाओं को बेहतर ढंग से समझने के लिए कुछ उदाहरण देखें:
उदाहरण 1: औसत ऊंचाई का अनुमान लगाना
मान लें कि हम एक विश्वविद्यालय में सभी छात्रों की औसत ऊंचाई का निर्धारण करना चाहते हैं। प्रत्येक छात्र का मापन करने के बजाय, हम 100 छात्रों का एक नमूना लेने का निर्णय लेते हैं।
नमूना डेटा: [68, 70, 65, 72, 69, 71, 66, 73, 67, 70, ...] // जारी है 100 प्रविष्टियों के लिए
इस नमूने का औसत (माध्य) जनसंख्या की औसत ऊंचाई के लिए एक बिंदु अनुमान प्रदान करता है। नमूना माध्य की गणना करके हम एक निष्कर्ष निकाल सकते हैं:
नमूना माध्य = (68 + 70 + 65 + 72 + 69 + 71 + 66 + 73 + 67 + 70 + ...) / 100 = 69.5 इंच
इस प्रकार, हम अनुमान लगाते हैं कि सभी विश्वविद्यालय के छात्रों की औसत ऊंचाई लगभग 69.5 इंच होगी।
उदाहरण 2: दवा की प्रभावशीलता के लिए परिकल्पना परीक्षण
एक फार्मास्यूटिकल कंपनी मानती है कि उनकी नई दवा रक्तचाप को कम करती है। इसे परीक्षण करने के लिए, उन्होंने 200 रोगियों पर एक परीक्षण किया, जिनमें से आधे को दवा और दूसरे आधे को प्लेसबो दिया गया। कंपनी ने इसकी परिकल्पना की:
H_0: Delta = 0 ,(text{दवा का कोई प्रभाव नहीं है}) \ H_a: Delta neq 0 ,(text{दवा का प्रभाव है})
परीक्षण डेटा के आधार पर, कंपनी p-मूल्य की गणना करती है ताकि रिकॉर्ड किए गए परिणामों के समान गंभीर परिणाम प्राप्त करने की संभावना को शून्य परिकल्पना के सच होने की धारणा के तहत निर्धारित किया जा सके। p-मूल्य के लिए एक सामान्य थ्रेसहोल्ड 0.05 है:
यदि p-मूल्य < 0.05 है, तो ( H_0 ) को अस्वीकार करें; अन्यथा, ( H_0 ) को अस्वीकार न करें।
जब p-मूल्य 0.05 से कम होता है, तो कंपनी निष्कर्ष निकाल सकती है कि दवा रक्तचाप को कम करने में प्रभावी है।
निष्कर्ष
सांख्यिकीय व्युत्पत्ति अनुसंधान और डेटा विश्लेषण में महत्वपूर्ण भूमिका निभाती है, जो वर्णनात्मक सांख्यिकी और वास्तविक दुनिया के बीच की खाई को पाटती है। यह उन उपकरणों और विधियों को प्रदान करती है