यह प्रश्न दिल में जाता है कि आँकड़े क्या हैं और एक अच्छा सांख्यिकीय विश्लेषण कैसे किया जाता है। यह कई मुद्दों को उठाता है, कुछ शब्दावली और अन्य सिद्धांत। उन्हें स्पष्ट करने के लिए, चलिए प्रश्न के निहित संदर्भ को ध्यान में रखते हुए शुरू करते हैं और वहां से जाने पर प्रमुख शब्दों "पैरामीटर," "संपत्ति," और "अनुमानक" को परिभाषित करें। सवाल के कई हिस्सों का जवाब दिया जाता है क्योंकि वे चर्चा में आते हैं। अंतिम समापन खंड प्रमुख विचारों को सारांशित करता है।
राज्य के रिक्त स्थान
"डिस्ट्रीब्यूशन" का एक सामान्य सांख्यिकीय उपयोग, जैसा कि "डिस्ट्रीब्यूशन के साथ पीडीएफ में सामान्य वितरण टू " वास्तव में एक है (गंभीर) अंग्रेजी के दुरुपयोग, क्योंकि स्पष्ट रूप से यह एक वितरण नहीं है: यह वितरण के एक पूरे परिवार है parameterized प्रतीकों से और । इस के लिए एक मानक संकेत "राज्य अंतरिक्ष" है , एक सेटμσΩΩexp(−12(x−μ)/σ)2)dxμσΩवितरण के। (मैं विस्तार के लिए यहां थोड़ा सा सरलीकरण कर रहा हूं और जब तक हम संभव हो, कठोर होते हुए भी सरल हो जाते रहेंगे।) इसकी भूमिका हमारी सांख्यिकीय प्रक्रियाओं के संभावित लक्ष्यों को पूरा करना है: जब हम किसी चीज का अनुमान लगाते हैं, तो हम होते हैं। एक (या कभी-कभी) तत्वों को बाहर निकालना ।Ω
कभी-कभी राज्य रिक्त स्थान को स्पष्ट रूप से जाता है, जैसे कि । इस विवरण में ऊपरी आधे विमान में tuples के सेट और वितरण के बीच एक-से-एक पत्राचार है जो हम अपने डेटा को मॉडल करने के लिए उपयोग करेंगे। इस तरह के एक मानकीकरण का एक मूल्य यह है कि अब हम वास्तविक संख्याओं के एक आदेशित जोड़े के माध्यम से में वितरण के लिए संक्षिप्त रूप से संदर्भित कर सकते हैं ।{ ( μ , σ ) } ΩΩ={N(μ,σ2)|μ∈R,σ>0}{(μ,σ)}Ω
अन्य मामलों में राज्य रिक्त स्थान को स्पष्ट रूप से पैरामीटर नहीं किया गया है। एक उदाहरण सभी अनिमॉडल निरंतर वितरण का सेट होगा। नीचे, हम इस सवाल का समाधान करेंगे कि क्या इस तरह के मामलों में पर्याप्त पैरामीटर मिल सकता है।
parameterizations
आम तौर पर, एक parameterization की एक पत्राचार (गणितीय है समारोह के उपसमूह से) (साथ परिमित) को । यही है, यह वितरण को लेबल करने के लिए -tuples के आदेशित सेट का उपयोग करता है । लेकिन यह सिर्फ कोई पत्राचार नहीं है: इसे "अच्छी तरह से व्यवहार किया जाना है।" इसे समझने के लिए, उन सभी सतत वितरणों के सेट पर विचार करें जिनकी PDF में अपेक्षाएँ कम हैं। इसे व्यापक रूप से इस अर्थ में "गैर-पैरामीट्रिक" माना जाएगा कि इस सेट को मानकीकृत करने के किसी भी "प्राकृतिक" प्रयास में वास्तविक संख्याओं (किसी भी ऑर्थोगोनल आधार में विस्तार का उपयोग करके) की गणना योग्य अनुक्रम शामिल होगा। फिर भी, क्योंकि इस सेट में कार्डिनैलिटी हैआर डी डी Ω घ ℵ 1 आरΩRddΩdℵ1 , जो , इन वितरणों और बीच कुछ एक-से-एक पत्राचार मौजूद होना चाहिए । विडंबना यह है कि है कि यह एक बनाने के लिए प्रतीत होता है पैरामिट्रीकृत एक साथ राज्य अंतरिक्ष एकल वास्तविक पैरामीटर!R
विरोधाभास यह देखते हुए हल किया जाता है कि एक भी वास्तविक संख्या वितरण के साथ "अच्छे" रिश्ते का आनंद नहीं ले सकती है: जब हम उस संख्या के मूल्य को बदलते हैं, तो वितरण कुछ मामलों में होना चाहिए जो कट्टरपंथी तरीकों में बदलता है। हम इस तरह के "पैथोलॉजिकल" मापदंडों का पालन करते हैं, जिनके लिए आवश्यक है कि उनके मापदंडों के करीबी मूल्यों के अनुरूप वितरण खुद एक दूसरे के लिए "करीब" होना चाहिए। "करीब" की उपयुक्त परिभाषाओं पर चर्चा करना हमें बहुत दूर तक ले जाएगा, लेकिन मुझे उम्मीद है कि यह विवरण यह प्रदर्शित करने के लिए पर्याप्त है कि किसी विशेष वितरण के नामकरण की तुलना में पैरामीटर होने के लिए बहुत कुछ है।
वितरण के गुण
बार-बार आवेदन के माध्यम से, हम वितरण के एक "संपत्ति" के बारे में सोचने के आदी हो जाते हैं, जैसा कि कुछ समझदार मात्रा में होता है जो अक्सर हमारे काम में दिखाई देता है, जैसे कि इसकी अपेक्षा, भिन्नता, और इसी तरह। "संपत्ति" की एक संभावित परिभाषा के रूप में इसके साथ समस्या यह है कि यह बहुत अस्पष्ट है और पर्याप्त रूप से सामान्य नहीं है। (यह वह जगह है जहां गणित 18 वीं शताब्दी के मध्य में था, जहां "कार्यों" को वस्तुओं पर लागू होने वाली परिमित प्रक्रियाओं के रूप में सोचा गया था।) इसके बजाय, "संपत्ति" की एकमात्र समझदार परिभाषा के बारे में, जो हमेशा काम करेगी एक संपत्ति के बारे में सोचना है एक संख्या होने के नाते जो विशिष्ट रूप से प्रत्येक वितरण को में असाइन किया गया हैΩ Ω Ω t 1 ΩΩ। इसमें माध्य, विचरण, किसी भी क्षण, किसी भी बीजगणित के संयोजन, किसी भी मात्रात्मक, और बहुत कुछ शामिल हैं, जिसमें ऐसी चीजें भी शामिल हैं जिन्हें गणना भी नहीं की जा सकती है। हालांकि, यह करता है नहीं चीजें हैं जो के तत्वों में से कुछ के लिए कोई मतलब नहीं होगा शामिल । उदाहरण के लिए, यदि सभी छात्र टी वितरण में शामिल है, तो इसका मतलब लिए एक वैध संपत्ति नहीं है (क्योंकि का कोई मतलब नहीं है)। यह हमारे ऊपर एक बार फिर से प्रभाव डालता है कि हमारे विचार इस बात पर निर्भर करते हैं कि वास्तव में क्या है।ΩΩΩt1Ω
गुण हमेशा पैरामीटर नहीं होते हैं
एक संपत्ति एक ऐसा जटिल कार्य हो सकता है कि यह एक पैरामीटर के रूप में काम नहीं करेगा। "सामान्य वितरण" के मामले पर विचार करें। हम यह जानना चाहते हैं कि क्या सही वितरण का मतलब, जब निकटतम पूर्णांक तक गोल हो, तो भी। वह एक संपत्ति है। लेकिन यह एक पैरामीटर के रूप में काम नहीं करेगा।
पैरामीटर जरूरी गुण नहीं हैं
जब पैरामीटर और वितरण एक-से-एक पत्राचार में होते हैं तो स्पष्ट रूप से किसी भी पैरामीटर, और उस मामले के मापदंडों के किसी भी कार्य, हमारी परिभाषा के अनुसार एक संपत्ति है। लेकिन मापदंडों और वितरणों के बीच एक-से-एक पत्राचार की आवश्यकता नहीं है: कभी-कभी कुछ वितरणों को मापदंडों के दो या अधिक अलग-अलग मूल्यों द्वारा वर्णित किया जाना चाहिए। उदाहरण के लिए, क्षेत्र पर बिंदुओं के लिए एक स्थान पैरामीटर स्वाभाविक रूप से अक्षांश और देशांतर का उपयोग करेगा। यह ठीक है - दो ध्रुवों को छोड़कर, जो किसी दिए गए अक्षांश और किसी भी वैध देशांतर के अनुरूप है । स्थान(बिंदु पर क्षेत्र) वास्तव में एक संपत्ति है, लेकिन इसका देशांतर एक संपत्ति नहीं है। हालाँकि, विभिन्न डोज हैं (उदाहरण के लिए, केवल एक ध्रुव के देशांतर को शून्य घोषित करें), यह मुद्दा एक संपत्ति के बीच महत्वपूर्ण वैचारिक अंतर (जो वितरण के साथ विशिष्ट रूप से जुड़ा हुआ है) और एक पैरामीटर (लेबलिंग का एक तरीका है ) पर प्रकाश डालता है वितरण (अद्वितीय नहीं हो सकता है)।
सांख्यिकीय प्रक्रियाएं
एक अनुमान का लक्ष्य एक कहा जाता है estimand । यह महज एक संपत्ति है। सांख्यिकीविद् आकलन का चयन करने के लिए स्वतंत्र नहीं है : वह उसके ग्राहक का प्रांत है। जब कोई आपके पास जनसंख्या का एक नमूना लेकर आता है और आपसे जनसंख्या के 99 वें प्रतिशत का अनुमान लगाने के लिए कहता है, तो आप संभवतः इसके बजाय अनुमानक की आपूर्ति करने में रिमिस होंगे! आपका काम, सांख्यिकीविद के रूप में, आपके द्वारा दिए गए अनुमान के आकलन के लिए एक अच्छी प्रक्रिया की पहचान करना है । (कभी-कभी आपका काम आपके ग्राहक को मनाने के लिए होता है कि उसने अपने वैज्ञानिक उद्देश्यों के लिए गलत अनुमान का चयन किया है, लेकिन यह एक अलग मुद्दा है ...)
परिभाषा के अनुसार, एक प्रक्रिया डेटा से एक संख्या प्राप्त करने का एक तरीका है। प्रक्रियाओं को आमतौर पर डेटा पर लागू होने वाले फ़ार्मुलों के रूप में दिया जाता है, जैसे "उन्हें सभी जोड़ें और उनकी गिनती से विभाजित करें।" शाब्दिक रूप से किसी भी प्रक्रिया को किसी दिए गए अनुमान का "अनुमानक" कहा जा सकता है। उदाहरण के लिए, मैं यह घोषणा कर सकता हूं कि नमूना माध्य (डेटा पर लागू एक सूत्र) जनसंख्या भिन्नता का अनुमान लगाता है (जनसंख्या की एक संपत्ति, हमारे ग्राहक को यह मानते हुए कि संभव आबादी के को केवल उन लोगों को शामिल करने के लिए सीमित किया गया है ) ।Ω
आकलनकर्ता
एक अनुमानक को अनुमान के लिए कोई स्पष्ट संबंध नहीं होना चाहिए। उदाहरण के लिए, क्या आप नमूना माध्य और जनसंख्या विचरण के बीच कोई संबंध देखते हैं? न तो मैं करता हूं। लेकिन फिर भी, नमूना का मतलब वास्तव में कुछ निश्चितΩ (जैसे कि पॉसन वितरण के सेट के रूप में) के लिए जनसंख्या विचरण का एक सभ्य अनुमानक है । इसमें आकलनकर्ताओं को समझने के लिए एक कुंजी निहित है: उनके गुण संभव राज्यों के सेट पर निर्भर करते हैं । लेकिन वह इसका केवल एक हिस्सा है।Ω
tθ F∈ΩFst(s)θ(F)Ft(s)θ(F)FΩ
F∈Ωt1tt
(ए "बायेसियन" सांख्यिकीविद हमेशा संभावित राज्यों के "पूर्व" वितरण (आमतौर पर ग्राहक की आपूर्ति) पर औसत से जोखिमों की तुलना करेंगे । "फ्रीक्वेंटिस्ट" सांख्यिकीविद ऐसा कर सकते हैं, अगर ऐसा पूर्व में उचित रूप से मौजूद है, लेकिन यह भी तैयार है। अन्य तरीकों से जोखिमों की तुलना करें।
निष्कर्ष
tθθtθθ
Ωt