एक आंकड़े का उदाहरण जो नमूना के वितरण से स्वतंत्र नहीं है?


14

यह विकिपीडिया पर सांख्यिकी के लिए परिभाषा है

औपचारिक रूप से, सांख्यिकीय सिद्धांत एक नमूने के एक कार्य के रूप में एक सांख्यिकीय को परिभाषित करता है जहां फ़ंक्शन स्वयं नमूना के वितरण से स्वतंत्र होता है; वह है, फ़ंक्शन को डेटा की प्राप्ति से पहले बताया जा सकता है। शब्द सांख्यिकीय का उपयोग फ़ंक्शन के लिए और दिए गए नमूने पर फ़ंक्शन के मूल्य के लिए किया जाता है।

मुझे लगता है कि मैं इस परिभाषा के अधिकांश को समझता हूं, हालांकि वह हिस्सा - जहां फ़ंक्शन नमूना के वितरण से स्वतंत्र है मैं इसे हल करने में सक्षम नहीं हूं।

अब तक की मेरी समझ

एक नमूना वितरण F (स्वतंत्र रूप से वितरित, पहचाने जाने वाले (iid) यादृच्छिक चर के कुछ संख्या के बंटवारे का एक सेट है जिसमें F (20-पक्षीय उचित पासा के रोल के 10 अहसास, 6-पक्षीय निष्पक्ष पासा के 5 रोल की 100 प्राप्ति, बेतरतीब ढंग से एक आबादी से 100 लोगों को आकर्षित)।

एक फ़ंक्शन, जिसका डोमेन वह सेट है, और जिसकी सीमा वास्तविक संख्या है (या शायद यह अन्य चीजों का उत्पादन कर सकता है, जैसे कि वेक्टर या अन्य गणितीय वस्तु ...) एक आंकड़ा माना जाएगा ।

जब मैं उदाहरणों के बारे में सोचता हूं, माध्य, माध्य, विचरण सभी इस संदर्भ में समझ में आते हैं। वे अहसास के सेट पर एक समारोह है (एक यादृच्छिक नमूने से रक्तचाप माप)। मैं भी देख सकते हैं कि एक रेखीय प्रतिगमन मॉडल एक आंकड़ा माना जा सकता है yi=α+βxi - यह न सिर्फ प्रतीति का एक सेट पर एक समारोह है?

जहां मैं उलझन में हूं

यह मानते हुए कि ऊपर से मेरी समझ सही है, मैं यह समझने में सक्षम नहीं हूं कि नमूना के वितरण से कोई फ़ंक्शन स्वतंत्र नहीं हो सकता है। मैं इसे समझने के लिए एक उदाहरण के बारे में सोचने की कोशिश कर रहा हूं, लेकिन कोई भाग्य नहीं। किसी भी जानकारी के लिए बहुत सराहना की जाएगी!

जवाबों:


45

यह परिभाषा यह बताने के लिए एक अजीब तरीका है। एक "आँकड़ा" अवलोकन योग्य मानों का कोई भी कार्य है। यह सब परिभाषा का अर्थ है कि एक आँकड़ा केवल अवलोकन योग्य मूल्यों का एक कार्य है, न कि वितरण या इसके किसी भी पैरामीटर का कार्य। उदाहरण के लिए, यदि X1,X2,...,XnN(μ,1) तो एक आंकड़ा किसी भी समारोह होगा T(X1,...,Xn) जबकि एक समारोह H(X1,....,Xn,μ) एक आँकड़ा नहीं होगा, क्योंकि यहμ पर निर्भर करता है। यहाँ कुछ और उदाहरण दिए गए हैं:

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

प्रत्येक आँकड़ा केवल अवलोकन योग्य मूल्यों का एक कार्य है, और उनके वितरण या इसके मापदंडों का नहीं। इसलिए एक आंकड़े का कोई उदाहरण नहीं है जो वितरण या उसके मापदंडों का एक कार्य है (ऐसा कोई भी कार्य सांख्यिकीय नहीं होगा)। हालांकि, यह ध्यान रखना महत्वपूर्ण है कि सांख्यिकीय का वितरण (जैसा कि स्वयं सांख्यिकीय के विपरीत) आम तौर पर मूल्यों के अंतर्निहित वितरण पर निर्भर करेगा। (यह सहायक आँकड़ों के अलावा अन्य सभी आँकड़ों के लिए सही है ।)


उस फ़ंक्शन के बारे में क्या है जहां पैरामीटर ज्ञात हैं? नीचे दी गई टिप्पणियों में, एलेकोस एक उत्कृष्ट अनुवर्ती प्रश्न पूछता है। उस फ़ंक्शन के बारे में क्या है जो पैरामीटर के एक निश्चित परिकल्पित मूल्य का उपयोग करता है? उदाहरण के लिए, आँकड़ों के बारे में क्या n(x¯μ)जहांμ=μ0को ज्ञात ज्ञात परिकल्पित मानμ0Rबराबर लिया जाता है। यहाँ फ़ंक्शन वास्तव में एक आँकड़ा है, इसलिए जब तक इसे उचित रूप से प्रतिबंधित डोमेन पर परिभाषित नहीं किया जाता है। तो समारोहH0:RnRके साथH0(x1,...,xn)=n(x¯μ0)H:Rn+1RH(x1,...,xn,μ)=n(x¯μ)


1
बहुत उपयोगी उत्तर, गैर सांख्यिकीय के हिस्से के रूप में अंतर्निहित सांख्यिकीय पैरामीटर पर विचार करना विशेष रूप से सहायक था।
जेक किर्श

4
@CarlWitthoft मुझे आपकी बात नहीं आती। यदि यह अवलोकनीय मूल्यों का कार्य है, तो यह एक आँकड़ा है। यह मानों के एक छोटे उपसमुच्चय का कार्य हो सकता है; यह अभी भी एक उपयोगी बात हो सकती है। यदि आप मतलब का अनुमान लगाना चाहते हैं और आपके पास है1010 टिप्पणियों, आप अभी भी देख सकते हैं (एक्स1+एक्स2++एक्स1000)/1000यदि प्रोसेसिंग डेटा की लागत अधिक है और त्रुटि की लागत छोटी है। या किसी कारण से आप इस मतलब के दो स्वतंत्र अनुमानों पर विचार कर सकते हैं, और विचार कर सकते हैं(एक्स1++एक्सn/2)/(n/2) तथा (एक्सn/2+1++एक्सn)/(n/2)। ये अभी भी आंकड़े हैं।
जेम्स मार्टिन

4
वे उदाहरण मुझे पूरी तरह से मान्य लगते हैं। क्या आप कह रहे हैं कि डेटा को प्रशिक्षण सेट में विभाजित करना और एक सत्यापन सेट मान्य नहीं है?
जेम्स मार्टिन

2
मैं उस के साथ थोड़ा उलझन में हूँ। मुझे @CarlWitthoft बिंदु का वर्णन करने का प्रयास करने दें। यह अभी भी गणितीय परिभाषा के संदर्भ में एक आँकड़ा होगा, लेकिन मैं एक ऐसा मामला देख सकता था जहाँ एक सलाहकार टिप्पणियों का एक 'आँकड़ा' लेता है, लेकिन कुछ परिणामों को हटाने के लिए मनमाने ढंग से निर्णय लेता है (सलाहकार यह सब समय सही करते हैं?)। यह इस अर्थ में 'मान्य' होगा कि यह अभी भी टिप्पणियों पर एक समारोह है, हालांकि जिस तरह से सांख्यिकीय प्रस्तुत किया जा सकता है और व्याख्या की गई संभावना मान्य नहीं होगी।
जेक किर्श

2
@ कार्ल विथोफ्ट: आप जिस बिंदु को बना रहे हैं, उसके संबंध में, एक आंकड़े के बीच अंतर करना महत्वपूर्ण है (जिसमें सभी आंकड़ों को शामिल करने की आवश्यकता नहीं है, और नमूने में सभी जानकारी शामिल नहीं हो सकती है) और एक पर्याप्त आंकड़ा (जो सभी को शामिल करेगा) कुछ पैरामीटर के संबंध में जानकारी)। सांख्यिकीय सिद्धांत में पहले से ही अच्छी तरह से विकसित अवधारणाएं हैं जैसे कि पर्याप्तता है जो इस विचार को पकड़ती है कि एक सांख्यिकीय में नमूने में सभी प्रासंगिक जानकारी शामिल है। यह आवश्यक नहीं है, या वांछनीय है, उस आवश्यकता को "सांख्यिकीय" की परिभाषा में बनाने की कोशिश करें।
मोनिका

4

मैं यह व्याख्या करता हूं कि जैसा कि आप आंकड़ों को देखने से पहले यह तय कर लें कि आप किस आंकड़े की गणना करने जा रहे हैं। उदाहरण के लिए, यदि आप आउटलेर्स लेने जा रहे हैं, तो आपको डेटा को देखने से पहले यह तय कर लेना चाहिए कि "आउटलाइयर" क्या है। यदि आप डेटा देखने के बाद निर्णय लेते हैं, तो आपका कार्य डेटा पर निर्भर है।


यह भी मददगार है! इसलिए यह निर्णय लेना कि किन टिप्पणियों को देखने के बाद फ़ंक्शन में शामिल होना है, जो कि कमोबेश वही है जो पिछले उत्तर पर मेरी टिप्पणी में वर्णित था।
जेक किर्श

2
(+1) यह ध्यान देने योग्य हो सकता है कि यह महत्वपूर्ण है क्योंकि यदि आप एक नियम को परिभाषित करते हैं जो डेटा बिंदु के गठन से पहले होता है जो गिरा दिया जाएगा, तो यह (अपेक्षाकृत) सांख्यिकीय के लिए एक वितरण प्राप्त करना आसान है (अर्थात, छोटा मतलब, आदि) ।)। माप के लिए वितरण को प्राप्त करना वास्तव में कठिन है, जिसमें उन कारणों के लिए डेटा बिंदुओं को छोड़ना शामिल है जो हाथ से पहले साफ-साफ परिभाषित नहीं हैं।
क्लिफ एबी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.