MLE को समझ में क्यों आता है, किसी व्यक्ति के नमूने की संभावना 0 है?


13

यह कुछ अजीब तरह का विचार है जो मैंने कुछ पुराने आँकड़ों की समीक्षा के दौरान किया था और किसी कारण से मैं उत्तर के बारे में सोच नहीं पा रहा था।

एक सतत पीडीएफ हमें किसी भी सीमा में मानों के अवलोकन का घनत्व बताता है। उदाहरण के लिए , यदि , उदाहरण के लिए, तो संभावना है कि एक बोध और बीच में पड़ता है, बस जहां है मानक का घनत्व सामान्य है।XN(μ,σ2)ababϕ(x)dxϕ

जब हम किसी पैरामीटर के MLE अनुमान के बारे में सोचते हैं , तो बारे में कहते हैं , हम संयुक्त घनत्व लिखते हैं, कहते हैं , यादृच्छिक चर और लॉग- wrt को बराबर, 0 के बराबर सेट करें और हल करें। के लिए । अक्सर दी गई व्याख्या "डेटा दिया जाता है, जो पैरामीटर इस घनत्व फ़ंक्शन को सबसे प्रशंसनीय बनाता है"।μNX1..XNμμ

जो हिस्सा मुझे परेशान कर रहा है वह यह है: हमारे पास आरवी का घनत्व है , और संभावना है कि हमें एक विशेष अहसास मिलता है, हमारे नमूने का कहना है, ठीक 0. है। यह हमारे डेटा को दिए गए संयुक्त घनत्व को अधिकतम करने के लिए भी क्यों समझ में आता है ( फिर से हमारे वास्तविक नमूने को देखने की संभावना बिल्कुल 0 है)?N

एकमात्र तर्कसंगतकरण जो मैं आ सकता था, वह यह है कि हम पीडीएफ बनाना चाहते हैं ताकि हमारे अवलोकनित नमूने के आसपास संभव हो सके ताकि क्षेत्र में अभिन्न अंग (और इस क्षेत्र में सामान के अवलोकन की संभावना) उच्चतम हो।


1
इसी कारण से हम संभावना घनत्व का उपयोग stats.stackexchange.com/q/4220/35989
टिम

मैं समझता हूं (मुझे लगता है) कि यह घनत्व का उपयोग करने के लिए समझ में क्यों आता है। मुझे समझ में नहीं आता है कि ऐसा क्यों होता है कि एक नमूना को देखने पर घनत्व घनत्व को अधिकतम करने के लिए 0 होने की संभावना है।
एलेक्स

2
क्योंकि संभाव्यता घनत्व हमें यह बताता है कि क्या मूल्य अपेक्षाकृत अधिक हैं और फिर अन्य।
टिम

यदि आपके पास इस सवाल का पूरी तरह से जवाब देने का समय है, तो मुझे लगता है कि यह मेरे और अगले व्यक्ति के लिए अधिक उपयोगी होगा।
एलेक्स

क्योंकि, सौभाग्य से, संभावना एक संभावना नहीं है!
एडमो

जवाबों:


18

किसी भी नमूने, की संभावना, शून्य के बराबर है और अभी तक एक नमूना एक वितरण संभावना से ड्राइंग द्वारा महसूस किया जाता है। इसलिए संभावना एक नमूने के मूल्यांकन के लिए गलत उपकरण है और यह होने की संभावना है। सांख्यिकीय संभावना, के रूप में फिशर (1912) द्वारा परिभाषित किया गया है, नमूना के अवलोकन की संभावना की सीमित तर्क पर आधारित है लंबाई के अंतराल के भीतर जब शून्य (से उद्धृत करने के लिए चला जाता है एल्ड्रिच, 1997) :Pθ(X=x)xδδ

एल्ड्रिच, जे। (1997) सांख्यिकीय विज्ञान 12, 162-176

जब इस संभावना को दोबारा बढ़ाकर । संभावना समारोह का शब्द केवल फिशर (1921) और फिशर (1922) में अधिकतम संभावना है।δ

यद्यपि वह "सबसे संभावित मूल्य" के संप्रदाय के तहत गया था, और एक फ्लैट पूर्व के साथ व्युत्क्रम प्रायिकता (बायेसियन इनवेंशन) के एक सिद्धांत का इस्तेमाल किया था, कार्ल फ्रेडरिक गौओ पहले से ही 1809 में एक सामान्य वितरण के विचरण पैरामीटर के लिए अधिकतम संभावना अनुमानक प्राप्त कर चुके थे। हाल्ड (1999) में फिशर के 1912 के पेपर से पहले अधिकतम संभावना अनुमानकों की कई अन्य घटनाओं का उल्लेख है, जो सामान्य सिद्धांत को निर्धारित करते हैं।

अधिकतम संभावना दृष्टिकोण के बाद का औचित्य यह है कि, नमूना [बड़ी संख्या के कानून] (जहां आईआईडी नमूने के वास्तविक घनत्व को दर्शाता है), संभावना को अधिकतम करता है [के रूप में [ एक कार्य ] asymptotically न्यूनतम करने के लिए बराबर है [in the ] Kullback-Lelerler विचलन (x1,,xn)

1ni=1nlogfθ(xi)
E[logfθ(X)]=logfθ(x)f0(x)dx
f0θθ
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
IID नमूने के सही वितरण और प्रतिनिधित्व वाले वितरण के परिवार के बीच ।fθ


जवाब के लिए धन्यवाद। क्या आप KL तर्क पर थोड़ा विस्तार कर सकते हैं? मैं यह नहीं देख रहा हूं कि यह मामला तुरंत कैसे है।
एलेक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.