क्यों एक अधिकतम तकनीक होने की संभावना को अधिकतम संभावना माना जाता है


19

मेरे लिए फ़्रीक्वेंटिस्ट आँकड़े निर्णय लेने के लिए पर्यायवाची हैं जो सभी संभावित नमूनों के लिए अच्छे हैं। यानी, एक frequentist फैसले के नियम हमेशा frequentist जोखिम है, जो एक नुकसान समारोह पर निर्भर करता है कम से कम करने की कोशिश करनी चाहिए एल और प्रकृति की सही स्थिति θ 0 :δLθ0

Rfreq=Eθ0(L(θ0,δ(Y))

लगातार होने वाले जोखिम से अधिकतम संभावना कैसे जुड़ी है? यह देखते हुए कि यह आवृत्तियों द्वारा उपयोग की जाने वाली सबसे अधिक उपयोग की जाने वाली बिंदु आकलन तकनीक है, कुछ कनेक्शन होना चाहिए। जहाँ तक मुझे पता है, अधिकतम संभावना अनुमान, लगातार जोखिम की अवधारणा से पुरानी है, लेकिन फिर भी कुछ संबंध होना चाहिए कि क्यों इतने सारे लोग दावा करेंगे कि यह एक लगातार तकनीक है?

मैंने जो सबसे निकटतम संबंध पाया है, वह है

"कमजोर नियमितता की स्थिति को पूरा करने वाले पैरामीट्रिक मॉडल के लिए, अधिकतम संभावना अनुमानक लगभग न्यूनतम है" Wassermann 2006, पी। 201 "

स्वीकृत उत्तर या तो अधिकतम संभावित जोखिम की संभावना को लगातार जोखिम से जोड़ता है या बार-बार होने वाले अनुमानों की एक वैकल्पिक औपचारिक परिभाषा प्रदान करता है जो दर्शाता है कि एमएलई एक बार-बार होने वाला आविष्कार तकनीक है।


6
एमएल जोखिम पर बिल्कुल भी ध्यान नहीं देता है! वास्तव में, यह एमएल के लगातार निर्णय-सिद्धांत की आलोचना का हिस्सा है। मुझे संदेह है कि इस प्रश्न का उत्तर देना मुश्किल हो सकता है क्योंकि यह दो असंगत अर्थों में "फ़्रीक्वेंटिस्ट" का उपयोग करता है - एक निर्णय-सिद्धांत है, एक हानि फ़ंक्शन का संदर्भ देता है, और दूसरा निहितार्थ पूर्व वितरण को नहीं मानने से है।
whuber

@whuber ML जोखिम पर ध्यान देता है। वास्तव में यह लॉगरिदमिक नुकसान के तहत एक अनुचित वर्दी से पहले न्यूनतम है।
कागदस ओजेंक

4
@ कागदास का मानना ​​है कि आमतौर पर निर्णय लेने वाले के लिए यह जोखिम नहीं होता है: यह केवल एमएल को प्रदर्शित करता है जैसे कि अगर लॉगरिदमिक नुकसान उनके लिए मायने रखता है तो जोखिम को कम करना था। "अनुचित वर्दी से पहले" अपील करना निश्चित रूप से गैर-लगातारवादी है, वैसे!
whuber

1
@whuber बायेसियन अनुमान प्रक्रियाएं भी संचित लॉग-लॉस का उपयोग कर रही हैं। उसके बाद ही निर्णय निर्माता जोखिम को लागू किया जाता है। यदि हम सीधे निर्णय निर्माता जोखिम को अनुकूलित करने के बारे में बात कर रहे हैं (लॉग-लॉस स्टेपिंग स्टोन के माध्यम से नहीं), तो अक्सर प्रक्रियाएं उस सम्मान पर अधिक प्रसिद्ध होती हैं, अर्थात ओएलएस।
कागदस ओजेंकेन

जवाबों:


16

आप अक्सरवाद और MLE की एक अपेक्षाकृत संकीर्ण परिभाषा लागू करते हैं - अगर हम थोड़े अधिक उदार हैं और परिभाषित करते हैं

  • आवृत्तिवाद: निरंतरता का लक्ष्य, (स्पर्शोन्मुख) इष्टतमता, निष्पक्षता, और बार-बार नमूने के तहत नियंत्रित त्रुटि दर, सच्चे मापदंडों से स्वतंत्र

  • MLE = बिंदु अनुमान + आत्मविश्वास अंतराल (CI)

तब यह बहुत स्पष्ट लगता है कि MLE सभी लगातार आदर्शों को संतुष्ट करता है। विशेष रूप से, MLE में M, p- मानों के रूप में, बार-बार नमूने के तहत त्रुटि दर को नियंत्रित करते हैं, और सही पैरामीटर मान के लिए 95% संभावना क्षेत्र नहीं देते हैं, जैसा कि बहुत से लोग सोचते हैं - इसलिए वे लगातार और लगातार के माध्यम से होते हैं।

इन सभी विचारों को पहले से ही फिशर के 1922 के पेपर में "सैद्धांतिक आंकड़ों की गणितीय नींव पर" मौजूद नहीं था, लेकिन इष्टतमता और निष्पक्षता का विचार है, और नेमन ने बाद में फिक्स्ड त्रुटि दर के साथ सीआई के निर्माण के विचार को जोड़ा। एफ्रॉन, 2013, "एक 250 साल का तर्क: विश्वास, व्यवहार, और बूटस्ट्रैप" , बायेसियन / फ़्रीक्वेंटिस्ट बहस के अपने बहुत ही पठनीय इतिहास में संक्षेप में प्रस्तुत करता है:

अक्सर बैंड वादक को वास्तव में 1900 के दशक में रोल मिला। रोनाल्ड फिशर ने इष्टतम अनुमान के अधिकतम संभावना सिद्धांत को विकसित किया, एक अनुमान के लिए सर्वोत्तम संभव व्यवहार दिखा, और जेरज़ी नेमन ने विश्वास अंतराल और परीक्षणों के लिए भी ऐसा ही किया। फिशर और नेमन की प्रक्रियाएं वैज्ञानिक जरूरतों और बीसवीं सदी के विज्ञान की कम्प्यूटेशनल सीमाओं के लिए लगभग सही थीं, बेइज़ियनवाद को एक छाया अस्तित्व में डाल दिया।

आपकी अधिक संकीर्ण परिभाषा के बारे में - मैं आपके आधार से हल्के से असहमत हूं कि बार-बार होने वाले जोखिम का कम से कम निर्धारण (FR) मुख्य मानदंड है कि क्या कोई विधि अक्सरवादी दर्शन का अनुसरण करती है। मैं इस तथ्य को कहूंगा कि FR को कम करना एक वांछित संपत्ति है जो अक्सर दर्शन से होती है, बजाय इसके पूर्व। इसलिए, एक निर्णय नियम / आकलनकर्ता को FR को अक्सरवादी होने के लिए कम से कम करने की आवश्यकता नहीं होती है, और FR को कम करने के लिए जरूरी नहीं है कि यह भी कहा जाए कि एक विधि अक्सरवादी होती है, लेकिन एक संदेहवादी अक्सर FR के न्यूनतमकरण को प्राथमिकता देता है।

यदि हम MLE को विशेष रूप से देखते हैं: फिशर ने दिखाया कि MLE asymptotically इष्टतम है (मोटे तौर पर FR को न्यूनतम करने के बराबर), और वह निश्चित रूप से MLE को बढ़ावा देने का एक कारण था। हालांकि, वह इस बात से अवगत थे कि इष्टतमता परिमित नमूना आकार के लिए नहीं थी। फिर भी, वह अन्य वांछनीय गुणों जैसे कि संगति, असममित सामान्यता, पैरामीटर परिवर्तनों के तहत अदर्शन, और चलो भूल नहीं करने के कारण खुश थे: और गणना करने में आसानी। विशेष रूप से 1922 के पेपर में प्रचुरता से जोर दिया जाता है - मेरे पढ़ने से, मैं कहूंगा कि पैरामीटर परिवर्तन के तहत इन्वेरिंस को बनाए रखना है, और सामान्य रूप से पुजारियों से छुटकारा पाने की क्षमता, MLE को चुनने में उनके मुख्य प्रेरणाओं में से एक थी। यदि आप उसके तर्क को बेहतर तरीके से समझना चाहते हैं, तो मैं वास्तव में 1922 के पेपर की सिफारिश करता हूं, '


2
क्या मैं आपके उत्तर को संक्षेप में बता सकता हूं क्योंकि अधिकतम संभावना बिंदु अनुमान का उपयोग अक्सर CI के साथ संयोजन में या परिकल्पना परीक्षण (उदाहरण के लिए राशन परीक्षण) के हिस्से के रूप में किया जाता है, इसलिए, यह एक लगातार तकनीक है? यदि यह मामला है, तो मुझे लगता है कि यह एक वैध उत्तर है, हालांकि वह नहीं जिसकी मैं उम्मीद कर रहा था। मैं एक औपचारिक तर्क के लिए लक्ष्य कर रहा था कि अधिकतम संभावना अनुमान को एक निरंतर बिंदु आकलन तकनीक क्यों माना जा सकता है। यदि इसके लिए लगातार निष्कर्ष की एक और औपचारिक परिभाषा की आवश्यकता है तो यह भी ठीक है।
जूलियन कार्ल्स

1
मैं आमतौर पर MLE को एक फ्रेमवर्क के रूप में समझता हूं जिसमें नेमैन के CI के साथ फिशर के पॉइंट अनुमान शामिल हैं - यह इस तरह से कक्षा में पढ़ाया जाता है, और ऊपर दिए गए तर्कों के कारण, मैं इसे बनाए रखना चाहता हूं कि यह हड्डी के लिए अक्सर होता है। मुझे आश्चर्य है कि यह चर्चा करने के लिए कितना मायने रखता है कि अकेले MLE एक निरंतरवादी अनुमानक है, बिना इस बात के कि यह कैसे और क्यों उपयोग किया जाता है। यदि आप फिशर के कारणों को चाहते हैं, तो मैं वास्तव में 1922 के पेपर की सिफारिश करता हूं - मैं कहूंगा कि वे कारण हैं जो अक्सर कहते हैं, हालांकि यह शब्द तब वापस मौजूद नहीं था। मैंने अपनी टिप्पणी उस संबंध में बढ़ा दी है।
फ्लोरियन हार्टिग

1

मूल रूप से, दो कारणों से:

  • अधिकतम संभावना मॉडल मापदंडों का एक बिंदुवार अनुमान है। हम Bayesians पीछे वितरण की तरह।
  • अधिकतम संभावना कोई पूर्व वितरण नहीं मानती है , हम बायेसियन को हमारे पुरोहितों की आवश्यकता है, यह जानकारीपूर्ण या असंक्रामक हो सकता है, लेकिन इसे अस्तित्व में रखने की आवश्यकता है

6
+1: मैं केवल यह बताना चाहता हूं कि आप इस उत्तर में "लगातार" को "गैर-बायेसियन" के साथ समान रूप से प्रस्तुत करते हैं। "वी बायेसियन" की भाषा यह भी बताती है कि "बायेसियन" कुछ प्रकार की व्यक्तिगत विशेषता या जनजाति की सदस्यता को संदर्भित करता है - लगभग जैसे कि आप एक प्रकार के एस्किमो थे - बल्कि तकनीकों और व्याख्याओं के एक सेट के बजाय।
whuber

4
दूसरे हाथ MLE को बायेसियन तकनीक के रूप में आसानी से प्राप्त किया जा सकता है। यह किसी भी सांख्यिकीय मॉडल के लिए एक समान पूर्व का उपयोग करके केवल MAP अनुमान है।
जूलियन कार्ल्स १

3
MAPएक बिंदु-वार अनुमान भी है, और "ट्रू बेयसियंस" पर आधारित है
उरी गोरेन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.