जैसा कि शीआन कहते हैं, यह सवाल विवादास्पद है, लेकिन मुझे लगता है कि कई लोगों को फिर भी बायेसियन परिप्रेक्ष्य से अधिकतम-संभावित अनुमान पर विचार करने के लिए नेतृत्व किया जाता है, क्योंकि एक बयान जो कुछ साहित्य और इंटरनेट पर दिखाई देता है: " अधिकतम-संभावना अनुमान बायेसियन का एक विशेष मामला है जो एक पूर्ववर्ती अनुमान के अनुसार अधिकतम है, जब पूर्व वितरण एक समान है "।
मैं कहूंगा कि एक बायेसियन परिप्रेक्ष्य से अधिकतम-संभावना अनुमानक और इसकी अस्वाभाविक संपत्ति समझ में आ सकती है, लेकिन बायेसियन सिद्धांत में अनुमानकों की भूमिका और अर्थ अक्सर सिद्धांतवादी सिद्धांत से बहुत अलग है। और यह विशेष अनुमानक आमतौर पर बायेसियन दृष्टिकोण से बहुत समझदार नहीं है। यहाँ पर क्यों। सादगी के लिए मुझे एक-आयामी पैरामीटर और एक-एक परिवर्तनों पर विचार करने दें।
सबसे पहले दो टिप्पणी:
यह एक जेनेरिक मैनिफोल्ड पर रहने वाली मात्रा के रूप में एक पैरामीटर पर विचार करने के लिए उपयोगी हो सकता है, जिस पर हम विभिन्न समन्वय प्रणालियों या माप इकाइयों को चुन सकते हैं। इस दृष्टिकोण से एक पुनर्मूल्यांकन केवल निर्देशांक का एक परिवर्तन है। उदाहरण के लिए, पानी के त्रिगुण बिंदु का तापमान वही है कि हम इसे व्यक्त करेंT=273.16 (क), t=0.01 (डिग्री सेल्सियस), θ=32.01 (° F), या η=5.61(एक लघुगणकीय पैमाने)। परिवर्तनों के समन्वय के संबंध में हमारे संदर्भ और निर्णय अपरिवर्तनीय होने चाहिए। कुछ समन्वय प्रणाली दूसरों की तुलना में अधिक स्वाभाविक हो सकती हैं, हालांकि, निश्चित रूप से।
निरंतर मात्रा के लिए संभाव्यताएं हमेशा ऐसे राशियों के मानों के अंतराल (अधिक सटीक, समुच्चय) का उल्लेख करती हैं जो कभी भी विशेष मूल्यों के लिए नहीं होते हैं; हालांकि एकवचन मामलों में हम उदाहरण के लिए केवल एक मान वाले सेट पर विचार कर सकते हैं। संभावना-घनत्व संकेतनp(x)dx, रीमैन-अभिन्न शैली में, हमें बता रहा है कि
(ए) हमने एक समन्वय प्रणाली को चुना हैxपैरामीटर मैनिफोल्ड पर,
(b) यह समन्वय प्रणाली हमें समान चौड़ाई के अंतराल की बात करने की अनुमति देती है,
(c) संभावना है कि मान एक छोटे अंतराल में निहित हैΔx लगभग है p(x)Δx, कहाँ पे xअंतराल के भीतर एक बिंदु है।
(वैकल्पिक रूप से हम एक आधार लेब्स लीग माप की बात कर सकते हैंdx और समान माप के अंतराल, लेकिन सार समान है।)
इसलिए, एक बयान की तरह "p(x1)>p(x2)"इसका मतलब यह नहीं है कि संभावना के लिए x1 से बड़ा है x2, लेकिन संभावना है किx चारों ओर एक छोटे से अंतराल में निहित है x1संभावना से बड़ा है कि यह चारों ओर समान चौड़ाई के अंतराल में हैx2। ऐसा कथन समन्वय-निर्भर है।
आइए (बार-बार) अधिकतम-संभावना बिंदु देखें
इस दृष्टिकोण से, एक मान मान के लिए संभाव्यता के बारे में बोलनाxबस व्यर्थ है। पूर्ण विराम। हम जानना चाहेंगे कि असली पैरामीटर मान और मूल्य क्या हैx~ यह डेटा के लिए सबसे अधिक संभावना देता है D सहज रूप से निशान से बहुत दूर नहीं होना चाहिए:
x~:=argmaxxp(D∣x).(*)
यह अधिकतम संभावना अनुमानक है।
यह अनुमानक कई गुना पैरामीटर पर एक बिंदु का चयन करता है और इसलिए किसी भी समन्वय प्रणाली पर निर्भर नहीं करता है। अन्यथा कहा गया है: पैरामीटर कई गुना पर प्रत्येक बिंदु एक संख्या के साथ जुड़ा हुआ है: डेटा के लिए संभावनाD; हम उस बिंदु को चुन रहे हैं जिसमें सबसे अधिक संबद्ध संख्या है। इस विकल्प को एक समन्वय प्रणाली या आधार उपाय की आवश्यकता नहीं है। यह इस कारण से है कि यह अनुमानक मानकीकरण अपरिवर्तनीय है, और यह संपत्ति हमें बताती है कि यह एक संभावना नहीं है - जैसा कि वांछित है। यदि हम अधिक जटिल पैरामीटर परिवर्तनों पर विचार करते हैं तो यह आक्रमण बना रहता है, और शीआन द्वारा उल्लिखित प्रोफ़ाइल संभावना इस दृष्टिकोण से पूरी तरह समझ में आती है।
आइए बायेसियन दृष्टिकोण देखें
इस दृष्टिकोण से यह हमेशा एक निरंतर पैरामीटर के लिए संभाव्यता की बात करने के लिए समझ में आता है, अगर हम इसके बारे में अनिश्चित हैं, तो डेटा पर सशर्त और अन्य सबूतD। हम इसे लिखते हैं
p(x∣D)dx∝p(D∣x)p(x)dx.(**)
जैसा कि शुरुआत में टिप्पणी की गई थी, यह संभावना पैरामीटर को कई गुना के अंतराल पर संदर्भित करती है, एकल बिंदुओं को नहीं।
आदर्श रूप से हमें पूर्ण संभाव्यता वितरण को निर्दिष्ट करके अपनी अनिश्चितता की रिपोर्ट करनी चाहिए p(x∣D)dxपैरामीटर के लिए। तो अनुमानक की धारणा एक बायेसियन दृष्टिकोण से माध्यमिक है।
यह धारणा तब प्रकट होती है जब हमें किसी विशेष उद्देश्य या कारण के लिए कई गुना पैरामीटर पर एक बिंदु चुनना चाहिए , भले ही सही बिंदु अज्ञात हो। यह विकल्प निर्णय सिद्धांत [1] का क्षेत्र है, और चुना गया मूल्य बेयसियन सिद्धांत में "अनुमानक" की उचित परिभाषा है। निर्णय सिद्धांत कहता है कि हमें पहले एक उपयोगिता समारोह शुरू करना चाहिए (P0,P)↦G(P0;P) जो हमें बताता है कि बिंदु चुनने से हमें कितना लाभ होता है P0 जब सही बिंदु है, तो पैरामीटर कई गुना है P(वैकल्पिक रूप से, हम निराशावादी रूप से नुकसान के कार्य की बात कर सकते हैं)। इस फ़ंक्शन की प्रत्येक समन्वय प्रणाली में एक अलग अभिव्यक्ति होगी, जैसे(x0,x)↦Gx(x0;x), तथा (y0,y)↦Gy(y0;y); यदि समन्वय परिवर्तन हैy=f(x), दो भावों से संबंधित हैं Gx(x0;x)=Gy[f(x0);f(x)] [2]।
मुझे एक बार तनाव दें कि जब हम एक द्विघात उपयोगिता फ़ंक्शन के बोलते हैं, कहते हैं, तो हमने विशेष रूप से एक विशेष समन्वय प्रणाली को चुना है, आमतौर पर पैरामीटर के लिए एक प्राकृतिक। एक अन्य समन्वय प्रणाली में उपयोगिता फ़ंक्शन के लिए अभिव्यक्ति आम तौर पर नहीं होगी द्विघात होगी, लेकिन यह पैरामीटर पैरामीटर पर अभी भी समान उपयोगिता फ़ंक्शन है।
अनुमान लगाने वाला P^ एक उपयोगिता समारोह के साथ जुड़े G वह बिंदु है जो हमारे डेटा को दिए गए अपेक्षित उपयोगिता को अधिकतम करता है D। एक समन्वय प्रणाली मेंx, इसका समन्वय है
x^:=argmaxx0∫Gx(x0;x)p(x∣D)dx.(***)
यह परिभाषा समन्वय परिवर्तनों से स्वतंत्र है: नए निर्देशांक में y=f(x) अनुमानक का समन्वय है y^=f(x^)। इस के समन्वय-स्वतंत्रता से निम्नानुसार हैG और अभिन्न का।
आप देखते हैं कि इस तरह के आक्रमण बायेसियन अनुमानकों की एक अंतर्निहित संपत्ति है।
अब हम पूछ सकते हैं: क्या एक उपयोगिता फ़ंक्शन है जो एक अनुमानक की ओर जाता है जो अधिकतम-संभावना के बराबर है? चूँकि अधिकतम संभावना अनुमानक अपरिवर्तनीय है, ऐसे कार्य मौजूद हो सकते हैं। इस दृष्टिकोण से, एक बायेसियन दृष्टिकोण से अधिकतम-संभावना निरर्थक होगी यदि यह अपरिवर्तनीय नहीं था !
एक उपयोगिता फ़ंक्शन जो एक विशेष समन्वय प्रणाली में है x एक डायक डेल्टा के बराबर है, Gx(x0;x)=δ(x0−x), काम करने के लिए लगता है [3]। समीकरण(***) पैदावार x^=argmaxxp(x∣D), और यदि पूर्व में (**) समन्वय में समान है x, हम अधिकतम संभावना अनुमान प्राप्त करते हैं (*)। वैकल्पिक रूप से हम तेजी से छोटे समर्थन के साथ उपयोगिता कार्यों के अनुक्रम पर विचार कर सकते हैं, जैसेGx(x0;x)=1 अगर |x0−x|<ϵ तथा Gx(x0;x)=0 अन्यत्र, के लिए ϵ→0 [4]।
तो, हाँ, अधिकतम-संभावना अनुमानक और इसके प्रतिरूप एक बायेसियन दृष्टिकोण से समझ में आ सकते हैं, अगर हम गणितीय रूप से उदार हैं और सामान्यीकृत कार्यों को स्वीकार करते हैं। लेकिन एक बायेसियन परिप्रेक्ष्य में एक अनुमानक का बहुत अर्थ, भूमिका और उपयोग, लगातार परिप्रेक्ष्य में उन लोगों से पूरी तरह से अलग है।
मुझे यह भी जोड़ने दें कि साहित्य में आरक्षण के बारे में प्रतीत होता है कि क्या उपर्युक्त उपयोगिता फ़ंक्शन गणितीय अर्थ बनाता है [5]। किसी भी मामले में, इस तरह के एक उपयोगिता समारोह की उपयोगिता सीमित है: जैसा कि जेनेस [3] बताते हैं, इसका मतलब है कि "हम केवल बिल्कुल सही होने की संभावना के बारे में परवाह करते हैं; और, अगर हम गलत हैं, तो हम परवाह नहीं करते हैं; हम कितने गलत हैं ”।
अब इस कथन पर विचार करें कि "अधिकतम-संभावना एक समान पूर्व के साथ अधिकतम-ए-पोस्टीरियर का एक विशेष मामला है"। यह ध्यान रखना महत्वपूर्ण है कि निर्देशांक के सामान्य परिवर्तन के तहत क्या होता हैy=f(x):
1. उपर्युक्त उपयोगिता फ़ंक्शन एक अलग अभिव्यक्ति मानती है,Gy(y0;y)=δ[f−1(y0)−f−1(y)]≡δ(y0−y)|f′[f−1(y0)]|;
2. the prior density in the coordinate y is not uniform, owing to the Jacobian determinant;
3. the estimator is not the maximum of the posterior density in the y coordinate, because the Dirac delta has acquired an extra multiplicative factor;
4. the estimator is still given by the maximum of the likelihood in the new, y coordinates.
These changes combine so that the estimator point is still the same on the parameter manifold.
Thus, the statement above is implicitly assuming a special coordinate system. A tentative, more explicit statement would could be this: "the maximum-likelihood estimator is numerically equal to the Bayesian estimator that in some coordinate system has a delta utility function and a uniform prior".
Final comments
The discussion above is informal, but can be made precise using measure theory and Stieltjes integration.
In the Bayesian literature we can find also a more informal notion of estimator: it's a number that somehow "summarizes" a probability distribution, especially when it's inconvenient or impossible to specify its full density p(x∣D)dx; see e.g. Murphy [6] or MacKay [7]. This notion is usually detached from decision theory, and therefore may be coordinate-dependent or tacitly assumes a particular coordinate system. But in the decision-theoretic definition of estimator, something which is not invariant cannot be an estimator.
[1] For example, H. Raiffa, R. Schlaifer: Applied Statistical Decision Theory (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: Analysis, Manifolds and Physics. Part I: Basics (Elsevier 1996), or any other good book on differential geometry.
[3] E. T. Jaynes: Probability Theory: The Logic of Science (Cambridge University Press 2003), §13.10.
[4] J.-M. Bernardo, A. F. Smith: Bayesian Theory (Wiley 2000), §5.1.5.
[5] I. H. Jermyn: Invariant Bayesian estimation on manifolds https://doi.org/10.1214/009053604000001273; R. Bassett, J. Deride: Maximum a posteriori estimators as a limit of Bayes estimators https://doi.org/10.1007/s10107-018-1241-0.
[6] K. P. Murphy: Machine Learning: A Probabilistic Perspective (MIT Press 2012), especially chap. 5.
[7] D. J. C. MacKay: Information Theory, Inference, and Learning Algorithms (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/.