क्या एक बेसेनियन दृष्टिकोण से एमएल अनुमानक की निरर्थक संपत्ति निरंकुश है?

Casella और बर्जर एमएल अनुमानक की अवर्णनीय संपत्ति इस प्रकार है:

हालांकि, यह मुझे लगता है कि वे "संभावना" को परिभाषित करते हैं $\eta$ पूरी तरह से तदर्थ और निरर्थक तरीके से:

अगर मैं साधारण केस व्हीटर में प्रायिकता सिद्धांत के बुनियादी नियम लागू करता हूं $\eta=\tau(\theta)=\theta^2$ , मैं इसके बजाय निम्नलिखित मिलता है:

L (η | x) = p (x | θ^{2} = η) = p (x | θ = - \sqrt{η} \lor θ = \sqrt{η}) =: p (x | A \lor B)

$L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B)$ अब बेयस प्रमेय, और फिर इस तथ्य को लागू करना

A

$A$ तथा

B

$B$ परस्पर अनन्य हैं ताकि हम योग नियम लागू कर सकें:

p (x | A \lor B) = p (x) \frac{p (A \lor B | x)}{p (A \lor B)} = p (x | A \lor B) = p (x) \frac{p (A | x) + p (B | x)}{p (A) + p (B)}

$p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)}$

अब Bayes 'प्रमेय को फिर से अंश में शर्तों पर लागू करना:

p (x) \frac{p (A) \frac{p (x | A)}{p (x)} + p (B) \frac{p (x | B)}{p (x)}}{p (A) + p (B)} = \frac{p (A) p (x | A) + p (बी) पी (एक्स | बी)}{पी (ए) + पी (बी)}

$p(x)\frac {p(A)\frac {p(x|A)}{p(x)}+p(B)\frac {p(x|B)}{p(x)}}{p(A)+p(B)}=\frac {p(A)p(x|A)+p(B)p(x|B)}{p(A)+p(B)}$

अगर हम इस wrt को अधिकतम करना चाहते हैं $\eta$ अधिकतम संभावना अनुमान प्राप्त करने के लिए $\eta$ , हमें अधिकतम करना है:

{पी}_{θ} (- \sqrt{η}) पी (एक्स | θ = - \sqrt{η}) + {पी}_{θ} (\sqrt{η}) पी (एक्स | θ = \sqrt{η})

$p_\theta(-\sqrt \eta)p(x|\theta = -\sqrt \eta)+p_\theta(\sqrt \eta)p(x|\theta = \sqrt \eta)$

क्या बेयस फिर से वार करता है? क्या कैसला और बर्गर गलत है? या मैं गलत हूँ?

— user56834
स्रोत

अधिकतम संभावना अनुमानक

— सेक्स्टस एम्पिरिकस

औपचारिक भाग के बाद "अगर मैं साधारण मामले के लिए संभावना सिद्धांत के बुनियादी नियमों को लागू करता हूँ $\eta=\tau(\theta)=\theta^2$ " सवाल नहीं बदलता है। सैमुअल बेनिडेट से उत्कृष्ट जवाब में मामला पूरी तरह से कवर किया गया है। संभावना मूल्यों (और परिणामस्वरूप अधिकतम) मैपिंग के कारण नहीं बदलते हैं। हां, यदि मैपिंग है तो आपको विशेष ध्यान रखने की आवश्यकता है। एक-से-एक नहीं। लेकिन जब आप परिवर्तन लागू करते हैं, तो संभावित वितरण के कारण होने वाले परिवर्तनों की तुलना में यह एक पूरी तरह से अलग मुद्दा है।

— सेक्स्टस एम्पिरिकस

मैं आपकी हताशा को समझता हूं, Programmer2134 (& @MartijnWeterings)। हालांकि, कृपया अपनी टिप्पणी में अपने लहजे से सावधान रहें। जब हमारी अच्छी नीति का पालन किया जाता है तो उत्पादक बातचीत केवल संभव होती है। यदि आप उत्पादक वार्तालापों को आगे बढ़ाने में रुचि नहीं रखते हैं, तो आपको इन सवालों को कहीं और पोस्ट करना होगा।

— गूँग - मोनिका

@ गुंग, आप पूरी तरह से सही हैं। और मुझे उस टोन के साथ प्रतिक्रिया करने का पछतावा है। मैं इसे अभी से करना बंद कर दूंगा। इसके लिए क्षमा करें। बातचीत के बारे में, मैं उत्पादक लोगों को आगे बढ़ाने में दिलचस्पी रखता हूं, लेकिन मुझे लगा कि मेरे द्वारा पूछे गए कुछ सवालों में लोगों की प्रतिक्रियाएं ज्यादातर प्रतिकूल थीं। फिर भी, अगली बार, मैं अलग तरह से प्रतिक्रिया दूंगा।

— user56834

धन्यवाद। यह मानना सबसे अच्छा है कि लोग अच्छे विश्वास में जवाब दे रहे हैं। वहाँ (अपेक्षाकृत कुछ, IMHO) ऐसे अवसर हैं जहाँ लोग यहाँ नहीं हैं, लेकिन फिर भी, कभी-कभी उन्हें आसपास आने के लिए सहवास किया जा सकता है।

— गंग -

जैसा कि शीआन कहते हैं, यह सवाल विवादास्पद है, लेकिन मुझे लगता है कि कई लोगों को फिर भी बायेसियन परिप्रेक्ष्य से अधिकतम-संभावित अनुमान पर विचार करने के लिए नेतृत्व किया जाता है, क्योंकि एक बयान जो कुछ साहित्य और इंटरनेट पर दिखाई देता है: " अधिकतम-संभावना अनुमान बायेसियन का एक विशेष मामला है जो एक पूर्ववर्ती अनुमान के अनुसार अधिकतम है, जब पूर्व वितरण एक समान है "।

मैं कहूंगा कि एक बायेसियन परिप्रेक्ष्य से अधिकतम-संभावना अनुमानक और इसकी अस्वाभाविक संपत्ति समझ में आ सकती है, लेकिन बायेसियन सिद्धांत में अनुमानकों की भूमिका और अर्थ अक्सर सिद्धांतवादी सिद्धांत से बहुत अलग है। और यह विशेष अनुमानक आमतौर पर बायेसियन दृष्टिकोण से बहुत समझदार नहीं है। यहाँ पर क्यों। सादगी के लिए मुझे एक-आयामी पैरामीटर और एक-एक परिवर्तनों पर विचार करने दें।

सबसे पहले दो टिप्पणी:

यह एक जेनेरिक मैनिफोल्ड पर रहने वाली मात्रा के रूप में एक पैरामीटर पर विचार करने के लिए उपयोगी हो सकता है, जिस पर हम विभिन्न समन्वय प्रणालियों या माप इकाइयों को चुन सकते हैं। इस दृष्टिकोण से एक पुनर्मूल्यांकन केवल निर्देशांक का एक परिवर्तन है। उदाहरण के लिए, पानी के त्रिगुण बिंदु का तापमान वही है कि हम इसे व्यक्त करें $T=273.16$ (क), $t=0.01$ (डिग्री सेल्सियस), $\theta=32.01$ (° F), या $\eta=5.61$ (एक लघुगणकीय पैमाने)। परिवर्तनों के समन्वय के संबंध में हमारे संदर्भ और निर्णय अपरिवर्तनीय होने चाहिए। कुछ समन्वय प्रणाली दूसरों की तुलना में अधिक स्वाभाविक हो सकती हैं, हालांकि, निश्चित रूप से।
निरंतर मात्रा के लिए संभाव्यताएं हमेशा ऐसे राशियों के मानों के अंतराल (अधिक सटीक, समुच्चय) का उल्लेख करती हैं जो कभी भी विशेष मूल्यों के लिए नहीं होते हैं; हालांकि एकवचन मामलों में हम उदाहरण के लिए केवल एक मान वाले सेट पर विचार कर सकते हैं। संभावना-घनत्व संकेतन $\mathrm{p}(x)\,\mathrm{d}x$ , रीमैन-अभिन्न शैली में, हमें बता रहा है कि
(ए) हमने एक समन्वय प्रणाली को चुना है $x$ पैरामीटर मैनिफोल्ड पर,
(b) यह समन्वय प्रणाली हमें समान चौड़ाई के अंतराल की बात करने की अनुमति देती है,
(c) संभावना है कि मान एक छोटे अंतराल में निहित है $\Delta x$ लगभग है $\mathrm{p}(x)\,\Delta x$ , कहाँ पे $x$ अंतराल के भीतर एक बिंदु है।
(वैकल्पिक रूप से हम एक आधार लेब्स लीग माप की बात कर सकते हैं $\mathrm{d}x$ और समान माप के अंतराल, लेकिन सार समान है।)

इसलिए, एक बयान की तरह " $\mathrm{p}(x_1) > \mathrm{p}(x_2)$ "इसका मतलब यह नहीं है कि संभावना के लिए $x_1$ से बड़ा है $x_2$ , लेकिन संभावना है कि $x$ चारों ओर एक छोटे से अंतराल में निहित है $x_1$ संभावना से बड़ा है कि यह चारों ओर समान चौड़ाई के अंतराल में है $x_2$ । ऐसा कथन समन्वय-निर्भर है।

आइए (बार-बार) अधिकतम-संभावना बिंदु देखें
इस दृष्टिकोण से, एक मान मान के लिए संभाव्यता के बारे में बोलना $x$ बस व्यर्थ है। पूर्ण विराम। हम जानना चाहेंगे कि असली पैरामीटर मान और मूल्य क्या है $\tilde{x}$ यह डेटा के लिए सबसे अधिक संभावना देता है $D$ सहज रूप से निशान से बहुत दूर नहीं होना चाहिए:

\begin{matrix} (*) & \tilde{x} := \arg max_{x} p (D ∣ x) . \end{matrix}

$\tilde{x} := \arg\max_x \mathrm{p}(D \mid x)\tag{*}\label{ML}.$ यह अधिकतम संभावना अनुमानक है।

यह अनुमानक कई गुना पैरामीटर पर एक बिंदु का चयन करता है और इसलिए किसी भी समन्वय प्रणाली पर निर्भर नहीं करता है। अन्यथा कहा गया है: पैरामीटर कई गुना पर प्रत्येक बिंदु एक संख्या के साथ जुड़ा हुआ है: डेटा के लिए संभावना $D$ ; हम उस बिंदु को चुन रहे हैं जिसमें सबसे अधिक संबद्ध संख्या है। इस विकल्प को एक समन्वय प्रणाली या आधार उपाय की आवश्यकता नहीं है। यह इस कारण से है कि यह अनुमानक मानकीकरण अपरिवर्तनीय है, और यह संपत्ति हमें बताती है कि यह एक संभावना नहीं है - जैसा कि वांछित है। यदि हम अधिक जटिल पैरामीटर परिवर्तनों पर विचार करते हैं तो यह आक्रमण बना रहता है, और शीआन द्वारा उल्लिखित प्रोफ़ाइल संभावना इस दृष्टिकोण से पूरी तरह समझ में आती है।

आइए बायेसियन दृष्टिकोण देखें
इस दृष्टिकोण से यह हमेशा एक निरंतर पैरामीटर के लिए संभाव्यता की बात करने के लिए समझ में आता है, अगर हम इसके बारे में अनिश्चित हैं, तो डेटा पर सशर्त और अन्य सबूत $D$ । हम इसे लिखते हैं

\begin{matrix} (**) & p (x ∣ D) d x \propto p (D ∣ x) p (x) d x . \end{matrix}

$\mathrm{p}(x \mid D)\,\mathrm{d}x \propto \mathrm{p}(D \mid x)\, \mathrm{p}(x)\,\mathrm{d}x.\tag{**}\label{PD}$ जैसा कि शुरुआत में टिप्पणी की गई थी, यह संभावना पैरामीटर को कई गुना के अंतराल पर संदर्भित करती है, एकल बिंदुओं को नहीं।

आदर्श रूप से हमें पूर्ण संभाव्यता वितरण को निर्दिष्ट करके अपनी अनिश्चितता की रिपोर्ट करनी चाहिए $\mathrm{p}(x \mid D)\,\mathrm{d}x$ पैरामीटर के लिए। तो अनुमानक की धारणा एक बायेसियन दृष्टिकोण से माध्यमिक है।

यह धारणा तब प्रकट होती है जब हमें किसी विशेष उद्देश्य या कारण के लिए कई गुना पैरामीटर पर एक बिंदु चुनना चाहिए , भले ही सही बिंदु अज्ञात हो। यह विकल्प निर्णय सिद्धांत [1] का क्षेत्र है, और चुना गया मूल्य बेयसियन सिद्धांत में "अनुमानक" की उचित परिभाषा है। निर्णय सिद्धांत कहता है कि हमें पहले एक उपयोगिता समारोह शुरू करना चाहिए $(P_0,P)\mapsto G(P_0; P)$ जो हमें बताता है कि बिंदु चुनने से हमें कितना लाभ होता है $P_0$ जब सही बिंदु है, तो पैरामीटर कई गुना है $P$ (वैकल्पिक रूप से, हम निराशावादी रूप से नुकसान के कार्य की बात कर सकते हैं)। इस फ़ंक्शन की प्रत्येक समन्वय प्रणाली में एक अलग अभिव्यक्ति होगी, जैसे $(x_0,x)\mapsto G_x(x_0; x)$ , तथा $(y_0,y)\mapsto G_y(y_0; y)$ ; यदि समन्वय परिवर्तन है $y=f(x)$ , दो भावों से संबंधित हैं $G_x(x_0;x) = G_y[f(x_0); f(x)]$ [2]।

मुझे एक बार तनाव दें कि जब हम एक द्विघात उपयोगिता फ़ंक्शन के बोलते हैं, कहते हैं, तो हमने विशेष रूप से एक विशेष समन्वय प्रणाली को चुना है, आमतौर पर पैरामीटर के लिए एक प्राकृतिक। एक अन्य समन्वय प्रणाली में उपयोगिता फ़ंक्शन के लिए अभिव्यक्ति आम तौर पर नहीं होगी द्विघात होगी, लेकिन यह पैरामीटर पैरामीटर पर अभी भी समान उपयोगिता फ़ंक्शन है।

अनुमान लगाने वाला $\hat{P}$ एक उपयोगिता समारोह के साथ जुड़े $G$ वह बिंदु है जो हमारे डेटा को दिए गए अपेक्षित उपयोगिता को अधिकतम करता है $D$ । एक समन्वय प्रणाली में $x$ , इसका समन्वय है

\begin{matrix} (***) & \hat{x} := \arg max_{x_{0}} \int G_{x} (x_{0}; x) p (x ∣ D) d x . \end{matrix}

$\hat{x} := \arg\max_{x_0} \int G_x(x_0; x)\, \mathrm{p}(x \mid D)\,\mathrm{d}x.\tag{***}\label{UF}$ यह परिभाषा समन्वय परिवर्तनों से स्वतंत्र है: नए निर्देशांक में

y = f (x)

$y=f(x)$ अनुमानक का समन्वय है

\hat{y} = f (\hat{x})

$\hat{y}=f(\hat{x})$ । इस के समन्वय-स्वतंत्रता से निम्नानुसार है

G

$G$ और अभिन्न का।

आप देखते हैं कि इस तरह के आक्रमण बायेसियन अनुमानकों की एक अंतर्निहित संपत्ति है।

अब हम पूछ सकते हैं: क्या एक उपयोगिता फ़ंक्शन है जो एक अनुमानक की ओर जाता है जो अधिकतम-संभावना के बराबर है? चूँकि अधिकतम संभावना अनुमानक अपरिवर्तनीय है, ऐसे कार्य मौजूद हो सकते हैं। इस दृष्टिकोण से, एक बायेसियन दृष्टिकोण से अधिकतम-संभावना निरर्थक होगी यदि यह अपरिवर्तनीय नहीं था !

एक उपयोगिता फ़ंक्शन जो एक विशेष समन्वय प्रणाली में है $x$ एक डायक डेल्टा के बराबर है, $G_x(x_0; x) = \delta(x_0-x)$ , काम करने के लिए लगता है [3]। समीकरण $\eqref{UF}$ पैदावार $\hat{x} = \arg\max_{x} \mathrm{p}(x \mid D)$ , और यदि पूर्व में $\eqref{PD}$ समन्वय में समान है $x$ , हम अधिकतम संभावना अनुमान प्राप्त करते हैं $\eqref{ML}$ । वैकल्पिक रूप से हम तेजी से छोटे समर्थन के साथ उपयोगिता कार्यों के अनुक्रम पर विचार कर सकते हैं, जैसे $G_x(x_0; x) = 1$ अगर $\lvert x_0-x \rvert<\epsilon$ तथा $G_x(x_0; x) = 0$ अन्यत्र, के लिए $\epsilon\to 0$ [4]।

तो, हाँ, अधिकतम-संभावना अनुमानक और इसके प्रतिरूप एक बायेसियन दृष्टिकोण से समझ में आ सकते हैं, अगर हम गणितीय रूप से उदार हैं और सामान्यीकृत कार्यों को स्वीकार करते हैं। लेकिन एक बायेसियन परिप्रेक्ष्य में एक अनुमानक का बहुत अर्थ, भूमिका और उपयोग, लगातार परिप्रेक्ष्य में उन लोगों से पूरी तरह से अलग है।

मुझे यह भी जोड़ने दें कि साहित्य में आरक्षण के बारे में प्रतीत होता है कि क्या उपर्युक्त उपयोगिता फ़ंक्शन गणितीय अर्थ बनाता है [5]। किसी भी मामले में, इस तरह के एक उपयोगिता समारोह की उपयोगिता सीमित है: जैसा कि जेनेस [3] बताते हैं, इसका मतलब है कि "हम केवल बिल्कुल सही होने की संभावना के बारे में परवाह करते हैं; और, अगर हम गलत हैं, तो हम परवाह नहीं करते हैं; हम कितने गलत हैं ”।

अब इस कथन पर विचार करें कि "अधिकतम-संभावना एक समान पूर्व के साथ अधिकतम-ए-पोस्टीरियर का एक विशेष मामला है"। यह ध्यान रखना महत्वपूर्ण है कि निर्देशांक के सामान्य परिवर्तन के तहत क्या होता है $y=f(x)$ :
1. उपर्युक्त उपयोगिता फ़ंक्शन एक अलग अभिव्यक्ति मानती है, $G_y(y_0;y) = \delta[f^{-1}(y_0)-f^{-1}(y)] \equiv \delta(y_0-y)\,\lvert f'[f^{-1}(y_0)]\rvert$ ;
2. the prior density in the coordinate $y$ is not uniform, owing to the Jacobian determinant;
3. the estimator is not the maximum of the posterior density in the $y$ coordinate, because the Dirac delta has acquired an extra multiplicative factor;
4. the estimator is still given by the maximum of the likelihood in the new, $y$ coordinates.
These changes combine so that the estimator point is still the same on the parameter manifold.

Thus, the statement above is implicitly assuming a special coordinate system. A tentative, more explicit statement would could be this: "the maximum-likelihood estimator is numerically equal to the Bayesian estimator that in some coordinate system has a delta utility function and a uniform prior".

Final comments
The discussion above is informal, but can be made precise using measure theory and Stieltjes integration.

In the Bayesian literature we can find also a more informal notion of estimator: it's a number that somehow "summarizes" a probability distribution, especially when it's inconvenient or impossible to specify its full density $\mathrm{p}(x \mid D)\,\mathrm{d}x$ ; see e.g. Murphy [6] or MacKay [7]. This notion is usually detached from decision theory, and therefore may be coordinate-dependent or tacitly assumes a particular coordinate system. But in the decision-theoretic definition of estimator, something which is not invariant cannot be an estimator.

[1] For example, H. Raiffa, R. Schlaifer: Applied Statistical Decision Theory (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: Analysis, Manifolds and Physics. Part I: Basics (Elsevier 1996), or any other good book on differential geometry.
[3] E. T. Jaynes: Probability Theory: The Logic of Science (Cambridge University Press 2003), §13.10.
[4] J.-M. Bernardo, A. F. Smith: Bayesian Theory (Wiley 2000), §5.1.5.
[5] I. H. Jermyn: Invariant Bayesian estimation on manifolds https://doi.org/10.1214/009053604000001273; R. Bassett, J. Deride: Maximum a posteriori estimators as a limit of Bayes estimators https://doi.org/10.1007/s10107-018-1241-0.
[6] K. P. Murphy: Machine Learning: A Probabilistic Perspective (MIT Press 2012), especially chap. 5.
[7] D. J. C. MacKay: Information Theory, Inference, and Learning Algorithms (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/.

— pglpm
स्रोत

There exist ways to define invariant Bayes estimators, in the above sense, by creating a functional loss function, as eg the Kullback-Leibler divergence between two densities. I called these losses intrinsic losses in a 1996 paper.

— Xi'an

From a non-Bayesian view point, there is no definition of quantities like

p (x | θ = - \sqrt{η} \lor θ = \sqrt{η})

$p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)$ because

θ

$\theta$ is then a fixed parameter and the conditioning notation does not make sense. The alternative you propose relies on a prior distribution, which is precisely what an approach such as the one proposed by Casella and Berger wants to avoid. You can check the keyword profile likelihood for more entries. (And there is no meaning of right or wrong there.)

— Xi'an
स्रोत

How does this contradict what I'm saying? My point was that it is nonsensical from a bayesian perspective. The problem I have with Casella and Berger's solution, is that basically, they come up with a totally new ad-hoc definition of likelihood, in such a way that their desired conclusion is reached. If one would make a consistent definition of likelihood, namely the one I gave above, then the conclusion would be different. Of course Casella and Berger may want to avoid bringing in priors, but the only way to do so is to come up with an ad hoc change of definition of likelihood.

— user56834

If you want to keep a Bayesian perspective, the question is moot since most non-Bayesian results will not make sense or be "consistent" with Bayesian principles.

— Xi'an