संयुक्त वितरण के अधिकतम संभावना आकलनकर्ता ने केवल मामूली गणना दी


12

चलो दो स्पष्ट चर का एक संयुक्त वितरण हो , के साथ । कहते हैं कि वितरण इस वितरण से लिया गया था, लेकिन हमें केवल सी : के लिए मामूली गणना दी गई है। एक्स , वाई x , y { 1 , ... , कश्मीर } n j = 1 , ... , कश्मीरpx,yX,Yx,y{1,,K}nj=1,,K

Sj=i=1nδ(Xi=l),Tj=i=1nδ(Yi=j),

, लिए अधिकतम संभावना अनुमानक क्या है ? क्या यह ज्ञात है? कम्प्यूटेशनल रूप से संभव? क्या एमएल के अलावा इस समस्या के लिए कोई अन्य उचित दृष्टिकोण हैं? एस जे , टी जेpx,ySj,Tj


2
मार्जिन में वास्तव में संयुक्त वितरण के बारे में जानकारी * नहीं है (वास्तव में यह कोप्लस का बिंदु है)। * या कम से कम शायद ही कोई भी - जाहिर है कि मार्जिन में कम से कम कुछ जानकारी होती है, क्योंकि आंतरिक गणना उन मार्जिन से अधिक नहीं हो सकती है, क्या आपके पास एक विशिष्ट संयुक्त वितरण है? आपने टैग का उपयोग क्यों किया ? क्या आप एक अधिकतम-एन्ट्रापी समाधान के बाद हैं? maximum-entropy
Glen_b -Reinstate मोनिका

मैं कोपलों से बहुत परिचित नहीं हूं। क्या वे श्रेणीबद्ध मामले के लिए भी पकड़ रखते हैं? इसका क्या अर्थ होगा - कि समान मार्जिन वाले प्रत्येक संयुक्त वितरण में समान संभावना होगी? (मैंने अधिकतम-एन्ट्रॉपी को टैग किया क्योंकि मुझे लगा कि यह प्रासंगिक हो सकता है।)
आरएस

हमारे पास अभी तक एक निर्दिष्ट वितरण मॉडल नहीं है, इसलिए हम वास्तव में गणना करने की स्थिति में नहीं हैं । यहां कई संभावनाएं हैं। कॉप्लस ऑर्डर किए गए श्रेणीबद्ध मामले (यदि अद्वितीय नहीं है) के लिए मौजूद हैं, लेकिन इसे बढ़ाने के लिए मेरा उद्देश्य एक प्रेरणा देना था कि मार्जिन सामान्य रूप से बहुत जानकारीपूर्ण क्यों नहीं थे। श्रेणी-गणना के मामले के संबंध में, फिशर ने संयुक्त के बारे में एकरूपता के रूप में मार्जिन का इलाज किया, फिशर-इरविन सटीक परीक्षण। यदि आप अधिकतम एन्ट्रापी चाहते हैं, तो आप संभवतः अधिकतम एन्ट्रापी समाधान प्राप्त कर सकते हैं, लेकिन मुझे नहीं पता कि यह बहुत जानकारीपूर्ण होगा ...P(x|θ)
Glen_b -Reinstate Monica

(ctd) ... संरचना। एमई या एमएल मामलों में, मुझे लगता है कि आपको पहले किसी तरह के मॉडल की आवश्यकता होगी, चाहे वह बाइवेरिएट मल्टीनोमियल, बाइवेरिएट हाइपरजोमेट्रिक हो, या अधिक संरचना के साथ कुछ हो। इस सवाल को देखें , जहां लेखक एक जवाब में एक संदर्भ डालता है। वह मदद का हो सकता है।
Glen_b -Reinstate मोनिका

1
मेरा मतलब था एक सामान्य बिवरिएट मल्टीनोमियल वितरण। सवाल उस मामले के बारे में बोलता है जहां वितरण की रकम दी जाती है और हम संयुक्त वितरण से नमूने देखते हैं। यहां हमारे पास नमूने का योग है। मुझे लगता है कि समस्या एमएल मामले में अच्छी तरह से परिभाषित है (समाधान अद्वितीय नहीं हो सकता है लेकिन मुझे नहीं पता)।
RS

जवाबों:


4

इस तरह की समस्या का अध्ययन डोबरा एट अल (2006) द्वारा पेपर "डेटा ऑग्मेंटेशन इन मल्टी-वेन कंजेंसी टेबल्स विद फिक्स्ड मार्जिनल टोटल्स" में किया गया था। Let मॉडल के मापदंडों को निरूपित करते हैं, let प्रत्येक जोड़ी के लिए काउंट्स की अनबॉस्फर्ड पूर्णांक तालिका को निरूपित करते हैं , और को पूर्णांक सारणी के सीमांत संख्याओं के सेट के समान बनाते हैं। । फिर सीमांत संख्याओं के अवलोकन की संभावना है: जहाँn ( x , y ) सी ( एस , टी ) ( एस , टी ) ( एस , टी ) पी ( एस , टी | θ ) = Σ nसी ( एस , टी ) पी ( एन | θ ) पी ( n | θ ) n θ θθn(x,y)C(S,T)(S,T)(S,T)

p(S,T|θ)=nC(S,T)p(n|θ)
p(n|θ)बहुराष्ट्रीय नमूना वितरण है। यह एमएल के लिए संभावना समारोह को परिभाषित करता है, लेकिन छोटी समस्याओं को छोड़कर प्रत्यक्ष मूल्यांकन संभव नहीं है। वे जिस दृष्टिकोण की अनुशंसा करते हैं, वह MCMC है, जहाँ आप वैकल्पिक रूप से एक प्रस्ताव वितरण से नमूना लेकर और को अपडेट करते हैं और मेट्रोपोलिस-हेस्टिंग्स स्वीकृति अनुपात के अनुसार परिवर्तन को स्वीकार करते हैं। यह मोंटे कार्लो ईएम का उपयोग करते हुए लगभग एक अधिकतम अधिकतम खोजने के लिए अनुकूलित किया जा सकता है । nθθ

एक भिन्न दृष्टिकोण, पर योग को अनुमानित करने के लिए भिन्न तरीकों का उपयोग करेगा । सीमांत बाधाओं को एक कारक ग्राफ के रूप में एन्कोड किया जा सकता है और एक्सपेक्टेशन प्रॉपेलेशन का उपयोग करके पर अनुमान लगाया जा सकता है। θnθ

यह देखने के लिए कि यह समस्या कठिन क्यों है और एक तुच्छ समाधान को स्वीकार नहीं करता है, मामले पर विचार करें । ले रहा है पंक्ति रकम और के रूप में स्तंभ रकम के रूप में, वहाँ की गिनती के दो संभव तालिकाओं कर रहे हैं: इसलिए संभावना समारोह है इस समस्या के लिए MLE है जो बाईं ओर की तालिका को संभालने से मेल खाती है। इसके विपरीत, स्वतंत्रता के अनुमान से आपको जो अनुमान मिलेगा वह है S=(1,2),T=(2,1)ST

[0120][1011]
p(S,T|θ)=3p12p212+6p11p21p22
p^x,y=[01/32/30]
qx,y=[1/32/3][2/31/3]=[2/91/94/92/9]
जिसका एक छोटा सा संभावना मूल्य है।

क्या एक विश्लेषणात्मक समाधान प्राप्त करना संभव नहीं है?
बेन कुह्न

धन्यवाद! कागज प्रासंगिक लगता है, हालांकि यह बायेसियन दृष्टिकोण से लगता है। उस विशिष्ट मामले के बारे में जहां वास्तव में वितरण ही है, अर्थात् , सभी जोड़े के लिए? क्या इस मामले में कोई विश्लेषणात्मक समाधान होगा? θθ={θx,y}(x,y)
RS

मुझे इस बात पर संदेह नहीं होगा कि एक विश्लेषणात्मक समाधान होगा। मैंने इसका उदाहरण देने के लिए एक उदाहरण जोड़ा।
टॉम मिंका

धन्यवाद। शायद यह सच है asymptotically? फिर, मार्जिन योगों पर कंडीशनिंग मार्जिन वितरण (सामान्य होने के बाद) पर कंडीशनिंग के समान है, और प्रत्येक अप्रतिष्ठित पूर्णांक तालिका के लिए लॉग-संभावना इसकी एन्ट्रापी के लिए आनुपातिक है। शायद AEP के साथ कुछ?
RS

1

जैसा कि @Glen_b द्वारा बताया गया है, यह अपर्याप्त रूप से निर्दिष्ट है। मुझे नहीं लगता कि आप अधिकतम संभावना का उपयोग कर सकते हैं जब तक कि आप पूरी तरह से संभावना को निर्दिष्ट नहीं कर सकते।

यदि आप स्वतंत्रता ग्रहण करने के लिए तैयार थे, तो समस्या काफी सरल है (संयोग से, मुझे लगता है कि समाधान अधिकतम एन्ट्रापी समाधान होगा जो सुझाया गया है)। यदि आप अपनी समस्या में अतिरिक्त संरचना को लागू करने के लिए तैयार नहीं हैं और न ही सक्षम हैं, और आप अभी भी कोशिकाओं के मूल्यों के लिए किसी प्रकार का सन्निकटन चाहते हैं, तो हो सकता है कि आप फ्रेचे-होफडिंग कोप्युला सीमा का उपयोग कर सकें । अतिरिक्त मान्यताओं के बिना, मुझे नहीं लगता कि आप आगे जा सकते हैं।


इसमें संभावना बहुराष्ट्रीय होगी। वह अपर्याप्त क्यों है?
RS

जैसा कि मैं इसे समझता हूं, संभावना डेटा दिए गए मापदंडों का एक फ़ंक्शन है। यहां, आपके पास प्रत्येक सेल के लिए मान नहीं हैं, केवल मार्जिन हैं, इसलिए आपके पास मापदंडों का एक भी फ़ंक्शन नहीं है जिसे आप गणना कर सकते हैं, अकेले अधिकतम करें। मार्जिन के साथ संगत सामान्य रूप से कई सेल कॉन्फ़िगरेशन हैं, और प्रत्येक एक अलग संभावना देगा।
एफ। तुसाल

1
हाँ, लेकिन यह ठीक है। पैरामीटर , डेटा मार्जिन हैं। मैं अभी भी दिया marginals की संभावना की गणना कर सकता - यह सब सेल विन्यास कि marginals देने की संभावनाओं से अधिक राशि है। यह एक एकल कार्य है जिसे मैं अधिकतम कर सकता हूं। pp
RS

1

संपादित करें: यह उत्तर एक गलत धारणा पर आधारित है, जो कि दिए गए सीमान्त गणनाओं की संभावना है जो केवल सीमांत संभावनाओं और । मैं अभी भी इसके बारे में सोच रहा हूं।px,ypx=ypx,ypy=xpx,y

गलत सामान इस प्रकार है:

जैसा कि एक टिप्पणी में उल्लेख किया गया है, लिए "अधिकतम संभावना अनुमानक" खोजने के साथ समस्या यह है कि यह अद्वितीय है। उदाहरण के लिए, बाइनरी और साथ मामले पर विचार करें । दो अनुमानकpx,yX,YS1=S2=T1=T2=10

p=(120012),p=(14141414)

सभी मामलों में समान सीमांत और , और इसलिए समान संभावनाएं हैं (दोनों जिनमें से अधिकतम संभावना है, जैसा कि आप सत्यापित कर सकते हैं)।pxpy


वास्तव में, कोई फर्क नहीं पड़ता कि मार्जिन क्या हैं (जब तक कि उनमें से दो प्रत्येक आयाम में नॉनज़रो हैं), अधिकतम संभावना समाधान अद्वितीय नहीं है। मैं इसे बाइनरी केस के लिए साबित करूँगा। बता दें कि एक अधिकतम संभावना समाधान है। सामान्यता के नुकसान के बिना मान लें । फिर का समान मार्जिन होता है और इस तरह यह एक अधिकतम-संभावना समाधान भी है।p=(abcd)0<adp=(0b+ac+ada)


यदि आप इसके अलावा एक अधिकतम-एन्ट्रापी बाधा को लागू करना चाहते हैं , तो आप एक अनूठा समाधान प्राप्त करते हैं, जैसा कि एफ। टसेल ने कहा है कि वह समाधान है जिसमें स्वतंत्र हैं। आप इसे इस प्रकार देख सकते हैं:X,Y

वितरण की एन्ट्रापी ; अधिकतम करने के लिए विषय और (समकक्ष, जहां और ) का उपयोग करके Lagrange गुणक समीकरण देता है:H(p)=x,ypx,ylogpx,yxpx,y=pyypx,y=pxg(p)=0gx(p)=ypx,ypxgy(p)=xpx,ypy

H(p)=kXYλkgk(p)

प्रत्येक सभी ग्रेडिएंट्स 1 हैं, इसलिए समन्वय-वार यह काम करता हैgk

1logpx,y=λx+λypx,y=e1λxλy

साथ ही मूल बाधाओं और । आप सत्यापित कर सकते हैं कि यह तब संतुष्ट है जब और ,Σ y पी एक्स , वाई = पी एक्स 1 / 2 - λ एक्स = पी एक्सxpx,y=pyypx,y=pxe1/2λx=pxe1/2λy=py

px,y=pxpy.

पहले उदाहरण के लिए: जो दिया गया है वह सीमांत संख्या है , सीमांत संभावनाएं नहीं। मामले में आप का वर्णन किया है, की संभावना बाईं के लिए की संभावना है जो है । दाएं , यह , जो । यहां तक ​​कि अगर कोई अनूठा समाधान नहीं है, तो इसका मतलब यह नहीं है कि हम कुछ समाधान की ओर इशारा नहीं कर सकते। अधिकतम एन्ट्रापी एक अनूठा समाधान देती है, लेकिन यह अधिकतम संभावना नहीं हो सकती है। पी [ [ 10 , 0 ] , [ 0 , 10 ] ] 2 - 20 पी Σ 0 एक 10 पी आर [ [ एक , 10 - एक ] , [ 10 - एक , एक ] ] 10 4 -S1=S2=T1=T2=10p[[10,0],[0,10]]220p0a10Pr[[a,10a],[10a,a]]10420
RS

आपने गलत तरीके से संभावनाओं की गणना की है; उदाहरण के लिए, आप द्विपद गुणांक को शामिल करना भूल गए। लेकिन आप सही कह रहे हैं कि दोनों मैट्रिनस मार्जिनल काउंट्स के अलग-अलग संयुक्त डिस्ट्रीब्यूशन देते हैं, जबकि वे मार्जिनल काउंट्स का समान मार्जिन डिस्ट्रीब्यूशन देते हैं। (Yikes!) मैं इस बारे में और अधिक सोचूंगा।
बेन कुह्न
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.