बायेसियन अनुमान और अधिकतम संभावना अनुमान में क्या अंतर है?


50

कृपया मुझे बायेसियन अनुमान और अधिकतम संभावना अनुमान में अंतर समझाएं?


7
बेयसियन अनुमान के प्रकार पर निर्भर करता है। नक्शा? पीछे का मतलब? कुछ नुकसान समारोह के लिए बेयस जोखिम को कम करने का परिणाम है? उपरोक्त में से प्रत्येक? कुछ और?
Glen_b

2
मैंने इस प्रश्न का उत्तर दिया है, या एक एनालॉग, यहाँ। आंकड़े.stackexchange.com/questions/73439/… आप दोनों को समझने में क्या मुद्दे हैं? अधिक जानकारी हमें बेहतर उत्तर देने में मदद करेगी।
मोनिका

1
एसटीएएन संदर्भ मैनुअल से: "यदि पूर्व एक समान है, तो पीछे का मोड मापदंडों के अधिकतम संभावना अनुमान (एमएलई) से मेल खाता है। यदि पूर्व एक समान नहीं है, तो पीछे के मोड को कभी-कभी अधिकतम पोस्टीरियर (एमएपी) अनुमान कहा जाता है। "
नीरव

@ नीरव, मुझे जो जवाब चाहिए था। thx
javadba

बायेसियन के विशिष्ट मामले के लिए संभवतः एक उपयोगी उत्तर एक पश्चवर्ती अनुमान यहां दिया गया है
pglpm

जवाबों:


68

यह एक बहुत ही व्यापक प्रश्न है और यहाँ मेरा उत्तर केवल सतह को थोड़ा खरोंचना शुरू करता है। मैं अवधारणाओं को समझाने के लिए बेयस नियम का उपयोग करूंगा।

मान लेते हैं कि प्रायिकता वितरण मापदंडों का एक सेट , the , सर्वोत्तम डेटासेट समझाता है । हम Bayes नियम की मदद से पैरामीटर का अनुमान लगाना चाहते हैं :डी θθDθ

p(θ|D)=p(D|θ)p(θ)p(D)

posterior=likelihoodpriorevidence

स्पष्टीकरण का पालन करें:

अधिकतम संभावना अनुमान

MLE के साथ, हम लिए एक बिंदु मान चाहते हैं, जो संभावना को अधिकतम करता है, the , जो कि समीकरण (ओं) में दिखाया गया है। हम इस मूल्य को रूप में निरूपित कर सकते हैं । MLE में, एक बिंदु अनुमान है, न कि एक यादृच्छिक चर।θp(D|θ)θ^θ^

दूसरे शब्दों में, उपरोक्त समीकरण में, MLE एक स्थिर के रूप में शब्द को मानता है और हमें हमारी पूर्व मान्यताओं, को इंजेक्ट करने की अनुमति नहीं देता है , के बारे में अनुमान गणना में लिए संभावित मान ।p(θ)p(D)p(θ)θ

बायेसियन अनुमान

बायेसियन अनुमान, इसके विपरीत, पूरी तरह से गणना करता है (या कई बार अनुमानित करता है) पश्च वितरण । बेइज़ियन इनवेंशन एक यादृच्छिक चर के रूप में को मानता है । बेयसियन आकलन में, हम संभाव्यता घनत्व कार्यों में डालते हैं और MLE की तरह एकल बिंदु के बजाय प्रायिकता घनत्व फ़ंक्शन प्राप्त करते हैं।p(θ|D)θ

आउटपुट डिस्ट्रिब्यूशन द्वारा संभव किए गए सभी मूल्यों में से , यह हमारा काम है कि हम एक ऐसे मूल्य का चयन करें जिसे हम कुछ अर्थों में सर्वश्रेष्ठ मानते हैं। उदाहरण के लिए, हम के अपेक्षित मान को चुन सकते हैं । विचरण जिसे हम इसके पीछे वितरण से पैरामीटर लिए गणना कर सकते हैं, हमें किसी भी विशिष्ट मूल्य में हमारे विश्वास को व्यक्त करने की अनुमति देता है जिसका हम अनुमान के रूप में उपयोग कर सकते हैं। यदि विचरण बहुत बड़ा है, तो हम यह घोषणा कर सकते हैं कि लिए एक अच्छा अनुमान मौजूद नहीं है ।θp(θ|D)θθθ

एक व्यापार बंद के रूप में, बेयसियन अनुमान इस तथ्य से जटिल बना है कि हमें अब बेयर्स नियम में के साथ व्यवहार करना होगा, अर्थात । यहाँ साक्ष्य-साक्ष्य की संभावना- द्वारा दर्शाया गया है:evidence

p(D)=θp(D|θ)p(θ)dθ

यह बेयसियन अनुमान में 'संयुग्मक पुजारियों' की अवधारणा की ओर जाता है। किसी दिए गए संभावना समारोह के लिए, यदि हमारे पास कोई विकल्प है कि हम अपनी पूर्व मान्यताओं को कैसे व्यक्त करते हैं, तो हमें उस फॉर्म का उपयोग करना चाहिए जो हमें ऊपर दिखाए गए एकीकरण को पूरा करने की अनुमति देता है। पुजारी और उन्हें व्यावहारिक रूप से कैसे लागू किया जाता है, इस विचार को इस पोस्ट में COOlSerdash द्वारा काफी अच्छी तरह से समझाया गया है।


1
क्या आप इस पर और अधिक विस्तार करेंगे? : "बेयर्स नियम में हर, अर्थात प्रमाण।"
डैनियल

1
मैंने अपना उत्तर बढ़ाया।
ज़ुर्बर्ब

@ बर्कन यहाँ समीकरण में, पी (डी | थीटा) संभावना है। हालाँकि, संभावना फ़ंक्शन को P (थीटा डी) के रूप में परिभाषित किया गया है, जो कि दिए गए डेटा का पैरामीटर का कार्य है। मैं हमेशा इस बारे में उलझन में हूं। संभावना शब्द यहां विभिन्न चीजों का उल्लेख कर रहा है? क्या आप इसे विस्तार से समझा सकते हैं? आपका बहुत बहुत धन्यवाद!
ज़ेस्ला

1
@zesla अगर मेरी समझ सही है, P (थीटा | D) संभावना नहीं है - यह पीछे है। यही है, आपके पास डेटा स्रोत पर थीटा सशर्त का वितरण। संभावना जैसा कि आपने कहा है: पी (डी। थीटा) - थीटा द्वारा पैरामीटर के रूप में आपके डेटा का वितरण, या शायद अधिक सहज ज्ञान युक्त रूप से, "थीटा के कार्य को देखने के लिए" जो आप देखते हैं उसे देखने की संभावना "। क्या इसका कोई मतलब है? बाकी सब: कृपया मुझे सही करें जहां मैं गलत हूं।
ग्रिज़ाइटिस

@zesla, ग्रिसाइटिस द्वारा दी गई व्याख्या सही है।
ज़ुर्बर्ब

13

मुझे लगता है कि आप पैरामीट्रिक अनुमान के रूप में बिंदु अनुमान के बारे में बात कर रहे हैं, ताकि हम डेटा उत्पन्न करने वाले तंत्र के लिए पैरामीट्रिक संभाव्यता मॉडल मान सकें लेकिन पैरामीटर का वास्तविक मूल्य अज्ञात है।

अधिकतम संभावना अनुमान डेटा के लिए संभाव्यता मॉडल का उपयोग करने और एक या अधिक मापदंडों पर देखे गए डेटा के संयुक्त संभावना फ़ंक्शन का अनुकूलन करने के लिए संदर्भित करता है। इसलिए यह देखा गया है कि अनुमानित पैरामीटर पैरामीटर स्पेस के किसी अन्य पैरामीटर के सापेक्ष देखे गए डेटा के साथ सबसे अधिक सुसंगत हैं। ध्यान दें कि इस तरह के संभावित कार्यों को मापदंडों पर "सशर्त" होने के रूप में नहीं देखा जाता है क्योंकि पैरामीटर यादृच्छिक चर नहीं हैं, इसलिए यह दो अलग-अलग मापदंडों की तुलना में विभिन्न परिणामों की संभावना के गर्भ धारण करने के लिए कुछ अधिक परिष्कृत है। यह पता चलता है कि यह एक दार्शनिक रूप से ध्वनि दृष्टिकोण है।

बायेसियन का अनुमान थोड़ा अधिक सामान्य है क्योंकि हम संभावित रूप से संभावना (पोस्टीरियर घनत्व) के बायेसियन एनालॉग को अधिकतम नहीं कर रहे हैं। हालांकि, डेटा पर पश्च पैरामीटर सशर्त की संभावना को अधिकतम करने के रूप में अनुमान के अनुरूप प्रकार (या पश्च मोड मोड) को देखा जाता है। आमतौर पर, इस तरह से प्राप्त बेयस के अनुमान एमएल के समान व्यवहार करते हैं। मुख्य अंतर यह है कि बेयस इनवेंशन पूर्व सूचना को शामिल करने के लिए एक स्पष्ट विधि की अनुमति देता है।

इसके अलावा 'अधिकतम संभावना के महाकाव्य इतिहास एक रोशन पढ़ने के लिए बनाता है

http://arxiv.org/pdf/0804.2996.pdf


क्या आप इस पर और अधिक विस्तार करेंगे? "हालांकि, डेटा पर पश्च पैरामीटर सशर्त की संभावना को अधिकतम करने के रूप में अनुमान के अनुरूप प्रकार (या पश्च मोड मोड आकलन) को देखा जाता है।"
डैनियल

पीछे का मोड थोड़ा गलत है, क्योंकि निरंतर डीएफ के साथ, मूल्य अच्छी तरह से परिभाषित है। पश्चगामी घनत्व लगातार मामले में संभावना से संबंधित हैं, सिवाय इसके कि यह आपको पीछे के घनत्व से मापदंडों का अनुकरण करने की अनुमति देता है। दिलचस्प रूप से, एक सबसे सहज रूप से "पोस्टीरियर माध्य" के बारे में सोचता है जो पैरामीटर का सबसे अच्छा बिंदु अनुमान है। यह दृष्टिकोण अक्सर किया जाता है और, सममित असमान घनत्व के लिए, यह वैध विश्वसनीय अंतराल पैदा करता है जो एमएल के अनुरूप होता है। पोस्टीरियर मोड पोस्टीरियर घनत्व के शीर्ष पर सिर्फ पैरामीटर मान है।
एडमो

के बारे में "यह वैध विश्वसनीय अंतराल पैदा करता है जो एमएल के अनुरूप हैं।": यह वास्तव में मॉडल पर निर्भर करता है, है ना? वे लगातार हो सकते हैं या नहीं ...
डैनियल

1
अंतर्निहित पैरामीट्रिक मान्यताओं का मुद्दा पूरी तरह से पैरामीट्रिक बनाम अर्ध-पैरामीट्रिक या गैर- विषम पद्धति के बारे में चर्चा को प्रेरित करता है। यह एक एमएल बनाम बायेशियन मुद्दा नहीं है और आप वह गलती करने वाले पहले व्यक्ति नहीं हैं। एमएल एक पूरी तरह से पैरामीट्रिक दृष्टिकोण है, यह आपको कुछ चीजों का अनुमान लगाने की अनुमति देता है जो एसपी या एनपी नहीं कर सकते हैं (और जब वे कर सकते हैं तो अधिक कुशलता से)। एमएल में प्रायिकता मॉडल को सही ढंग से निर्दिष्ट करना ठीक वैसा ही है जैसा कि सही पूर्व और सभी मजबूती गुणों (और संवेदनशीलता मुद्दों) को चुनना है जो इसका अर्थ है।
आदमियो

BTW, आपकी टिप्पणियों ने मेरे मन में इस सवाल को प्रज्वलित किया। इस पर कोई टिप्पणी? आंकड़े.stackexchange.com/questions/74164/…
डैनियल

2

बायेसियन का अनुमान बेयसियन अनुमान है जबकि एमएलई एक प्रकार का बार-बार होने वाला निष्कर्ष है।

बायेसियन इंविक्शन के अनुसार, रखती है, कि । ध्यान दें कि अधिकतम संभावना अनुमान एक साक्ष्य के रूप में पूर्व के प्रमाणों के अनुपात को मानता है (पूर्व वितरण को समान वितरण के रूप में निर्धारित करता है, उदाहरण के लिए पासा खेलने में ), जो पूर्व मान्यताओं को छोड़ देता है, इस प्रकार MLE एक लगातार तकनीक (बायेसियन के बजाय) माना जाता है। और इस परिदृश्य में पूर्व समान नहीं हो सकता है, क्योंकि यदि नमूने एमएपी के लिए पर्याप्त मात्रा में MLE हैं (विस्तृत कटौती के लिए कृपया इस उत्तर को देखें )। एलमैंkएलमैंडी=पीएसटीआरमैंआर*वीमैंdएनसीf(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ) पी(θ)=1/6likelihood=posteriorevidencepriorp(θ)=1/6

बायसियन इंट्रेंस में MLE के विकल्प को अधिकतम पोस्टीरियर आकलन (शॉर्ट के लिए MAP) कहा जाता है, और वास्तव में MLE MAP का एक विशेष मामला है जहां पूर्व एक समान है, जैसा कि हम ऊपर देखते हैं और जैसा कि विकिपीडिया में कहा गया है :

बायेसियन इंट्रेंस के दृष्टिकोण से, MLE अधिकतम पोस्टीरियर आकलन (MAP) का एक विशेष मामला है जो मापदंडों के एक समान पूर्व वितरण को मानता है।

जानकारी के लिए कृपया इस भयानक लेख का संदर्भ लें: MLE vs MAP: अधिकतम संभावना और अधिकतम ए पोस्टवर्डी अनुमान के बीच संबंध

और एक और अंतर यह है कि अधिकतम संभावना अति-प्रवण है, लेकिन यदि आप बायेसियन दृष्टिकोण अपनाते हैं तो ओवर-फिटिंग की समस्या से बचा जा सकता है।


1
बेयस के बारे में एक अच्छी बात यह है कि आप किसी भी बिंदु अनुमान की गणना करने के लिए बाध्य नहीं हैं। पूरे पीछे का घनत्व आपका "अनुमान" हो सकता है।
फ्रैंक हरेल

@FrankHarrell प्रिय प्रो। हरेल, क्या आप मुझे जवाब संपादित करने में मदद कर सकते हैं अगर मैंने कुछ भयानक गलतियाँ की हैं? बहुत बहुत धन्यवाद!
लेर्नर झांग

1
मेरा मतलब यह नहीं था कि आपने गलती की है।
फ्रैंक हरेल

@lerner: मैं अधिकतम-ए-पोस्टीरियर अनुमान के एक विशेष मामले के रूप में अधिकतम-संभावना अनुमान की पहचान करने के खिलाफ चेतावनी देना चाहता हूं (जब पूर्व स्थिर है): इस उत्तर में देखें कि क्यों ।
pglpm
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.