क्यों बेयर्स प्रमेय में भाजक टूट गया?


23

(मैं आँकड़े पर एक नौसिखिया हूँ। मैं एक गणितज्ञ और एक प्रोग्रामर हूँ और मैं एक भोले बायेसियन स्पैम फ़िल्टर की तरह कुछ बनाने की कोशिश कर रहा हूँ।)

मैंने कई स्थानों पर देखा है कि लोग बेयर्स प्रमेय से समीकरण में हर को तोड़ने के लिए करते हैं। तो इसके बजाय:

पी(|बी)पी(बी)पी()

हम इस के साथ प्रस्तुत कर रहे हैं:

पी(|बी)पी(बी)पी(|बी)पी(बी)+पी(|¬बी)पी(¬बी)

आप देख सकते हैं कि इस सम्मेलन का उपयोग इस विकिपीडिया लेख में और टिम पीटर्स द्वारा इस व्यावहारिक पोस्ट में किया गया है।

मैं इससे चकित हूं। हर क्यों इस तरह से टूट रहा है? यह सब चीजों में मदद कैसे करता है? गणना के बारे में इतना जटिल क्या है , जो स्पैम फिल्टर के मामले में होगा ?पी()The probability that the word "cheese" appears in an email, regardless of whether it's spam or not


मुझे संदेह है कि उत्तर डोमेन विशिष्ट है (यानी, स्पैम फ़िल्टर के लिए विशिष्ट)। यदि आप घटकों पी (ए | बी) आदि की गणना कर सकते हैं तो आपको सरल पी (ए) की गणना करने में सक्षम होना चाहिए जैसा आपने कहा था। या, शायद इसका उत्तर शिक्षाशास्त्र से संबंधित है ताकि पाठक पी (ए) और पी (ए) बी, पी (बी) आदि के संदर्भ में इसके विघटन के बीच के रिश्ते को समझें

1
मेरे पास एक मजबूत जवाब नहीं है, लेकिन मैं कह सकता हूं कि मैंने परीक्षणों पर बेवकूफी भरी गलतियां की हैं, जहां मैं स्पष्ट रूप से हरित में प्लग कर सकता हूं, लेकिन मुझे लगा कि मैं पी (ए) जानता था और मैं गलत था।
वेन

जवाबों:


16

आपके प्रश्न का संक्षिप्त उत्तर है, "अधिकांश समय हम नहीं जानते कि पी (पनीर) क्या है, और इसकी गणना करना अक्सर (अपेक्षाकृत) कठिन होता है।"

बेयस नियम / प्रमेय को सामान्य रूप से इस कारण उत्तर दिया जाता है कि आपने जो लिखा है, वह इसलिए है क्योंकि बेइज़ियन समस्याओं में हम हैं - हमारी गोद में बैठे - एक पूर्व वितरण (पी (बी) ऊपर) और संभावना (पी) (ए) | बी), पी (ए। नॉट बी) ऊपर) और यह पश्च (पी (बी | ए)) की गणना करने के लिए गुणा का अपेक्षाकृत सरल मामला है। अपने संक्षिप्त रूप में P (A) को पुनः प्राप्त करने के लिए परेशानी में जाना प्रयास है जिसे कहीं और खर्च किया जा सकता है।

यह एक ईमेल के संदर्भ में इतना जटिल नहीं लग सकता है क्योंकि, जैसा कि आपने सही उल्लेख किया है, यह सिर्फ पी (पनीर) है, है ना? मुसीबत यह है कि अधिक युद्ध के मैदान पर बेयसियन समस्याओं में शामिल होने के कारण हर कोई एक भद्दा अभिन्न अंग है, जिसका कोई बंद-रूप समाधान नहीं भी हो सकता है। वास्तव में, कभी-कभी हमें परिष्कृत मोंटे कार्लो विधियों की आवश्यकता होती है जो केवल अभिन्न को अनुमानित करते हैं और संख्याओं को मंथन करते हुए पीछे की ओर एक वास्तविक दर्द हो सकता है।

लेकिन इस बिंदु पर, हम आमतौर पर यह भी ध्यान नहीं देते हैं कि पी (पनीर) क्या है। ध्यान रखें, हम एक ईमेल स्पैम है या नहीं, इस बारे में हमारी धारणा को सुधारने की कोशिश कर रहे हैं , और डेटा के सीमांत वितरण (पी (ए), ऊपर) के बारे में कम परवाह नहीं कर सकते हैं। यह केवल एक सामान्यीकरण स्थिरांक है, वैसे भी, जो पैरामीटर पर निर्भर नहीं करता है; सारांश के बारे में हमारे पास जो भी जानकारी थी, समन का कार्य समाप्त हो गया। निरंतरता गणना करने के लिए एक उपद्रव है और अंततः यह अप्रासंगिक है जब यह ईमेल के स्पैम के बारे में हमारे विश्वासों पर शून्य करने की बात आती है या नहीं। कभी-कभी हम इसकी गणना करने के लिए बाध्य होते हैं, जिस स्थिति में ऐसा करने का सबसे तेज़ तरीका उस जानकारी के साथ होता है जो हमारे पास पहले से है: पूर्व और समानता।


क्या कोई ight एक भद्दा अभिन्न अंग, जो एक बंद-रूप समाधान नहीं हो सकता है ’का उदाहरण और उदाहरण प्रदान कर सकता है, जिसका उपयोग किसी समस्या में किया जाएगा?
पॉलजी

8

कुल संभाव्यता नियम का उपयोग करने का एक कारण यह है कि हम अक्सर उस अभिव्यक्ति में घटक संभावनाओं से निपटते हैं और यह केवल मूल्यों में प्लगिंग द्वारा सीमांत संभावना को खोजने के लिए सीधा है। इसके उदाहरण के लिए, विकिपीडिया पर निम्न उदाहरण देखें:

एक और कारण उस अभिव्यक्ति में हेरफेर करके बेयस नियम के समकक्ष रूपों को पहचान रहा है। उदाहरण के लिए:

पी(बी|)=पी(|बी)पी(बी)पी(|बी)पी(बी)+पी(|¬बी)पी(¬बी)

अंश द्वारा RHS के माध्यम से विभाजित करें:

पी(बी|)=11+पी(|¬बी)पी(|बी)पी(¬बी)पी(बी)

जो कि बेयस नियम के लिए एक अच्छा समकक्ष रूप है, इसे प्राप्त करने के लिए मूल अभिव्यक्ति से घटाकर भी आसान बनाया गया है:

पी(¬बी|)पी(बी|)=पी(|¬बी)पी(|बी)पी(¬बी)पी(बी)

यह बेड्स नियम है जिसे ऑड्स के संदर्भ में कहा गया है, अर्थात बी के खिलाफ पीछे के कारण बी = बी के खिलाफ बेयर्स कारक बी के खिलाफ पूर्व की बाधाओं (या आप बी के लिए बाधाओं के संदर्भ में एक अभिव्यक्ति प्राप्त करने के लिए इसे उल्टा कर सकते हैं) बेयर्स कारक आपके मॉडल की संभावना का अनुपात। यह देखते हुए कि हम अंतर्निहित डेटा जनरेटिंग तंत्र के बारे में अनिश्चित हैं, हम डेटा का निरीक्षण करते हैं और अपनी मान्यताओं को अपडेट करते हैं।

मुझे यकीन नहीं है कि आप इसे उपयोगी पाते हैं, लेकिन उम्मीद है कि यह चकरा देने वाला नहीं है; आपको स्पष्ट रूप से उस अभिव्यक्ति के साथ काम करना चाहिए जो आपके परिदृश्य के लिए सबसे अच्छा काम करती है। हो सकता है कि कोई और भी बेहतर कारणों के साथ पाइप कर सकता है।


आप एक कदम आगे जा सकते हैं और लॉग ले सकते हैं। फिर आपके पास लॉग-पश्च अनुपात = लॉग-पूर्व अनुपात + लॉग-लाइबिलिटी अनुपात
संभाव्यता

6

पी()

पी()पी(|बी)बीपी(|बी)पी(|¬बी)बी¬बीपी(|बी)पी(|¬बी)पी(बी)पी(¬बी)

पी()=पी(|बी)पी(बी)+पी(|¬बी)पी(¬बी)
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.