बायेसियन बहुराष्ट्रीय Naive Bayes क्लासिफायरियर का उपयोग कोई क्यों नहीं करता है?


15

तो (अनसुचित) पाठ मॉडलिंग में, लेटेंट डरिकलेट एलोकेशन (एलडीए) प्रोबेबिलिस्टिक लैवेंट सिमेंटिक एनालिसिस (PLSA) का बायेसियन संस्करण है। अनिवार्य रूप से, LDA = PLSA + डिरिचलेट इसके मापदंडों से पहले। मेरी समझ यह है कि एलडीए अब संदर्भ एल्गोरिथ्म है और इसे विभिन्न पैकेजों में लागू किया गया है, जबकि पीएलएसए का उपयोग अब नहीं किया जाना चाहिए।

लेकिन (पर्यवेक्षित) पाठ वर्गीकरण में, हम बहुराष्ट्रीय Naive Bayes क्लासिफायर के लिए एक ही काम कर सकते हैं और मापदंडों से पहले एक Dirichlet डाल सकते हैं। लेकिन मुझे नहीं लगता कि मैंने कभी किसी को ऐसा करते देखा है, और बहु-बिंदुओं के लिए "बिंदु अनुमान" संस्करण बेय बेज़ को अधिकांश पैकेजों में लागू किया गया संस्करण लगता है। क्या इसका कोई कारण है?

जवाबों:


7

यहाँ एक अच्छा पेपर है जो बहुराष्ट्रीय Naive Bayes (MNB) क्लासिफायर के कुछ 'सिस्टमिक' कमियों को संबोधित करता है। विचार यह है कि आप कुछ ट्वीक्स के माध्यम से MNB के प्रदर्शन को बढ़ावा दे सकते हैं। और वे (वर्दी) Dirichlet priors का उपयोग करने का उल्लेख करते हैं।

कुल मिलाकर अगर आप MNB में रुचि रखते हैं और आपने अभी तक इस पेपर को नहीं पढ़ा है, तो मैं दृढ़ता से ऐसा करने की सलाह दूंगा।

मैंने एक ही व्यक्ति / लोगों द्वारा एक साथ एमएससी थीसिस भी पाया , लेकिन इसे अभी तक खुद नहीं पढ़ा है। आप इसे देख सकते हैं।


दूसरा लिंक मर चुका है - शायद dspace.mit.edu/handle/1721.1/7074 अप-टू-डेट संस्करण है
beldaz

5

मुझे संदेह है कि अधिकांश एनबी कार्यान्वयन लैप्लस सुधार के साथ सशर्त संभावनाओं के अनुमान के लिए अनुमति देते हैं , जो बेएशियन एनबी क्लासिफायर (एक विशेष डरिकलेट पूर्व के साथ) के लिए एमएपी समाधान देता है। जैसा कि @Zhubarb (+1) बताते हैं, एनबी क्लासिफायर के बायेसियन उपचार पहले से ही व्युत्पन्न और कार्यान्वित किए गए हैं (रेनी की थीसिस / पेपर अच्छी तरह से पढ़ने लायक हैं)। हालांकि, एनबी की स्वतंत्रता की धारणा लगभग हमेशा गलत है, इस मामले में मॉडल को उस धारणा पर अधिक दृढ़ता से निर्भर करना (पूर्ण बायेसियन उपचार के माध्यम से) एक अच्छी बात नहीं हो सकती है।


0

मुझे विश्वास नहीं है कि आप जो वर्णन करते हैं वह सच है। एलडीए और एमएनबी के लिए संभाव्य मॉडल अलग-अलग हैं।

दोनों के बीच एक मुख्य अंतर यह है कि एलडीए के लिए जेनेरिक मॉडल में, जब कोई शब्द खींचा जाता है, तो पहले उस शब्द के लिए एक विषय चुना जाता है, और फिर उस विषय के वितरण से एक शब्द चुना जाता है। दस्तावेज़ में प्रत्येक शब्द एक अलग विषय से लिया जा सकता है।

MNB के लिए जेनरेटर मॉडल में, दस्तावेज़ को एक वर्ग सौंपा गया है और उस दस्तावेज़ के सभी शब्द उस वर्ग के (समान) वितरण से तैयार किए गए हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.