Naive Bayes में प्रायिकताएँ हैं: क्या मुझे शब्दों की गिनती दोगुनी करनी चाहिए?


12

मैं अपने स्वयं के Naive Bayes bag o 'शब्द मॉडल का प्रोटोटाइप बना रहा हूं, और मेरे पास फीचर संभावनाओं की गणना करने के बारे में एक प्रश्न था।

मान लीजिए कि मुझे दो कक्षाएं मिली हैं, मैं केवल स्पैम और स्पैम का उपयोग नहीं करूंगा क्योंकि यह सभी का उपयोग करता है। और चलो एक उदाहरण के रूप में "वियाग्रा" शब्द लेते हैं। मेरे प्रशिक्षण सेट में 10 ईमेल हैं, 5 स्पैम और 5 गैर-स्पैम। "वियाग्रा" सभी 5 स्पैम दस्तावेजों में दिखाई देती है। प्रशिक्षण दस्तावेजों में से एक में यह 3 बार दिखाई देता है (यह मेरा सवाल है), इसलिए स्पैम कुल में 7 उपस्थिति हैं। गैर-स्पैम प्रशिक्षण सेट में, यह 1 बार दिखाई देता है।

अगर मैं पी (वियाग्रा | स्पैम) का अनुमान लगाना चाहता हूं तो यह बस है:

p (viagra | स्पैम) = 5 स्पैम दस्तावेज़ों में viagra / 5 स्पैम दस्तावेज़ कुल = 1 हैं

दूसरे शब्दों में, क्या यह तथ्य कि एक दस्तावेज में वियाग्रा का उल्लेख एक बार के बजाय 3 बार होता है, वास्तव में कोई फर्क नहीं पड़ता?


संपादित करें: यहां एक ब्लॉग पोस्ट है जहां लेखक मेरे द्वारा बताए गए दृष्टिकोण का उपयोग करता है: http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/

और यहाँ एक ब्लॉग पोस्ट है जहाँ लेखक कहता है: p (viagra | spam) = 7 viagra स्पैम में उल्लेख है / 8 कुल उल्लेख http://www.nils-haldenwang.de/computer-science/machine-learning-how-to-apply -naive-Bayes-classifiers करने वाली दस्तावेज़ वर्गीकरण-समस्याओं

और फिर नीचे दिए गए उत्तर में से एक यह होना चाहिए: p (viagra | स्पैम) = स्पैम में 7 viagra उल्लेख / कुल शब्द गणना स्पैम में

क्या कोई ऐसे स्रोत से जुड़ सकता है जो इस पर एक राय देता है?

जवाबों:


4

दूसरे शब्दों में, क्या यह तथ्य कि एक दस्तावेज में वियाग्रा का उल्लेख एक बार के बजाय 3 बार होता है, वास्तव में कोई फर्क नहीं पड़ता?

कोई फर्क नहीं पड़ता। Multinomial अनुभवहीन Bayes मॉडल , एक टोकन के प्रत्येक घटना को ध्यान में रखता है, जबकि Bernoulli अनुभवहीन Bayes मॉडल नहीं है (यानी बाद मॉडल के लिए, "वियाग्रा" के 3 घटनाओं "वियाग्रा" के 1 घटना के समान है)।

यहां दो चित्रण के साथ-साथ {1} से एक तुलना तालिका है:

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

{१} पाठ वर्गीकरण के लिए बड़े करीने से नावे बेज़ का परिचय देता है, साथ ही मल्टीमोनियल नाव बेयस मॉडल और बर्नौली नाव बेयस मॉडल।


संदर्भ:


1

यह आपके द्वारा लागू विशिष्ट भोले मॉडल पर निर्भर करता है। सामान्य तौर पर, पाठ वर्गीकरण के लिए, आप शब्दों की पुनरावृत्ति पर विचार करना चाहते हैं, इसलिए उत्तर हां है।

दूसरा बिंदु यह है कि आप दस्तावेज़ घटना स्थान के आधार पर संभावना पर विचार कर रहे हैं। आप इसे स्थान शब्द के आधार पर भी कर सकते हैं:

p (viagra | स्पैम) = कक्षा स्पैम में 5 बार स्पैम शब्द / कक्षा में 50 शब्द

आपको इस [कागज] ( http://echo.edres.org:8080/betsy/mccallum1.pdf ) में बहुत सारी जानकारी है


0

मुझे लगता है कि यह इस बात पर निर्भर करता है कि आप वास्तव में p (viagra | स्पैम) से क्या मतलब है और आप डेटा को कैसे मॉडलिंग कर रहे हैं।

जैसा कि लिखा गया है, मैं आपके अर्थ की व्याख्या करूंगा कि 'इस शब्द में प्रायिकता का उल्लेख वायग्रा शब्द में कम से कम एक बार किया गया है, यह संदेश स्पैम है।' उस मामले में, हाँ, इस तथ्य का कि एक दस्तावेज़ में तीन बार वियाग्रा का उल्लेख किया गया है, कोई प्रभाव नहीं है। आपने एक मॉडल को परिभाषित किया है जो ऐसे तथ्यों पर ध्यान नहीं देता है।

बेशक, आपके पास एक अलग मॉडल हो सकता है। उदाहरण के लिए, वियाग्रा के बजाय एक द्विआधारी चर (वर्तमान / अनुपस्थित) द्वारा प्रतिनिधित्व किया जा रहा है, यह संदेश में शब्द के प्रकट होने की संख्या की संख्या का प्रतिनिधित्व कर सकता है। उस स्थिति में, अपने कच्चे डेटा से आप किसी चीज़ की अनुभवजन्य आवृत्ति का अनुमान लगा सकते हैं

p (viagra = 0 | स्पैम) = 0 |

p (viagra = 1 | स्पैम) = 4/5

p (वियाग्रा = 2 | स्पैम) = 0

p (वियाग्रा = 3 | स्पैम) = 1/5

आदि।

मैं यह नहीं कह रहा हूं कि यह एक बेहतर तरीका है। मैं सिर्फ एक वैकल्पिक स्थिति का चित्रण कर रहा हूं, जहां तीन बार उल्लेखित वियाग्रा को देखकर आपका अंतर्ज्ञान प्रासंगिक है।

एक अधिक व्यावहारिक उदाहरण 'टर्म फ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी' हो सकता है, जो एक ऐसी विधि है जो किसी दस्तावेज़ में किसी शब्द की आवृत्ति पर बहुत ध्यान देती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.