Naive Bayes मॉडल में चिकनाई


13

एक Naive Bayes भविष्यवक्ता इस सूत्र का उपयोग करके अपनी भविष्यवाणियां करता है:

P(Y=y|X=x)=αP(Y=y)iP(Xi=xi|Y=y)

जहां एक सामान्यीकृत कारक है। इसके लिए डेटा से पैरामीटर P ( X i = x i | Y = y ) का आकलन करना होगा । यदि हम इसे k -smoothing के साथ करते हैं , तो हमें अनुमान मिलता हैαP(Xi=xi|Y=y)k

P^(Xi=xi|Y=y)=#{Xi=xi,Y=y}+k#{Y=y}+nik

जहाँ X i के लिए संभव मान हैं । मैं इसके साथ ठीक हूं। हालांकि, पूर्व के लिए, हमारे पास हैniXi

P^(Y=y)=#{Y=y}N

जहां डेटा सेट में उदाहरण हैं । क्यों हम भी पहले चिकनी नहीं है? या यों कहें, क्या हम पहले से सुचारू हैं? यदि हां, तो हम किस स्मूथिंग पैरामीटर का चयन करते हैं? यह थोड़ा मूर्खतापूर्ण लगता है कि हम भी कश्मीर का चुनाव करें , क्योंकि हम एक अलग गणना कर रहे हैं। क्या कोई सहमति है? या यह बहुत ज्यादा मायने नहीं रखता है?Nk

जवाबों:


5

#{Xi=xi|Y=y}=0P(Y=y|X=x)=0

ऐसा तब होता है, जब उदाहरण के लिए, आपके द्वारा दिए गए पाठ दस्तावेज़ों को वर्गीकृत करना एक ऐसा शब्द है जो आपके प्रशिक्षण डेटा में नहीं था, या बस कुछ विशेष वर्ग में प्रकट नहीं हुआ था।

P(Y=y)

k


1
सामान्य रूप से चौरसाई करने का कारण डेटा ओवरफिटिंग से बचना है। जिस मामले में कुछ वर्ग की गिनती शून्य है, वह ओवरफिट का एक विशेष मामला है (जो विशेष रूप से बुरा होता है)। हर वर्ग के अवलोकन के बाद भी आप संभावनाओं को सुचारू करना चाहते हैं। मुझे लगता है कि मैं स्पष्ट विषमता से परेशान हूं - लाप्लास स्मूथिंग यह मानने से मेल खाती है कि आपके डेटा सेट में अतिरिक्त अवलोकन हैं। पूर्व की फिटिंग करते समय आप उन टिप्पणियों को अनदेखा क्यों करेंगे?
क्रिस टेलर

P(Y=y)P(Xi=xi|Y=y)

"यह स्थिति नहीं होनी चाहिए। यदि ऐसा होता है तो इसका मतलब है कि आप उन वस्तुओं को कक्षाओं में आवंटित करने की कोशिश कर रहे हैं जो प्रशिक्षण डेटा में भी दिखाई नहीं दिए थे"। उह ... एक क्लासिफायर एक ऐसी कक्षा को एक वस्तु कैसे प्रदान करेगा जिसे उसने पहले कभी नहीं देखा था (यानी, प्रशिक्षण डेटा में नहीं है)?
जेमनेक

, समस्या सामान्य रूप से शून्य-शॉट सीखने के रूप में जाना जाता है @Jemenake उदाहरण के लिए देखें सिमेंटिक आउटपुट संहिताओं के शून्य शॉट लर्निंग
ऑल्टो

जब हम प्रशिक्षण डेटा सेट का उपयोग करके मॉडल को प्रशिक्षित करते हैं, तो हम प्रशिक्षण डेटा सेट में आने वाले शब्दों का उपयोग करके एक विकाब का निर्माण कर सकते हैं, इसलिए टेस्ट सेट पर भविष्यवाणियां करते समय सिर्फ नए शब्दों को ही नहीं हटाएं?
एवोकैडो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.