Naive Bayes मॉडल में चिकनाई

एक Naive Bayes भविष्यवक्ता इस सूत्र का उपयोग करके अपनी भविष्यवाणियां करता है:

P (Y = y | X = x) = α P (Y = y) \prod_{i} P (X_{i} = x_{i} | Y = y)

$P(Y=y|X=x) = \alpha P(Y=y)\prod_i P(X_i=x_i|Y=y)$

जहां एक सामान्यीकृत कारक है। इसके लिए डेटा से पैरामीटर आकलन करना होगा । यदि हम इसे -smoothing के साथ करते हैं , तो हमें अनुमान मिलता है $\alpha$ $P(X_i=x_i|Y=y)$ $k$

\hat{P} (X_{i} = x_{i} | Y = y) = \frac{# {X_{i} = x_{i}, Y = y} + k}{# {Y = y} + n_{i} k}

$\hat{P}(X_i=x_i|Y=y) = \frac{\#\{X_i=x_i,Y=y\} + k}{\#\{Y=y\}+n_ik}$

जहाँ लिए संभव मान हैं । मैं इसके साथ ठीक हूं। हालांकि, पूर्व के लिए, हमारे पास है $n_i$ $X_i$

\hat{P} (Y = y) = \frac{# {Y = y}}{N}

$\hat{P}(Y=y) = \frac{\#\{Y=y\}}{N}$

जहां डेटा सेट में उदाहरण हैं । क्यों हम भी पहले चिकनी नहीं है? या यों कहें, क्या हम पहले से सुचारू हैं? यदि हां, तो हम किस स्मूथिंग पैरामीटर का चयन करते हैं? यह थोड़ा मूर्खतापूर्ण लगता है कि हम भी चुनाव करें , क्योंकि हम एक अलग गणना कर रहे हैं। क्या कोई सहमति है? या यह बहुत ज्यादा मायने नहीं रखता है? $N$ $k$

machine-learning probability-theory statistics

— क्रिस टेलर
स्रोत

$\#\{X_i = x_i | Y = y\} = 0$ $P(Y=y|X=x) = 0$

ऐसा तब होता है, जब उदाहरण के लिए, आपके द्वारा दिए गए पाठ दस्तावेज़ों को वर्गीकृत करना एक ऐसा शब्द है जो आपके प्रशिक्षण डेटा में नहीं था, या बस कुछ विशेष वर्ग में प्रकट नहीं हुआ था।

$P(Y = y)$

$k$

— ऑल्टो
स्रोत

सामान्य रूप से चौरसाई करने का कारण डेटा ओवरफिटिंग से बचना है। जिस मामले में कुछ वर्ग की गिनती शून्य है, वह ओवरफिट का एक विशेष मामला है (जो विशेष रूप से बुरा होता है)। हर वर्ग के अवलोकन के बाद भी आप संभावनाओं को सुचारू करना चाहते हैं। मुझे लगता है कि मैं स्पष्ट विषमता से परेशान हूं - लाप्लास स्मूथिंग यह मानने से मेल खाती है कि आपके डेटा सेट में अतिरिक्त अवलोकन हैं। पूर्व की फिटिंग करते समय आप उन टिप्पणियों को अनदेखा क्यों करेंगे?

— क्रिस टेलर

P (Y = y)

$P(Y = y)$

P (X_{i} = x_{i} | Y = y)

$P(X_i = x_i | Y = y)$

"यह स्थिति नहीं होनी चाहिए। यदि ऐसा होता है तो इसका मतलब है कि आप उन वस्तुओं को कक्षाओं में आवंटित करने की कोशिश कर रहे हैं जो प्रशिक्षण डेटा में भी दिखाई नहीं दिए थे"। उह ... एक क्लासिफायर एक ऐसी कक्षा को एक वस्तु कैसे प्रदान करेगा जिसे उसने पहले कभी नहीं देखा था (यानी, प्रशिक्षण डेटा में नहीं है)?

— जेमनेक

, समस्या सामान्य रूप से शून्य-शॉट सीखने के रूप में जाना जाता है @Jemenake उदाहरण के लिए देखें सिमेंटिक आउटपुट संहिताओं के शून्य शॉट लर्निंग

— ऑल्टो

जब हम प्रशिक्षण डेटा सेट का उपयोग करके मॉडल को प्रशिक्षित करते हैं, तो हम प्रशिक्षण डेटा सेट में आने वाले शब्दों का उपयोग करके एक विकाब का निर्माण कर सकते हैं, इसलिए टेस्ट सेट पर भविष्यवाणियां करते समय सिर्फ नए शब्दों को ही नहीं हटाएं?

— एवोकैडो