मैं आज Naive Bayes Classification पर पढ़ रहा था। मैं 1 चौरसाई जोड़ने के साथ पैरामीटर अनुमान के शीर्षक के तहत पढ़ता हूं :
चलो एक वर्ग (जैसे सकारात्मक या नकारात्मक रूप में) का उल्लेख, और एक टोकन या शब्द का संदर्भ लें।
लिए अधिकतम संभावना अनुमानक is
का यह अनुमान समस्याग्रस्त हो सकता है क्योंकि यह हमें अज्ञात शब्दों वाले दस्तावेजों के लिए संभावना देगा । इस समस्या को हल करने का एक सामान्य तरीका लाप्लास स्मूथिंग का उपयोग करना है।
V को प्रशिक्षण सेट में शब्दों का सेट होने दें, शब्दों के सेट में एक नया तत्व (अज्ञात के लिए) जोड़ें ।
P को परिभाषित करें
जहां शब्दावली (प्रशिक्षण सेट में शब्द) को संदर्भित करता है।
विशेष रूप से, किसी भी अज्ञात शब्द में प्रायिकता
मेरा सवाल यह है: हम इस लाप्लास के साथ बिल्कुल परेशान क्यों करते हैं? यदि ये अज्ञात शब्द जो हम परीक्षण सेट में मुठभेड़ करते हैं, तो एक संभावना है जो स्पष्ट रूप से लगभग शून्य है, अर्थात, , उन्हें मॉडल में शामिल करने का क्या मतलब है? क्यों न केवल अवहेलना करें और उन्हें हटाएं?