Naive Bayes निरंतर चर के साथ कैसे काम करता है?


14

मेरी (बहुत बुनियादी) समझ के लिए, Naive Bayes ने प्रशिक्षण डेटा में प्रत्येक सुविधा के वर्ग आवृत्तियों के आधार पर संभावनाओं का अनुमान लगाया है। लेकिन यह निरंतर चर की आवृत्ति की गणना कैसे करता है? और भविष्यवाणी करते समय, यह एक नए अवलोकन को कैसे वर्गीकृत करता है जो प्रशिक्षण सेट में किसी भी अवलोकन के समान मूल्य नहीं हो सकता है? क्या यह किसी प्रकार की दूरी मापने का उपयोग करता है या 1NN ज्ञात करता है?


यहाँ असतत और निरंतर Naive Bayes के बीच तुलना की ओर एक पक्ष है: datascience.stackexchange.com/a/47031/67328
Esmailian

जवाबों:


10

अनुभवहीन बेज़ वर्गीकरण (एनबीसी) करने के कई तरीके हैं। NBC में एक सामान्य तकनीक है कि फीचर (वैरिएबल) मानों को चतुर्थक में फिर से बनाया जाए, जैसे कि 25 वें प्रतिशताइल से कम के मानों को 1, 25 वें से 50 वें 2 को 2, 50 वें को 75 वें 3 को और 75% के एक 4 से अधिक में असाइन किया जाता है। इस प्रकार एक एकल वस्तु बिन Q1, Q2, Q3 या Q4 में एक गणना जमा करेगी। गणना केवल इन श्रेणीबद्ध डिब्बे पर की जाती है। बिन मायने (संभावनाएं) तब नमूनों की संख्या पर आधारित होते हैं जिनके चर मान किसी दिए गए बिन के भीतर आते हैं। उदाहरण के लिए, यदि ऑब्जेक्ट्स के एक सेट में फ़ीचर X1 के लिए बहुत अधिक मान हैं, तो इससे X1 के Q4 के लिए बिन में बहुत सारे बिन काउंट होंगे। दूसरी ओर, यदि ऑब्जेक्ट्स के एक और सेट में फ़ीचर X1 के लिए कम मान हैं, तो उन ऑब्जेक्ट्स ने फ़ीचर X1 के Q1 के लिए बिन में बहुत सारे काउंट जमा किए जाएंगे।

यह वास्तव में एक बहुत ही चतुर गणना नहीं है, बल्कि इसके बजाय निरंतर मूल्यों को असतत करने और उसके बाद शोषण करने का एक तरीका है। जिनि सूचकांक और सूचना लाभ आसानी से विवेक के बाद गणना की जा सकती है यह निर्धारित करने के लिए कि कौन सी विशेषताएं सबसे अधिक जानकारीपूर्ण हैं, अर्थात, अधिकतम (गिन्नी)।

हालांकि, सलाह दी जाती है कि एनबीसी प्रदर्शन करने के कई तरीके हैं, और कई एक दूसरे से काफी अलग हैं। इसलिए आपको केवल यह बताने की जरूरत है कि आपने एक टॉक या पेपर में किसको लागू किया है।


2

नायवे बेस का दिल वीर सशर्त धारणा है:

P(xX,C)=P(xC)

xCp(xC=i)=ϕ(μi,σi2)

मापदंडों का अनुमान लगाने के लिए अलग-अलग तरीके हैं, लेकिन आम तौर पर एक हो सकता है:

  • लेबल डेटा के साथ अधिकतम संभावना का उपयोग करें। (सामान्य वितरण के मामले में, माध्य और विचरण के अधिकतम संभावना अनुमान मूल रूप से नमूना माध्य और नमूना विचरण हैं।)
  • बिना डेटा के ईएम एलगोरिदम जैसा कुछ।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.