सरलता के लिए, मान लीजिए कि मैं स्पैम / नॉन-स्पैम ईमेल के क्लासिक उदाहरण पर काम कर रहा हूं।
मेरे पास 20000 ईमेल का एक सेट है। इनमें से, मुझे पता है कि 2000 स्पैम हैं, लेकिन मेरे पास नॉट-स्पैम ईमेल का कोई उदाहरण नहीं है। मैं भविष्यवाणी करना चाहता हूं कि शेष 18000 स्पैम हैं या नहीं। आदर्श रूप से, मैं जिस परिणाम की तलाश कर रहा हूं वह एक संभावना (या एक पी-मूल्य) है जो ईमेल स्पैम है।
इस स्थिति में एक समझदार भविष्यवाणी करने के लिए मैं किस एल्गोरिथ्म का उपयोग कर सकता हूं?
फिलहाल, मैं एक दूरी-आधारित पद्धति के बारे में सोच रहा हूं जो मुझे बताएगी कि मेरा ईमेल एक ज्ञात स्पैम ईमेल के समान कैसे है। आपके पास कौन से विकल्प हैं?
आम तौर पर, क्या मैं एक पर्यवेक्षित शिक्षण पद्धति का उपयोग कर सकता हूं, या क्या मुझे ऐसा करने के लिए अपने प्रशिक्षण सेट में नकारात्मक मामलों की आवश्यकता है? क्या मैं अप्रशिक्षित शिक्षण दृष्टिकोण तक सीमित हूं? अर्ध-पर्यवेक्षित तरीकों के बारे में क्या?