मेरे पास 2 डेटासेट हैं, एक सकारात्मक उदाहरणों के साथ, जो मैं पता लगाना चाहता हूं, और एक बिना लेबल वाले इंस्टेंस के साथ। मैं किन तरीकों का उपयोग कर सकता हूं?
एक उदाहरण के रूप में, मान लें कि हम कुछ संरचित ईमेल विशेषताओं के आधार पर स्पैम ईमेल का पता लगाना चाहते हैं। हमारे पास 10000 स्पैम ईमेलों का एक डेटासेट है, और 100000 ईमेलों का एक डेटासेट है जिसके लिए हम नहीं जानते कि वे स्पैम हैं या नहीं।
हम इस समस्या से कैसे निपट सकते हैं (बिना लेबल के किसी भी डेटा को मैन्युअल रूप से लेबल किए बिना)?
अगर हम अनलिस्टेड डेटा में स्पैम के अनुपात के बारे में अतिरिक्त जानकारी रखते हैं (तो क्या होगा यदि हम अनुमान लगाते हैं कि 100000 अनबेल्ड ईमेल स्पैम के 20-40% के बीच हैं)?