प्रशिक्षण के रूप में केवल सकारात्मक मामलों के साथ परिणाम की भविष्यवाणी कैसे करें?

सरलता के लिए, मान लीजिए कि मैं स्पैम / नॉन-स्पैम ईमेल के क्लासिक उदाहरण पर काम कर रहा हूं।

मेरे पास 20000 ईमेल का एक सेट है। इनमें से, मुझे पता है कि 2000 स्पैम हैं, लेकिन मेरे पास नॉट-स्पैम ईमेल का कोई उदाहरण नहीं है। मैं भविष्यवाणी करना चाहता हूं कि शेष 18000 स्पैम हैं या नहीं। आदर्श रूप से, मैं जिस परिणाम की तलाश कर रहा हूं वह एक संभावना (या एक पी-मूल्य) है जो ईमेल स्पैम है।

इस स्थिति में एक समझदार भविष्यवाणी करने के लिए मैं किस एल्गोरिथ्म का उपयोग कर सकता हूं?

फिलहाल, मैं एक दूरी-आधारित पद्धति के बारे में सोच रहा हूं जो मुझे बताएगी कि मेरा ईमेल एक ज्ञात स्पैम ईमेल के समान कैसे है। आपके पास कौन से विकल्प हैं?

आम तौर पर, क्या मैं एक पर्यवेक्षित शिक्षण पद्धति का उपयोग कर सकता हूं, या क्या मुझे ऐसा करने के लिए अपने प्रशिक्षण सेट में नकारात्मक मामलों की आवश्यकता है? क्या मैं अप्रशिक्षित शिक्षण दृष्टिकोण तक सीमित हूं? अर्ध-पर्यवेक्षित तरीकों के बारे में क्या?

— enricoferrero
स्रोत

आपके द्वारा उपयोग किया जाने वाला कोई भी सीखने का एल्गोरिथ्म सभी मेल स्पैम होने की भविष्यवाणी करेगा। किसी भी समझदार सीखने के लिए आपके पास दो श्रेणियों के उदाहरण होने चाहिए।

— जॉन

ठीक है, यह एक क्लासिक पर्यवेक्षित शिक्षण दृष्टिकोण को नियंत्रित करेगा। लेकिन क्या एक एल्गोरिथ्म है जो कुछ प्रकार की समानता मैट्रिक्स लौटाता है? उदा: यह ईमेल स्पैम ईमेल के समान है, यह अन्य नहीं है।

— enricoferrero

@JohnRos सच नहीं है, सकारात्मक और गैर-सूचीबद्ध डेटा से सीखना अर्ध-पर्यवेक्षणीय सीखने में एक बड़ा विषय है और यह आपके द्वारा वर्णित कुछ भी नहीं है।

— मार्क क्लेसेन

@MarcClaesen: मैं अनुसंधान की इस (बहुत अच्छी) लाइन से अपरिचित था। मैं देखता हूं कि जादू इस धारणा में है कि अनलिस्टेड डेटा स्पैम और नॉन-स्पैम का मिश्रण है, जो समस्या को हल करता है।

— जॉनरोस

@ जॉनरोस बिल्कुल, और मैं ठंडक कारक से सहमत हूं। मुझे वास्तव में अच्छा लगता है वह तथ्य यह है कि हम हाल ही में यह दिखाने में सक्षम हैं कि पारंपरिक प्रदर्शन मेट्रिक्स की गणना आकस्मिक तालिकाओं के आधार पर कैसे की जा सकती है (जैसे सटीकता, सटीक, याद, ...) ज्ञात नकारात्मक के बिना !

— मार्क क्लेसेन

जवाबों:

इसे सकारात्मक और बिना लेबल वाले डेटा से सीखना कहा जाता है, या संक्षेप में पु सीखना, और अर्ध-पर्यवेक्षणीय सीखने का एक सक्रिय स्थान है।

संक्षेप में, सीखने की प्रक्रिया में अनलिस्टेड डेटा का उपयोग करना महत्वपूर्ण है क्योंकि यह तथाकथित एकल-श्रेणी के क्लासिफायरर्स पर काफी बेहतर मॉडल देता है जो विशेष रूप से ज्ञात सकारात्मकता पर प्रशिक्षित होते हैं। गैर-सूचीबद्ध डेटा को कई तरीकों से शामिल किया जा सकता है, प्रमुख दृष्टिकोण निम्नलिखित हैं:

किसी तरह अनलिस्टेड डेटा से संभावित नकारात्मक सेट का अनुमान लगाते हैं और फिर इन हीन नकारात्मक से ज्ञात सकारात्मक को अलग करने के लिए एक पर्यवेक्षित मॉडल को प्रशिक्षित करते हैं।
लेबल के शोर के लिए अप्रकाशित सेट को नकारात्मक मानिए और किसी तरह खाते हुए मौजूद रहिए।

मैं इस क्षेत्र में सक्रिय हूं, और इसे आपके लिए यहां संक्षेप में प्रस्तुत करने के बजाय, मैं अपने दो पत्रों और उसमें दिए संदर्भों को पढ़ने के लिए सलाह देता हूं ताकि डोमेन का अवलोकन किया जा सके:

सकारात्मक और गैर-सूचीबद्ध डेटा ( यहां उपलब्ध औपचारिक प्रकाशन ) से मॉडल सीखने के लिए अत्याधुनिक तकनीक : http://arxiv.org/abs/1402.3144
ज्ञात नकारात्मक के बिना आमतौर पर उपयोग किए जाने वाले प्रदर्शन मैट्रिक्स की गणना करने की तकनीक (समीक्षा के तहत, यह अपनी तरह का पहला है): http://arxiv.org/abs/1504.06837

— मार्क क्लेसेन
स्रोत

अति उत्कृष्ट! संदर्भ के लिए बहुत धन्यवाद। RESVM और बैगेड SVM एक पु लर्निंग सेटिंग में समान प्रदर्शन करते हैं। आप या तो एल्गोरिथ्म के कार्यान्वयन (अधिमानतः आर में) की सिफारिश कर सकते हैं? दुर्भाग्य से न तो कैरेट में शामिल किया गया लगता है।

— enricoferrero

@enricoferrero हां, वे तब तक इसी तरह से प्रदर्शन करते हैं जब तक कि झूठे (ज्ञात) सकारात्मक नहीं होते हैं, उस स्थिति में RESVM एसवीएम (मैं उस उद्देश्य के लिए RESVM को डिज़ाइन करता हूं, क्योंकि मैं जिस एप्लिकेशन पर काम करता हूं वह झूठी सकारात्मक है)। मुझे नहीं लगता कि आर कार्यान्वयन आसानी से उपलब्ध हैं, लेकिन आप एसवीएम कार्यान्वयन जैसे kernlabया लपेटकर दोनों को काफी आसानी से लागू कर सकते हैं e1071। ध्यान दें कि एसवीएम और आरईएसएम दोनों को प्राप्त करने के लिए कई हाइपरपरमेटर्स हैं, जिन्हें आपको ऑप्टिमाइज़ करना होगा, जिसके लिए मैं ऑप्टुनी लाइब्रेरी (एक आर इंटरफ़ेस) की सलाह देता हूं ।

— मार्क क्लेसेन

@enricoferrero मैं RESVM पर उपलब्ध की एक कमांड लाइन कार्यान्वयन की क्या ज़रूरत है github.com/claesenm/resvm , हालांकि कि कोड बहुत अच्छी तरह से पॉलिश नहीं है। उस विशिष्ट रेपो को पायथन में लिखा गया है और इसे एंशेंबस वीएम पैकेज के ड्राइवर के रूप में उपयोग किया जाता है ।

— मार्क क्लेसेन

यह एक बैगेड एसवीएम एल्गोरिथ्म के लिए एक और अच्छा विकल्प की तरह लग रहा है, एसवीएम सीखने वाले के आसपास एक बैगिंग रैपर के साथ आर में एमएलआर पैकेज का उपयोग किया जा सकता है ।

— enricoferrero

मैं मान रहा हूं कि आपके 18000 मामलों में उतने स्पैम मामले नहीं हैं। इसके लिए एक पर्यवेक्षित शिक्षण दृष्टिकोण का उपयोग करने के लिए, आपको अपने डेटा में 1 से अधिक श्रेणी / वर्ग की आवश्यकता होगी। चूँकि आप जानते हैं कि 2000 मामले स्पैम हैं, आप शेष 18000 मामलों को 'अज्ञात श्रेणी' के रूप में लेबल कर सकते हैं और किसी भी पर्यवेक्षित शिक्षण मॉडल को यह अनुमान लगाने के लिए प्रशिक्षित कर सकते हैं कि क्या कोई मामला स्पैम या अज्ञात श्रेणी में है। फिर नमूना मॉडल सटीकता के लिए अपनी जाँच करें कि मॉडल 2 श्रेणियों के बीच अंतर करने के लिए कितना अच्छा प्रदर्शन करता है। यदि यह अच्छा प्रदर्शन करता है, तो 'अनजान' श्रेणी में कुछ स्पैम मामलों की मेरी धारणा को वैधता दी जाती है। यदि यह अच्छा प्रदर्शन नहीं करता है, तो आपको अपने डेटा में अलग-अलग समरूप समूहों की पहचान करने के लिए एक अप्रकाशित शिक्षार्थी (जैसे किमी, आदि) का उपयोग करना होगा। फिर पहचानें कि कौन से क्लस्टर में 2000 स्पैम ईमेल हैं, और जो नहीं करते हैं, और उन्हें क्रमशः स्पैम और गैर स्पैम के रूप में लेबल करते हैं। अगला, आप एक पर्यवेक्षित शिक्षार्थी का उपयोग करके मॉडलिंग के साथ आगे बढ़ सकते हैं जैसे कि मैंने पहले बताया।

— FelixNNelson
स्रोत

ओपी किस बारे में बात कर रहा है यह एक एक श्रेणी वर्गीकरण कार्य है, जो एक बहुत ही चुनौतीपूर्ण है।

विभिन्न शोध क्षेत्रों में इस कार्य पर कई कागजात हैं। मैंने एनसेम्बल लर्निंग के आधार पर एक कुशल आंतरिक प्रमाणीकरण सत्यापन योजना भी लिखी । लेखकों के बजाय स्पैम / स्पैम को वर्गीकृत करने के लिए इसे अनुकूलित करना बहुत आसान है। इसे आज़माएं और मुझे बताएं कि क्या आपको और जानकारी चाहिए ...

— अनियंत्रित अपवाद
स्रोत

आपके लिंक का अनुसरण करने पर मुझे 404 त्रुटि मिलती है।

— enricoferrero

एक टाइपो था। इसके लिए क्षमा करें, अब काम करना चाहिए ;-)

— अनधिकृत अपवाद