केवल सकारात्मक और बिना लेबल वाले डेटा के साथ एक द्विआधारी वर्गीकरण का निर्माण करें


11

मेरे पास 2 डेटासेट हैं, एक सकारात्मक उदाहरणों के साथ, जो मैं पता लगाना चाहता हूं, और एक बिना लेबल वाले इंस्टेंस के साथ। मैं किन तरीकों का उपयोग कर सकता हूं?

एक उदाहरण के रूप में, मान लें कि हम कुछ संरचित ईमेल विशेषताओं के आधार पर स्पैम ईमेल का पता लगाना चाहते हैं। हमारे पास 10000 स्पैम ईमेलों का एक डेटासेट है, और 100000 ईमेलों का एक डेटासेट है जिसके लिए हम नहीं जानते कि वे स्पैम हैं या नहीं।

हम इस समस्या से कैसे निपट सकते हैं (बिना लेबल के किसी भी डेटा को मैन्युअल रूप से लेबल किए बिना)?

अगर हम अनलिस्टेड डेटा में स्पैम के अनुपात के बारे में अतिरिक्त जानकारी रखते हैं (तो क्या होगा यदि हम अनुमान लगाते हैं कि 100000 अनबेल्ड ईमेल स्पैम के 20-40% के बीच हैं)?


1
पोस्ट को अर्ध-पर्यवेक्षित और पु-लर्निंग टैग जोड़ा जाना चाहिए। ये टैग अभी भी मौजूद नहीं हैं और वर्तमान में मैं इन्हें नहीं बना सकता।
DaL

@DanLevin हाँ, [टैग: अर्द्ध-पर्यवेक्षित-शिक्षण] समझ में आता है। जोड़ा गया :) मुझे पु-लर्निंग पार्ट के साथ यकीन नहीं है (कम से कम मुझे इसकी जानकारी नहीं है), इसलिए कोई और ऐसा कर सकता है!
Dawny33

1
पु-लर्निंग अर्ध पर्यवेक्षित शिक्षण का एक विशिष्ट मामला है। यह कम आम है (7K परिणाम Google पर) फिर अर्ध पर्यवेक्षित (Google पर 298K परिणाम) कि यह प्रश्न पु (लेबल किए गए डेटासेट सिर्फ सकारात्मक हैं) है। जबकि विषय पर अकादमी (उदाहरण के लिए, cs.uic.edu/~liub/NSF/PSC-IIS-0307239.html ) पर चर्चा की जाती है, संभव है कि यह प्रश्न इस टैग के साथ काफी समय के लिए अकेला होगा।
DaL

जवाबों:


7

मेरा सुझाव यह होगा कि आपके अनलिस्टेड डेटा पर कुछ प्रकार के क्लस्टर बनाने का प्रयास किया जाए जो कि एक लेबल किए गए डेटासेट का अनुमान लगाता है। औचित्य इस प्रकार है:

  • आपके पास अपने दस्तावेज़ों का प्रतिनिधित्व करने के लिए कुछ फ़ीचर वेक्टर हैं
  • उस सुविधा वेक्टर के आधार पर, आप कई अलग-अलग क्लस्टरिंग के साथ आ सकते हैं, या तो फजी, खुरदरे, या वर्ग-आधारित स्टर्लिंग तरीकों के साथ
  • एक सकारात्मक उदाहरण कैसा दिखता है, यह जानकर, आप अपने क्लस्टर की समग्र समानता का मूल्यांकन कर सकते हैं
  • यह जानकर कि वास्तव में केवल दो क्लस्टर होने चाहिए, आप अपने क्लस्टरिंग विधि पर हाइपरपैरामीटर समायोजित कर सकते हैं ताकि उपरोक्त दो मैट्रिक्स करीब और संतुष्टि के करीब हों
  • दो समूहों के साथ, आपके पास एक लेबल किए गए डेटासेट का एक निकट सन्निकटन होने की संभावना है, जिसका उपयोग आप वास्तव में अपने मॉडल को प्रशिक्षित करने के लिए एक प्रकार के चांदी-मानक कॉर्पस के रूप में कर सकते हैं।

आशा है कि समझ में आता है, अगर आप विशेष रूप से क्लस्टरिंग एल्गोरिदम की तलाश कर रहे हैं, तो कुछ जो मुझे व्यक्तिगत रूप से पसंद हैं जो इस परिदृश्य में अच्छे हो सकते हैं वे हैं फ्लेम और टीएसएन । वैकल्पिक रूप से, अजगर में शानदार gensim लाइब्रेरी को देखने से आपको उस क्लस्टरिंग की ओर एक लंबा रास्ता मिल जाएगा, जिसकी आप तलाश कर रहे हैं।

आशा है कि मदद करता है और समझ में आता है, अगर आपको कोई प्रश्न मिला है तो टिप्पणी छोड़ दें।


आपके उत्तर के लिए धन्यवाद। क्या मैं सही समझता हूं: आपका प्रारंभिक बिंदु 2 डेटासेट को मर्ज करना है?
nassimhddd

@ cafe876 निश्चित रूप से शुरू करने का एक तरीका है, और फिर मूल रूप से एक क्लस्टरिंग को फिर से बनाने की कोशिश करना जो मूल रूप से बारीकी से पता लगाता है।
संकेत

3

आपकी समस्या पीयू लर्निंग के ढांचे (केवल सकारात्मकता, बहुत से अप्रकाशित) के अंतर्गत आती है ।

यह अर्ध-पर्यवेक्षित अधिगम (कुछ सकारात्मक और नकारात्मक, बहुत अधिक अप्रकाशित) के अधिक सामान्य ढाँचों के करीब भी है ।

कई सर्वेक्षण पत्र हैं जो आप मैदान पर देख सकते हैं।

क्षेत्र में एक शास्त्रीय विधि, जिसे आपके मामले में भी स्पैम पर परीक्षण किया गया था, सह-प्रशिक्षण है सह प्रशिक्षण में आप दो स्वतंत्र शिक्षार्थियों का निर्माण करते हैं (जैसे, मेल सामग्री पर आधारित एक और भेजने वाली योजना के आधार पर) और आप उपयोग करते हैं एक के परिणाम दूसरे को प्रशिक्षित करने और इसके विपरीत।


2

2 जेनरिक मॉडल, प्रत्येक डेटासेट (स्पैम, स्पैम प्लस हैम) के लिए ट्रेन करें, जो आपको संभावना देगा कि डेटा डेटा वितरण डेटा के समान प्रायिकता वितरण से तैयार किया गया है। ईमेल को स्पैम या हैम के आधार पर निर्दिष्ट करें कि कौन सा मॉडल आपको इसे प्रशिक्षित करने के लिए उपयोग किए गए प्रशिक्षण डेटा से उत्पन्न होने वाले दस्तावेज़ की उच्चतम संभावना देता है। उदाहरण जेनेरिक मॉडल आरबीएम हैं, ऑटोएन्कोडर्स (उस मामले में, किस मॉडल में सबसे कम पुनर्निर्माण त्रुटि है)। कुछ बायेसियन जेनेरेटिव मॉडल भी होने की संभावना है जो कुछ प्रशिक्षण डेटा के आधार पर डेटा बिंदु के लिए एक संभावना प्रदान करेगा।

सबसे अच्छा विकल्प हालांकि केवल हैम वाले दूसरे डेटासेट को क्यूरेट करने में समय लगेगा। यह आपको उच्च वर्गीकरण सटीकता देगा। हैम ईमेल के लिए स्पैम का कम अनुपात मानते हुए, यह बहुत कठिन नहीं होना चाहिए। यदि आपके पास समय या संसाधनों (या प्रशिक्षु \ स्नातक छात्रों या अन्य सस्ते श्रम) की कमी है, तो आप मैकेनिकल तुर्क का उपयोग भी कर सकते हैं।


आपके उत्तर के लिए धन्यवाद। यह एक बड़ा उदाहरण है कि जेनेरिक मॉडल क्या कर सकते हैं जो भेदभावपूर्ण मॉडल नहीं कर सकते हैं।
nassimhddd
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.