सबसे पहले, जैसा कि @Marc क्लेसेन ने पहले ही समझाया था, अर्ध-पर्यवेक्षित वर्गीकरण उन स्थितियों की देखभाल करने वाली तकनीकों में से एक है जहां आप जानते हैं कि कक्षाएं वास्तव में अलग हैं, लेकिन आप निश्चित नहीं हैं कि वास्तव में किस वर्ग का संबंध है।
हालांकि, संबंधित परिस्थितियां भी हैं, जहां "वास्तविकता" स्पष्ट नहीं है, और वास्तव में अलग-अलग वर्ग होने की धारणा को पूरा नहीं किया गया है: बोर्डलाइन मामले एक "भौतिक" वास्तविकता हो सकते हैं (एक आवेदन के बारे में कागजात के लिए नीचे देखें) जहां हम ऐसी हालत में मिले)।
अर्ध-पर्यवेक्षित क्लासिफ़र्स के लिए एक महत्वपूर्ण धारणा है जिसे आपको सुनिश्चित करने की आवश्यकता है: यह माना जाता है कि सुविधा स्थान में, क्लास की सीमाएं कम नमूना घनत्व के साथ आती हैं । इसे क्लस्टर अनुमान के रूप में जाना जाता है।
यहां तक कि अगर आपके डेटा में अंतर्निहित वास्तविकता में अलग-अलग वर्ग हैं, तो आपके डेटा सेट में असमान रूप से अधिक सीमावर्ती मामले हो सकते हैं: उदाहरण के लिए, यदि आपकी वर्गीकरण तकनीक को कठिन मामलों को वर्गीकृत करने पर लक्षित किया गया है, जबकि स्पष्ट और आसान मामले रुचि के नहीं हैं और पहले से ही आपका प्रशिक्षण डेटा इसे दर्शाता है। परिस्थिति।
केवल प्रशिक्षण के लिए "निश्चित" वर्गीकरण लेना? मुझे डर है कि इस मामले में, अधिक गर्भपात होंगे क्योंकि "सीमा" के मामले कवर नहीं किए गए हैं।
मैं आपके साथ पूरी तरह से सहमत हूं कि सीमावर्ती मामलों को छोड़कर अक्सर एक बुरा विचार है: सभी कठिन मामलों को हटाकर आप एक कृत्रिम रूप से आसान समस्या के साथ समाप्त होते हैं। IMHO यह और भी बदतर है कि बॉर्डरलाइन मामलों को छोड़कर आमतौर पर मॉडल प्रशिक्षण के साथ बंद नहीं होता है, लेकिन बॉर्डरलाइन मामलों को परीक्षण से भी बाहर रखा जाता है, इस प्रकार केवल आसान मामलों के साथ मॉडल का परीक्षण किया जाता है। इसके साथ आपको यह भी एहसास नहीं होगा कि मॉडल बॉर्डरलाइन मामलों के साथ अच्छा प्रदर्शन नहीं करता है।
यहां दो पेपर हमने लिखे हैं जो एक समस्या के बारे में है जो आपके से अलग है हमारे आवेदन में भी वास्तविकता में "मिश्रित" कक्षाएं हो सकती हैं (आपकी समस्या का एक सामान्य संस्करण: संदर्भ लेबल में अनिश्चितता भी शामिल है)।
- द अप्लीकेशन: ब्रेन ट्यूमर डायग्नोस्टिक्स। हमने लॉजिस्टिक रिग्रेशन का इस्तेमाल किया। सेमी-सुपरवाइज्ड मॉडलिंग उचित नहीं थी क्योंकि हम क्लास की सीमाओं पर कम सघनता का अनुमान नहीं लगा सकते थे।
सी। बेलेइट्स, के। गीगर, एम। किर्श, एस.बी। सोबोटका, जी। शेखर्ट और आर। सेल्ज़र: रमन स्पेक्ट्रोस्कोपिक एस्ट्रोसाइटोमा ऊतकों की ग्रेडिंग: नरम संदर्भ जानकारी का उपयोग करते हुए, गुदा। Bioanal। रसायन।, 400 (2011), 2801 - 2816।
- सीमावर्ती मामलों के लिए क्लासिफायर के प्रदर्शन को मापने के लिए एक सामान्य रूपरेखा प्राप्त करने वाला थ्योरी पेपर।
सी। बेलेइट्स, आर। सैल्जर और वी। सेरगो: पार्टिकल
क्लास मेंबरशिप का उपयोग करते हुए सॉफ्ट क्लासिफिकेशन मॉडल्स की मान्यता: संवेदनशीलता और कंपनी का एक विस्तारित कॉन्सेप्ट जो कि एस्ट्रोसाइटोमा टिश्यूज
कैमोम की ग्रेडिंग पर लागू होता है । Intell। लैब। सिस्ट।, 122 (2013), 12 - 22।
लिंक एक आर पैकेज के प्रोजेक्ट पेज पर जाते हैं जिसे मैंने प्रदर्शन गणना करने के लिए विकसित किया था। कागजात के आधिकारिक वेब पेज और मेरी पांडुलिपियों दोनों के आगे लिंक हैं। जबकि मैंने अभी तक Weka का उपयोग नहीं किया है, मैं समझता हूं कि R का एक इंटरफ़ेस उपलब्ध है ।
व्यावहारिक सोच:
- जबकि कॉपी-एंड-लेबल-अलग दृष्टिकोण सीधा है, यह व्यवहार में सभी क्लासिफायर और कार्यान्वयन के साथ अच्छी तरह से काम नहीं करता है। जैसे AFAIK के पास
libSVM
क्रॉस वेलिडेशन द्वारा ट्यूनिंग बताने का कोई तरीका नहीं है कि प्रत्येक डेटा बिंदु की सभी प्रतियों को एक ही क्रॉस सत्यापन तह में रखने की आवश्यकता है। इस प्रकार libSVM
एस ट्यूनिंग शायद एक बड़े पैमाने पर ओवरफिट मॉडल निकलेगा।
- लॉजिस्टिक रिग्रेशन के लिए भी, मैंने पाया कि कई कार्यान्वयन ने आंशिक सदस्यता लेबल की आवश्यकता नहीं होने दी।
- ऊपर दिए गए कागजात के लिए मैंने जिस कार्यान्वयन का उपयोग किया है, वह वास्तव में एएनएन है, जो छिपे हुए परत के बिना उपस्कर को सिग्मोइडल लिंक फ़ंक्शन (
nnet::multinom
) के रूप में उपयोग करता है ।