अनिश्चित श्रेणी के लेबल के लिए क्लासिफायरियर


11

मान लीजिए कि मेरे पास वर्ग लेबल से जुड़े उदाहरण हैं। इससे कोई फर्क नहीं पड़ता कि इन उदाहरणों को कैसे लेबल किया गया था, लेकिन उनकी कक्षा की सदस्यता कितनी निश्चित है। प्रत्येक संस्थान ठीक एक वर्ग के हैं। मान लें कि मैं प्रत्येक वर्ग सदस्यता की निश्चित मात्रा को नाममात्र विशेषता के साथ निर्धारित कर सकता हूं जो 1 से 3 तक जाता है (क्रमशः अनिश्चित, निश्चित)।

क्या कुछ प्रकार का क्लासिफायर है जो इस तरह के निश्चित माप को ध्यान में रखता है और यदि हाँ, क्या यह WEKA टूलकिट में उपलब्ध है?

मैं कल्पना करता हूं कि यह स्थिति अक्सर होती है, उदाहरण के लिए जब उदाहरणों को मानव द्वारा वर्गीकृत किया जाता है जो हमेशा पूरी तरह से निश्चित नहीं होते हैं। मेरे मामले में, मुझे छवियों को वर्गीकृत करना होगा, और कभी-कभी एक छवि एक से अधिक वर्ग की हो सकती है। यदि ऐसा होता है, तो मैं कक्षा को एक उच्च अनिश्चितता देता हूं, लेकिन फिर भी इसे केवल एक वर्ग के साथ वर्गीकृत करता हूं।

या किसी विशेष क्लासिफायर के बिना इस समस्या के लिए कोई अन्य दृष्टिकोण हैं? जैसे केवल प्रशिक्षण के लिए "निश्चित" वर्गीकरण लेना? मुझे डर है कि इस मामले में, अधिक गर्भपात होंगे क्योंकि "सीमा" के मामले कवर नहीं किए गए हैं।


1
क्या प्रत्येक प्रविष्टि वास्तव में एक वर्ग से संबंधित है? या यह संभव है कि कुछ प्रविष्टि कक्षा 12 से संबंधित निश्चित 1 और वर्ग 34 निश्चित 2 के साथ है?
user31264

प्रत्येक प्रविष्टि इस मामले में ठीक एक वर्ग की है।
wnstnsmth

जवाबों:


8

सबसे पहले, जैसा कि @Marc क्लेसेन ने पहले ही समझाया था, अर्ध-पर्यवेक्षित वर्गीकरण उन स्थितियों की देखभाल करने वाली तकनीकों में से एक है जहां आप जानते हैं कि कक्षाएं वास्तव में अलग हैं, लेकिन आप निश्चित नहीं हैं कि वास्तव में किस वर्ग का संबंध है।

हालांकि, संबंधित परिस्थितियां भी हैं, जहां "वास्तविकता" स्पष्ट नहीं है, और वास्तव में अलग-अलग वर्ग होने की धारणा को पूरा नहीं किया गया है: बोर्डलाइन मामले एक "भौतिक" वास्तविकता हो सकते हैं (एक आवेदन के बारे में कागजात के लिए नीचे देखें) जहां हम ऐसी हालत में मिले)।

अर्ध-पर्यवेक्षित क्लासिफ़र्स के लिए एक महत्वपूर्ण धारणा है जिसे आपको सुनिश्चित करने की आवश्यकता है: यह माना जाता है कि सुविधा स्थान में, क्लास की सीमाएं कम नमूना घनत्व के साथ आती हैं । इसे क्लस्टर अनुमान के रूप में जाना जाता है।
यहां तक ​​कि अगर आपके डेटा में अंतर्निहित वास्तविकता में अलग-अलग वर्ग हैं, तो आपके डेटा सेट में असमान रूप से अधिक सीमावर्ती मामले हो सकते हैं: उदाहरण के लिए, यदि आपकी वर्गीकरण तकनीक को कठिन मामलों को वर्गीकृत करने पर लक्षित किया गया है, जबकि स्पष्ट और आसान मामले रुचि के नहीं हैं और पहले से ही आपका प्रशिक्षण डेटा इसे दर्शाता है। परिस्थिति।

केवल प्रशिक्षण के लिए "निश्चित" वर्गीकरण लेना? मुझे डर है कि इस मामले में, अधिक गर्भपात होंगे क्योंकि "सीमा" के मामले कवर नहीं किए गए हैं।

मैं आपके साथ पूरी तरह से सहमत हूं कि सीमावर्ती मामलों को छोड़कर अक्सर एक बुरा विचार है: सभी कठिन मामलों को हटाकर आप एक कृत्रिम रूप से आसान समस्या के साथ समाप्त होते हैं। IMHO यह और भी बदतर है कि बॉर्डरलाइन मामलों को छोड़कर आमतौर पर मॉडल प्रशिक्षण के साथ बंद नहीं होता है, लेकिन बॉर्डरलाइन मामलों को परीक्षण से भी बाहर रखा जाता है, इस प्रकार केवल आसान मामलों के साथ मॉडल का परीक्षण किया जाता है। इसके साथ आपको यह भी एहसास नहीं होगा कि मॉडल बॉर्डरलाइन मामलों के साथ अच्छा प्रदर्शन नहीं करता है।

यहां दो पेपर हमने लिखे हैं जो एक समस्या के बारे में है जो आपके से अलग है हमारे आवेदन में भी वास्तविकता में "मिश्रित" कक्षाएं हो सकती हैं (आपकी समस्या का एक सामान्य संस्करण: संदर्भ लेबल में अनिश्चितता भी शामिल है)।

लिंक एक आर पैकेज के प्रोजेक्ट पेज पर जाते हैं जिसे मैंने प्रदर्शन गणना करने के लिए विकसित किया था। कागजात के आधिकारिक वेब पेज और मेरी पांडुलिपियों दोनों के आगे लिंक हैं। जबकि मैंने अभी तक Weka का उपयोग नहीं किया है, मैं समझता हूं कि R का एक इंटरफ़ेस उपलब्ध है


व्यावहारिक सोच:

  • जबकि कॉपी-एंड-लेबल-अलग दृष्टिकोण सीधा है, यह व्यवहार में सभी क्लासिफायर और कार्यान्वयन के साथ अच्छी तरह से काम नहीं करता है। जैसे AFAIK के पास libSVMक्रॉस वेलिडेशन द्वारा ट्यूनिंग बताने का कोई तरीका नहीं है कि प्रत्येक डेटा बिंदु की सभी प्रतियों को एक ही क्रॉस सत्यापन तह में रखने की आवश्यकता है। इस प्रकार libSVMएस ट्यूनिंग शायद एक बड़े पैमाने पर ओवरफिट मॉडल निकलेगा।
  • लॉजिस्टिक रिग्रेशन के लिए भी, मैंने पाया कि कई कार्यान्वयन ने आंशिक सदस्यता लेबल की आवश्यकता नहीं होने दी।
  • ऊपर दिए गए कागजात के लिए मैंने जिस कार्यान्वयन का उपयोग किया है, वह वास्तव में एएनएन है, जो छिपे हुए परत के बिना उपस्कर को सिग्मोइडल लिंक फ़ंक्शन ( nnet::multinom) के रूप में उपयोग करता है ।

आपका पहला व्यावहारिक विचार, जबकि सच है, libsvmविशेष रूप से लागू नहीं होता है । libsvmलेखकों, हर रिहाई जिसमें उदाहरण भारित वर्गीकरण संभव है की एक वैकल्पिक संस्करण प्रदान इस समस्या को पूरी तरह से परहेज। यह चीजें हैं जो मुझे ड्राइव आम तौर पर एल्गोरिथ्म पुस्तकालयों सीधे उपयोग करने के लिए इस प्रकार की, Weka तरह रैपर के बजाय है / scipy / ... csie.ntu.edu.tw/~cjlin/libsvmtools/#weights_for_data_instances
मार्क Claesen

@MarcClaesen: धन्यवाद - मैंने ऐसा नहीं देखा था। लेकिन क्या आपको एक ही मामले के दो उदाहरणों की आपूर्ति करने की आवश्यकता नहीं होगी जो एक भारित 1/3 वर्ग ए और दूसरा 2/3 वर्ग बी के साथ होगा? किसी भी मामले में, स्पष्ट मामलों की बहुत सारी प्रतियों की आपूर्ति करने की आवश्यकता नहीं है, ट्यूनिंग को कम समस्याग्रस्त बना देगा (मेरे डेटा के लिए मुझे वैसे भी ट्यूनिंग विभाजन को बाहरी रूप से करना होगा क्योंकि मेरे पास वास्तविक मामलों के कई मापों के साथ "पदानुक्रमित" डेटा संरचना है। )
SX

@cbeiteles जब एक उदाहरण कई वर्गों से संबंधित हो सकता है तो आपको वास्तव में इसे कई बार प्रदान करने की आवश्यकता होगी, यहां तक ​​कि इस उदाहरण-भार के साथ भी। मैंने उस संभावना पर विचार नहीं किया था।
मार्क क्लेसेन

6

यह वर्गीकरण के सामान्यीकरणों में से एक है जो अर्ध-पर्यवेक्षणीय सीखने में निपटाया जाता है। यदि आपके पास निश्चितता का माप है तो आप ऐसे दृष्टिकोणों का उपयोग कर सकते हैं जो प्रशिक्षण उदाहरणों को भारित करने की अनुमति देते हैं। निश्चितता जितनी अधिक होगी, उतने ही बड़े उदाहरण वजन होंगे। ऐसे दृष्टिकोणों के उदाहरणों में उदाहरण-भारित एसवीएम और लॉजिस्टिक रिग्रेशन शामिल हैं।

मुझे यकीन है कि weka में इन एल्गोरिदम का कार्यान्वयन है। यदि अन्य सभी विफल रहता है, तो उच्च निश्चितता वाले उदाहरणों से कई उदाहरणों का नमूना लें। आप पारंपरिक एसवीएम या एलआर के लिए इस दृष्टिकोण का उपयोग कर सकते हैं।

उदाहरण: एसवीएम

अगर मैं गलत नहीं हूँ, Weka के इंटरफेस है LIBSVM । LIBSVM आपको इसके सभी रिलीज़ों में वर्ग-भारित SVM और प्रत्येक रिलीज़ के विशेष संस्करणों में उदाहरण-भारित SVM को हल करने की अनुमति देता है। मैं मानने जा रहा हूं कि वीका बाद वाले का समर्थन नहीं करता है (जो आपको चाहिए)।

मिनटw,ξw2+सीपीरोंΣमैंपीξमैं+सीnजीΣमैंएनξमैं,
wξपीएनसीपीरोंसीnजी

आपके प्रश्न के आधार पर, ऐसा लगता है कि आप आदर्श रूप से 6 अलग-अलग वज़न (2 वर्ग 3 स्तर) का उपयोग करना चाहते हैं । आप उच्च निश्चितता के साथ अंकों के नमूनों की नकल करके कई दृष्टिकोणों के लिए इसे प्राप्त कर सकते हैं।×

उदाहरण के लिए, एसवीएम के संदर्भ में, एक ही डेटा उदाहरण का उपयोग करके दो बार अपने संबंधित मूल्य को दोगुना करने के लिए एक समान समाधान प्राप्त होता । यह कुछ डेटा इंस्टेंसेस के लिए उच्च मिसकैरेज दंड देने का एक बहुत ही आसान तरीका है। आप लॉजिस्टिक प्रतिगमन के लिए एक ही दृष्टिकोण का पालन कर सकते हैं।सी


(+1) यह बात है! विभिन्न लेबलों और उदाहरण भार (उर्फ लेबल निश्चितताओं) के साथ उदाहरणों की नकल करके, कोई भी रैंडम फ़ॉरेस्ट्स, Naive Bayes इत्यादि जैसे एल्गोरिदम लगा सकता है। इंस्टेंस वेट इतने सामान्य हैं, वका को शिक्षार्थियों के पास होना चाहिए जो इसका समर्थन करते हैं। रैपिडमिनर (वीका के प्रतियोगी) करता है। 1 को निश्चितता निर्धारित करके, कोई भी "कुरकुरा" मल्टी-लेबल-समस्याओं को मॉडल कर सकता है।
8

आप सही हैं, WEKA LIBSVM का समर्थन करता है, लेकिन उदाहरण भार, afaik का समर्थन नहीं करता है। उदाहरणों की नकल करने का विचार बहुत अच्छा है, मुझे लगता है, खासकर क्योंकि हर "पारंपरिक" सीखने वाला इससे निपट सकता है।
wnstnsmth

2

समस्या की कठिनाई इस बात पर अत्यधिक निर्भर करती है कि अनिश्चित लेबल कैसे गलत हो सकते हैं। यदि अनिश्चित लेबल सही हैं, तो कहें, 90% समय, आप शायद लॉजिस्टिक प्रतिगमन का उपयोग करके दूर हो सकते हैं। दूसरी ओर, यदि लेबल लगभग आधे समय गलत हैं, तो आपको कुछ विशेष तकनीकों का सहारा लेना पड़ सकता है। यहाँ एक छुरा मैं एक बहुत ही इसी तरह की समस्या पर ले लिया है। (हमारे पास प्रति लेबल कई अवलोकन थे, लेकिन अन्यथा सेटअप काफी समान है।)


-5

मुझे छवि मान्यता और वर्गीकरण के साथ एक संक्षिप्त रन मिला।

रैंडम वन तकनीक का उपयोग करने में आसान है। मैंने इसे R पर लागू किया है, यह Weka पर भी उपलब्ध होना चाहिए। हालांकि ट्रंप की भविष्यवाणी की सटीकता में आसानी। यदि आपके पास एक पर्याप्त प्रशिक्षण सेट है, तो यह कई लेबल को वर्गीकृत कर सकता है।

इसने हस्तलिखित अंकों को अच्छी तरह से पहचानने का काम किया, लेकिन यदि आपकी छवियां अधिक जटिल हैं, तो केवल एक परीक्षण आपको बताएगा कि क्या यह अच्छा है।


4
अनिश्चित कक्षा लेबल के साथ क्या करने के लिए मिला है?
wnstnsmth
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.