क्या एक बहु-स्तरीय क्लासिफायरियर कई बाइनरी वाले की तुलना में बेहतर है?


18

मुझे URL को श्रेणियों में वर्गीकृत करना होगा। कहो कि मेरे पास 15 श्रेणियां हैं जिन्हें मैं हर URL को शून्य करने की योजना बना रहा हूं।

क्या 15-रास्ता क्लासिफायर बेहतर है? जहां मेरे पास 15 लेबल हैं और प्रत्येक डेटा बिंदु के लिए सुविधाएं उत्पन्न करता है।

या 15 बाइनरी क्लासीफायर का निर्माण, कहें: मूवी या नॉन-मूवी, और एक रैंक बनाने के लिए इन वर्गीकरणों से मुझे प्राप्त संख्याओं का उपयोग करना, सबसे अच्छी श्रेणी चुनने के लिए, बेहतर होने वाला है?

जवाबों:


12

सबसे पहले, आपको अपने आप से पूछना होगा कि क्या आपकी समस्या मल्टीबेल (यानी एक एकल URL कई वर्गों से संबंधित हो सकती है) या नहीं (यानी एक एकल URL केवल एक वर्ग का हो सकता है)।

यदि पूर्व, बाइनरी क्लासीफायर की बैटरी के साथ जाता है, क्योंकि यह मल्टीलेबल समस्याओं को करने का एक डिफ़ॉल्ट तरीका है।

यदि उत्तरार्द्ध, तो उत्तर इस बात पर निर्भर करता है कि आपका डेटा कैसा दिखता है, आपके विश्लेषण का उद्देश्य क्या है और आप किस पद्धति का उपयोग कर रहे हैं - शायद आपको दोनों का प्रयास करना चाहिए और सर्वश्रेष्ठ का चयन करना चाहिए।
केवल इस बात पर ध्यान दें कि कुछ विधियाँ (जैसे SVM) वास्तव में मल्टीकालास वर्गीकरण नहीं कर सकती हैं क्योंकि वे कैसे परिभाषित की जाती हैं और इस प्रकार आंतरिक रूप से बाइनरी क्लासीफायर की बैटरी का उपयोग करती हैं।


मेरी समस्या बयान पूर्व धारणा @mbq पर विचार कर रही है। मुझे पता है कि वहाँ बहुभाषी हैं। और हां, जैसे आपने कहा है कि मैंने 15 बाइनरी क्लासिफायर के लिए जाने का फैसला किया है, लेकिन फिर से, मुझे एक सर्वश्रेष्ठ श्रेणी चुनने के लिए उन्हें रैंक करने की आवश्यकता है। इसलिए, मैं बाइनरी क्लासीफायर की बैटरी से प्राप्त संख्याओं का उपयोग करके एक और शीर्ष स्तर का वर्गीकरण करने का प्रयास करने जा रहा हूं। क्या आपको कोई समस्या दिखाई देती है?
पागलकोड

एसवीएम मल्टीस्केल्स वर्गीकरण का प्रदर्शन कर सकते हैं। विधि सॉफ्टमैक्स रिग्रेशन के समान है (देखें "मल्टीकाॅलस कर्नेल-आधारित वेक्टर मशीनों के एल्गोरिथम कार्यान्वयन पर")।
user1149913

4

यह इस बात पर निर्भर करेगा कि आपका डेटा कैसे फैलाया जाता है। एक सुंदर उदाहरण है जो हाल ही में एक समान प्रश्न पर दिया गया था, जहां ओपी यह जानना चाहता था कि क्या एक एकल रेखीय विभेदक कार्य जनसंख्या A बनाम B या C तय करने के लिए एक बेहतर क्लासिफायरियर होगा या उत्परिवर्ती रेखीय विभेदक कार्यों के आधार पर अलग - अलग A, बी और सी। कुछ लोगों ने यह दिखाने के लिए एक बहुत अच्छा रंगीन स्कैल्पल दिया कि कैसे दो भेदभाव का उपयोग करना उस मामले में एक से बेहतर होगा। मैं इसे लिंक करने की कोशिश करूंगा।


डटे रहो। मुझे इसे ढूंढने में परेशानी हो रही है लेकिन मैं देखता रहूंगा।
माइकल आर। चेर्निक

लिंक नहीं मिल पाने के कारण क्षमा करें। बाईं ओर एक रंग के एक बादल की कल्पना करें, बीच में एक और दाईं ओर एक तिहाई। दो रैखिक विभेदक रेखा मध्य समूह को लोगों से बाईं और दाईं ओर अलग करने का एक अच्छा काम करेगी लेकिन कोई भी एकल पंक्ति बिल्कुल भी अच्छा नहीं करेगी। चित्र इन सभी शब्दों से अधिक मूल्य का होगा।
माइकल आर। चेरिक

1
@MichaelChernick क्या यह वह कड़ी है जिसकी आप तलाश कर रहे हैं?

मुझे लगता है कि मैं समझता हूं कि आप क्या कह रहे हैं: bit.ly/M1NydS - आपने जो चित्र मुझे परिभाषित किया है वह इस प्रस्तुति में आया है। 4 रास्ता या 3 रास्ता वर्गीकरण..क्या प्रत्यक्ष होना चाहिए। लेकिन .. मैं सोच रहा हूं कि अगर 15 तरह के वर्गीकरण, डॉ। चेरिक के लिए सटीक / रिकॉल समझौता किया जाएगा।
madCode

@Procrastinator कि खोजने के लिए धन्यवाद। मुझे यह पता लगाने में बहुत परेशानी हो रही थी और मैं बहुत समय से देख रहा था! यह एक हालिया पोस्ट था इसलिए मुझे हालांकि टाइट को ढूंढना आसान होगा।
माइकल आर। चेरनिक

1

कुछ तरीके उदाहरण के लिए, मल्टीस्केल्स, रैंडम फ़ॉरेस्ट, एमएलपी के साथ अच्छी तरह से व्यवहार करते हैं।

यदि आप उस रास्ते पर नहीं जाना चाहते हैं, तो यह संभव है कि ईसीओसी आपकी समस्या के लिए 1-बनाम-ऑल-आउट का अच्छा प्रदर्शन करे, केवल परीक्षण ही बताएगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.