क्या GBM वर्गीकरण असंतुलित वर्ग आकारों से ग्रस्त है?


16

मैं एक पर्यवेक्षित बाइनरी वर्गीकरण मुद्दे के साथ काम कर रहा हूं। मैं GBM पैकेज का उपयोग करना चाहता हूं ताकि वह बिना किसी संक्रमित / संक्रमित व्यक्ति को वर्गीकृत कर सके। मेरे पास संक्रमित व्यक्तियों की तुलना में 15 गुना अधिक असंक्रमित है।

मैं सोच रहा था कि क्या जीबीएम मॉडल असंतुलित वर्ग आकारों के मामले में पीड़ित होंगे? मुझे इस प्रश्न का उत्तर देने वाला कोई संदर्भ नहीं मिला।

मैंने संक्रमित व्यक्तियों को 1 का वजन और संक्रमित को 15 का वजन बताकर वजन को समायोजित करने की कोशिश की, लेकिन मुझे खराब परिणाम मिले।


1
(साइड नोट) यदि आप प्रदान करते हैं कि GBM क्या है और पैकेज का लिंक क्या है तो यह उपयोगी होगा।
मेमोरियल

1
आपके ग्रेडिएंट बूस्टिंग मॉडल के लिए आप कौन से नुकसान का उपयोग कर रहे हैं? जब असंतुलित वर्गों की बात आती है, तो मैंने खराब प्रदर्शन देखा है जब मैंने औसत त्रुटि का उपयोग किया है क्योंकि यह सबसे आम वर्ग का पक्ष लेता है। जब मैंने माध्य चुकता त्रुटि का उपयोग किया तो प्रदर्शन में काफी सुधार हुआ
रयान ज़ोटी

बस भविष्य के संदर्भ के लिए, मुझे लगता है कि डिफ़ॉल्ट लॉरिट फंक्शन का इस्तेमाल कैरेट लॉगरिदमिक लॉस (क्रॉस-डिवार्डन) द्वारा किया जाता है और साथ ही साथ बहुत मददगार साबित होता है। (यह एक नकारात्मक लघुगणक पैमाने में गलत मामलों पर भारी जुर्माना करता है)
लिली लॉन्ग

जवाबों:


4

मेरे अनुभव में, GBM वास्तव में असंतुलित वर्ग आकारों से ग्रस्त है। मुझे लघु नमूनाकरण का उपयोग करके अच्छी सफलता मिली है, जो अल्पसंख्यक वर्ग की निगरानी करते हुए सिंथेटिक डेटा बनाता है। आप इसे DMwRपैकेज में पा सकते हैं ।


मैं थोड़ा उलझन में हूँ। क्या जीबीएम को डेटा असंतुलन को संभालने के लिए एक दृष्टिकोण नहीं माना जाता है? इसे देखें: analyticsvidhya.com/blog/2017/03/…
Lamothy

5

मुझे लगता है कि आपका डेटा Secom डेटा के समान है, जिस पर मैंने अतीत में काम किया है और बहुत कठिनाइयों का सामना किया है। निम्नलिखित है जो मैंने कोशिश की है:

  • विभिन्न नमूने तकनीक
  • रैंडम फॉरेस्ट, एएनएन, जीबीएम, एनसेंबल मेथड्स आदि जैसे विभिन्न क्लासिफायर।

मैंने 1-क्लास एसवीएम की भी कोशिश की है, जिसने एडोबोस्ट, रैंडम फ़ॉरेस्ट जैसे दूसरों की तुलना में बेहतर परिणाम दिए हैं। आप यह भी कोशिश कर सकते हैं।

और मैं देख सकता हूं कि आपने यह प्रश्न 1 वर्ष पहले पूछा है, इसलिए यदि आपको सबसे अच्छा तरीका मिल गया है, तो कृपया इसे यहां पोस्ट करें ताकि मैं इसे बेहतर सटीकता प्राप्त करने के लिए इसकी मदद ले सकूं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.