निर्णय ट्री लर्निंग एल्गोरिदम गुम मूल्यों (हूड के तहत) से कैसे निपटते हैं


21

वे कौन से तरीके हैं जो ट्री लर्निंग एल्गोरिदम का उपयोग लापता मूल्यों से निपटने के लिए करते हैं।

क्या वे लापता कहे जाने वाले मूल्य का उपयोग करने में केवल स्लॉट को पूरा करते हैं?

धन्यवाद।

जवाबों:


24

विभिन्न निर्णय पेड़ों द्वारा उपयोग की जाने वाली कई विधियाँ हैं। बस लापता मूल्यों (जैसे ID3 और अन्य पुराने एल्गोरिदम करता है) की अनदेखी करना या अन्य श्रेणी के रूप में लापता मानों का इलाज करना (नाममात्र की सुविधा के मामले में) लापता मानों को संभालना नहीं है। हालांकि उन दृष्टिकोणों का उपयोग निर्णय के पेड़ के विकास के शुरुआती चरणों में किया गया था।

लापता डेटा के लिए वास्तविक हैंडलिंग दृष्टिकोण एक विभाजन के मूल्यांकन में लापता मूल्यों के साथ डेटा बिंदु का उपयोग नहीं करता है। हालांकि, जब बच्चे के नोड्स बनाए जाते हैं और प्रशिक्षित होते हैं, तो उन उदाहरणों को किसी तरह वितरित किया जाता है।

मैं बच्चे के नोड्स को लापता मूल्य उदाहरणों को वितरित करने के लिए निम्नलिखित तरीकों के बारे में जानता हूं:

  • सभी उस नोड पर जाते हैं जिसमें पहले से ही सबसे बड़ी संख्या है (CART, प्राथमिक नियम नहीं है)
  • सभी बच्चों को वितरित करें, लेकिन कम वजन के साथ, प्रत्येक बच्चे के नोड से उदाहरणों की संख्या के साथ आनुपातिक (C45 और अन्य)
  • केवल एक ही बच्चे के नोड के लिए यादृच्छिक रूप से वितरित करें, अंततः एक स्पष्ट वितरण के अनुसार (मैंने देखा है कि तेजी से चलने वाले समय के लिए C45 और CART के विभिन्न कार्यान्वयन में)
  • चाइल्ड नोड के उदाहरणों को वितरित करने के लिए सरोगेट्स का निर्माण, सॉर्ट और उपयोग करें, जहां सरोगेट इनपुट विशेषताएं हैं जो सबसे अच्छा जैसा दिखता है कि परीक्षण सुविधा बाएं या दाएं बच्चे के नोड को डेटा इंस्टेंस भेजती है (CART, यदि वह विफल रहता है, तो बहुमत नियम का उपयोग किया जाता है)
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.