निर्णय ट्री लर्निंग एल्गोरिदम गुम मूल्यों (हूड के तहत) से कैसे निपटते हैं

वे कौन से तरीके हैं जो ट्री लर्निंग एल्गोरिदम का उपयोग लापता मूल्यों से निपटने के लिए करते हैं।

क्या वे लापता कहे जाने वाले मूल्य का उपयोग करने में केवल स्लॉट को पूरा करते हैं?

धन्यवाद।

missing-data cart

विभिन्न निर्णय पेड़ों द्वारा उपयोग की जाने वाली कई विधियाँ हैं। बस लापता मूल्यों (जैसे ID3 और अन्य पुराने एल्गोरिदम करता है) की अनदेखी करना या अन्य श्रेणी के रूप में लापता मानों का इलाज करना (नाममात्र की सुविधा के मामले में) लापता मानों को संभालना नहीं है। हालांकि उन दृष्टिकोणों का उपयोग निर्णय के पेड़ के विकास के शुरुआती चरणों में किया गया था।

लापता डेटा के लिए वास्तविक हैंडलिंग दृष्टिकोण एक विभाजन के मूल्यांकन में लापता मूल्यों के साथ डेटा बिंदु का उपयोग नहीं करता है। हालांकि, जब बच्चे के नोड्स बनाए जाते हैं और प्रशिक्षित होते हैं, तो उन उदाहरणों को किसी तरह वितरित किया जाता है।

मैं बच्चे के नोड्स को लापता मूल्य उदाहरणों को वितरित करने के लिए निम्नलिखित तरीकों के बारे में जानता हूं:

सभी उस नोड पर जाते हैं जिसमें पहले से ही सबसे बड़ी संख्या है (CART, प्राथमिक नियम नहीं है)
सभी बच्चों को वितरित करें, लेकिन कम वजन के साथ, प्रत्येक बच्चे के नोड से उदाहरणों की संख्या के साथ आनुपातिक (C45 और अन्य)
केवल एक ही बच्चे के नोड के लिए यादृच्छिक रूप से वितरित करें, अंततः एक स्पष्ट वितरण के अनुसार (मैंने देखा है कि तेजी से चलने वाले समय के लिए C45 और CART के विभिन्न कार्यान्वयन में)
चाइल्ड नोड के उदाहरणों को वितरित करने के लिए सरोगेट्स का निर्माण, सॉर्ट और उपयोग करें, जहां सरोगेट इनपुट विशेषताएं हैं जो सबसे अच्छा जैसा दिखता है कि परीक्षण सुविधा बाएं या दाएं बच्चे के नोड को डेटा इंस्टेंस भेजती है (CART, यदि वह विफल रहता है, तो बहुमत नियम का उपयोग किया जाता है)

— rapaio
स्रोत