मैं मशीन लर्निंग, कार्ट-तकनीक और पसंद करने के लिए काफी नया हूं, और मुझे उम्मीद है कि मेरा भोलापन बहुत स्पष्ट नहीं है।
रैंडम फ़ॉरेस्ट मल्टी-लेवल / पदानुक्रमित डेटा संरचनाओं को कैसे संभालता है (उदाहरण के लिए जब क्रॉस-लेवल इंटरेक्शन रुचि का हो)?
यही है, डेटा कई पदानुक्रमित स्तरों पर विश्लेषण की इकाइयों के साथ सेट करता है ( जैसे , छात्रों को स्कूलों के भीतर नेस्टेड, छात्रों और स्कूलों दोनों के बारे में डेटा के साथ)।
एक उदाहरण के रूप में, पहले स्तर पर व्यक्तियों के साथ एक बहु-स्तरीय डेटा सेट पर विचार करें ( जैसे , मतदान व्यवहार, जनसांख्यिकी आदि पर डेटा के साथ) दूसरे स्तर पर देशों के भीतर (देश-स्तरीय डेटा के साथ; उदाहरण के लिए , जनसंख्या):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
चलो कहते हैं कि voted
प्रतिक्रिया / निर्भर चर है और अन्य भविष्यवक्ता / स्वतंत्र चर हैं। मामलों, मार्जिन और कुछ उच्च स्तर के चर (के लिए एक चर (आंशिक निर्भरता) के सीमांत प्रभाव के इन प्रकार में जैसे , population
विभिन्न व्यक्तिगत स्तर चर, आदि के लिए), बहुत ही दिलचस्प हो सकता है। इसी तरह के एक मामले में, glm
निश्चित रूप से अधिक उपयुक्त है - लेकिन जब कई चर, इंटरैक्शन और / या लापता मान हैं, और / या बहुत बड़े पैमाने पर डेटासेट आदि हैं, glm
तो इतना विश्वसनीय नहीं है।
प्रश्न: क्या रैंडम फ़ॉरेस्ट इस प्रकार की डेटा संरचना को स्पष्ट रूप से संभाल सकता है? यदि इसका उपयोग किया जाता है, तो यह किस तरह के पूर्वाग्रह का परिचय देता है? यदि रैंडम फ़ॉरेस्ट उपयुक्त नहीं है, तो क्या कोई अन्य पहनावा-प्रकार विधि है?
(प्रश्न समूहीकृत डेटा पर रैंडम वन शायद समान है, लेकिन वास्तव में इसका जवाब नहीं है।)