क्या आपको R का उपयोग करके निर्णय पेड़ों का निर्माण करते समय डेटा को सामान्य करना होगा?


10

इसलिए, इस सप्ताह सेट किए गए हमारे डेटा में 14 विशेषताएँ हैं और प्रत्येक कॉलम में बहुत भिन्न मूल्य हैं। एक कॉलम में 1 से नीचे मान होता है जबकि दूसरे कॉलम में ऐसे मान होते हैं जो तीन से चार पूरे अंकों तक जाते हैं।

हमने पिछले सप्ताह सामान्यीकरण सीखा है और ऐसा लगता है जैसे आप डेटा को सामान्य करने वाले हैं जब उनके पास बहुत भिन्न मूल्य हैं। निर्णय पेड़ों के लिए, क्या मामला समान है?

मैं इस बारे में निश्चित नहीं हूं लेकिन सामान्यीकरण समान डेटा सेट से परिणामी निर्णय ट्री को प्रभावित करेगा? ऐसा लगता नहीं है लेकिन यह होना चाहिए ...

जवाबों:


13

आपके द्वारा सामना किए जाने वाले अधिकांश सामान्य प्रकार के पेड़ किसी भी मोनोटोनिक परिवर्तन से प्रभावित नहीं होते हैं। इसलिए, जब तक आप ऑर्ड को संरक्षित करते हैं, तब तक निर्णय वृक्ष समान होते हैं (जाहिर है कि उसी पेड़ द्वारा यहां मैं समान निर्णय संरचना को समझता हूं, न कि पेड़ के प्रत्येक नोड में प्रत्येक परीक्षण के लिए समान मान)।

ऐसा होने का कारण यह है क्योंकि सामान्य अशुद्धता कार्य कैसे करता है। प्रत्येक आयाम (विशेषता) पर खोज करने वाले सर्वश्रेष्ठ विभाजन को खोजने के लिए एक विभाजन बिंदु जो मूल रूप से एक खंड है, जो समूह ऐसे उदाहरणों को लक्षित करता है, जिनमें विभाजित मूल्य से कम का परीक्षण मूल्य होता है, और दाईं ओर समान से अधिक मूल्य होता है। यह संख्यात्मक विशेषताओं के लिए होता है (जो मुझे लगता है कि आपका मामला है क्योंकि मुझे नहीं पता कि नाममात्र की विशेषता को कैसे सामान्य किया जाए)। अब आप मान सकते हैं कि मानदंड इससे कम या अधिक है। जिसका अर्थ है कि विभाजन (और पूरे पेड़) को खोजने के लिए विशेषताओं से वास्तविक जानकारी केवल मूल्यों का क्रम है। जिसका अर्थ है कि जब तक आप अपनी विशेषताओं को इस तरह से रूपांतरित करते हैं कि मूल क्रम आरक्षित है, तब तक आपको वही पेड़ मिलेगा।

सभी मॉडल इस तरह के परिवर्तन के प्रति असंवेदनशील नहीं हैं। उदाहरण के लिए रैखिक प्रतिगमन मॉडल एक ही परिणाम देते हैं यदि आप एक विशेषता को शून्य से कुछ अलग करते हैं। आपको विभिन्न प्रतिगमन गुणांक मिलेंगे, लेकिन अनुमानित मूल्य समान होगा। जब आप उस परिवर्तन का लॉग लेते हैं तो यह मामला नहीं है। तो रैखिक प्रतिगमन के लिए, उदाहरण के लिए, सामान्यीकरण बेकार है क्योंकि यह समान परिणाम प्रदान करेगा।

हालाँकि, यह रिजिन रिग्रेशन जैसे दंडित रैखिक प्रतिगमन के मामले में नहीं है। दंडित रैखिक रजिस्टरों में गुणांकों पर एक बाधा लागू की जाती है। विचार यह है कि कसना गुणांक के एक समारोह के योग पर लागू होती है। अब यदि आप एक विशेषता को बढ़ाते हैं, तो गुणांक को विक्षेपित किया जाएगा, जिसका अर्थ है कि अंत में उस गुणांक के लिए दंड कृत्रिम रूप से संशोधित किया जाएगा। इस तरह की स्थिति में, आप विशेषताओं को सामान्य करते हैं ताकि प्रत्येक गुणांक 'निष्पक्ष' हो सके।

आशा है ये मदद करेगा

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.