क्या एसवीएम और रैंडम फ़ॉरेस्ट के लिए सामान्यीकरण करना आवश्यक है?

29

मेरी विशेषताओं के हर आयाम में अलग-अलग मूल्य हैं। मैं जानना चाहता हूं कि क्या इस डेटासेट को सामान्य करना आवश्यक है।

— user22062
स्रोत

29

आपके प्रश्न का उत्तर इस बात पर निर्भर करता है कि आप किस समानता / दूरी के फंक्शन का उपयोग करने की योजना बनाते हैं (SVM में)। यदि यह सरल (अनवील) यूक्लिडियन दूरी है, तो यदि आप अपने डेटा को सामान्य नहीं करते हैं तो आप अनजाने में कुछ विशेषताओं को दूसरों की तुलना में अधिक महत्व दे रहे हैं।

उदाहरण के लिए, यदि आपका पहला आयाम 0-10 से है, और दूसरा आयाम 0-1 से है, तो पहले आयाम में 1 का अंतर (रेंज का सिर्फ दसवां हिस्सा) दूरी की गणना में उतना ही योगदान देता है जितना कि दो बेतहाशा भिन्न मानों में दूसरा आयाम (0 और 1)। तो ऐसा करके, आप पहले आयाम में छोटे अंतर को बढ़ा रहे हैं। आप निश्चित रूप से एक कस्टम डिस्टेंस फ़ंक्शन के साथ आ सकते हैं या किसी विशेषज्ञ के अनुमान से अपने आयामों का वजन कर सकते हैं, लेकिन इससे आपके डेटा की गतिशीलता के आधार पर बहुत सारे ट्यून करने योग्य पैरामीटर हो जाएंगे। इस मामले में, सामान्यीकरण एक आसान रास्ता है (हालांकि जरूरी नहीं कि आदर्श) क्योंकि आप कम से कम शुरुआत कर सकते हैं।

अंत में, एसवीएम के लिए, अभी भी एक और चीज जो आप कर सकते हैं, वह दूरी फ़ंक्शन के बजाय समानता फ़ंक्शन के साथ आ सकती है और इसे कर्नेल के रूप में प्लग कर सकती है (तकनीकी रूप से इस फ़ंक्शन को सकारात्मक-निश्चित मैट्रिक्स उत्पन्न करना होगा)। इस फ़ंक्शन का निर्माण किसी भी तरह से किया जा सकता है और सुविधाओं की श्रेणी में असमानता को ध्यान में रख सकता है।

दूसरी ओर यादृच्छिक वनों के लिए, चूंकि एक विशेषता को अन्य विशेषताओं के लिए परिमाण में तुलना नहीं की जाती है, इसलिए सीमाएं मायने नहीं रखती हैं। यह केवल एक विशेषता की सीमा है जो प्रत्येक चरण में विभाजित है।

— अंसारी
स्रोत

12

रैंडम फ़ॉरेस्ट व्यक्तिगत विशेषताओं के मोनोटोनिक परिवर्तनों के लिए अपरिवर्तनीय है। अनुवाद या प्रति सुविधा स्केलिंग से रैंडम फ़ॉरेस्ट के लिए कुछ भी नहीं बदलेगा। एसवीएम शायद बेहतर होगा यदि आपकी विशेषताओं में लगभग एक ही परिमाण है, जब तक कि आप एप्रीओरी को नहीं जानते हैं कि कुछ विशेषता दूसरों की तुलना में बहुत अधिक महत्वपूर्ण है, जिस स्थिति में इसके लिए एक बड़ा परिमाण होना ठीक है।

— rrenaud
स्रोत