मेरे पास 20000 नमूनों के साथ एक डेटा सेट है, प्रत्येक में 12 अलग-अलग विशेषताएं हैं। प्रत्येक नमूना या तो श्रेणी 0 या 1 में है। मैं नमूनों को वर्गीकृत करने के लिए एक तंत्रिका नेटवर्क और एक निर्णय वन को प्रशिक्षित करना चाहता हूं ताकि मैं परिणामों और दोनों तकनीकों की तुलना कर सकूं।
पहली चीज जिस पर मैंने ठोकर खाई, वह डेटा का उचित सामान्यीकरण है। एक फीचर रेंज में हैमें एक और और एक विशेषता है जो ज्यादातर 8 और कभी-कभी 7 मान लेती है। इसलिए जैसा कि मैंने विभिन्न स्रोतों में पढ़ा है, इनपुट डेटा का उचित सामान्यीकरण तंत्रिका नेटवर्क के लिए महत्वपूर्ण है। जैसा कि मुझे पता चला, उदाहरण के लिए, डेटा को सामान्य करने के कई संभावित तरीके हैं:
- न्यूनतम-अधिकतम सामान्यीकरण : इनपुट रेंज रैखिक रूप से अंतराल में बदल जाती है (या वैकल्पिक रूप से , क्या वो वजह बन रही हे?)
- Z- स्कोर सामान्यीकरण : डेटा को शून्य माध्य और इकाई विचरण में रूपांतरित किया जाता है:
मुझे कौन सा सामान्यीकरण चुनना चाहिए? क्या निर्णय जंगलों के लिए भी सामान्यीकरण आवश्यक है? जेड-स्कोर सामान्यीकरण के साथ, मेरे परीक्षण डेटा की विभिन्न विशेषताएं समान सीमा में नहीं हैं। क्या यह समस्या हो सकती है? क्या प्रत्येक सुविधा को समान एल्गोरिथ्म के साथ सामान्यीकृत किया जाना चाहिए, ताकि मैं या तो सभी विशेषताओं के लिए मिन-मैक्स का उपयोग करने का निर्णय लूं या सभी विशेषताओं के लिए जेड-स्कोर करूं?
क्या ऐसे संयोजन हैं जहां डेटा मैप किया जाता है और शून्य का मतलब भी है (जो डेटा का एक गैर-रेखीय परिवर्तन होगा और इसलिए परिवर्तन और इनपुट डेटा की अन्य विशेषताओं में परिवर्तन होगा)।
मैं थोड़ा खोया हुआ महसूस करता हूं क्योंकि मुझे ऐसे संदर्भ नहीं मिल रहे हैं जो इन सवालों का जवाब दें।