हाल ही में एक कागेल प्रतियोगिता के लिए, मैंने (मैन्युअल रूप से) अपने प्रशिक्षण सेट के लिए 10 अतिरिक्त विशेषताओं को परिभाषित किया था, जो तब एक यादृच्छिक फोर्फ़ क्लास क्लासीफायर को प्रशिक्षित करने के लिए उपयोग किया जाएगा। मैंने नई सुविधाओं के साथ डेटासेट पर पीसीए चलाने का फैसला किया, यह देखने के लिए कि वे एक-दूसरे की तुलना में कैसे हैं। मैंने पाया कि ~ 98% विचरण पहले घटक (पहला ईजनवेक्टर) द्वारा किया गया था। मैंने तब क्लासिफायर को कई बार प्रशिक्षित किया, एक समय में एक विशेषता को जोड़ा, और वर्गीकरण की गुणवत्ता की तुलना करने के लिए क्रॉस-मान्यता और आरएमएस त्रुटि का उपयोग किया। मैंने पाया कि प्रत्येक अतिरिक्त सुविधा के साथ वर्गीकरण में सुधार हुआ, और यह कि अंतिम परिणाम (सभी 10 नई विशेषताओं के साथ) 2 सुविधाओं के साथ पहले रन की तुलना में बेहतर था।
यह देखते हुए कि पीसीए ने दावा किया ~ 98% विचरण मेरे डेटासेट के पहले घटक में था, वर्गीकरण की गुणवत्ता में इतना सुधार क्यों हुआ?
क्या यह अन्य सहपाठियों के लिए सही रहेगा? कई कोरों में RF तराजू, इसलिए यह SVM की तुलना में प्रशिक्षित करने के लिए बहुत तेज़ है।
क्या होगा अगर मैंने डेटासेट को "पीसीए" स्पेस में बदल दिया है, और रूपांतरित स्थान पर क्लासिफायर चलाएं। मेरे परिणाम कैसे बदलेंगे?