सामान्यीकरण त्रुटि को मापने के लिए, आपको बाद में करने की आवश्यकता है: प्रत्येक प्रशिक्षण सेट के लिए एक अलग पीसीए (जिसका अर्थ होगा हर क्लासिफायर के लिए और प्रत्येक सीवी गुना के लिए एक अलग पीसीए करना)।
आप परीक्षण सेट पर उसी परिवर्तन को लागू करते हैं: यानी आप करते हैं परीक्षण सेट पर एक अलग पीसीए नहीं करते हैं! आप प्रशिक्षण सेट के माध्य (और यदि आवश्यक विचलन द्वारा विभाजित करें) को घटाते हैं, जैसा कि यहां बताया गया है: प्रशिक्षण सेट पर पीसीए के बाद परीक्षण सेट को शून्य-केंद्रित करना । फिर आप प्रशिक्षण सेट के पीसी पर डेटा प्रोजेक्ट करते हैं।
आपको उपयोग करने के लिए पीसी की संख्या के लिए एक स्वचालित मानदंड को परिभाषित करने की आवश्यकता होगी।
जैसा कि "वास्तविक" वर्गीकरण से पहले यह केवल एक पहला डेटा कटौती कदम है, कुछ पीसी का उपयोग करने से संभवतः प्रदर्शन को चोट नहीं पहुंचेगी। यदि आपको उम्मीद है कि अनुभव से कितने पीसी अच्छे होंगे, तो आप शायद इसका उपयोग कर सकते हैं।
आप बाद में यह भी परीक्षण कर सकते हैं कि क्या प्रत्येक सरोगेट मॉडल के लिए पीसीए को फिर से करना आवश्यक था (केवल एक पीसीआई मॉडल के साथ विश्लेषण को दोहराते हुए)। मुझे लगता है कि इस परीक्षण का परिणाम रिपोर्टिंग के लायक है।
मैंने एक बार पीसीए को नहीं दोहराने के पूर्वाग्रह को मापा, और पाया कि मेरे स्पेक्ट्रोस्कोपिक वर्गीकरण डेटा के साथ, मैंने हर सरोगेट मॉडल के लिए पीसीए को फिर से नहीं करने पर सामान्यीकरण त्रुटि दर का केवल आधा पता लगाया।
कहा जा रहा है, आप वर्णनात्मक (उदाहरण के लिए) उद्देश्यों के लिए पूरे डेटा सेट का एक अतिरिक्त पीसीए मॉडल बना सकते हैं। बस सुनिश्चित करें कि आप दो दृष्टिकोणों को एक-दूसरे से अलग रखें।
मुझे अभी भी यह महसूस करना मुश्किल हो रहा है कि पूरे डेटासेट पर एक प्रारंभिक पीसीए कैसे वर्ग लेबल देखे बिना परिणामों को पूर्वाग्रह करेगा।
लेकिन यह डेटा को देखता है। और अगर वर्ग-वर्ग विचरण भीतर-वर्ग विचरण की तुलना में बड़ा है, तो बीच-वर्ग विचरण PCA प्रक्षेपण को प्रभावित करेगा। आमतौर पर पीसीए चरण किया जाता है क्योंकि आपको वर्गीकरण को स्थिर करने की आवश्यकता होती है। यही है, ऐसी स्थिति में जहां अतिरिक्त मामले करते हैं मॉडल प्रभावित करते हैं।
यदि बीच-वर्ग विचलन छोटा है, तो यह पूर्वाग्रह बहुत अधिक नहीं होगा, लेकिन उस स्थिति में न तो पीसीए वर्गीकरण के लिए मदद करेगा: पीसीए प्रक्षेपण तब वर्गों के बीच अलगाव पर जोर देने में मदद नहीं कर सकता है।
caret
पैकेज में आर के साथ पीसीए के साथ क्रॉस-सत्यापन कैसे किया जाए : कैरेट में पीसीए और के-गुना क्रॉस सत्यापन ।