किसी भी कर्नेल-आधारित पद्धति में एक इष्टतम कर्नेल (या तो कर्नेल का प्रकार, या कर्नेल पैरामीटर) का चयन करने के लिए सामान्य दृष्टिकोण क्रॉस-सत्यापन है। समर्थन वेक्टर मशीनों के लिए कर्नेल चयन की चर्चा के लिए यहां देखें: SVM के लिए कर्नेल का चयन कैसे करें?
क्रॉस-मान्यता के पीछे विचार यह है कि हम कुछ "परीक्षण" डेटा छोड़ देते हैं, शेष "प्रशिक्षण" डेटा पर मॉडल को फिट करने के लिए हमारे एल्गोरिथ्म को चलाते हैं, और फिर जांचते हैं कि परिणामी मॉडल परीक्षण डेटा का वर्णन कैसे करता है (और त्रुटि कितनी बड़ी है) है)। यह अलग-अलग लेफ्ट-आउट डेटा के लिए दोहराया जाता है, औसत क्रॉस-वेरिफ़ाइड त्रुटि बनाने के लिए त्रुटियों का औसत होता है, और फिर सबसे कम त्रुटि का चयन करने के लिए अलग-अलग एल्गोरिदम की तुलना की जा सकती है। SVM में मॉडल प्रदर्शन के माप के रूप में वर्गीकरण सटीकता (या संबंधित उपाय) का उपयोग कर सकते हैं । फिर एक कर्नेल का चयन करेगा जो परीक्षण डेटा के सर्वश्रेष्ठ वर्गीकरण को जन्म देता है।
तब सवाल यह हो जाता है: केपीसीए में मॉडल के प्रदर्शन का क्या उपयोग हो सकता है? यदि आप "अच्छा डेटा पृथक्करण" प्राप्त करना चाहते हैं (संभवतः अच्छा वर्ग अलगाव), तो आप किसी तरह इसे प्रशिक्षण डेटा पर माप सकते हैं और इसका उपयोग करके सबसे अच्छा कर्नेल ढूंढ सकते हैं। हालांकि, ध्यान दें कि पीसीए / kPCA अच्छा डेटा जुदाई उपज के लिए नहीं बनाया गया है (वे कक्षा लेबल को ध्यान में रखना नहीं है सब पर )। इसलिए आम तौर पर, एक और, वर्ग-असंबद्ध, मॉडल प्रदर्शन का माप चाहते हैं।
मानक पीसीए में एक परीक्षण सेट पर प्रदर्शन माप के रूप में पुनर्निर्माण त्रुटि का उपयोग कर सकता है । कर्नेल पीसीए में एक पुनर्निर्माण त्रुटि की गणना भी कर सकता है, लेकिन समस्या यह है कि यह विभिन्न कर्नेल के बीच तुलनीय नहीं है: पुनर्निर्माण त्रुटि लक्ष्य सुविधा स्थान में मापी गई दूरी है; और विभिन्न गुठली अलग-अलग लक्ष्य स्थानों के अनुरूप हैं ... इसलिए हमारे पास एक समस्या है।
इस समस्या से निपटने का एक तरीका किसी भी तरह से मूल स्थान में पुनर्निर्माण त्रुटि की गणना करना है, लक्ष्य स्थान में नहीं। जाहिर है लेफ्ट-आउट टेस्ट डेटा पॉइंट मूल स्थान पर रहता है। लेकिन इसका केपीसीए पुनर्निर्माण लक्ष्य अंतरिक्ष के [निम्न-आयामी उप-स्थान] में रहता है। हालांकि, कोई भी मूल स्थान में एक बिंदु ("पूर्व-छवि") ढूंढ सकता है, जिसे इस पुनर्निर्माण बिंदु के जितना संभव हो उतना करीब से मैप किया जाएगा, और फिर परीक्षण बिंदु और इस पूर्व-छवि के बीच की दूरी को मापें पुनर्निर्माण त्रुटि के रूप में।
मैं यहां सभी फॉर्मूले नहीं दूंगा, बल्कि आपको कुछ कागजात का संदर्भ देता हूं और केवल यहां कई आंकड़े डालते हैं।
केपीसीए में "प्री-इमेज" का विचार इस पेपर में स्पष्ट रूप से पेश किया गया था:
- मिका, एस।, श्लोकोफ़, बी।, स्मोला, ए जे, मुलर, केआर, शोलज़, एम।, और रैट्सच, जी। (1998)। फ़ीचर स्पेस में कर्नेल पीसीए और डी-नॉइज़िंग । एनआईपीएस में (वॉल्यूम 11, पीपी 536-542)।
मिका वगैरह। क्रॉस-वेलिडेशन नहीं कर रहे हैं, लेकिन उन्हें डी-नॉइज़िंग उद्देश्यों के लिए पूर्व-चित्र की आवश्यकता है, यह आंकड़ा देखें:
Denoised (मोटी) अंक kPCA अनुमानों की पूर्व-छवियां हैं (यहां कोई परीक्षण और प्रशिक्षण नहीं है)। इन पूर्व-चित्रों को खोजने के लिए यह एक तुच्छ कार्य नहीं है: किसी को ढाल वंश का उपयोग करने की आवश्यकता है, और नुकसान फ़ंक्शन कर्नेल पर निर्भर करेगा।
और यहाँ एक बहुत हालिया पेपर है जो क्रॉस-वेलिडेशन प्रयोजनों और कर्नेल / हाइपरपरमेटर चयन के लिए पूर्व-छवियों का उपयोग करता है:
यह उनका एल्गोरिथ्म है:
और यहाँ कुछ परिणाम हैं (जो मुझे लगता है कि बहुत आत्म-व्याख्यात्मक हैं):