कर्नेल पीसीए के लिए कर्नेल कैसे चुनें?


13

कर्नेल पीसीए (प्रमुख घटक विश्लेषण) द्वारा अंतिम डेटा आउटपुट में अच्छे डेटा पृथक्करण के परिणामस्वरूप कर्नेल चुनने के तरीके क्या हैं, और कर्नेल के मापदंडों को अनुकूलित करने के तरीके क्या हैं?

यदि संभव हो तो आम आदमी के शब्दों को बहुत सराहा जाएगा, और ऐसे तरीकों की व्याख्या करने वाले कागजात के लिंक भी अच्छे होंगे।


1
जब आप "अच्छा डेटा पृथक्करण" कहते हैं, तो आप वास्तव में किसका उल्लेख कर रहे हैं? आपके मन में कर्नेल पीसीए का क्या अनुप्रयोग है? यदि इसका "डेटा पृथक्करण" से कोई लेना-देना है, तो क्या आपको शायद केपीसीए के बजाय कुछ वर्गीकरण तकनीक (जैसे कर्नेल सपोर्ट वेक्टर मशीन) का उपयोग करना चाहिए? इन सबके अलावा, अच्छा सवाल, +1। मेरे पास कर्नेल पसंद का अनुभव नहीं है, इसलिए आप यहां मदद नहीं कर सकते।
अमीबा

@amoeba यह नॉनलाइनियर डायमेंशनलिटी रिडक्शन के लिए इस्तेमाल किया जाना है। समर्थन वैक्टर पर मेरा ज्ञान थोड़ा सीमित है क्योंकि मैंने कभी कोई सीएस पाठ्यक्रम नहीं लिया है; मैं अंडरग्रेजुएट हूं और ऑनलाइन पेपर के जरिए सीख रहा हूं। "अच्छे डेटा पृथक्करण" से मेरा मतलब है कि इस पेपर में प्लॉट किए गए उदाहरणों द्वारा दिखाया गया है । मैं माटलैब के साथ काम कर रहा हूं और मेरा कर्नेल पीसीए कोड ऊपर और सरल, पॉली, रेडियल आधार और सिग्मॉइड कर्नेल के लिए चल रहा है, लेकिन यह जानना उपयोगी होगा कि सर्वोत्तम परिणामों के लिए कब उपयोग करना है।
चाइव्स

मुझे लगता है कि कर्नेल का चयन करने का सबसे अच्छा (केवल?) तरीका क्रॉस-वेलिडेशन का उपयोग करना है, यहां देखें: SVM के लिए कर्नेल का चयन कैसे करें? क्रॉस-वेलिडेशन का उपयोग करने के लिए आपको केवल अपने केपीसीए के लिए एक प्रदर्शन उपाय करना होगा। कक्षा जुदाई एक सभ्य उपाय हो सकता है यदि वह यह है कि क्या आप के बाद कर रहे हैं, लेकिन ध्यान दें कि पीसीए / kPCA नहीं बनाया गया है सब पर एक अच्छा वर्ग जुदाई में परिणाम के लिए; यह बस पकड़े गए विचरण को अधिकतम कर रहा है।
अमीबा

मैंने कुछ रीडिंग की और हो सकता है कि आखिरकार आपके सवाल का जवाब दे सकूं। लेकिन इसमें मुझे कुछ समय (दिन) लग सकता है।
अमीबा

@amoeba मैक्सिमाइज़िंग वेरिएशन से मुझे कोई मतलब नहीं है कि अब आप इसका उल्लेख करते हैं। मैं अपने आप को क्रॉस सत्यापन में देखूंगा, लेकिन यह बहुत अच्छा होगा यदि आप इसे थोड़ा देख सकते हैं यदि आप समय पा सकते हैं! धन्यवाद।
Chives

जवाबों:


8

किसी भी कर्नेल-आधारित पद्धति में एक इष्टतम कर्नेल (या तो कर्नेल का प्रकार, या कर्नेल पैरामीटर) का चयन करने के लिए सामान्य दृष्टिकोण क्रॉस-सत्यापन है। समर्थन वेक्टर मशीनों के लिए कर्नेल चयन की चर्चा के लिए यहां देखें: SVM के लिए कर्नेल का चयन कैसे करें?

क्रॉस-मान्यता के पीछे विचार यह है कि हम कुछ "परीक्षण" डेटा छोड़ देते हैं, शेष "प्रशिक्षण" डेटा पर मॉडल को फिट करने के लिए हमारे एल्गोरिथ्म को चलाते हैं, और फिर जांचते हैं कि परिणामी मॉडल परीक्षण डेटा का वर्णन कैसे करता है (और त्रुटि कितनी बड़ी है) है)। यह अलग-अलग लेफ्ट-आउट डेटा के लिए दोहराया जाता है, औसत क्रॉस-वेरिफ़ाइड त्रुटि बनाने के लिए त्रुटियों का औसत होता है, और फिर सबसे कम त्रुटि का चयन करने के लिए अलग-अलग एल्गोरिदम की तुलना की जा सकती है। SVM में मॉडल प्रदर्शन के माप के रूप में वर्गीकरण सटीकता (या संबंधित उपाय) का उपयोग कर सकते हैं । फिर एक कर्नेल का चयन करेगा जो परीक्षण डेटा के सर्वश्रेष्ठ वर्गीकरण को जन्म देता है।

तब सवाल यह हो जाता है: केपीसीए में मॉडल के प्रदर्शन का क्या उपयोग हो सकता है? यदि आप "अच्छा डेटा पृथक्करण" प्राप्त करना चाहते हैं (संभवतः अच्छा वर्ग अलगाव), तो आप किसी तरह इसे प्रशिक्षण डेटा पर माप सकते हैं और इसका उपयोग करके सबसे अच्छा कर्नेल ढूंढ सकते हैं। हालांकि, ध्यान दें कि पीसीए / kPCA अच्छा डेटा जुदाई उपज के लिए नहीं बनाया गया है (वे कक्षा लेबल को ध्यान में रखना नहीं है सब पर )। इसलिए आम तौर पर, एक और, वर्ग-असंबद्ध, मॉडल प्रदर्शन का माप चाहते हैं।

मानक पीसीए में एक परीक्षण सेट पर प्रदर्शन माप के रूप में पुनर्निर्माण त्रुटि का उपयोग कर सकता है । कर्नेल पीसीए में एक पुनर्निर्माण त्रुटि की गणना भी कर सकता है, लेकिन समस्या यह है कि यह विभिन्न कर्नेल के बीच तुलनीय नहीं है: पुनर्निर्माण त्रुटि लक्ष्य सुविधा स्थान में मापी गई दूरी है; और विभिन्न गुठली अलग-अलग लक्ष्य स्थानों के अनुरूप हैं ... इसलिए हमारे पास एक समस्या है।

इस समस्या से निपटने का एक तरीका किसी भी तरह से मूल स्थान में पुनर्निर्माण त्रुटि की गणना करना है, लक्ष्य स्थान में नहीं। जाहिर है लेफ्ट-आउट टेस्ट डेटा पॉइंट मूल स्थान पर रहता है। लेकिन इसका केपीसीए पुनर्निर्माण लक्ष्य अंतरिक्ष के [निम्न-आयामी उप-स्थान] में रहता है। हालांकि, कोई भी मूल स्थान में एक बिंदु ("पूर्व-छवि") ढूंढ सकता है, जिसे इस पुनर्निर्माण बिंदु के जितना संभव हो उतना करीब से मैप किया जाएगा, और फिर परीक्षण बिंदु और इस पूर्व-छवि के बीच की दूरी को मापें पुनर्निर्माण त्रुटि के रूप में।

मैं यहां सभी फॉर्मूले नहीं दूंगा, बल्कि आपको कुछ कागजात का संदर्भ देता हूं और केवल यहां कई आंकड़े डालते हैं।

केपीसीए में "प्री-इमेज" का विचार इस पेपर में स्पष्ट रूप से पेश किया गया था:

मिका वगैरह। क्रॉस-वेलिडेशन नहीं कर रहे हैं, लेकिन उन्हें डी-नॉइज़िंग उद्देश्यों के लिए पूर्व-चित्र की आवश्यकता है, यह आंकड़ा देखें:

मिका एट अल से केपीसीए डी-नॉयजिंग।

Denoised (मोटी) अंक kPCA अनुमानों की पूर्व-छवियां हैं (यहां कोई परीक्षण और प्रशिक्षण नहीं है)। इन पूर्व-चित्रों को खोजने के लिए यह एक तुच्छ कार्य नहीं है: किसी को ढाल वंश का उपयोग करने की आवश्यकता है, और नुकसान फ़ंक्शन कर्नेल पर निर्भर करेगा।

और यहाँ एक बहुत हालिया पेपर है जो क्रॉस-वेलिडेशन प्रयोजनों और कर्नेल / हाइपरपरमेटर चयन के लिए पूर्व-छवियों का उपयोग करता है:

यह उनका एल्गोरिथ्म है:

आलम और फुकुमिजू

और यहाँ कुछ परिणाम हैं (जो मुझे लगता है कि बहुत आत्म-व्याख्यात्मक हैं):

आलम और फुकुमिजू


1
(+1) यह नोट करना उपयोगी हो सकता है कि यह पूर्व-चित्र किसी दिए गए क्लस्टर को सौंपे गए बिंदुओं के Fréchet / Karcher साधनों का समुच्चय है , न कि यह कि किसी चीज़ में मदद करता है।
डगल

@ डगल: वाह, धन्यवाद, मुझे इस शब्द के बारे में बिल्कुल भी जानकारी नहीं थी। लेकिन मुझे यकीन नहीं है कि मैं समझता हूं। पहले पोस्ट किए गए चित्र पर विचार करें जो मैंने यहां (मिका एट अल से) पोस्ट किया है: प्रत्येक 2d बिंदु को 1-आयामी कर्नेल पीसी स्पेस मैप किया जाता है, जो बाद में 2d प्री-इमेज वापस मैप किया जाता है । जब आप कहते हैं कि प्री-इमेज "किसी दिए गए क्लस्टर को सौंपे गए बिंदुओं के फ्रेट / करचर सेट" है, तो क्लस्टर से आपका क्या मतलब है, और सेट क्यों है? x y y z zxxyyzz
अमीबा '

दूसरे विचार पर, मुझे लगता है कि मैंने पहले पर्याप्त ध्यान नहीं दिया था; मेरी टिप्पणी कर्नेल k- साधनों पर लागू होती है, केपीसीए पर नहीं। प्राइमेज निश्चित रूप से उस अवधारणा से संबंधित है, लेकिन एक ही चीज बिल्कुल नहीं। शोर के लिए क्षमा करें। :)
डगल gal
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.