क्या मुझे गैर-रैखिक डेटा के लिए कर्नेल ट्रिक का उपयोग करना चाहिए?

मैंने हाल ही में कर्नेल ट्रिक के उपयोग के बारे में सीखा, जो उन आयामों में डेटा को रैखिक बनाने के प्रयास में डेटा को उच्च आयामी स्थानों में मैप करता है। क्या ऐसे कोई मामले हैं जहां मुझे इस तकनीक का उपयोग करने से बचना चाहिए? क्या यह सही कर्नेल फ़ंक्शन को खोजने की बात है?

रैखिक डेटा के लिए यह निश्चित रूप से उपयोगी नहीं है, लेकिन गैर-रैखिक डेटा के लिए, यह हमेशा उपयोगी लगता है। ट्रेनिंग टाइम और स्केलेबिलिटी के मामले में लीनियर क्लासिफायर का इस्तेमाल नॉन-लीनियर की तुलना में बहुत आसान है।

— JDong
स्रोत

जवाबों:

रैखिक डेटा के लिए यह निश्चित रूप से उपयोगी नहीं है, लेकिन गैर-रैखिक डेटा के लिए, यह हमेशा उपयोगी लगता है। ट्रेनिंग टाइम और स्केलेबिलिटी के मामले में लीनियर क्लासिफायर का इस्तेमाल नॉन-लीनियर की तुलना में बहुत आसान है।

@BartoszKP ने पहले ही समझाया कि कर्नेल ट्रिक क्यों उपयोगी है। आपके प्रश्न को पूरी तरह से संबोधित करने के लिए, हालांकि मैं यह बताना चाहूंगा कि गैर-रैखिक रूप से वियोज्य डेटा से निपटने के लिए कर्नेल का उपयोग एकमात्र विकल्प नहीं है ।

मॉडल के परिशोधन के लिए कम से कम तीन अच्छे, सामान्य विकल्प हैं :

तटस्थ नेटवर्क आधारित विधियाँ, जहाँ आप प्रसंस्करण इकाइयों की एक (या अधिक) परतें जोड़ते हैं, जो आपके डेटा को रैखिक रूप से वियोज्य मामले में बदलने में सक्षम हैं। सरलतम मामले में यह सिग्मॉइड-आधारित परत है, जो प्रक्रिया में गैर-रैखिकता जोड़ता है। एक बार बेतरतीब ढंग से शुरू होने के बाद उन्हें ऊपरी परत के ढाल-आधारित अनुकूलन के दौरान अपडेट मिल रहे हैं (जो कि रैखिक समस्या को हल करता है)।
विशेष रूप से - आगे लीनियर वर्गीकरण के लिए डेटा तैयार करने के लिए गहरी शिक्षण तकनीकों का उपयोग यहां किया जा सकता है। यह पिछले एक के समान विचार है, लेकिन यहां आप कुछ रैखिक मॉडल के प्रशिक्षण के आधार पर आगे की फाइन-ट्यूनिंग के लिए एक अच्छा प्रारंभिक बिंदु खोजने के लिए अपनी प्रसंस्करण परतों को प्रशिक्षित करते हैं।
यादृच्छिक अनुमान - आप कुछ पूर्वनिर्धारित स्थान से (गैर रेखीय) अनुमानों को नमूना कर सकते हैं और उनके शीर्ष पर रेखीय वर्गीकरण को प्रशिक्षित कर सकते हैं। इस विचार का अत्यधिक मशीन लर्निंग नामक तथाकथित शोषण में उपयोग किया जाता है , जहाँ बहुत ही कुशल रैखिक सॉल्वरों का उपयोग यादृच्छिक अनुमानों पर एक साधारण क्लासिफायरियर को प्रशिक्षित करने के लिए किया जाता है, और बहुत अच्छा प्रदर्शन प्राप्त करने के लिए (वर्गीकरण और प्रतिगमन दोनों में गैर रेखीय समस्याओं पर, उदाहरण के लिए चरम शिक्षण की जाँच करें। मशीनें )।

योग करने के लिए - कर्नेलाइजेशन एक बेहतरीन डेलीएराइजेशन तकनीक है, और आप इसका उपयोग कर सकते हैं, जब समस्या रैखिक नहीं होती है, लेकिन यह अंधा नहीं होना चाहिए "अगर" तो एप्राच। यह कम से कम कुछ दिलचस्प तरीकों में से एक है, जो समस्या और आवश्यकताओं के आधार पर विभिन्न परिणामों को जन्म दे सकता है। विशेष रूप से, ईएलएम कर्नेलित एसवीएम द्वारा दिए गए उन लोगों के समान समाधान खोजने की कोशिश करता है, जबकि एक ही समय में उन्हें परिमाण की प्रशिक्षित पंक्तियों को तेजी से प्रशिक्षित किया जा सकता है (इसलिए यह कर्नेलित एसवीएम की तुलना में बहुत बेहतर होता है)।

— lejlot
स्रोत

आप कर्नेल चाल के लिए सामान्य रूप से रैखिक तरीकों के लिए जो कीमत अदा करते हैं, वह सामान्यीकरण की सीमा को बदतर कर रहा है। एक रेखीय मॉडल के लिए इसका वीसी आयाम आयामों की संख्या के मामले में भी रैखिक होता है (उदाहरण के लिए एक परसेप्ट्रोन के लिए वीसी आयाम d + 1)।

अब, यदि आप एक उच्च आयामी स्थान के लिए एक जटिल गैर-रेखीय परिवर्तन का प्रदर्शन करेंगे, तो आपके परिकल्पना सेट का कुलपति आयाम काफी बड़ा है, क्योंकि यह अब नए, उच्च आयामी अंतरिक्ष में आयामों की संख्या के मामले में रैखिक है। और इसके साथ, सामान्यीकरण बाध्य हो जाता है।

समर्थन वेक्टर मशीनें दो कार्यों को करके कर्नेल ट्रिक का सबसे कुशल तरीके से फायदा उठाती हैं:

हार्ड-मार्जिन एसवीएम मॉडल के लिए बाध्य सामान्यीकरण समर्थन क्षेत्रों की संख्या से संबंधित है, और सॉफ्ट-मार्जिन के लिए वजन वेक्टर के मानदंड से संबंधित है - इसलिए यह पहले मामले में अप्रासंगिक हो सकता है, और दूसरे मामले में लगभग अप्रासंगिक हो सकता है। । कोई फर्क नहीं पड़ता कि कर्नेल लक्ष्य स्थान कितना "बड़ा" है, आप सामान्यीकरण के संदर्भ में कुछ भी / अधिक ढीला नहीं करते हैं (संदर्भ: (i) सी। कोर्टेस और वी। वैपनिक। वेक्टर नेटवर्क का समर्थन करते हैं। मशीन लर्निंग, 20: 273– 297, 1995 ; (ii) श्वे-टेलर, जे। क्रिस्टियानिनी, एन।, "सॉफ्ट मार्जिन एल्गोरिदम के सामान्यीकरण पर," सूचना सिद्धांत, IEEE लेनदेन अक्टूबर 2002 )।
एसवीएम को अलग-अलग विमान मिलते हैं जो मार्जिन को अधिकतम करता है, और यह आगे की परिकल्पना सेट को सरल करता है (हम हर संभव अलग करने वाले विमान पर विचार नहीं करते हैं, बस जो मार्जिन को अधिकतम करते हैं)। सरल परिकल्पना सेट भी बेहतर सामान्यीकरण सीमा की ओर जाता है (यह पहले बिंदु से संबंधित है, लेकिन यह अधिक सहज है)।

— BartoszKP
स्रोत

"वज़न की संख्या के मामले में भी रैखिक है" अंतरिक्ष आयाम के संदर्भ में, वज़न की संख्या नहीं। आप जितने चाहें उतने वज़न के साथ रेखीय क्लासिफायर का पैराट्राइज्ड कर सकते हैं, लेकिन इसका VC डायमेंशन अभी भी d + 1 है (जहाँ d स्पेस डायमेंशन है)। "एसवीएम मॉडल के लिए वीसी आयाम समर्थन क्षेत्रों की संख्या से संबंधित है" वीवी आयाम वास्तव में एसवी की संख्या से कैसे संबंधित है? मैं कठिन मार्जिन के बारे में जानता हूं, लेकिन नरम मार्जिन मामले में एफएक ऐसा कोई संबंध नहीं है। यहां तक कि रादामैचर की जटिलता में आपको एसवी की संख्या एक चर के रूप में नहीं मिलेगी।

— लेज्लोट

इसके अलावा "इतना अप्रासंगिक है कि कर्नेल लक्ष्य स्थान" कितना बड़ा है ", आप सामान्यीकरण के संदर्भ में कुछ भी ढीला नहीं करते हैं" जहां तक मैं पूरी तरह से गलत जानता हूं। उच्च आयामी रिक्त स्थान सामान्यीकरण क्षमताओं की कमी की ओर ले जाएंगे, यहां तक कि एसवीएम जैसे दृढ़ता से नियमित मॉडल के साथ।

— लेज्लोट

@lejlot धन्यवाद, पहले दो गलतियों को सुधारा। मुझे आपकी पिछली दो टिप्पणियों से संबंधित होने के लिए कुछ समय चाहिए - मैं अपनी जानकारी पुनः प्राप्त करने के बाद उत्तर को बेहतर बनाने और कुछ स्रोत प्रदान करने की कोशिश करूँगा :)

— बार्टोज़ज़्प

यह अब लगभग सही है, लेकिन अप्रासंगिक में कर्नेल स्थान के आकार का अनुमान लगाने का क्या कारण है? कोई भी डेटासेट लें, RBF कर्नेल और C-> inf के साथ एक SVM चलाएँ और आप बुरी तरह से ओवरफिट करेंगे। यह इतना सरल नहीं है। फ़ीचर स्पेस में आयामों की संख्या प्रासंगिक है , फिर भी इसे C (लैग्रेंज मल्टीप्लायरों के ऊपरी हिस्से के रूप में) के साथ नियंत्रित किया जा सकता है। विशेष रूप से - आरबीएफ के साथ एसवीएम के लिए वीसी आयाम अनंत है, और सामान्यीकरण बाध्य (वापनिक) बेकार है (रैदामाचेर काम कर सकता था लेकिन यह पूरी अलग कहानी है)।

— लेज्लोट

@lejlot मैंने एक और संदर्भ दिया है - वे स्पष्ट रूप से नरम-मार्जिन मामले के लिए एक बाध्यता प्रदान करते हैं, और यह आयामों की संख्या पर निर्भर नहीं है।

— बार्टोज़केपी

मैं आपके प्रश्न का एक गैर-तकनीकी उत्तर देने का प्रयास करूंगा।

दरअसल, रैखिक को प्राथमिकता दी जानी चाहिए और आपके द्वारा बताए गए कारणों के लिए पहली पसंद होनी चाहिए, प्रशिक्षण का समय, मापनीयता, साथ ही अंतिम मॉडल की व्याख्या करने में आसानी, व्यावहारिक या दोहरे काम करने का विकल्प, ओवरफिटिंग के लिए अधिक सहिष्णुता आदि।

यदि रैखिक मॉडल में संतोषजनक प्रदर्शन नहीं होता है, तो आप गैर-रैखिक समाधान आज़मा सकते हैं। कुछ व्यापार पर विचार करने के लिए शामिल हैं:

गिरी की पसंद। यह स्पष्ट नहीं है, आमतौर पर आपको विभिन्न विकल्पों का परीक्षण करने की आवश्यकता होती है
प्रशिक्षण सेट को ओवरफिट करने का खतरा है। यदि आप चाहते हैं तो वास्तव में यह बहुत आसान है। ओवरफिटिंग से बचने के लिए आपको एक मजबूत मूल्यांकन ढाँचे की आवश्यकता है (आपको अनदेखी डेटा पर विचरण / प्रदर्शन की स्थिरता को मापने की आवश्यकता है) और उचित मॉडल चयन करने में सक्षम होने के लिए आपको पर्याप्त डेटा की आवश्यकता है
आप दोहरे पर काम करते हैं, और इस प्रकार आप अंतिम मॉडल की व्याख्या नहीं कर सकते हैं, अर्थात, आप यह दावा नहीं कर सकते कि सुविधा X आदि की तुलना में X अधिक महत्वपूर्ण है।
डेटा की मात्रा के साथ प्रशिक्षण का समय बढ़ाया जाता है (दोहरे में कम सुविधाओं के साथ)

— iliasfl
स्रोत

यह "दोहरी" के साथ काम करने पर एक अंतर-अंतर्दृष्टि है, जिससे फीचर आयातों का दावा करने में असमर्थता पैदा होती है। क्या आपके पास आगे की व्याख्या करने वाली सामग्री का कुछ संदर्भ होगा?

— २१