डेटा को हाई-डायमेंशनल फ़ीचर स्पेस में क्यों बदलना, जिसमें कक्षाएं रैखिक रूप से अलग होती हैं, जिससे ओवरफ़िटिंग होती है?


10

मैंने अपनी पुस्तक (एसवीएम के बारे में अनुभाग में वेब और विली द्वारा सांख्यिकीय पैटर्न का वर्गीकरण) पढ़ा और एसवीएम और रैखिक रूप से गैर-पृथक्करण योग्य:

कई वास्तविक-विश्व व्यावहारिक समस्याओं में वर्गों को अलग करने वाली कोई रैखिक सीमा नहीं होगी और एक इष्टतम पृथक्करण हाइपरप्लेन की खोज की समस्या निरर्थक है। भले ही हम परिष्कृत फ़ीचर वैक्टर, का उपयोग करने के लिए थे , डेटा को एक उच्च-आयामी सुविधा स्थान में बदलने के लिए जिसमें कक्षाएं रैखिक रूप से अलग होती हैं, इससे डेटा की ओवर-फिटिंग हो जाती है और इसलिए खराब सामान्यीकरण क्षमता होती है ।Φ(x)

डेटा को हाई-डायमेंशनल फ़ीचर स्पेस में क्यों बदलना, जिसमें कक्षाएं रैखिक रूप से अलग होती हैं, ओवरफ़िटिंग और खराब सामान्यीकरण क्षमता की ओर ले जाती हैं?

जवाबों:


8

@ffriend के पास इसके बारे में एक अच्छी पोस्ट है, लेकिन आम तौर पर बोलते हुए, यदि आप एक उच्च आयामी सुविधा स्थान में बदलते हैं और वहां से ट्रेन करते हैं, तो सीखने का एल्गोरिथ्म उच्च-स्थान की विशेषताओं को ध्यान में रखने के लिए 'मजबूर' है, भले ही उनके पास कुछ भी न हो मूल डेटा के साथ करने के लिए, और कोई भविष्य कहनेवाला गुण प्रदान करते हैं।

इसका मतलब है कि आप प्रशिक्षण के दौरान एक सीखने के नियम को ठीक से सामान्य नहीं करने जा रहे हैं।

एक सहज उदाहरण लें: मान लीजिए कि आप ऊंचाई से वजन की भविष्यवाणी करना चाहते थे। आपके पास यह सभी डेटा है, जो लोगों के वजन और ऊंचाई के अनुरूप है। हम कहें कि बहुत आम तौर पर, वे एक रैखिक संबंध का पालन करते हैं। अर्थात्, आप वजन (डब्ल्यू) और ऊंचाई (एच) का वर्णन कर सकते हैं:

W=mHb

, जहाँ आपके रेखीय समीकरण का ढलान है, और y- अवरोधन है, या इस मामले में, W- अवरोधन है।mb

हमें बताएं कि आप एक अनुभवी जीवविज्ञानी हैं, और आप जानते हैं कि संबंध रैखिक है। आपका डेटा एक बिखरने वाले प्लॉट की तरह दिखता है जो ऊपर की तरफ ट्रेंडिंग है। यदि आप डेटा को 2-आयामी स्थान में रखते हैं, तो आप इसके माध्यम से एक पंक्ति फिट करेंगे। यह सभी बिंदुओं को नहीं मार सकता है , लेकिन यह ठीक है - आप जानते हैं कि संबंध रैखिक है, और आप वैसे भी एक अच्छा सन्निकटन चाहते हैं।

अब यह कहते हैं कि आपने यह 2-आयामी डेटा लिया और इसे उच्च आयामी स्थान में बदल दिया। इसलिए केवल बजाय , आप 5 और आयाम जोड़ते हैं, , , , , और ।HH2H3H4H5H2+H7

अब आप जाकर इस डेटा को फिट करने के लिए बहुपद के सह-गुणकों को खोजते हैं। यही है, आप को- खोजना चाहते हैंci इस बहुपद के लिए जो डेटा को 'सबसे उपयुक्त' :

W=c1H+c2H2+c3H3+c4H4+c5H5+c6H2+H7

यदि आप ऐसा करते हैं, तो आपको किस तरह की लाइन मिलेगी? आपको एक ऐसा मिलेगा जो @ffriend का बहुत सही प्लॉट जैसा दिखता था। आपने डेटा को ओवरफिट कर दिया है, क्योंकि आपने अपने सीखने के एल्गोरिदम को उच्चतर आदेश बहुपद में ध्यान रखने के लिए मजबूर किया है जिसका कुछ भी करने के लिए कुछ भी नहीं है। जैविक रूप से बोलना, वजन केवल ऊंचाई पर निर्भर करता है। यह पर निर्भर नहीं करता है या किसी भी उच्च आदेश बकवास।H2+H7

यही कारण है कि यदि आप डेटा को उच्च क्रम आयामों में नेत्रहीन रूप से बदलते हैं, तो आप ओवरफिटिंग का बहुत बुरा जोखिम चलाते हैं, और सामान्यीकरण नहीं करते हैं।


6

मान लें कि हम फ़ंक्शन को खोजने की कोशिश कर रहे हैं जो रैखिक रिग्रेशन (जो अनिवार्य रूप से एसवीएम बहुत अधिक है) का उपयोग करके सादे पर 2 डी बिंदुओं के सेट का अनुमान लगाता है। लाल क्रॉस के नीचे 3 छवियां अवलोकन (प्रशिक्षण डेटा) हैं और 3 नीली रेखाएं प्रतिगमन के लिए उपयोग किए जाने वाले बहुपद के विभिन्न डिग्री वाले समीकरणों का प्रतिनिधित्व करती हैं।

यहाँ छवि विवरण दर्ज करें

पहली छवि रैखिक समीकरण द्वारा उत्पन्न होती है। जैसा कि आप देख सकते हैं, यह काफी खराब बिंदुओं को दर्शाता है। इसे अंडरफिटिंग कहा जाता है , क्योंकि हमने लर्निंग एल्गोरिदम को बहुत कम "स्वतंत्रता की डिग्री" (बहुत छोटी डिग्री का बहुपद) दिया। दूसरी छवि बहुत बेहतर है - हमने दूसरी डिग्री के बहुपद का उपयोग किया और यह बहुत अच्छा लग रहा है। हालांकि, अगर हम "स्वतंत्रता की डिग्री" को बढ़ाते हैं, तो हमें तीसरी छवि मिलती है। इस पर नीली रेखा क्रॉस के माध्यम से सही आती है, लेकिन क्या आप मानते हैं कि यह रेखा वास्तव में निर्भरता का वर्णन करती है? मुझे ऐसा नहीं लगता। हां, प्रशिक्षण सेट पर सीखने की त्रुटि (क्रॉस और लाइन के बीच की दूरी) बहुत छोटी है, लेकिन अगर हम एक और अवलोकन जोड़ते हैं (कहते हैं, वास्तविक डेटा से), तो शायद इसके लिए त्रुटि बहुत बड़ी होगी यदि हम दूसरे से समीकरण का उपयोग करते हैं। छवि। इस प्रभाव को ओवरफिटिंग कहा जाता हैxxx2x3। संक्षेप में, आप डेटा को विभाजित करते हैं, कहते हैं, 10 भाग, उनमें से 9 प्रशिक्षण के लिए और 1 सत्यापन के लिए। यदि सत्यापन सेट पर त्रुटि ट्रेन सेट की तुलना में बहुत अधिक है, तो आप ओवरफिट हो गए हैं। अधिकांश मशीन लर्निंग एल्गोरिदम कुछ मापदंडों (जैसे एसवीएम में गुठली के मापदंडों) का उपयोग करते हैं जो ओवरफिटिंग को दूर करने की अनुमति देते हैं। इसके अलावा, यहां एक लोकप्रिय कीवर्ड नियमितीकरण है - एल्गोरिथ्म का संशोधन जो सीधे अनुकूलन प्रक्रिया को प्रभावित करता है, शाब्दिक रूप से यह कहते हुए कि "प्रशिक्षण डेटा का भी बारीकी से पालन न करें"।

BTW, मुझे यकीन नहीं है कि डीएसपी इस तरह के सवालों के लिए सही साइट है, शायद आप क्रॉसविलेक्टेड पर भी जाने में दिलचस्पी लेंगे


यह मशीन लर्निंग पर एंड्रयू एनजी के वीडियो लेक्चर से उधार लिया गया था। जब तक कि आप डॉ। एनजी। उस स्थिति में, क्या आप अपनी लैब के लिए पीएचडी छात्र की तलाश कर रहे हैं? (व्याख्यान आप में से उन लोगों के लिए coursera.com पर पाया जा सकता है जो रुचि रखते हैं)
साइबरमेन

@CyberMen: यह images.google.com से चुराया गया था :) लेकिन हाँ, अंकन Ng के एक के समान है। और मैं मशीन सीखने के परिचय के लिए निश्चित रूप से उनके पाठ्यक्रम (और अन्य कागजात) का सुझाव दूंगा।
19

मुझे लगता है कि डीएसपी कम से कम अन्य एसई साइटों के बीच इस तरह के प्रश्न के लिए सही जगह है।
गिगिली

2

क्या आप आगे पढ़े?

6.3.10 अनुभाग के अंत में:

"हालांकि, अक्सर कर्नेल के पैरामीटर होते हैं जिन्हें सेट किया जाना चाहिए और एक खराब विकल्प खराब सामान्यीकरण को जन्म दे सकता है। किसी दिए गए समस्या के लिए सबसे अच्छा कर्नेल का विकल्प हल नहीं किया गया है और विशेष गुठली विशेष समस्याओं के लिए व्युत्पन्न की गई है, उदाहरण के लिए दस्तावेज़ वर्गीकरण "

जो हमें खंड 6.3.3 की ओर ले जाता है:

" स्वीकार्य कर्नेल को एक फ़ीचर स्पेस में एक आंतरिक उत्पाद के रूप में व्यक्त किया जाना चाहिए, जिसका अर्थ है कि उन्हें मर्सर की स्थिति को संतुष्ट करना होगा"

अपने स्वयं के काफी कठिन क्षेत्र द्वारा कर्नेल, आपके पास बड़ा डेटा हो सकता है जहां अलग-अलग हिस्सों में अलग-अलग मापदंडों को लागू करना चाहिए, जैसे कि चौरसाई करना, लेकिन जब बिल्कुल ठीक न हो। इसलिए इस तरह के काम को सामान्य करना काफी मुश्किल है।


मैं "4.2.5 सपोर्ट वेक्टर मशीन" पढ़ रहा हूं जैसा कि मैंने कहा, मुझे नहीं पता कि आप किस अनुभाग 6 के बारे में बात कर रहे हैं। चूँकि पैराग्राफ के बाद मैंने प्रश्न में जो उल्लेख किया है, उसके बारे में कुछ नहीं है, मैंने सोचा कि मैं इसे यहाँ पूछना बेहतर समझता हूँ।
गिगिली

क्षमा करें, मैंने इसे वेब के द्वारा सांख्यिकीय प्रतिमान मान्यता के साथ मिलाया , जो मैं अभी देख रहा हूं और जिसमें समान अध्याय हैं।
सिगरालामी 15
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.