मशीन सीखने में लचीले और अनम्य मॉडल


10

मैं अलग-अलग परिदृश्यों के तहत लचीले मॉडल (यानी स्प्लिन) बनाम अनम्य मॉडल (जैसे रैखिक प्रतिगमन) की तुलना करने पर एक साधारण प्रश्न पर आया था। प्रश्न है:

सामान्य तौर पर, क्या हम एक लचीली सांख्यिकीय शिक्षण पद्धति के प्रदर्शन की उम्मीद करते हैं जब एक अनम्य विधि की तुलना में बेहतर या बुरा प्रदर्शन किया जाता है:

  1. भविष्यवाणियों की संख्या बहुत बड़ी है, और टिप्पणियों की संख्या छोटी है? एनpn
  2. त्रुटि शब्दों का विचलन अर्थात σ2=Var(e) , बहुत अधिक है?

मुझे लगता है कि (1) के लिए, जब n छोटा है, तो अनम्य मॉडल बेहतर हैं (निश्चित नहीं)। (2) के लिए, मुझे नहीं पता कि कौन सा मॉडल (अपेक्षाकृत) बेहतर है।


सामान्यीकरण त्रुटि तुच्छता से दूर है। दुर्भाग्य से अंगूठे के नियम इस संबंध में ज्यादा मदद नहीं करते हैं।
मार्क क्लेसेन

8
ऐसा लगता है कि जेम्स, विटेन, हस्ती, टिब्शिरानी का परिचय सांख्यिकीय सीखना से है
नोएल इवांस

1. एक लचीली विधि कम संख्या में टिप्पणियों से आगे निकल जाएगी। 2. एक लचीली विधियां त्रुटि के संदर्भ में शोर के लिए उपयुक्त हैं और विचरण को बढ़ाती हैं।
ज़ानर्क

जवाबों:


3

इन 2 स्थितियों में, तुलनात्मक प्रदर्शन लचीला बनाम अनम्य मॉडल भी निर्भर करता है:

  • सच्चा संबंध y = f (x) रैखिक या बहुत गैर-रैखिक के करीब है;
  • क्या आप "लचीली" मॉडल की लचीली डिग्री को धुनते / विवश करते हैं, जब इसे फिटिंग करते हैं।

यदि संबंध रैखिक के करीब है और आप लचीलेपन में बाधा नहीं डालते हैं, तो रैखिक मॉडल को दोनों मामलों में बेहतर परीक्षण त्रुटि देनी चाहिए क्योंकि लचीला मॉडल दोनों मामलों में ओवरफिट होने की संभावना है।

आप इसे इस प्रकार देख सकते हैं:

  • दोनों मामलों में डेटा में सच्चे संबंध के बारे में पर्याप्त जानकारी नहीं है (पहले मामले में संबंध उच्च आयामी है और आपके पास पर्याप्त डेटा नहीं है, दूसरे मामले में यह शोर से दूषित है) लेकिन
    • रैखिक मॉडल सच्चे संबंध (रैखिक लोगों के लिए सज्जित संबंधों के विवश वर्ग) और के बारे में कुछ बाहरी पूर्व सूचना लाता है
    • वह पूर्व सूचना सही निकली (सही संबंध रैखिक के करीब है)।
  • जबकि लचीले मॉडल में पूर्व जानकारी नहीं होती है (यह कुछ भी फिट कर सकता है), इसलिए यह शोर करने के लिए फिट बैठता है।

हालांकि अगर सच्चा रिश्ता बहुत गैर-रैखिक है, तो यह कहना मुश्किल है कि कौन जीतेगा (दोनों ढीले होंगे :))।

यदि आप लचीलेपन की कमी / विवशता की धुन बनाते हैं और इसे सही तरीके से करते हैं (क्रॉस-मान्यता के अनुसार), तो लचीले मॉडल को सभी मामलों में जीतना चाहिए।


4

बेशक यह उस अंतर्निहित डेटा पर निर्भर करता है जिसे मॉडल को फिट करने की कोशिश करने से पहले आपको इसकी कुछ विशेषताओं का पता लगाने के लिए हमेशा पता लगाना चाहिए लेकिन मैंने अंगूठे के सामान्य नियमों के रूप में जो सीखा है वह हैं:

  • एक लचीला मॉडल आपको एक बड़े नमूना आकार (बड़े एन) का पूरा लाभ उठाने की अनुमति देता है।
  • नॉनलाइनियर प्रभाव को खोजने के लिए एक लचीला मॉडल आवश्यक होगा।
  • एक लचीला मॉडल आपको समस्या में शोर के बहुत अधिक फिट होने का कारण बनेगा (जब त्रुटि की स्थिति अधिक होती है)।

1

खैर, दूसरे भाग के लिए, मुझे लगता है कि अधिक लचीला मॉडल मॉडल को फिट करने का प्रयास करेगा और प्रशिक्षण डेटा में एक उच्च शोर होता है, इसलिए लचीला मॉडल उस शोर को सीखने की कोशिश करेगा और इसके परिणामस्वरूप अधिक परीक्षण त्रुटि होगी। मैं इस प्रश्न का स्रोत जानता हूँ क्योंकि मैं भी उसी पुस्तक को पढ़ रहा हूँ :)


1

पहले भाग के लिए, मैं उम्मीद करूंगा कि अनम्य मॉडल सीमित संख्या में टिप्पणियों के साथ बेहतर प्रदर्शन करेंगे। जब n बहुत छोटा होता है, तो दोनों मॉडल (चाहे वह लचीला या अनम्य हो) पर्याप्त अच्छी भविष्यवाणी नहीं करेगा। हालांकि, लचीला मॉडल डेटा को ओवरफिट करने की प्रवृत्ति रखता है और नए टेस्टसेट में आने पर अधिक खराब प्रदर्शन करेगा।

आदर्श रूप से, मैं फिटिंग को बेहतर बनाने के लिए और अधिक अवलोकन एकत्र करूंगा, लेकिन अगर ऐसा नहीं है, तो मैं अनम्य मॉडल का उपयोग करूंगा, एक नए परीक्षण के साथ परीक्षण त्रुटि को कम करने की कोशिश कर रहा हूं।


0

दूसरे प्रश्न के लिए मेरा मानना ​​है कि उत्तर दोनों समान रूप से प्रदर्शन करेंगे (यह मानते हुए कि वे त्रुटियां इरेड्यूबल हैं, यानी यह त्रुटि)। पृष्ठ 18 पर सांख्यिकीय सीखने के लिए एक परिचय में अधिक जानकारी प्रदान की गई है (विषय: क्यों अनुमान ) जहां लेखक कह रहा हैf

की सटीकता के लिए एक भविष्यवाणी के रूप में दो मात्राओं है, जो हम कहते हैं पर निर्भर करता है कम करने योग्य त्रुटि और अलघुकरणीय त्रुटि । सामान्य तौर पर, के लिए एक आदर्श अनुमान नहीं होगा , और इस अशुद्धि कुछ त्रुटि का परिचय देंगे। यह त्रुटि है कम करने योग्य है क्योंकि हम संभवतः की सटीकता में सुधार कर सकते हैं सबसे उपयुक्त सांख्यिकीय सीखने तकनीक का उपयोग का अनुमान लगाने के द्वारा । हालाँकि, भले ही यह लिए एक सही अनुमान बनाने के लिए संभव था , ताकि हमारी अनुमानित प्रतिक्रिया ने फॉर्मYY वाई = ( एक्स ) वाई ε एक्स ε εf^ff^f^fY^=f(X), हमारी भविष्यवाणी अभी भी इसमें कुछ त्रुटि होगी! ऐसा इसलिए है क्योंकि भी का एक फ़ंक्शन है , जो परिभाषा के अनुसार, का उपयोग करके भविष्यवाणी नहीं की जा सकती है । इसलिए, जुड़ी परिवर्तनशीलता हमारी भविष्यवाणियों की सटीकता को भी प्रभावित करती है। यह भी कहा जाता है अलघुकरणीय त्रुटि है, क्योंकि कोई फर्क नहीं पड़ता कि हम कैसे अच्छी तरह से अनुमान लगाने के , हम द्वारा शुरू की त्रुटि को कम नहीं कर सकते हैं । YϵXϵfϵ


मुझे यह समझ में नहीं आता है।
माइकल आर। चेर्निक

0

प्रत्येक भागों के लिए (ए) के माध्यम से (डी), इंगित करें कि क्या मैं। या ii। सही है, और अपना उत्तर स्पष्ट करें। सामान्य तौर पर, क्या हम एक लचीली सांख्यिकीय शिक्षण पद्धति के प्रदर्शन की उम्मीद करते हैं जब एक अनम्य विधि की तुलना में बेहतर या बुरा प्रदर्शन किया जाता है:

नमूना आकार n बहुत बड़ा है, और भविष्यवाणियों की संख्या छोटी है?

बेहतर। एक लचीली विधि डेटा को करीब से फिट करेगी और बड़े नमूने के आकार के साथ, एक अनम्य दृष्टिकोण से बेहतर प्रदर्शन करेगी।

भविष्यवाणियों की संख्या p बहुत बड़ी है, और टिप्पणियों n की संख्या छोटी है?

और भी बुरा। एक लचीली विधि कम संख्या में टिप्पणियों से आगे निकल जाएगी।

भविष्यवक्ताओं और प्रतिक्रिया के बीच का संबंध अत्यधिक गैर-रैखिक है?

बेहतर। स्वतंत्रता के अधिक डिग्री के साथ, एक लचीला तरीका एक अनम्य से बेहतर होगा।

त्रुटि शब्दों का विचरण अर्थात iance2 = वार (,), बहुत अधिक है?

और भी बुरा। एक लचीली विधि त्रुटि शब्दों में शोर के लिए फिट होगी और विचरण को बढ़ाएगी।

यहां से ले गए ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.