जब क्रॉस सत्यापन का उपयोग नहीं करना है?


10

जैसा कि मैंने साइट के माध्यम से पढ़ा है अधिकांश उत्तर बताते हैं कि मशीन लर्निंग एल्गोरिदम में क्रॉस सत्यापन किया जाना चाहिए। हालाँकि जब मैं "अंडरस्टैंडिंग मशीन लर्निंग" पुस्तक के माध्यम से पढ़ रहा था, तो मैंने देखा कि एक अभ्यास है कि कभी-कभी क्रॉस सत्यापन का उपयोग नहीं करना बेहतर होता है। मैं वास्तव में उलझन में हूँ। जब संपूर्ण डेटा पर प्रशिक्षण एल्गोरिथ्म क्रॉस-सत्यापन से बेहतर है? क्या यह वास्तविक डेटा-सेट में होता है?

चलो कश्मीर परिकल्पना कक्षाएं हो। मान लीजिए कि आपको iid प्रशिक्षण उदाहरण दिए गए हैं और आप कक्षा । दो वैकल्पिक तरीकों पर विचार करें:H1,...,HkmH=i=1kHi

  1. जानें पर ईआरएम नियम का उपयोग कर उदाहरणHm

  2. मी उदाहरणों को आकार के प्रशिक्षण सेट और आकार सत्यापन सेट में विभाजित करें , कुछ । फिर, सत्यापन का उपयोग करके मॉडल चयन का दृष्टिकोण लागू करें। यही है, train rst ट्रेन प्रत्येक वर्ग को प्रशिक्षण के उदाहरणों का उपयोग करके संबंध में ERM नियम का उपयोग , और , जिसके परिणामस्वरूप परिकल्पनाएं हैं। । दूसरा, ERM नियम को nite class { } के संबंध में सत्यापन उदाहरणों पर लागू करें।(1α)mαmα(0,1)Hi(1α)mHih^1,,h^kh^1,,h^kαm

ऐसे परिदृश्यों का वर्णन करें जिनमें st rst पद्धति दूसरी और इसके विपरीत बेहतर है।

गढ़ की छवि


1
यह एक दिलचस्प अभ्यास है, लेकिन मैं लेबल से सहमत नहीं हूं। मुझे लगता है कि क्रॉस वेलिडेशन यहां पूरी तरह से अपना काम कर रहा है। एक स्पर्शरेखा के रूप में, यह वास्तव में पसंद किया जाएगा यदि आपने व्यायाम को टाइप किया और इसे उद्धृत किया, जैसा कि एक छवि को संलग्न करने के विपरीत है। छवि दृष्टिहीन उपयोगकर्ताओं के लिए दुर्गम है।
मैथ्यू ड्र्यू

क्रॉस-वैलिडेशन का उपयोग करने के लिए एक संभावित दोष ओवर-फिटिंग हो सकता है (जैसा कि एक क्रॉस सत्यापन छोड़ने के मामले में)। अनिवार्य रूप से, क्रॉस सत्यापन तकनीकों का उपयोग करके, हम मॉडल के मापदंडों को सत्यापन डेटा सेट (और परीक्षण डेटासेट पर नहीं) पर ट्यूनिंग कर रहे हैं। लेकिन कभी-कभी, यह ट्यूनिंग बहुत अधिक हो सकती है जिसके परिणामस्वरूप परीक्षण के सेट पर क्लासिफायर परीक्षण किए जाने पर संभव हो सकता है।
उपेंद्र प्रताप सिंह

1
यहाँ "समता" का क्या अर्थ है?
छायाकार

@shadowtalker मुझे लगता है कि इसका मतलब है
योगांक

क्या आप (बार-बार) क्रॉस-मान्यता और बूटस्ट्रैपिंग के बीच अंतर करते हैं?
us --r11852

जवाबों:


11

लो-घर गए संदेशों:


दुर्भाग्य से, आपके द्वारा उद्धृत पाठ दृष्टिकोण 1 और 2 के बीच दो चीजों को बदल देता है:

  • दृष्टिकोण 2 क्रॉस सत्यापन और डेटा-संचालित मॉडल चयन / ट्यूनिंग / अनुकूलन करता है
  • दृष्टिकोण 1 न तो क्रॉस सत्यापन, और न ही डेटा-संचालित मॉडल चयन / ट्यूनिंग / अनुकूलन का उपयोग करता है।
  • डेटा-चालित मॉडल चयन / ट्यूनिंग / ऑप्टिमाइज़ेशन के बिना दृष्टिकोण 3 क्रॉस सत्यापन पूरी तरह से संभव है (आम आईएमएचओ अधिक चर्चा का नेतृत्व करेगा) यहां चर्चा की गई संदर्भ में
  • दृष्टिकोण 4, कोई क्रॉस सत्यापन नहीं है लेकिन डेटा-संचालित मॉडल चयन / ट्यूनिंग / अनुकूलन संभव है, लेकिन निर्माण के लिए अधिक जटिल है।

IMHO, क्रॉस सत्यापन और डेटा-चालित अनुकूलन आपकी मॉडलिंग रणनीति स्थापित करने में दो बिल्कुल अलग (और काफी हद तक स्वतंत्र) फैसले हैं। केवल कनेक्शन है कि आप लक्ष्य अपने अनुकूलन के लिए कार्यात्मक रूप में पार सत्यापन अनुमान का उपयोग कर सकते है। लेकिन वहाँ मौजूद अन्य लक्ष्य कार्यात्मक उपयोग करने के लिए तैयार हैं, और क्रॉस सत्यापन अनुमानों के अन्य उपयोग हैं (महत्वपूर्ण रूप से, आप उन्हें अपने मॉडल के सत्यापन, उर्फ ​​सत्यापन या परीक्षण के लिए उपयोग कर सकते हैं)

दुर्भाग्य से, मशीन लर्निंग शब्दावली वर्तमान में एक गड़बड़ है जो गलत कनेक्शन / कारण / निर्भरता का सुझाव देता है।

  • जब आप अप्रोच 3 (क्रॉस वैलिडेशन को ऑप्टिमाइज़ेशन के लिए नहीं बल्कि मॉडल परफॉर्मेंस को मापने के लिए देखते हैं), तो आपको इस संदर्भ में "डिसीजन" क्रॉस वैरिसेशन बनाम ट्रेनिंग मिलेगी, जो इस संदर्भ में एक गलत डायकोटॉमी होने के लिए सेट है: क्रॉस वेलिडेशन का उपयोग करते समय क्लासिफायर प्रदर्शन को मापने के लिए, योग्यता का क्रॉस सत्यापन आंकड़ा पूरे डेटा सेट पर प्रशिक्षित मॉडल के लिए अनुमान के रूप में उपयोग किया जाता है। Ie दृष्टिकोण 3 में दृष्टिकोण 1 शामिल है।

  • अब, दूसरा निर्णय देखें: डेटा-संचालित मॉडल अनुकूलन या नहीं। यह IMHO यहाँ महत्वपूर्ण बिंदु है। और हाँ, वहाँ असली दुनिया स्थितियों में, जहां कर रहे हैं नहीं डेटा-आधारित मॉडल अनुकूलन कर बेहतर है। डेटा-संचालित मॉडल अनुकूलन एक लागत पर आता है। आप इसे इस तरह से सोच सकते हैं: आपके डेटा सेट की जानकारी का उपयोग न केवल का अनुमान लगाने के लिए किया जाता हैpमॉडल के पैरामीटर / गुणांक, लेकिन अनुकूलन क्या करता है आगे के मापदंडों का अनुमान लगा रहा है, तथाकथित हाइपरपरमेटर्स। यदि आप मॉडल मापदंडों के लिए खोज के रूप में मॉडल फिटिंग और ऑप्टिमाइज़ेशन / ट्यूनिंग प्रक्रिया का वर्णन करते हैं, तो यह हाइपरपरमेट ऑप्टिमाइज़ेशन का अर्थ है कि एक बहुत बड़ा खोज स्थान माना जाता है। दूसरे शब्दों में, दृष्टिकोण 1 (और 3) में आप उन हाइपरपैरामीटरों को निर्दिष्ट करके खोज स्थान को प्रतिबंधित करते हैं। आपका वास्तविक विश्व डेटा सेट काफी बड़ा हो सकता है (जिसमें पर्याप्त जानकारी हो) उस प्रतिबंधित खोज स्थान के भीतर फिटिंग की अनुमति देने के लिए, लेकिन दृष्टिकोण 2 (और 4) के बड़े खोज स्थान में पर्याप्त रूप से अच्छी तरह से सभी मापदंडों को ठीक करने के लिए पर्याप्त नहीं है।

वास्तव में, मेरे क्षेत्र में मुझे अक्सर डेटा सेट से निपटना पड़ता है जो डेटा-संचालित अनुकूलन के किसी भी विचार को अनुमति देने के लिए बहुत छोटा है। इसलिए मैं इसके बजाय क्या करता हूं: मैं अपने डोमेन ज्ञान का उपयोग डेटा और डेटा बनाने की प्रक्रियाओं के बारे में करता हूं ताकि यह तय हो सके कि कौन सा मॉडल डेटा और एप्लिकेशन की भौतिक प्रकृति के साथ अच्छी तरह से मेल खाता है। और इन के भीतर, मुझे अभी भी अपनी मॉडल जटिलता को प्रतिबंधित करना होगा।


अच्छा उत्तर। मुझे उम्मीद है कि आप इस सूत्र में योगदान देंगे। स्पष्ट +1
usviousr11852

आपके जानकारीपूर्ण और उपयोगी उत्तर के लिए धन्यवाद। मैंने आपके उत्तर से जो सीखा वह यह है कि हम दृष्टिकोण 2 का चयन कर सकते हैं जब हमारे पास सत्यापन के कारण नहीं बल्कि मॉडल चयन के कारण छोटे डेटा सेट होते हैं। क्या मैं सही हूँ? क्या छोटे डेटा सेट के लिए मॉडल चयन का उपयोग करना किसी तरह से कम होता है?
SMA.D

एक और सवाल यह है कि अभ्यास में दोनों दृष्टिकोण 1 और 2 के लिए परिकल्पना वर्ग का आकार समान है। दृष्टिकोण 2 के लिए उस मामले में खोज स्थान कितना बड़ा है?
SMA.D

वैसे, यदि 2 में कोई विकल्प है और 1 में नहीं है तो 2 में खोज स्थान बड़ा है। यदि 2 में खोज स्थान बड़ा नहीं है, तो वास्तव में दृष्टिकोण 2 में चयन करने के लिए कुछ भी नहीं है। मेरा जवाब और दृष्टिकोण 2 का अर्थ क्या है "मान्यता का उपयोग करके मॉडल चयन" से ट्रिगर होता है। यदि संदर्भ अभी भी "जब क्रॉस वेलिडेशन फेल होता है" में से एक है, तो यहां प्रश्न में से एक से पहले एक्सर्साइज करें, तो पुस्तक का मतलब हो सकता है कि मैंने दृष्टिकोण 3 से ऊपर कहा, अर्थात कोई मॉडल चयन शामिल नहीं है। लेकिन उस मामले में, शब्द मॉडल चयन वास्तव में नहीं होना चाहिए। मैं यह अनुमान नहीं लगा सकता कि यह कैसे संभव है ..
एसएक्स

... जैसा कि मुझे नहीं पता कि मॉडल चयन के बारे में पुस्तक क्या कहती है, न ही उनका ईआरएम नियम क्या है (मेरी शब्दावली में, ईआरएम उद्यम जोखिम प्रबंधन का विस्तार करता है ...)। हालांकि, मेरा जवाब मॉडलिंग एल्गोरिदम की परवाह किए बिना है।
9
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.