हाइपरपरमेटर्स के आकलन के लिए अनुभवजन्य बे बनाम क्रॉस-सत्यापन


20

एक पदानुक्रमित मॉडल को देखते हुए , मैं मॉडल को फिट करने के लिए दो चरण की प्रक्रिया चाहता हूं। सबसे पहले, hyperparameters के एक मुट्ठी भर ठीक θ , और फिर मानकों के बाकी पर बायेसियन अनुमान कर φ । हाइपरपरमेटर्स को ठीक करने के लिए मैं दो विकल्पों पर विचार कर रहा हूं।p(x|ϕ,θ)θϕ

  1. Empirical Bayes (EB) का प्रयोग करें और सीमांत संभावना अधिकतम करें (बाकी मॉडल को एकीकृत करें जिसमें उच्च आयामी पैरामीटर हैं)।p(all data|θ)
  2. उपयोग क्रॉस मान्यता (सीवी) जैसे तकनीक गुना पार सत्यापन का चयन करने के θ कि संभावना अधिकतम पी ( परीक्षण डाटा | प्रशिक्षण डेटा , θ )kθp(test data|training data,θ)

ईबी का फायदा यह है कि मैं एक बार में सभी डेटा का उपयोग कर सकता हूं, जबकि सीवी के लिए मुझे (संभावित) कई बार मॉडल की संभावना की गणना करनी चाहिए और खोज करनी चाहिए । ईबी और सीवी का प्रदर्शन कई मामलों (*) में तुलनीय है, और अक्सर ईबी अनुमान लगाने में तेज है।θ

प्रश्न: क्या कोई सैद्धांतिक आधार है जो दोनों को जोड़ता है (जैसे, ईबी और सीवी बड़े डेटा की सीमा में समान हैं)? या ईबी को कुछ सामान्यता मानदंड से जोड़ते हैं जैसे अनुभवजन्य जोखिम? क्या कोई अच्छी संदर्भ सामग्री की ओर इशारा कर सकता है?


(*) एक उदाहरण के रूप में, यहाँ मर्फी की मशीन लर्निंग , खंड 7.6.4 से एक आंकड़ा है , जहां वह कहता है कि रिज प्रतिगमन के लिए दोनों प्रक्रियाएं बहुत समान परिणाम देती हैं:

मर्फी - अनुभवजन्य बेस बनाम सीवी

मर्फी भी कहता है कि अनुभवजन्य Bayes (वह इसे "सबूत प्रक्रिया" कॉल) सीवी से अधिक के सिद्धांत व्यावहारिक लाभ जब है कई अति मापदंडों के (जैसे अलग दंड प्रत्येक सुविधा के लिए, स्वत: प्रासंगिकता निर्धारण या ARD में) की तरह होते हैं। वहां CV का उपयोग करना बिल्कुल भी संभव नहीं है।θ


θ

@NeGG ने क्रॉस-वेलिडेशन सेट्स (k को एकीकृत किया गया है) पर लॉग सीमांत भविष्य कहे जाने वाले डेटा की संभावना को अधिकतम किया है।
मेमोरियल

1

2
बड़ा सवाल है। मैंने अक्सर दो प्रक्रियाओं के बारे में अपनी बात को स्पष्ट करने के लिए आपके प्रश्न के लिए मर्फी की पाठ्यपुस्तक से एक आंकड़ा जोड़ने की स्वतंत्रता ली। मुझे उम्मीद है कि आप इस जोड़ को बुरा नहीं मानेंगे।
अमीबा का कहना है कि मोनिका

जवाबों:


16

मुझे संदेह है कि एक सैद्धांतिक कड़ी होगी जो कहती है कि सीवी और सबूत अधिकतमकरण समान रूप से समतुल्य हैं क्योंकि सबूत हमें मॉडल की मान्यताओं को देखते हुए डेटा की संभावना बताते हैं । इस प्रकार यदि मॉडल गलत है, तो सबूत अविश्वसनीय हो सकता है। दूसरी ओर क्रॉस-सत्यापन डेटा की संभावना का अनुमान देता है, चाहे मॉडलिंग की धारणा सही हो या न हो। इसका मतलब यह है कि कम डेटा का उपयोग करके मॉडलिंग की धारणा सही होने पर साक्ष्य एक बेहतर मार्गदर्शक हो सकता है, लेकिन मॉडल के गलत विनिर्देश के खिलाफ क्रॉस-सत्यापन मजबूत होगा। CV असमान रूप से निष्पक्ष है, लेकिन मैं यह मानूंगा कि जब तक मॉडल मान्यताओं के सही होने का प्रमाण नहीं होगा।

यह अनिवार्य रूप से मेरा अंतर्ज्ञान / अनुभव है; मुझे इस पर शोध के बारे में सुनने में भी दिलचस्पी होगी।

ध्यान दें कि कई मॉडलों के लिए (जैसे रिज प्रतिगमन, गॉसियन प्रक्रियाएं, कर्नेल रिज प्रतिगमन / एलएस-एसवीएम आदि) छुट्टी-एक-आउट क्रॉस-सत्यापन को कम से कम कुशलता से साक्ष्य का अनुमान लगाने के रूप में किया जा सकता है, इसलिए आवश्यक रूप से एक कम्प्यूटेशनल है वहाँ लाभ।

परिशिष्ट: सीमान्त संभावना और क्रॉस-वेलिडेशन प्रदर्शन दोनों अनुमानों का आंकलन डेटा के परिमित नमूने पर किया जाता है, और इसलिए यदि कोई मॉडल किसी भी मानदंड को अनुकूलित करके ट्यून किया जाता है, तो हमेशा ओवर-फिटिंग की संभावना होती है। छोटे नमूनों के लिए, दो मानदंडों के विचरण में अंतर यह तय कर सकता है कि कौन सबसे अच्छा काम करता है। मेरा कागज देखिए

गेविन सी कॉली, निकोला नियंत्रण रेखा टैलबोट,, मशीन लर्निंग रिसर्च, 11 (जुलाई) के जर्नल "मॉडल चयन और निष्पादन मूल्यांकन में बाद के चुनाव पूर्वाग्रह में पर ओवर-ढाले": 2079-2107, 2010 ( पीडीएफ )


आप क्यों कहते हैं कि सीवी एक गलत मॉडल के खिलाफ मजबूत है? उनके मामले में, इस तरह की कोई सुरक्षा नहीं है क्योंकि क्रॉस-वैलिडेशन एक ही स्थान पर खोज कर रहा है कि ईबी एक संभावना की गणना कर रहा है। अगर उसकी मॉडलिंग की धारणा गलत है, तो क्रॉस-वैरिफिकेशन उसे बचा नहीं पाएगा।
नील जी

1
φφθ

ps मैं बायेसियन नियमितीकरण के साथ तंत्रिका नेटवर्क में ओवरफिटिंग से बचने का विश्लेषण कर रहा हूं जहां नियमितीकरण मापदंडों को सीमांत संभावना अधिकतमकरण के माध्यम से ट्यून किया जाता है। ऐसी स्थितियां हैं जहां यह बहुत बुरी तरह से काम करता है (बिल्कुल भी नियमित रूप से नहीं होने से भी बदतर)। यह मॉडल के गलत विनिर्देशन की समस्या प्रतीत होती है।
डिक्रान मार्सुपियल

वह ईबी द्वारा लौटाए गए अनुमानित वितरण (जो उस वितरण की एन्ट्रापी के बराबर होगा) को दिए गए डेटा की कुल लॉग-प्रायिकता की जाँच करके "सामान्यीकरण प्रदर्शन का संकेतक" प्राप्त कर सकता है। इस मामले में इसे हरा देने का कोई तरीका नहीं है क्योंकि यह इस समस्या का विश्लेषणात्मक समाधान है। मैं यह नहीं देखता कि जब आप ईबी के लिए संभावना की गणना कर सकते हैं तो क्रॉस-वैलिडेशन क्यों समझ में आता है।
नील जी

2
@probabilityislogic, मुझे पूरा यकीन नहीं है कि आपको क्या मिल रहा है (निस्संदेह मेरे अंत में समस्या! ओ)। मैं आपको व्यावहारिक अनुभव से बता सकता हूं कि यह मुद्दा बहुत वास्तविक है। मैं कई वर्षों से मॉडल चयन में समस्याओं पर काम कर रहा हूं, और मुझे कई समस्याएं आई हैं, जहां सीमांत संभावना को अधिकतम करना एक बहुत बुरा विचार है। क्रॉस-मान्यता अधिकांश डेटासेट के बारे में भी करता है, लेकिन जहां यह बुरी तरह से प्रदर्शन करता है वह शायद ही कभी प्रलयकारी प्रदर्शन करता है जैसा कि कभी-कभी सबूत अधिकतमकरण करता है।
डिक्रान मार्सुपियल

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.