मॉडल चयन बेयसियन या क्रॉस-सत्यापन के लिए सबसे अच्छा तरीका?


22

जब विभिन्न मॉडलों या चयन करने के लिए कई विशेषताओं के बीच चयन करने का प्रयास किया जाता है, तो कहें कि भविष्यवाणी मैं दो दृष्टिकोणों के बारे में सोच सकता हूं।

  1. डेटा को प्रशिक्षण और परीक्षण सेट में विभाजित करें। अभी भी बेहतर है, बूटस्ट्रैपिंग या के-गुना क्रॉस-सत्यापन का उपयोग करें। प्रत्येक बार प्रशिक्षण सेट पर ट्रेन करें और परीक्षण सेट पर त्रुटि की गणना करें। प्लॉट परीक्षण त्रुटि बनाम मापदंडों की संख्या। आमतौर पर, आपको ऐसा कुछ मिलता है:यहां छवि विवरण दर्ज करें
  2. मापदंडों के मूल्यों को एकीकृत करके मॉडल की संभावना की गणना करें। अर्थात, कंप्यूट , और मापदंडों की संख्या के खिलाफ इस साजिश रचने। हम तो कुछ इस तरह से मिलता है:θपी(डी|θ)पी(θ)θयहां छवि विवरण दर्ज करें

तो मेरे सवाल हैं:

  1. क्या ये दृष्टिकोण इस समस्या को हल करने के लिए उपयुक्त हैं (यह तय करना कि आपके मॉडल में कितने पैरामीटर शामिल हैं, या कई मॉडलों में से किसी एक को चुनना है)?
  2. क्या वे समकक्ष हैं? शायद ऩही। क्या वे कुछ मान्यताओं के तहत या व्यवहार में एक ही इष्टतम मॉडल देंगे?
  3. बायेसियन मॉडल आदि में पूर्व ज्ञान को निर्दिष्ट करने के सामान्य दार्शनिक अंतर के अलावा, प्रत्येक दृष्टिकोण के पेशेवरों और विपक्ष क्या हैं? आपने किसे चुना?

अद्यतन: मैंने एआईसी और बीआईसी की तुलना पर संबंधित प्रश्न भी पाया । ऐसा लगता है कि मेरा तरीका 1 एआईसीएमटी के बराबर है और विधि 2 एसआईसीटी से संबंधित है। लेकिन मैंने यह भी पढ़ा कि बीआईसी लीव-वन-आउट सीवी के बराबर है। इसका मतलब यह होगा कि प्रशिक्षण की त्रुटि न्यूनतम और बेयसियन लिकेलिहुड अधिकतम हैं जहां एलओयू सीवी के-गुना सीवी के बराबर है। जून शाओ द्वारा शायद एक बहुत ही दिलचस्प पेपर " रेखीय मॉडल चयन के लिए एक विषम सिद्धांत " इन ​​मुद्दों से संबंधित है।


मेरे पास वास्तव में पूर्ण उत्तर नहीं है, लेकिन मैं उल्लेख करूंगा कि मैं आमतौर पर "सुविधाओं की संख्या चुनने" के लिए किसी भी तरीके का उपयोग करने के बारे में नहीं सोचूंगा। सामान्य तौर पर, मैं मशीन लर्निंग और बेयसियन स्टेटिस्टिक्स की व्याख्या करता हूं ताकि सभी विशेषताओं को शामिल किया जा सके क्योंकि वे सभी संभवतया कम से कम प्रभाव डालते हैं। हालांकि, मुझे लगता है कि सापेक्ष मॉडल जटिलता का सवाल अभी भी उपयुक्त है। मैं यह भी बताऊंगा कि मैंने वास्तव में बेयसियन आक्रमण नहीं किया है, जिसके लिए आप सभी से सहमत हैं; यह बस k- गुना या बूटस्ट्रैपिंग की सादगी की तुलना में व्यवहार में बहुत गड़बड़ लगता है।
शिया पार्क्स

ध्यान दें कि शाओ पेपर केवल रैखिक मॉडल के लिए काम करता है; वास्तव में केवल उनकी सरल संरचना ही जटिलता माप के रूप में सुविधाओं की संख्या को उपयोगी बनाती है और इस प्रकार उन सभी सूचना मानदंडों को शक्ति प्रदान करती है।

1
एआईसी ( बीआईसी नहीं! ) कमज़ोर मान्यताओं के तहत समान रूप से अवकाश-एक-आउट क्रॉस सत्यापन के बराबर है (स्टोन के कारण "क्रॉस-मान्यता और मॉडल की पसंद के एक विषम समानता" (1977) )। जिस प्रश्न का आप उल्लेख करते हैं वह स्रोत गलत था और एक टिप्पणी में रॉब ह्यंडमैन द्वारा सही किया गया था। मैंने सोचा कि इसे सही करने के लिए यह एक अच्छा विचार हो सकता है, यहां तक ​​कि गलत विचार को फैलाने से रोकने के लिए भी।
रिचर्ड हार्डी

जवाबों:


13
  1. क्या ये दृष्टिकोण इस समस्या को हल करने के लिए उपयुक्त हैं (यह तय करना कि आपके मॉडल में कितने पैरामीटर शामिल हैं, या कई मॉडलों में से किसी एक को चुनना है)?

या तो एक हो सकता है, हाँ। यदि आप एक मॉडल प्राप्त करने में रुचि रखते हैं जो सबसे अच्छा भविष्यवाणी करता है, तो आपके द्वारा विचार किए जाने वाले मॉडल की सूची में से, विभाजन / क्रॉस-सत्यापन दृष्टिकोण अच्छा कर सकता है। यदि आप यह जानने में रुचि रखते हैं कि कौन सा मॉडल (आपकी पुष्टिकारी मॉडल की सूची में) वास्तव में आपके डेटा को उत्पन्न करने वाला एक है, तो दूसरा दृष्टिकोण (मॉडल की पूर्ववर्ती संभावना का मूल्यांकन) वही है जो आप चाहते हैं।

  1. क्या वे समकक्ष हैं? शायद ऩही। क्या वे कुछ मान्यताओं के तहत या व्यवहार में एक ही इष्टतम मॉडल देंगे?

नहीं, वे सामान्य समकक्ष नहीं हैं। उदाहरण के लिए, 'बेस्ट' मॉडल चुनने के लिए AIC (एक सूचना मानदंड, Akaike द्वारा) का उपयोग करते हुए , लगभग-सत्यापन से मेल खाती है। उपयोग की बीआईसी (बायेसियन सूचना मानदंड) पीछे संभावनाओं का उपयोग कर, फिर से लगभग से मेल खाती है। ये समान मानदंड नहीं हैं, इसलिए किसी को सामान्य रूप से विभिन्न विकल्पों के लिए नेतृत्व करने की उम्मीद करनी चाहिए। वे एक ही जवाब दे सकते हैं - जब भी मॉडल जो सबसे अच्छा भविष्यवाणी करता है वह भी सच होता है - लेकिन कई स्थितियों में जो मॉडल सबसे अच्छा फिट बैठता है वह वास्तव में एक है जो ओवरफिट करता है, जो दृष्टिकोणों के बीच असहमति की ओर जाता है।

क्या वे व्यवहार में सहमत हैं? यह इस बात पर निर्भर करता है कि आपके 'अभ्यास' में क्या शामिल है। इसे दोनों तरीकों से आज़माएं और जानें।

  1. बायेसियन मॉडल आदि में पूर्व ज्ञान को निर्दिष्ट करने के सामान्य दार्शनिक अंतर के अलावा, प्रत्येक दृष्टिकोण के पेशेवरों और विपक्ष क्या हैं? कौन सा आप चुनेंगे?
  • यह आमतौर पर एक बहुत आसान है पार-सत्यापन के लिए गणना करना, बजाय पीछे की संभावनाओं की गणना करना
  • अक्सर यह सुनिश्चित करना कठिन होता है कि 'सही' मॉडल उस सूची में से हो, जिसमें से आप चयन कर रहे हैं। यह पश्च संभावनाओं के उपयोग के लिए एक समस्या है, लेकिन क्रॉस-सत्यापन नहीं है
  • दोनों विधियों में काफी मनमाने स्थिरांक का उपयोग शामिल है; चर की संख्या के संदर्भ में, भविष्यवाणी की एक अतिरिक्त इकाई कितनी है? हम प्रत्येक मॉडल, एक प्राथमिकता पर कितना विश्वास करते हैं ?
    • मैं शायद क्रॉस-वेलिडेशन चुनूंगा। लेकिन करने से पहले, मैं इस बारे में बहुत कुछ जानना चाहता हूं कि यह मॉडल-चयन क्यों किया जा रहा है, यानी चुने हुए मॉडल का क्या उपयोग किया जाना था। मॉडल-चयन का कोई भी रूप उचित नहीं हो सकता है, यदि उदाहरण के लिए कारण निष्कर्ष की आवश्यकता होती है।

16

अनुकूलन आँकड़ों में सभी बुराई की जड़ है! ; ओ)

जब भी आप किसी मापदंड के आधार पर किसी मॉडल का चयन करने का प्रयास करते हैं, जो डेटा के परिमित नमूने पर मूल्यांकन किया जाता है, तो आप मॉडल चयन मानदंड को ओवर-फिटिंग करने और आपके द्वारा शुरू किए गए से भी बदतर मॉडल के साथ समाप्त होने का जोखिम पेश करते हैं। क्रॉस-वेलिडेशन और सीमांत संभावना दोनों समझदार मॉडल चयन मानदंड हैं, लेकिन वे दोनों डेटा के परिमित नमूने पर निर्भर हैं (जैसा कि एआईसी और बीआईसी हैं - जटिलता जुर्माना मदद कर सकता है, लेकिन इस समस्या को हल नहीं करता है)। मैंने इसे मशीन लर्निंग में एक महत्वपूर्ण मुद्दा पाया है, देखें

GC Cawley और NLC टैलबोट, मॉडल चयन में ओवर-फिटिंग और प्रदर्शन मूल्यांकन में बाद के चयन पूर्वाग्रह, जर्नल ऑफ मशीन लर्निंग रिसर्च, 2010। रिसर्च, वॉल्यूम। 11, पीपी। 2079-2107, जुलाई 2010. ( www )

बायेसियन दृष्टिकोण से, सभी मॉडल विकल्पों और मापदंडों को एकीकृत करना बेहतर है। यदि आप किसी चीज का अनुकूलन या चयन नहीं करते हैं तो यह अति-कठिन हो जाता है। नकारात्मक पक्ष यह है कि आप कठिन इंटीग्रल्स के साथ समाप्त होते हैं, जिन्हें अक्सर एमसीएमसी के साथ हल करने की आवश्यकता होती है। यदि आप सर्वश्रेष्ठ भविष्य कहनेवाला प्रदर्शन चाहते हैं, तो मैं एक पूरी तरह से बायेसियन दृष्टिकोण का सुझाव दूंगा; यदि आप डेटा को समझना चाहते हैं तो एक सर्वश्रेष्ठ मॉडल चुनना अक्सर मददगार होता है। हालाँकि, यदि आप डेटा को फिर से बनाते हैं और हर बार एक अलग मॉडल के साथ समाप्त होते हैं, तो इसका मतलब है कि फिटिंग प्रक्रिया अस्थिर है और कोई भी मॉडल डेटा को समझने के लिए विश्वसनीय नहीं है।

ध्यान दें कि क्रॉस-वैलिडेशन और सबूतों के बीच एक महत्वपूर्ण अंतर यह है कि सीमांत संभावना का मान मानता है कि मॉडल गलत नहीं किया गया है (मूल रूप से मॉडल का मूल रूप उपयुक्त है) और यदि यह है तो भ्रामक परिणाम दे सकता है। क्रॉस-मान्यता कोई ऐसी धारणा नहीं बनाता है, जिसका अर्थ है कि यह थोड़ा अधिक मजबूत हो सकता है।


बायेसियन एकीकरण एक मजबूत दृष्टिकोण है। लेकिन हमेशा सवाल करें कि क्या मॉडल का चयन इस बारे में जाने का सही तरीका है। प्रेरणा क्या है? क्यों नहीं एक पूरा मॉडल प्रस्तुत करना जो लचीला है और बस इसे फिट है?
फ्रैंक हर्रेल

@FrankHarrell कई लचीले मॉडल में नियमितीकरण की शर्तें और अन्य हाइपर-पैरामीटर शामिल हैं, और उन को ट्यूनिंग करना भी मॉडल चयन है और चयन मानदंड को ओवर-फिटिंग की समान समस्याओं के अधीन है। फिटिंग में ओवर-फिटिंग का जोखिम होता है, और यह सभी स्तरों पर लागू होता है। हालांकि यदि आप मॉडल की संरचना के बारे में प्राथमिकता जानते हैं, तो उस विशेषज्ञ ज्ञान का उपयोग किया जाना चाहिए।
डिक्रान मार्सुपियल

1
एक ऐसी विधि की तलाश करना जो ट्यूनिंग की आवश्यकता नहीं है, लेकिन यह हमेशा संभव नहीं है। मेरा मुख्य मुद्दा यह है कि मॉडल विनिर्देशन मॉडल चयन से बेहतर काम करता है और यह नहीं मानता कि सुविधा का चयन एक महान लक्ष्य है।
फ्रैंक हरेल

@FrankHarrell सुविधा का चयन बहुत कम मददगार है। जहां संभव हो, अनुकूलन से बचा जाना चाहिए, जिसमें डेटा के परिमित नमूने के आधार पर किसी भी मॉडल का चयन / ट्यूनिंग करना शामिल है (बेशक बड़ा नमूना, कम जोखिम)।
डिक्रान मार्सुपियल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.