जब मेरा मॉडल गलत है, तो मुझे बायेसियन क्यों होना चाहिए?


68

संपादन: मैंने एक सरल उदाहरण जोड़ा है: के माध्य का अनुमान । मैंने यह भी थोड़ा स्पष्ट किया है कि विश्वसनीय अंतराल क्यों नहीं मेल खाते आत्मविश्वास अंतराल खराब है।Xi

मैं, काफी हद तक बेइज़ियन, तरह-तरह के विश्वासों के संकट के बीच हूँ।

मेरी समस्या निम्नलिखित है। मान लें कि मैं कुछ IID डेटा का विश्लेषण करना चाहता । मैं क्या करूंगा:Xi

  • सबसे पहले, एक सशर्त मॉडल प्रस्तावित करें:

    p(X|θ)
  • उसके बाद, पहले एक : पी ( θ )θ

    p(θ)
  • अंत में, Bayes का नियम लागू करें, पश्च की गणना करें: (या इसे कुछ सन्निकटन किया जाए यदि यह असुविधाजनक होना चाहिए) और उन सभी प्रश्नों का उत्तर दें जिनके बारे में मेरे पास थीटा हैp(θ|X1Xn)θ

यह एक समझदार दृष्टिकोण है: यदि डेटा का असली मॉडल Xi वास्तव में मेरी स्थिति के "अंदर" है (यह कुछ मान \ theta_0 से मेल खाता हैθ0 ), तो मैं यह कहने के लिए सांख्यिकीय निर्णय सिद्धांत पर कॉल कर सकता हूं कि मेरी विधि स्वीकार्य है (देखें रॉबर्ट की) "बायेसियन पसंद" विवरण के लिए; "सभी सांख्यिकी" संबंधित अध्याय में एक स्पष्ट खाता भी देता है)।

हालांकि, जैसा कि हर कोई जानता है, यह मानते हुए कि मेरा मॉडल सही है, काफी घमंडी है: मुझे उन मॉडलों के बॉक्स के अंदर बड़े करीने से क्यों गिरना चाहिए जो मैंने माना है? यह अधिक यथार्थवादी ग्रहण करने के लिए कि डेटा के वास्तविक मॉडल है से अलग है के सभी मानों के लिए । इसे आमतौर पर एक "गलत वर्तनी वाला" मॉडल कहा जाता है।पी ( एक्स | θ ) θptrue(X)p(X|θ)θ

मेरी समस्या यह है कि, इस अधिक यथार्थवादी गलत ढंग से किए गए मामले में, मेरे पास बायसियन (यानी: पीछे के वितरण की गणना) के लिए कोई अच्छा तर्क नहीं है। बनाम केवल अधिकतम संभावना अनुमानक (MLE) की गणना कर रहा है:

θ^ML=argmaxθ[p(X1Xn|θ)]

दरअसल, क्लीजन के अनुसार , vd Vaart (2012) , गलत छपे हुए मामले में, पश्च वितरण:

  • एक पर केंद्रित एक डीरेक वितरण में रूप में परिवर्तित होता हैnθ^ML

  • सही संस्करण (जब तक कि दो मान केवल एक ही होने के लिए नहीं होते हैं) में यह सुनिश्चित करने के लिए कि पीछे के विश्वसनीय मिलान अंतराल लिए विश्वसनीय अंतराल नहीं होते हैं । (ध्यान दें, जबकि विश्वास अंतराल स्पष्ट रूप से कुछ है जो बायेसियन अत्यधिक परवाह नहीं करते हैं, यह गुणात्मक रूप से इसका मतलब है कि पश्च वितरण आंतरिक रूप से गलत है, क्योंकि इसका अर्थ है कि इसके विश्वसनीय अंतराल में सही कवरेज नहीं है)θ

इस प्रकार, हम एक कम्प्यूटेशनल प्रीमियम का भुगतान कर रहे हैं (सामान्य रूप से बायेसियन इंजेक्शन, MLE से अधिक महंगा है) बिना किसी अतिरिक्त गुण के

इस प्रकार, आखिरकार, मेरा सवाल: क्या कोई तर्क है, क्या सैद्धांतिक या अनुभवजन्य है, जब मॉडल गलत होने पर बायलर के सरल एमएलई विकल्प का उपयोग करने के लिए?

(चूंकि मुझे पता है कि मेरे सवाल अक्सर अस्पष्ट हैं, कृपया मुझे बताएं कि क्या आपको कुछ समझ में नहीं आता है: मैं इसे फिर से लिखने की कोशिश करूंगा)

संपादित करें: आइए एक सरल उदाहरण पर विचार करें: एक गाऊसी मॉडल के तहत का मतलब पता ( आगे भी सरल बनाने के लिए ज्ञात विचरण साथ )। हम एक गाऊसी पूर्व पर विचार: हम निरूपित , पूर्व मतलब पहले का प्रतिलोम विचरण। Let का अनुभवजन्य मतलब है । अंत में, ध्यान दें: ।Xiσμ0β0X¯Xiμ=(β0μ0+nσ2X¯)/(β0+nσ2)

पीछे वितरण है:

p(θ|X1Xn)exp((β0+nσ2)(θμ)2/2)

सही ढंग से निर्दिष्ट मामले में (जब वास्तव में एक गाऊसी वितरण होता है), इस पोस्टीरियर में निम्नलिखित अच्छे गुण हैंXi

  • यदि एक पदानुक्रमित मॉडल से उत्पन्न होता है जिसमें उनका साझा मतलब पूर्व वितरण से उठाया जाता है, तो पीछे के विश्वसनीय अंतराल में सटीक कवरेज होता है। डेटा पर सशर्त, किसी भी अंतराल में होने की संभावना इस अंतराल के बराबर होने की संभावना के बराबर हैXiθ

  • यहां तक ​​कि अगर पूर्व सही नहीं है, तो विश्वसनीय अंतरालों की सीमा में सही कवरेज है जिसमें पूर्ववर्ती पर प्रभाव गायब हो जाता हैn

  • बाद में आगे लगातार अच्छे गुण होते हैं: पश्च से निर्मित कोई भी बायेसियन अनुमानक को स्वीकार्य होने की गारंटी दी जाती है, पीछे का मतलब एक कुशल अनुमानक (क्रैमर-राव अर्थ में) है, विश्वसनीय अंतराल हैं, asymptotically, विश्वास अंतराल।

गलत वर्तनी वाले मामले में, इनमें से अधिकांश गुण सिद्धांत द्वारा गारंटीकृत नहीं हैं। विचारों को ठीक करने के लिए, मान लें कि लिए असली मॉडल यह है कि वे इसके बजाय छात्र वितरण हैं। एकमात्र संपत्ति जिसे हम गारंटी दे सकते हैं (क्लेजन एट अल) यह है कि पीछे का वितरण के वास्तविक अर्थ पर ध्यान केंद्रित करता है सीमा । सामान्य तौर पर, सभी कवरेज गुण गायब हो जाएंगे। इससे भी बदतर, सामान्य तौर पर, हम गारंटी दे सकते हैं कि, उस सीमा में, कवरेज गुण मौलिक रूप से गलत हैं: पीछे वितरण अंतरिक्ष के विभिन्न क्षेत्रों में गलत संभावना को बताता है।XiXin


2
खैर, बायेसियन दृष्टिकोण नियमित करता है। यह कुछ है, ओवरफिटिंग के खिलाफ मदद करने के लिए - आपका मॉडल गलत है या नहीं। बेशक, यह नियमित रूप से शास्त्रीय दृष्टिकोण (लासो, रिज प्रतिगमन, लोचदार जाल आदि) के खिलाफ बेयसियन के लिए तर्क के बारे में संबंधित प्रश्न की ओर जाता है ।
Stephan Kolassa

3
आपको इस काम और इसके रिश्तेदारों में दिलचस्पी हो सकती है ।
डगल

7
जब अपने मॉडल गलत संभावना फ़ंक्शन का उपयोग करने के मामले में misspecified है, तो दोनों MLE और बायेसियन अनुमान गलत होगा ...
टिम

5
@ समय: MLE और बायेसियन अनुमान गलत नहीं है गलत मामले में: वे दोनों पैरामीटर मान को पुनर्प्राप्त करने का प्रयास करते हैं जो सशर्त मॉडल के भीतर डेटा का सबसे अच्छा खाता देता है। दरअसल, की argmin है जहां केएल Kullback Leibler फर्क है। हल्की मान्यताओं के तहत, MLE और बायेसियन दोनों प्रकार के अनुमान सही ढंग से डेटा की पर्याप्त मात्रा के साथ प्रदान किए जाने पर इस पहचान करते हैंθ~0θ~0KL[p(X),p(X|θ)]θ~0
Guillaume Dehaene

3
@amoeba मैं कठिन कोर बायेसियन नज़र कल्पना और कमांडेंट चे की तरह काम करते
Aksakal

जवाबों:


31

मैं बायेसियन दृष्टिकोण पर विचार करता हूं जब मेरा डेटा सेट सब कुछ नहीं है जो विषय के बारे में जाना जाता है, और किसी तरह उस बहिर्जात ज्ञान को मेरे पूर्वानुमान में शामिल करना चाहते हैं।

उदाहरण के लिए, मेरा ग्राहक अपने पोर्टफोलियो में ऋण चूक का पूर्वानुमान चाहता है। उनके पास त्रैमासिक ऐतिहासिक डेटा के कुछ वर्षों के साथ 100 ऋण हैं। वहाँ कुछ विलंब (देर से भुगतान) और सिर्फ चूक के एक जोड़े थे। यदि मैं इस डेटा सेट पर उत्तरजीविता मॉडल का अनुमान लगाने की कोशिश करता हूं, तो यह अनुमान लगाने के लिए बहुत कम डेटा होगा और पूर्वानुमान के लिए बहुत अधिक अनिश्चितता होगी।

दूसरी ओर, पोर्टफोलियो प्रबंधक अनुभवी लोग हैं, उनमें से कुछ ने उधारकर्ताओं के साथ संबंधों को प्रबंधित करने में दशकों का समय बिताया हो सकता है। उनके पास विचार हैं कि डिफ़ॉल्ट दरें क्या होनी चाहिए। इसलिए, वे उचित पुजारियों के साथ आने में सक्षम हैं। ध्यान दें, न कि वे पुजारी जिनके पास अच्छे गणित गुण हैं और जो बौद्धिक रूप से मुझे आकर्षित करते हैं । मैं उनके साथ चैट करूंगा और उन पुजारियों के रूप में अपने अनुभव और ज्ञान को निकालूंगा।

अब बायेसियन ढांचा मुझे यांत्रिकी के साथ डेटा के साथ पादरियों के रूप में बहिर्जात ज्ञान से शादी करने के लिए प्रदान करेगा, और जो मेरी राय में शुद्ध गुणात्मक निर्णय और शुद्ध डेटा चालित पूर्वानुमान, दोनों से बेहतर है, प्राप्त करें। यह एक दर्शन नहीं है और मैं बायेसियन नहीं हूं। मैं सिर्फ बायेसियन टूल का उपयोग कर रहा हूं ताकि डेटा-संचालित अनुमान में विशेषज्ञ ज्ञान को लगातार शामिल किया जा सके।


3
एक बहुत अच्छा बिंदु। बायेसियन इंट्रेंस एक कार्य को हल करने के लिए एक रूपरेखा प्रस्तुत करता है, जैसा आपने प्रस्तुत किया है। धन्यवाद।
गिलियूम देहेने

5
यह बायेसियन मॉडलिंग के लिए एक सामान्य तर्क है, लेकिन यह मिसकैपिफाइड मॉडल के विशिष्ट मामले से कैसे संबंधित है? मुझे कोई कनेक्शन दिखाई नहीं देता है।
रिचर्ड हार्डी

4
ठीक है, यह मेरे प्रश्न से संबंधित है: यहां तक ​​कि गलत तरीके से किए गए मामले में, बायेसियन इनवेंशन बेहतर तरीके से संभालता है (यानी: अधिक राजसी फैशन में) गुणात्मक जानकारी, पूर्व के माध्यम से, MLE विधियों की तुलना में, जो नियमित रूप से काम करना होगा। यह अनुभवजन्य तर्क का एक रूप है कि क्यों बायेसियन का अनुमान MLE से थोड़ा बेहतर है।
गिलियूम देहेने

2
@ अक्षल, क्या मॉडल गलत हैं, बिंदु के अलावा है। मैं जिस बात से चिंतित हूं वह यह है कि आप सवाल का जवाब नहीं देते हैं। (यदि ओपी असहमत है, तो मुझे लगता है कि उसने प्रश्न तैयार करने में एक खराब काम किया है।) लेकिन मुझे लगता है कि हाल ही में एक संपादन हुआ है, इसलिए शायद अब तक इस प्रश्न को बदल दिया गया है।
रिचर्ड हार्डी

4
@ रीचर्डहार्डी, मुझे लगता है कि मेरा जवाब ओपी विश्वास के संकट के दिल में चला जाता है, जो इस विचार से प्रेरित है कि यदि आपका सशर्त मॉडल गलत है, तो यह नमूना आकार बढ़ाने से पहले पर हावी हो जाएगा और आपके पीछे के हिस्से को गलत मॉडल की ओर धकेल दिया जाएगा। । इस मामले में क्यों बेयसियन के साथ शुरू करने के लिए परेशान, क्यों नहीं सीधे MLE के लिए, वह पूछता है। मेरा उदाहरण निश्चित रूप से दार्शनिक नहीं है, लेकिन व्यावहारिक है: आप अक्सर न केवल परिमित, बल्कि छोटे नमूनों के साथ व्यवहार करते हैं। तो, आपका डेटा पूर्व से बहुत दूर तक पीछे नहीं खींचेगा, जो बहिर्जात ज्ञान का प्रतिनिधित्व करता है।
अक्कल

25

एक बहुत ही दिलचस्प सवाल ... जिसका उत्तर नहीं हो सकता है (लेकिन यह इसे कम दिलचस्प नहीं बनाता है!)

उस मॉडल के बारे में कुछ विचार (और मेरे ब्लॉग प्रविष्टियों के कई लिंक!) कि सभी मॉडल गलत हैं :

  1. जबकि काल्पनिक मॉडल वास्तव में लगभग हमेशा और अनियमित रूप से गलत है , फिर भी यह इस मॉडल के संबंध में कुशल या सुसंगत तरीके से कार्य करने के लिए समझ में आता है अगर यह सबसे अच्छा हो सकता है। परिणामस्वरूप निष्कर्ष औपचारिक मॉडल का मूल्यांकन पैदा करता है जो वास्तविक डेटा जनरेटिंग मॉडल (यदि कोई हो) के लिए "निकटतम" है;
  2. बेइज़ियन दृष्टिकोण मौजूद हैं जो मॉडल के बिना कर सकते हैं , एक सबसे हालिया उदाहरण बिस्सिरी एट अल। ( मेरी टिप्पणियों के साथ ) और वाटसन और होम्स द्वारा (जो मैंने जूडिथ रूसो के साथ चर्चा की );
  3. कनेक्टेड तरीके से, एम-ओपन इंट्रेंस के साथ काम करने वाले बायेसियन आंकड़ों की एक पूरी शाखा मौजूद है ;
  4. और फिर भी एक और दिशा जो मुझे बहुत पसंद है वह पीटर ग्रुनवल्ड का सेफबायस दृष्टिकोण है , जो मूल संभावना की शक्ति के रूप में व्यक्त डाउन-डाउन संस्करण के साथ संभावना को बदलने के लिए मॉडल मिसकैपिफिकेशन को ध्यान में रखता है।
  5. गेलमैन और हेनिग द्वारा बहुत हाल ही में पढ़े गए पेपर इस मुद्दे को संबोधित करते हैं, यद्यपि एक अलग तरीके से (और मैंने अपने ब्लॉग पर कुछ टिप्पणियां जोड़ी हैं )। मुझे लगता है कि आप अपने प्रश्न के बारे में प्रविष्टियों से चर्चा के लिए सामग्री एकत्र कर सकते हैं।
  6. इस अर्थ में, बेयसियन को इस पहलू के बारे में सांख्यिकीविदों और तौर-तरीकों में सबसे कम चिंतित होना चाहिए क्योंकि नमूना मॉडल को कई पूर्व मान्यताओं में से एक के रूप में लिया जाना है और परिणाम उन सभी पूर्व धारणाओं के लिए सशर्त या सापेक्ष है।

2
इस पर अपनी राय रखना बहुत अच्छा है। आपका पहला बिंदु सहज ज्ञान युक्त है: यदि मॉडल बहुत गलत नहीं है, तो हमारे अनुमान का परिणाम ठीक होना चाहिए। हालाँकि, क्या किसी ने कभी भी ऐसा कोई परिणाम साबित किया है (या अनुभवजन्य रूप से प्रश्न का पता लगाया है)? आपका अंतिम बिंदु (जिसे मुझे गलत समझा जा सकता है) मुझे बहुत परेशान करता है: नमूना मॉडल एक महत्वपूर्ण विकल्प है। तथ्य यह है कि हम विकल्प भी बनाते हैं इसका मतलब यह नहीं है कि नमूना मॉडल की पसंद में त्रुटियां पूरे मॉडल को दागी नहीं कर सकती हैं। संदर्भ और अद्भुत ब्लॉग के लिए धन्यवाद।
गुइलुमे देहेने

बिंदु 1 के लिए, बायेसियन मॉडल औसत क्यों नहीं है? सिर्फ 'सर्वश्रेष्ठ' मॉडल का उपयोग क्यों करें?
Innisfree

@innisfree: यह सब इस बात पर निर्भर करता है कि आप परिणाम के साथ क्या करने की योजना बना रहे हैं, मेरे पास मॉडल बनाम सर्वश्रेष्ठ मॉडल के बारे में कोई धर्म नहीं है।
शीआन

1
आप सुझाव दे रहे हैं कि मॉडल की अनिश्चितता बनाम केवल 'सर्वश्रेष्ठ' मॉडल चुनने का निर्णय-सिद्धांत है। निश्चित रूप से यह हमेशा अस्पष्ट है, यानी मॉडल अनिश्चितताओं सहित सभी अनिश्चितताओं को समाहित करने के लिए बेहतर निर्णय लेने में मदद करता है।
Innisfree

2
गैर-पैरामीट्रिक्स के लिए मेरी मुख्य आपत्ति व्यावहारिक है: वे सरलीकृत विकल्पों की तुलना में परिमाण के कई आदेशों द्वारा अधिक कम्प्यूटेशनल रूप से महंगे हैं। इसके अलावा, क्या हम गैर-पैरामीट्रिक्स के साथ भी परेशानी में नहीं हैं, क्योंकि इसके दो पूर्व वितरणों के लिए लगभग असंभव है आम समर्थन? इसका मतलब है कि पूर्व का एक भारी प्रभाव होगा और यह अलग-अलग पुजारियों से शुरू होने पर बायेसियन सांख्यिकीविदों के लिए सहमत होना लगभग (असंभव) होगा।
गिलियूम देहेने

12

संपादन: ओपी द्वारा अनुरोध के अनुसार, शरीर में इस पत्र का संदर्भ ।


मैं यहाँ एक अनुभवहीन बायेसियन के रूप में एक उत्तर दे रहा हूँ ।

सबसे पहले, पीछे का वितरण आपको उन संगणनाओं को करने की अनुमति देता है जो आप बस सीधे MLE के साथ नहीं कर सकते हैं। सबसे सरल मामला यह है कि आज की स्थिति कल के पूर्व की है । बायेसियन इनवेंशन स्वाभाविक रूप से अनुक्रमिक अपडेट के लिए अनुमति देता है, या सामान्य ऑनलाइन या अधिक जानकारी के कई स्रोतों के संयोजन में देरी करता है (एक पूर्व को शामिल करना इस तरह के संयोजन का सिर्फ एक पाठ्यपुस्तक उदाहरण है)। बायोसियन डिसीजन थ्योरी विथ एनओन्टिवियल लॉस फंक्शन एक और उदाहरण है। मुझे नहीं पता कि क्या करना है।

दूसरा, इस उत्तर के साथ, मैं कोशिश करूंगा और तर्क दूंगा कि अनिश्चितता की मात्रा निर्धारित करना आम तौर पर बेहतर नहीं है अनिश्चितता प्रभावी रूप से एक अनुभवजन्य प्रश्न है, चूंकि प्रमेय (जैसा कि आपने उल्लेख किया है, और जहां तक ​​मुझे पता है) कोई गारंटी नहीं प्रदान करता है।

वैज्ञानिक प्रयास के एक खिलौना मॉडल के रूप में अनुकूलन

एक डोमेन जो मुझे लगता है कि समस्या की जटिलता को पूरी तरह से पकड़ लेता है, एक बहुत ही व्यावहारिक है, कोई बकवास नहीं है, एक ब्लैक-बॉक्स फ़ंक्शन का अनुकूलन । हम मानते हैं कि हम क्रमिक रूप से एक बिंदु क्वेरी कर सकते हैं और एक संभावित शोर अवलोकन , जिसमें । हमारा लक्ष्य न्यूनतम मूल्यांकन संख्या फ़ंक्शन के साथ के जितना संभव हो उतना करीब ।f:XRDRxXy=f(x)+εεN(0,σ2)x=argminxf(x)

आगे बढ़ने के लिए एक विशेष रूप से प्रभावी तरीका, जैसा कि आप उम्मीद कर सकते हैं, यदि मैं किसी भी क्वेरी करता हूं, तो एक पूर्वानुमान मॉडल का निर्माण करना है , और आगे क्या करना है यह तय करने के लिए इस जानकारी का उपयोग करें (या तो) स्थानीय या विश्व स्तर पर)। व्युत्पन्न-मुक्त वैश्विक अनुकूलन विधियों की समीक्षा के लिए रियोस और साहिनिडिस (2013) देखें । जब मॉडल पर्याप्त जटिल होता है, तो इसे मेटा-मॉडल या सरोगेट-फ़ंक्शन या प्रतिक्रिया सतह दृष्टिकोण कहा जाता है। महत्वपूर्ण रूप से, मॉडल का एक बिंदु अनुमान हो सकता है (उदाहरण के लिए, हमारी टिप्पणियों के लिए एक रेडियल आधार नेटवर्क फ़ंक्शन का फिट), या हम बायेसियन हो सकते हैं और किसी भी तरह से पर पूर्ण वितरण प्राप्त कर सकते हैं।xXff (उदाहरण के लिए, एक गाऊसी प्रक्रिया के माध्यम से)।

बायेसियन अनुकूलन से अधिक पीछे का उपयोग करता है (विशेष रूप से, संयुक्त सशर्त पीछे मतलब है और किसी भी बिंदु पर विचरण) कुछ सैद्धांतिक अनुमानी के माध्यम से (वैश्विक) इष्टतम की तलाश मार्गदर्शन करने के। शास्त्रीय पसंद वर्तमान सर्वोत्तम बिंदु पर अपेक्षित सुधार को अधिकतम करने के लिए है , लेकिन यहां तक ​​कि कट्टरपंथी तरीके भी हैं, जैसे कि न्यूनतम के स्थान पर अपेक्षित एन्ट्रापी को कम करना ( यहां भी देखें )।f

यहां अनुभवजन्य परिणाम यह है कि एक पोस्टीरियर तक पहुंच, भले ही आंशिक रूप से गलत तरीके से गलत हो, आम तौर पर अन्य तरीकों की तुलना में बेहतर परिणाम पैदा करता है। (ऐसे दावे और परिस्थितियाँ हैं, जिसमें बेयसियन अनुकूलन यादृच्छिक खोज से बेहतर नहीं है, जैसे कि उच्च आयामों में।) इस पत्र में , हम एक उपन्यास बीओ विधि बनाम अन्य अनुकूलन एल्गोरिदम का अनुभवजन्य मूल्यांकन करते हैं, यह जाँचते हुए कि क्या बीओ का उपयोग करना सुविधाजनक है। व्यवहार में, आशाजनक परिणाम के साथ।

चूंकि आपने पूछा था - यह अन्य गैर-बायेसियन तरीकों की तुलना में बहुत अधिक कम्प्यूटेशनल लागत है, और आप सोच रहे थे कि हमें बायोसियन क्यों होना चाहिए। धारणा है कि यहाँ लागत सच का मूल्यांकन करने में शामिल है (जैसे, एक वास्तविक परिदृश्य में, एक जटिल इंजीनियरिंग या मशीन सीखने प्रयोग) बायेसियन विश्लेषण के लिए कम्प्यूटेशनल लागत से भी ज्यादा बड़ा है, इसलिए बायेसियन किया जा रहा बंद का भुगतान करती हैf

इस उदाहरण से हम क्या सीख सकते हैं?

सबसे पहले, बायेसियन अनुकूलन क्यों काम करता है? मुझे लगता है कि मॉडल गलत है, लेकिन यह गलत नहीं है , और हमेशा की तरह गलतता इस बात पर निर्भर करती है कि आपका मॉडल क्या है। उदाहरण के लिए, का सटीक आकार अनुकूलन के लिए प्रासंगिक नहीं है, क्योंकि हम किसी भी मोनोटोनिक परिवर्तन का अनुकूलन कर सकते हैं। मुझे लगता है कि प्रकृति ऐसे आक्रमणों से भरी है। इसलिए, हम जो खोज कर रहे हैं वह इष्टतम नहीं हो सकती (यानी, हम अच्छी जानकारी को दूर फेंक रहे हैं), लेकिन फिर भी बिना किसी अनिश्चितता के जानकारी से बेहतर है।f

दूसरा, हमारा उदाहरण हाइलाइट करता है कि यह संभव है कि बायेसियन होने या न होने की उपयोगिता संदर्भ पर निर्भर करती है , उदाहरण के लिए उपलब्ध (कम्प्यूटेशनल) संसाधनों की सापेक्ष लागत और राशि। (बेशक अगर आप एक कट्टर बायेसियन हैं, तो आप मानते हैं कि प्रत्येक गणना कुछ पूर्व और / या सन्निकटन के तहत बायेसियन निष्कर्ष है ।)

अंत में, बड़ा सवाल यह है कि हम उन मॉडलों का उपयोग क्यों कर रहे हैं जो खराब नहीं हैं , इस अर्थ में कि पोस्टएयर अभी भी उपयोगी हैं और सांख्यिकीय कचरा नहीं है? यदि हम नो फ्री लंच प्रमेय लेते हैं, तो जाहिर तौर पर हमें ज्यादा कुछ कहने में सक्षम नहीं होना चाहिए, लेकिन सौभाग्य से हम पूरी तरह से यादृच्छिक (या प्रतिकूल रूप से चुने गए ) कार्यों की दुनिया में नहीं रहते हैं ।

सामान्य तौर पर, चूंकि आप "दार्शनिक" टैग लगाते हैं ... मुझे लगता है कि हम इंडक्शन की समस्या के दायरे में प्रवेश कर रहे हैं, या सांख्यिकीय विज्ञान में गणित की अनुचित प्रभावशीलता (विशेष रूप से, हमारे गणितीय अंतर्ज्ञान और मॉडल को निर्दिष्ट करने की क्षमता) व्यवहार में वह काम) - इस अर्थ में कि शुद्ध रूप से एक प्राथमिकता के दृष्टिकोण से कोई कारण नहीं है कि हमारा अनुमान अच्छा होना चाहिए या इसकी कोई गारंटी होनी चाहिए (और यह सुनिश्चित करने के लिए कि आप गणितीय विरोधाभासों का निर्माण कर सकते हैं जिसमें चीजें गड़बड़ हो जाती हैं), लेकिन यह बारी है अभ्यास में अच्छी तरह से काम करने के लिए।


2
बहुत बढ़िया जवाब। आपके योगदान के लिए बहुत-बहुत धन्यवाद। क्या बायेसियन ऑप्टिमाइज़ेशन बनाम सामान्य ऑप्टिमाइज़ेशन तकनीकों की कोई समीक्षा / निष्पक्ष तुलना है जो यह दावा करती है कि बायज़ियन संस्करण अनुभवजन्य रूप से बेहतर है जैसा कि आप दावा करते हैं? (मैं आपको अपने शब्द पर ले जाने के साथ काफी ठीक हूं, लेकिन एक संदर्भ उपयोगी होगा)
गुइलूम देहेने

1
धन्यवाद! मुझे लगता है कि संभावित संख्या वाले कॉल-टू-आर्म्स में कई सैद्धांतिक और अनुभवजन्य तर्क होते हैं। मुझे एक बेंचमार्क की जानकारी नहीं है जो वास्तव में मानक तरीकों के साथ बीओ तरीकों की तुलना करता है, लेकिन [ ट्रिगर चेतावनी: बेशर्म प्लग ] मैं वर्तमान में कम्प्यूटेशनल न्यूरोसाइंस के क्षेत्र में इन पंक्तियों के साथ कुछ पर काम कर रहा हूं; मैं कुछ परिणाम arXiv पर रखने की योजना बना रहा हूँ, उम्मीद है कि अगले कुछ हफ्तों के भीतर।
लैकरीबी

वास्तव में, कम से कम उनके आंकड़े 2 में स्पष्ट तुलना है। एक बार बाहर होने के बाद क्या आप अपने मुख्य प्रश्न पर काम जोड़ सकते हैं? मुझे लगता है कि यह एक मूल्यवान अतिरिक्त होगा।
गिल्लाउम डेहेन

हां - यह अनुकूली बायेसियन क्वाडरेचर के लिए उनकी विधि है, जो एक बहुत अच्छा विचार है (व्यवहार में, इसकी प्रभावशीलता इस बात पर निर्भर करती है कि क्या जीपी सन्निकटन काम करता है; जो अक्सर यह कहने के बराबर है कि आपके पास आपकी समस्या का एक समझदार मानकीकरण है)। मेरे काम के उपलब्ध होने पर मैं उत्तर के लिए लिंक जोड़ूंगा, धन्यवाद।
लैकरबी

1
@IMA: क्षमा करें, मुझे नहीं लगता कि मैं 100% आपकी बात मानता हूं। मैं वैज्ञानिक प्रयास के एक खिलौना मॉडल के रूप में ब्लैक-बॉक्स अनुकूलन ले रहा था । मेरा मानना ​​है कि आप "विज्ञान" के कई चरणों और समस्याओं को इस सरल (लेकिन अभी भी अविश्वसनीय रूप से जटिल) डोमेन पर कर सकते हैं। मेरे तर्क के लिए "गॉसियन शोर" धारणा की कोई आवश्यकता नहीं है, यह सिर्फ सादगी के लिए था। गैर-गौसियन शोर से वास्तविक-विश्व अनुकूलन समस्याएं (उदाहरण के लिए, इंजीनियरिंग में) दूषित हो सकती हैं और यह एक ऐसी चीज है जिससे निपटने की आवश्यकता है। और गाऊसी प्रक्रियाओं को गाऊसी अवलोकन शोर की आवश्यकता नहीं है (हालांकि यह अनुमान आसान बनाता है)।
लकड़बग्घा

10

मैं केवल आज ही इसे देखता हूं, लेकिन फिर भी मुझे लगता है कि मुझे यह संकेत देना चाहिए कि मैं एक विशेषज्ञ की तरह हूं और कम से कम दो जवाब (एनआर 3 और 20 (मेरे काम का जिक्र करने के लिए धन्यवाद!)) मेरे काम का उल्लेख करें सेफबाय - विशेष रूप से जी और वैन ओमेन में, "मिसिसिपीन्डेड लीनियर मॉडल्स के लिए बायेसियन इन्वेंशन की असंगतता, और इसकी मरम्मत का प्रस्ताव" (2014)। और मैं टिप्पणी 2 में कुछ जोड़ना चाहूंगा:

2 का कहना है: (गलत तरीके से बेइज़ का एक फायदा है ...) "ठीक है, बायेसियन नियमित रूप से संपर्क करता है। यह कुछ ऐसा है, जो ओवरफिटिंग के खिलाफ मदद करने के लिए है - चाहे आपका मॉडल गलत है या नहीं। निश्चित रूप से, यह सिर्फ संबंधित प्रश्न की ओर जाता है नियमित शास्त्रीय दृष्टिकोण (लास्सो आदि) के खिलाफ बेइज़ियन अनुमान के लिए तर्क "

यह सच है, लेकिन यह जोड़ना महत्वपूर्ण है कि बायेसियन दृष्टिकोण नियमित रूप से पर्याप्त नहीं हो सकता है अगर मॉडल गलत है। यह वैन ओमेन के साथ काम का मुख्य बिंदु है - हम वहां देखते हैं कि मानक बेअज़ गलत-लेकिन-बहुत-उपयोगी-मॉडल के साथ कुछ प्रतिगमन संदर्भ में बहुत अधिक है। MLE जितना बुरा नहीं है, लेकिन फिर भी उपयोगी होने के लिए बहुत अधिक है। (बार-बार और गेम-थ्योरिटिक) सैद्धांतिक मशीन सीखने में काम का एक पूरा किनारा है, जहां वे बेयस के समान तरीकों का उपयोग करते हैं, लेकिन बहुत छोटे 'सीखने की दर' के साथ - पहले से अधिक और डेटा को कम महत्वपूर्ण बनाते हैं, इस प्रकार नियमित रूप से अधिक। इन विधियों को सबसे खराब स्थिति (मिसकैरेज और इससे भी बदतर, प्रतिकूल डेटा) में अच्छी तरह से काम करने के लिए डिज़ाइन किया गया है - SafeBayes दृष्टिकोण को डेटा से ही 'इष्टतम सीखने की दर' सीखने के लिए डिज़ाइन किया गया है - और यह इष्टतम लर्निंग दर, यानी इष्टतम राशि। नियमितीकरण की,

संबंधित रूप से, एक लोक प्रमेय है (ऊपर कई के द्वारा उल्लेख किया गया है) यह कहते हुए कि बेयर्स केएल विचलन के निकटतम वितरण पर 'सत्य' में ध्यान केंद्रित करेंगे। लेकिन यह केवल बहुत ही कठोर परिस्थितियों में है - अच्छी तरह से निर्दिष्ट मामले में अभिसरण के लिए आवश्यक शर्तों की तुलना में अधिक कठोर है। यदि आप मानक निम्न आयामी पैरामीट्रिक मॉडल के साथ काम कर रहे हैं और डेटा कुछ वितरण (मॉडल में नहीं) के अनुसार आईआईडी है तो पीछे वाला वास्तव में उस मॉडल के बिंदु के आसपास केंद्रित होगा जो केएल विचलन में सच्चाई के सबसे करीब है। अब यदि आप बड़े गैर-पैरामीट्रिक मॉडल के साथ काम कर रहे हैं और मॉडल सही है, तो (अनिवार्य रूप से) आपका पोस्टीरियर अभी भी पर्याप्त डेटा दिए गए सही वितरण के आसपास केंद्रित होगा, जब तक आपका पूर्व सच वितरण के आसपास छोटी केएल गेंदों में पर्याप्त द्रव्यमान रखता है। यह हैकमजोर स्थिति जो गैरपारंपरिक मामले में अभिसरण के लिए आवश्यक है यदि मॉडल सही है।

लेकिन अगर आपका मॉडल अभी तक गलत नहीं है, तो बाद वाला निकटतम केएल बिंदु के आस-पास केंद्रित नहीं हो सकता है, भले ही आपके पूर्व में 1 (!) के करीब द्रव्यमान हो - आपका पोस्टीरियर हमेशा के लिए उलझन में रह सकता है, कभी-अलग वितरणों पर ध्यान केंद्रित करता है! जैसे-जैसे समय आगे बढ़ता है लेकिन कभी भी सर्वश्रेष्ठ नहीं होता है। मेरे पत्रों में मेरे पास इसके होने के कई उदाहरण हैं। वे कागजात जो प्रक्षेपन के तहत अभिसरण दिखाते हैं (जैसे क्लीजन और वैन डेर वार्ट) को अतिरिक्त स्थितियों की बहुत आवश्यकता होती है, जैसे कि मॉडल को उत्तल होना चाहिए, या पहले कुछ (जटिल) गुणों का पालन करना चाहिए। यह मेरा मतलब है 'कठोर' स्थितियों से।

व्यवहार में हम अक्सर पैरामीट्रिक अभी तक बहुत उच्च आयामी मॉडल (बायेसियन रिज रिग्रेशन इत्यादि के साथ) काम कर रहे हैं। फिर यदि मॉडल गलत है, तो अंततः आपका पश्च मॉडल में सबसे अच्छा केएल-वितरण पर ध्यान केंद्रित करेगा , लेकिन गैर-घटक असंगति का एक लघु-संस्करण अभी भी धारण करता है: यह अभिसरण होने से पहले परिमाण के अधिक डेटा के आदेश ले सकता है - फिर से, मेरा पेपर वान ओमेन उदाहरण देते हैं।

SafeBayes दृष्टिकोण एक तरह से मानक बेसेस को संशोधित करता है जो गैर-घटक मॉडल में अभिसरण की गारंटी देता है (अनिवार्य रूप से) एक ही स्थिति में अच्छी तरह से निर्दिष्ट मामले में, यानी मॉडल (जी और मेहता, 2014 में KL-इष्टतम वितरण के पास पर्याप्त पूर्व द्रव्यमान)। )।

तो फिर सवाल यह है कि क्या बेयस के पास भी मिसकैरेज के तहत औचित्य है। IMHO (और जैसा कि ऊपर के कई लोगों द्वारा भी उल्लेख किया गया है), बेस के मानक औचित्य (ग्राह्यता, बचत, डी फिनेटी, कॉक्स आदि) यहां नहीं हैं (क्योंकि यदि आपको लगता है कि आपका मॉडल गलत है, तो आपकी संभावनाएं आपके वास्तविक विश्वास का प्रतिनिधित्व नहीं करती हैं। !)। कई बेयर्स विधियों की व्याख्या 'न्यूनतम विवरण लंबाई (एमडीएल) विधियों' के रूप में भी की जा सकती है - एमडीएल एक सूचना-सिद्धांत पद्धति है जो 'डेटा से सीखने को' जितना संभव हो सके डेटा को संपीड़ित करने की कोशिश के साथ 'बराबर करता है। (कुछ) बेयसियन विधियों की यह डेटा संपीड़न व्याख्या प्रक्षेपीकरण के तहत मान्य है। इसलिए अभी भी कुछ हैअंतर्निहित व्याख्या जो मिसकैपिफिकेशन के तहत रखती है - फिर भी, समस्याएं हैं, जैसे कि वैन ओमेन के साथ मेरा पेपर (और मूल पोस्ट में उल्लिखित विश्वास अंतराल / विश्वसनीय सेट समस्या) शो।

और फिर मूल पोस्ट के बारे में एक अंतिम टिप्पणी: आप बेस की 'प्रशंसा' औचित्य का उल्लेख करते हैं (1940/50 के दशक के वाल्ड की पूरी कक्षा thm पर वापस जा रहे हैं)। यह वास्तव में बेयस का औचित्य है या नहीं, यह वास्तव में 'बायेसियन इनविज़न' की सटीक परिभाषा पर बहुत निर्भर करता है (जो शोधकर्ता से शोधकर्ता में भिन्न होता है ...)। इसका कारण यह है कि ये स्वीकार्यता परिणाम इस संभावना को अनुमति देते हैं कि कोई पूर्व का उपयोग करता है जो समस्या के पहलुओं पर निर्भर करता है जैसे नमूना आकार, और ब्याज की हानि कार्य आदि। अधिकांश 'वास्तविक' बायेसियन अपने पूर्व को बदलना नहीं चाहते हैं यदि राशि डेटा में बदलाव की प्रक्रिया होती है, या यदि ब्याज की हानि फ़ंक्शन अचानक बदल जाती है। उदाहरण के लिए, सख्ती से उत्तल हानि कार्यों के साथ, न्यूनतम अनुमानकर्ता भी स्वीकार्य हैं - हालांकि आमतौर पर बायेसियन के रूप में नहीं सोचा जाता है! कारण यह है कि प्रत्येक निश्चित नमूना आकार के लिए, वे एक विशेष पूर्व के साथ बेयस के बराबर हैं, लेकिन प्रत्येक नमूना आकार के लिए पूर्व अलग है।

आशा है कि यह उपयोगी है!


2
इस प्रश्न पर जवाब देने के लिए आपका स्वागत है CrossValidated और धन्यवाद। एक मामूली नोट - आप उन उत्तरों पर भरोसा नहीं कर सकते हैं जो आप उन्हें देखते हैं उसी क्रम में क्रमबद्ध किए जा रहे हैं; अलग-अलग लोग अलग-अलग ऑर्डर में सॉर्ट कर सकते हैं (सबसे ऊंचे उत्तर के शीर्ष पर अलग-अलग सॉर्टिंग मानदंड का विकल्प होता है) और उन मानदंडों में से दो समय के साथ बदलते हैं। यही कारण है कि यदि आप उन्हें "एनआर 3 और 20" के रूप में संदर्भित करते हैं, तो लोगों को पता नहीं चलेगा कि आपको कौन सा उत्तर देना है। [मैं केवल दस उत्तर भी पा सकता हूं।]
ग्लेन_ब

1
एक महान उत्तर पीटर के लिए धन्यवाद। मैं आपकी टिप्पणी के बारे में उलझन में हूं कि बेइस्पियन मिसिसिपीफाइड मामले में बहुत मजबूत धारणाओं की आवश्यकता है। आप किन धारणाओं का स्पष्ट रूप से उल्लेख कर रहे हैं? क्या आप इस शर्त के बारे में बात कर रहे हैं कि पीछे के हिस्से को सबसे अच्छे पैरामीटर मान पर एक डिराक वितरण में परिवर्तित करने की आवश्यकता है? या क्या आप संभावना पर अधिक तकनीकी स्थितियों के बारे में बात कर रहे हैं जो कि विषमता सामान्यता सुनिश्चित करते हैं?
गिलियूम देहेने

ठीक है, ग्लेन बी (मध्यस्थ) के लिए धन्यवाद - मैं इसे अभी से ध्यान में रखूंगा।
पीटर ग्रुनवालड

Guillaume - मैं आपकी टिप्पणी को ध्यान में रखने के लिए उपरोक्त अपडेट कर रहा हूं
पीटर ग्रुनवल्ड

7

सामान्य पूर्वाग्रह-भिन्नता व्यापार है। एम-क्लोज्ड केस [1,2] को मानने वाले बायेसियन इंट्रेंस का एक छोटा संस्करण है [3], लेकिन मॉडल प्रक्षेपीकरण के मामले में पूर्वाग्रह तेजी से बढ़ता है [4]। एम-ओपन केस [1,2] को मानते हुए बायेसियन इंट्रेंस करना भी संभव है, जिसमें अधिक भिन्नता है [3] लेकिन मॉडल प्रक्षेपीकरण के मामले में पूर्वाग्रह छोटा है [4]। बायेसियन एम-बंद और एम-ओपन मामलों के बीच ths bias-variance tradeoff के डिसकशन नीचे दिए गए संदर्भों में शामिल कुछ संदर्भों में भी दिखाई देते हैं, लेकिन स्पष्ट रूप से अधिक की आवश्यकता है।

[१] बर्नार्डो और स्मिथ (१ ९९ ४)। बायेसियन सिद्धांत। जॉन विली एंड संस।

[२] वेतारी और ओजेन (२०१२)। मॉडल मूल्यांकन, चयन और तुलना के लिए बायेसियन भविष्य कहनेवाला विधियों का एक सर्वेक्षण। सांख्यिकी सर्वेक्षण, 6: 142-228। http://dx.doi.org/10.1214/12-SS102

[३] जुहो पीरोनन और अकी वेतसारी (२०१ Pi)। मॉडल चयन के लिए बायेसियन भविष्य कहनेवाला विधियों की तुलना। सांख्यिकी और कम्प्यूटिंग, 27 (3): 711-735। http://dx.doi.org/10.1007/s11222-016-9649-y

[४] याओ, व्हीत्सारी, सिम्पसन और एंड्रयू जेलमैन (२०१,)। बायेसियन पूर्वानुमानित वितरणों को औसत करने के लिए स्टैकिंग का उपयोग करना। arXiv preprint arXiv: 1704.02030 arxiv.org/abs/1704.02030


7

यहाँ गलत तरीके से बनाए गए मॉडल में बायेसियन के औचित्य के कुछ अन्य तरीके हैं।

  • आप सैंडविच फार्मूला (उसी तरह से जिस तरह से आप MLE के साथ करेंगे) का उपयोग करके, पीछे के मतलब पर एक विश्वास अंतराल का निर्माण कर सकते हैं। इस प्रकार, भले ही विश्वसनीय सेटों में कवरेज न हो, फिर भी आप पॉइंट एसेक्टर्स पर मान्य विश्वास अंतराल उत्पन्न कर सकते हैं, अगर आप में रुचि रखते हैं।

  • आप यह सुनिश्चित करने के लिए पश्च वितरण को रद्द कर सकते हैं कि विश्वसनीय सेटों में कवरेज है, जो इसमें लिया गया है:

म्यूलर, उलरिच के। "बेइज़ियन इनफैक्शन ऑफ़ मिसपेसीफाइड मॉडल्स एंड सैंडविच सेवरियन मैट्रिक्स। इकोनोमेट्रिक 81.5 (2013): 1805-1849।

  • बेय्स नियम के लिए एक गैर-विषमतापूर्ण औचित्य है: तकनीकी स्थितियों को छोड़ना, यदि पूर्व , और लॉग- , तो पीछे वितरण वह है जो कम से कम होता है से अधिक सभी वितरण । पहला शब्द एक अपेक्षित उपयोगिता की तरह है: आप उन मापदंडों पर द्रव्यमान डालना चाहते हैं जो उच्च संभावना रखते हैं। दूसरा शब्द नियमित करता है: आप पूर्व में एक छोटा केएल विचलन चाहते हैं। यह सूत्र स्पष्ट रूप से कहता है कि पीछे वाला क्या अनुकूलन कर रहा है। यह अर्ध-संभावना के संदर्भ में बहुत उपयोग किया जाता है, जहां लोग लॉग-लाइबिलिटी को एक अन्य उपयोगिता फ़ंक्शन द्वारा प्रतिस्थापित करते हैं।p(θ)n(θ)n(θ)dν(θ)+log(ν(θ)p(θ))dν(θ)ν(θ)

मुलर पेपर के लिए धन्यवाद: मुझे लगता है कि मेरे पास बहुत सारे सवालों के जवाब हैं।
गिलियूम देहेने

6

मान लें कि डेटा का वास्तविक मॉडल से अलग है, जो कि सभी मूल्यों के लिए है।पी ( एक्स | θ ) θptrue(X)p(X|θ)θ

इस धारणा के बायेसियन व्याख्या एक अतिरिक्त यादृच्छिक चर है कि वहाँ है और एक मूल्य के अपनी सीमा में ऐसी है कि । आपका पूर्व ज्ञान और । फिर जो उचित संभावना वितरण नहीं है।φ 0 φ 0पी ( एक्स | θ , φ = φ 0 ) θ = 0ϕϕ0ϕ0p(X|θ,ϕ=ϕ0)dθ=0p(ϕ=ϕ0)1p(ϕϕ0)=0p(θ|X,ϕ=ϕ0)=0

यह मामला तर्क में एक समान नियम से मेल खाता है जहां , यानी आप किसी विरोधाभास से कुछ भी नहीं समझ सकते हैं। परिणाम एक ऐसा तरीका है जिसमें बायेसियन संभावना सिद्धांत आपको बताता है कि आपका पूर्व ज्ञान आपके डेटा के अनुरूप नहीं है। यदि कोई इस परिणाम को पोस्टीरियर की व्युत्पत्ति में प्राप्त करने में विफल रहा है, तो इसका मतलब है कि सूत्रीकरण सभी प्रासंगिक पूर्व ज्ञान को एन्कोड करने में विफल रहा। इस स्थिति के मूल्यांकन के लिए मैं जेनेस (2003, पी ..41) को सौंपता हूं:A,¬Ap(θ|X,ϕ=ϕ0)=0

... यह एक शक्तिशाली विश्लेषणात्मक उपकरण है जो प्रस्तावों का एक समूह खोज सकता है और यदि कोई मौजूद है तो उनमें विरोधाभास का पता लगा सकता है। सिद्धांत यह है कि विरोधाभासी परिसरों पर स्थितियां सशर्त मौजूद नहीं हैं (परिकल्पना स्थान खाली सेट पर कम हो गया है)। इसलिए, हमारे रोबोट को काम करने के लिए रखें; यानी प्रस्ताव के एक सेट पर गणना करने के लिए कंप्यूटर प्रोग्राम लिखें सशर्त भले ही कोई विरोधाभास निरीक्षण से स्पष्ट न हो, अगर कोई विरोधाभास में छिपा हो।p(B|E)E=(E1,E2,,En)E, कंप्यूटर प्रोग्राम क्रैश हो जाएगा। हमने इसे खोजा, अनुभवजन्य रूप से, '' और कुछ विचार के बाद महसूस किया कि यह निराशा का कारण नहीं है, बल्कि एक मूल्यवान नैदानिक ​​उपकरण है जो हमें अप्रत्याशित विशेष मामलों के बारे में चेतावनी देता है जिसमें हमारी समस्या का सूत्रीकरण टूट सकता है।

दूसरे शब्दों में, यदि आपकी समस्या का सूत्रण गलत है - यदि आपका मॉडल गलत है, तो बायेसियन आँकड़े आपको यह पता लगाने में मदद कर सकते हैं कि यह मामला है और आपको यह पता लगाने में मदद कर सकता है कि समस्या का स्रोत क्या है।

व्यवहार में, यह पूरी तरह से स्पष्ट नहीं हो सकता है कि क्या ज्ञान प्रासंगिक है और क्या इसे व्युत्पत्ति में शामिल किया जाना चाहिए। विभिन्न मॉडल जाँच तकनीक (अध्याय 6 और 7 में गेलमैन एट अल।, 2013, एक सिंहावलोकन प्रदान करते हैं) का उपयोग तब पता लगाने और एक गलत समस्या सूत्रीकरण की पहचान करने के लिए किया जाता है।

जेलमैन, ए।, कारलिन, जेबी, स्टर्न, एचएस, डनसन, डीबी, व्हीटसारी, ए।, और रुबिन, डीबी (2013)। बायेसियन डेटा विश्लेषण, तीसरा संस्करण। चैपमैन एंड हॉल / सीआरसी।

जेनेस, ईटी (2003)। संभाव्यता सिद्धांत: विज्ञान का तर्क। कैम्ब्रिज यूनिवर्सिटी प्रेस।


1
आपका उत्तर बिंदु को याद कर रहा है और एक सरल स्थिति पर विचार कर रहा है। मैं ऐसी स्थिति पर विचार नहीं करता जिसमें हमारा मॉडल इतना गलत है कि यह डेटा के साथ असंगत है। मैं एक ऐसी स्थिति को देखता हूं जिसमें हमारा मॉडल गलत है, लेकिन विनाशकारी रूप से ऐसा नहीं है। उदाहरण के लिए, का मतलब पर । आप गॉसियन मॉडल का उपयोग अनुमान के लिए कर सकते हैं, भले ही असली मॉडल । इस सरल उदाहरण में, मॉडल गलत है लेकिन जैसा आप वर्णन करते हैं वैसा "विस्फोट" नहीं होगा। XiXi
गिलियूम देहेने

1
@GuillaumeDehaene आपका प्रश्न यह था कि जब मॉडल को गलत तरीके से इस्तेमाल किया जाता है तो बेयर्स का उपयोग करने के लिए कुछ तर्क हैं। जाहिर है, भयावह रूप से गलत ढंग से बनाया गया मॉडल गलत है। इसके अलावा आप एप्रीओरी को नहीं जान सकते हैं कि आपका मॉडल भयावह रूप से गलत है या सिर्फ गलत है। वास्तव में बेयस आपको सटीक रूप से बता सकते हैं, जो इसे उपयोगी बनाता है और मेरे उत्तर ने बताया।
Matus

यदि यह भयावह रूप से गलत नहीं है, तो कवरेज से इतना अलग नहीं होगा । आप इसे जांचने के लिए लाप्लासियन डेटा के साथ इस सामान्य मॉडल का अनुकरण लिख सकते हैं। वैचारिक लाभ हमेशा मौजूद रहेगा। इसके बारे में सोचें: यदि आप अपने पीछे के हिस्से को खिड़की से बाहर फेंकने का फैसला करते हैं, तो आप केवल MLE की गणना नहीं करेंगे, बल्कि कुछ आत्मविश्वास अंतराल भी। लेकिन हम जानते हैं कि एक विशेष प्रयोग के लिए गणना की गई सीआई की व्याख्या बकवास है। इसलिए आराम करें और बेसेसियन बियर का आनंद लें। यदि आप समझते हैं कि मॉडल गलत है, तो बेहतर बनाने के लिए इस जानकारी का उपयोग करें। 1α
ज़ेन

@GuillaumeDehaene हां, मेरा जवाब संपूर्ण नहीं है। मैं ख़ुशी-ख़ुशी इसे विस्तारित करता हूँ कि आप भयावह मामलों को स्पष्ट न करें, लेकिन आपको यह निर्दिष्ट करने की ज़रूरत है कि आपके मन में क्या है: क्या आपका मतलब है कि जहाँ कुछ छोटी संख्या है ताकि छोटा हो? या आप कह रहे हैं कि मौजूद है जैसे कि अभी तक या | कुछ और? मैं ज़ेन के साथ सहमत हूं कि आम तौर पर इन कम गंभीर मामलों में ज्यादा प्रभावित नहीं होगा, हालांकि कोई सीमावर्ती मामले का निर्माण कर सकता है। p(X,θ|ϕ=ϕ0)dθ=kkp(X|ϕ=ϕ0)θ=θ0p(θ=θ0|ϕ=ϕ0)=0p(X,θ=θk|ϕ=ϕ0)>0
माटस

5

MLE अभी भी आपके द्वारा निर्दिष्ट मॉडल में एक पैरामीटर के लिए एक अनुमानक है और सही होने का अनुमान लगाता है। एक लगातार ओएलएस में प्रतिगमन गुणांक का अनुमान MLE के साथ लगाया जा सकता है और सभी गुण जिन्हें आप इसे संलग्न करना चाहते हैं (निष्पक्ष, एक विशिष्ट स्पर्शोन्मुख विचरण) अभी भी अपने बहुत विशिष्ट रैखिक मॉडल को सही मानते हैं।

मैं इसे एक कदम आगे ले जा रहा हूं और कहता हूं कि हर बार जब आप एक अनुमानक को अर्थ और गुणों को लिखना चाहते हैं तो आपको एक मॉडल को ग्रहण करना होगा। यहां तक ​​कि जब आप एक सरल नमूना मतलब लेते हैं, तो आप मान रहे हैं कि डेटा विनिमेय और अक्सर IID है।

अब, बेयसियन अनुमानकों के पास कई वांछनीय गुण हैं जो एक MLE के पास नहीं हो सकते हैं। उदाहरण के लिए, आंशिक पूलिंग, नियमितीकरण, और एक पश्च की व्याख्याशीलता जो इसे कई स्थितियों में वांछनीय बनाती है।


मतलब देने के लिए आपको IID मानने की आवश्यकता नहीं है। यह
विनिमेयता

@kjetil b halvorsen धन्यवाद, मैंने स्पष्टता के लिए संपादन किया है।
TrynnaDoStat

4

मैं गेलमैन और शालिज़ी के दर्शन और बायेसियन आंकड़ों का अभ्यास करने की सलाह देता हूं । उनके पास इन सवालों के सुसंगत, विस्तृत और व्यावहारिक जवाब हैं।

हमें लगता है कि बेइज़ियन अनुमान का यह अधिकांश दृश्य गलत है। Bayesian विधियाँ किसी अन्य विधा के सांख्यिकीय अनुमान से अधिक प्रेरक नहीं हैं। बायपिशियन डेटा विश्लेषण एक हाइपोथीको-डिडक्टिव दृष्टिकोण से बहुत बेहतर समझा जाता है । सर्वश्रेष्ठ बेयसियन अभ्यास में निहित एक रुख है जो बाद के लगातार उन्मुखीकरण के बावजूद मेयो (1996) के त्रुटि-सांख्यिकीय दृष्टिकोण के साथ आम है। दरअसल, बायोसियन डेटा विश्लेषण के महत्वपूर्ण हिस्से, जैसे कि मॉडल की जाँच, को मेयो के अर्थ में 'त्रुटि जांच' के रूप में समझा जा सकता है।

हम अनुभवजन्य सामाजिक विज्ञान अनुसंधान में बायेसियन डेटा विश्लेषण के ठोस मामलों की जांच के संयोजन के द्वारा आगे बढ़ते हैं, और बायेसियन अपडेट की स्थिरता और अभिसरण पर सैद्धांतिक परिणाम। सामाजिक-वैज्ञानिक डेटा विश्लेषण हमारे उद्देश्यों के लिए विशेष रूप से प्रमुख है क्योंकि सामान्य सहमति है कि, इस डोमेन में, उपयोग में सभी मॉडल गलत हैं - न केवल मिथ्यावादी, बल्कि वास्तव में गलत है। पर्याप्त डेटा के साथ - और अक्सर केवल एक काफी उदार राशि - कोई भी विश्लेषक किसी भी मॉडल को विश्वास के किसी भी वांछित स्तर के उपयोग के लिए अस्वीकार कर सकता है । मॉडल फिटिंग फिर भी एक मूल्यवान गतिविधि है, और वास्तव में डेटा विश्लेषण की जड़ है। यह समझने के लिए कि ऐसा क्यों है, हमें यह जांचने की आवश्यकता है कि मॉडल कैसे बनाए जाते हैं, फिट किए जाते हैं, उपयोग किए जाते हैं और जांचे जाते हैं, और मॉडल के साथ गलत निर्धारण के प्रभाव।

...

हमारे विचार में, अंतिम पैराग्राफ [मानक बायेसियन दृश्य] के खाते में महत्वपूर्ण गलती है। डेटा-विश्लेषण प्रक्रिया - बायेसियन या अन्यथा - पैरामीटर अनुमान या पीछे के वितरण की गणना के साथ समाप्त नहीं होती है। बल्कि, मॉडल को तब जांचा जा सकता है, जो फिट किए गए मॉडल के निहितार्थों की तुलनात्मक प्रमाण से करता है। एक जैसे सवाल पूछते हैं कि क्या फिटेड मॉडल से सिमुलेशन मूल डेटा से मिलता-जुलता है, क्या फिट किया गया मॉडल मॉडल की फिटिंग में उपयोग नहीं किए जाने वाले अन्य डेटा के अनुरूप है, और क्या मॉडल जो कहता है कि शोर ('त्रुटि शब्द') है वास्तव में आसानी से पता लगाने योग्य पैटर्न प्रदर्शित करते हैं। मॉडल और डेटा के बीच विसंगतियों का उपयोग उन तरीकों के बारे में जानने के लिए किया जा सकता है जिनमें मॉडल हाथ में वैज्ञानिक उद्देश्यों के लिए अपर्याप्त है, और इस प्रकार मॉडल (खंड 4.) में विस्तार और परिवर्तनों को प्रेरित करने के लिए।


2

मुझे लगता है कि आप मॉडल अनिश्चितता के प्रभाव का वर्णन कर रहे हैं - आप चिंता करते हैं कि डेटा प्रकाश में एक अज्ञात पैरामीटर बारे में आपका अनुमान एक मॉडल, , पर सशर्त है साथ ही साथ डेटा भी। क्या होगा अगर एक अनुमान्य मॉडल है? यदि एक ही अज्ञात पैरामीटर साथ वैकल्पिक मॉडल मौजूद हैं , तो आप मॉडल औसत, साथ मॉडल अनिश्चितता को हाशिए पर कर सकते हैं, हालांकि यह माना जाता है कि मॉडल और उनके पुजारियों की एक कार्यात्मक।xdm

p(x|d,m),
mx
p(x|d)=mp(x|d,m)p(m|d)

यदि, दूसरी ओर, पैरामीटर की परिभाषा आंतरिक रूप से मॉडल से बंधी है , जैसे कि कोई विकल्प नहीं है, तो यह शायद ही आश्चर्य की बात है कि बारे में अनुमान पर सशर्त हैं । xmxm


3
मॉडल औसत हमें बचा नहीं सकता है: यह मान लेना अभी भी मूर्खता है कि सच्चा मॉडल किसी तरह बड़े करीने से हमारे बड़े मॉडल के दायरे में आता है। मॉडल तुलना के साथ, हम यह निर्धारित कर सकते हैं कि कौन सा मॉडल डेटा का सबसे अच्छा खाता देता है, लेकिन यह सिर्फ एक गलत मॉडल देता है जो अन्य मॉडलों की तुलना में कम गलत है।
गिलियूम देहेने

यह आपको अज्ञात मात्रा के बारे में अनुमान लगाने / अनुमान लगाने में मदद कर सकता है जो मॉडल अनिश्चितता को सुसंगत रूप से शामिल करता है। यद्यपि यह आपके लिए नई परिकल्पना का आविष्कार नहीं कर सकता है। अगर कोई सांख्यिकीय मशीनरी होती जो डेटा के प्रकाश में मॉडल का आविष्कार करती, उदाहरण के लिए विज्ञान बहुत आसान होगा।
Innisfree

1

आप कैसे परिभाषित करते हैं कि "गलत-निर्दिष्ट" मॉडल क्या है? क्या इसका मतलब मॉडल है ...

  • "बुरा" भविष्यवाणी करता है?
  • कुछ "सही मॉडल" के लिए फॉर्म ? pT(x)
  • एक पैरामीटर याद आ रहा है?
  • "खराब" निष्कर्ष की ओर जाता है?

अगर आपको लगता है कि किसी दिए गए मॉडल को गलत तरीके से निर्दिष्ट किया जा सकता है, तो आप अनिवार्य रूप से एक बेहतर मॉडल बनाने के बारे में जानकारी निकालेंगे। अपने मॉडल में उस अतिरिक्त जानकारी को शामिल करें!

यदि आप इस बारे में सोचते हैं कि बायेसियन फ्रेमवर्क में "मॉडल" क्या है, तो आप हमेशा एक मॉडल बना सकते हैं जो गलत तरीके से निर्दिष्ट नहीं किया जा सकता है। ऐसा करने का एक तरीका अपने वर्तमान मॉडल में अधिक पैरामीटर जोड़ना है। अधिक मापदंडों को जोड़कर, आप अपने मॉडल को अधिक लचीला और अनुकूलनीय बनाते हैं। मशीन लर्निंग के तरीके इस विचार का पूर्ण उपयोग करते हैं। यह "नेरल नेटवर्क" और "रिग्रेशन ट्री" जैसी चीजों को रेखांकित करता है। आपको हालांकि पुजारियों के बारे में सोचने की ज़रूरत है (एमएल के लिए नियमित करने के समान)।

उदाहरण के लिए, आपने अपने उदाहरण के रूप में "रैखिक मॉडल" दिया है, इसलिए आपके पास ... जहां । अब मान लें कि हम प्रत्येक अवलोकन के लिए एक नया पैरामीटर जोड़ते हैं .... जहां पहले था। यह चीजों को कैसे बदलता है? आप कह सकते हैं "मॉडल 1 गलत है अगर मॉडल 2 सच है"। लेकिन मॉडल 2 का अनुमान लगाना कठिन है, क्योंकि इसमें कई और पैरामीटर हैं। इसके अलावा, अगर हम जिस बारे में जानकारी रखते हैं, उसके बारे में परवाह है कि क्या मॉडल 1 "गलत" है?

model 1: xi=θ+σei
eiN(0,1)
model 2: xi=θ+σeiwi

eiN(0,1)θ

यदि आप मानते हैं कि (एक "मॉडल 2a" की तरह) तो हमारे पास मूल रूप से "सामान्य त्रुटियां" के बजाय "कैची त्रुटियां" हैं और मॉडल डेटा में आउटलेयर की अपेक्षा करता है। इसलिए, आपके मॉडल में पैरामीटर जोड़कर, और उनके लिए पूर्व चयन करके, मैंने "अधिक मजबूत मॉडल" बनाया है। हालांकि मॉडल अभी भी त्रुटि के संदर्भ में समरूपता की उम्मीद करता है। एक अलग से पहले का चयन करके, यह भी हिसाब किया जा सकता है ...wiN(0,1)


और जितने अधिक पैरामीटर आप उपयोग करते हैं, उतने ही अधिक डेटा की आवश्यकता होती है। यदि बारे में में जानकारी दुर्लभ है, तो पैरामीटर जोड़ने से मदद नहीं मिलेगी। नए डेटा के साथ, DGP और भी कम स्थिर है, इसलिए आपको फिर से और अधिक मापदंडों की आवश्यकता है। जितना अधिक सामान्य आपका मॉडल (अधिक पैरामीटर), कम संभावना यह "गलत-निर्दिष्ट" है, लेकिन जितना अधिक डेटा आपको अनुमान लगाने की आवश्यकता है। इसके विपरीत, जितना कम आप अपने मॉडल से पूछते हैं, उतना ही कम डेटा जो आपको चाहिए। लेकिन वास्तव में इसका मतलब है, कैसे "सही" मॉडल की संभावना है अगर एक पूर्ण पोस्टीरियर बनाम, एक सशर्त क्षण कहें? xf(x)
आईएमए
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.