कब (यदि कभी) एक लगातार दृष्टिकोण एक बायेसियन की तुलना में बेहतर है?


72

पृष्ठभूमि : मेरे पास बायेसियन सांख्यिकी में एक औपचारिक प्रशिक्षण नहीं है (हालांकि मुझे और अधिक सीखने में बहुत दिलचस्पी है), लेकिन मुझे पर्याप्त पता है - मुझे लगता है कि क्यों कई लोगों को लगता है कि वे फ्रीक्वेंटिस्ट आंकड़ों के लिए बेहतर हैं। यहाँ तक कि परिचयात्मक आँकड़ों (सामाजिक विज्ञानों में) में स्नातक भी मैं सिखा रहा हूँ कि बायेसियन दृष्टिकोण को खोजने के लिए अपील कर रहा हूँ - "हम डेटा की संभावना की गणना में क्यों रुचि रखते हैं, शून्य दिए गए हैं? हम सिर्फ संभावना की मात्रा क्यों नहीं निर्धारित कर सकते हैं?" अशक्त परिकल्पना? या वैकल्पिक परिकल्पना; और मैंने इन जैसे धागे भी पढ़े हैं , जो बायेसियन आंकड़ों के अनुभवजन्य लाभों के साथ-साथ पुष्टि करते हैं। लेकिन तब मैं ब्लास्को (2001 में) इस उद्धरण पर आया;

यदि पशु ब्रीडर इंडक्शन से जुड़ी दार्शनिक समस्याओं में दिलचस्पी नहीं रखता है, लेकिन समस्याओं को हल करने के लिए उपकरण में, बायसेनियन और प्रायोजक के दोनों स्कूलों को अच्छी तरह से स्थापित किया जाता है और यह उचित नहीं है कि एक या दूसरे स्कूल को प्राथमिकता क्यों दी जाए। कुछ जटिल मामलों के अपवाद के साथ, उनमें से किसी को भी अब परिचालन संबंधी कठिनाइयाँ नहीं हैं ... एक स्कूल को चुनने के लिए या दूसरे का संबंध इस बात से होना चाहिए कि क्या एक स्कूल में दूसरे ऐसे समाधान हैं जो दूसरे की पेशकश नहीं करते हैं , कितनी आसानी से समस्याओं को हल किया जाता है। , और अभिव्यक्ति के विशेष तरीके के साथ वैज्ञानिक कितना सहज महसूस करते हैं।

प्रश्न : ब्लास्को उद्धरण से प्रतीत होता है कि ऐसा समय हो सकता है जब एक आवृत्तिवादी दृष्टिकोण वास्तव में एक बायेसियन के लिए बेहतर होता है। और इसलिए मैं उत्सुक हूं: बायसी दृष्टिकोण पर एक निरंतरवादी दृष्टिकोण कब बेहतर होगा? मुझे उन उत्तरों में दिलचस्पी है, जो इस प्रश्न से दोनों को वैचारिक रूप से निपटते हैं (अर्थात, जब विशेष रूप से उपयोगी अशक्त परिकल्पना पर वातानुकूलित डेटा की संभावना को जान रहे हैं?) और आनुभविक रूप से (यानी, किस परिस्थिति में फ़्रीक्वेंटिस्ट तरीके बनाम बनाम बायोसियन?)।

यह भी बेहतर होगा यदि उत्तरों को यथासंभव सुलभ रूप से संप्रेषित किया जाए - अपने छात्रों के साथ साझा करने के लिए मेरी कक्षा में कुछ प्रतिक्रियाएँ लेना अच्छा होगा (हालाँकि मुझे लगता है कि कुछ स्तर की तकनीकी की आवश्यकता है)।

अंत में, फ़्रीक्वेंटिस्ट आंकड़ों के नियमित उपयोगकर्ता होने के बावजूद, मैं वास्तव में इस संभावना के लिए खुला हूं कि बेयसियन सिर्फ बोर्ड भर में जीतता है।


10
जब आप वस्तुनिष्ठ संभावनाओं से निपटते हैं, यानी स्वाभाविक रूप से स्टोचस्टिक प्रक्रियाएँ। उदाहरण के लिए, रेडियोधर्मी क्षय का आपके व्यक्तिपरक विश्वासों या अज्ञात जानकारी या बहुत कुछ और से कोई लेना-देना नहीं है। यह बस अपनी गति से चलता है, और परमाणु वास्तव में बेतरतीब ढंग से टूट जाता है।
अक्कल

6
इस हालिया प्रश्न को देखें जो दुर्भाग्य से समाप्त हो गया था, क्योंकि मैं बहुत व्यापक था (मैंने फिर से खोलने के लिए मतदान किया था लेकिन यह कभी नहीं था): आंकड़े . stackexchange.com/questions/192572 । आप लगभग एक ही बात पूछ रहे हैं। वहाँ उत्तर की जाँच करें।
अमीबा

5
@ अक्षल: मुझे यह चर्चा पसंद आएगी, लेकिन यह ऑफ-टॉपिक है और हमें बताया जाएगा इसलिए मैं चुप हो गया (और गणना करता हूं)।
अमीबा

12
"बायेसियन हर किसी को किसी की दिलचस्पी नहीं है, जबकि मान्यताओं का उपयोग करके किसी को विश्वास है कि सवाल का समाधान करते हैं, जबकि
आव्रजन

4
@ जस्सालुक, ध्यान दें कि बायेसियन के गढ़ ऐसे क्षेत्र हैं जहां कोई पर्याप्त डेटा नहीं है या जब प्रक्रियाएं अस्थिर होती हैं, अर्थात सामाजिक विज्ञान, छद्म विज्ञान, जीवन विज्ञान आदि। क्वांटम भौतिकी या अधिकांश भौतिकी में बायेसियन होने की आवश्यकता नहीं है। दी, आप वहाँ भी बायेसियन हो सकते हैं, यह सिर्फ आपके इंफ़ेक्शन से लगातार अलग नहीं होगा
अक्सकल

जवाबों:


54

यहां पाँच कारण बताए गए हैं कि फ़्रीक्वेंटर्स के तरीके को प्राथमिकता क्यों दी जा सकती है:

  • और तेज। यह देखते हुए कि बायेसियन आँकड़े अक्सर लगातार उत्तर देने के लिए लगभग समान जवाब देते हैं (और जब वे नहीं करते हैं, तो यह 100% स्पष्ट नहीं है कि बायेसियन हमेशा जाने का रास्ता है), यह तथ्य कि अक्सर आंकड़े प्राप्त किए जा सकते हैं अक्सर परिमाण के कई आदेश तेजी से होते हैं। एक मजबूत तर्क। इसी तरह, परिणाम को संग्रहीत करने के लिए लगातार तरीकों की उतनी स्मृति की आवश्यकता नहीं होती है। हालांकि ये बातें कुछ तुच्छ लग सकती हैं, विशेष रूप से छोटे डेटासेट के साथ, यह तथ्य कि बायेसियन और फ़्रीक्वेंटिस्ट आमतौर पर परिणामों में सहमत होते हैं (खासकर यदि आपके पास बहुत सारे जानकारीपूर्ण डेटा हैं) का मतलब है कि यदि आप देखभाल करने जा रहे हैं, तो आप कम महत्वपूर्ण के बारे में देखभाल करना शुरू कर सकते हैं बातें। और हां, अगर आप बड़े डेटा वर्ल्ड में रहते हैं, तो ये बिल्कुल मामूली नहीं हैं।

  • गैर-पैरामीट्रिक आँकड़े। मैं मानता हूं कि बायेसियन आंकड़ों में गैर-पैरामीट्रिक आंकड़े हैं, लेकिन मैं तर्क दूंगा कि क्षेत्र के लगातार पक्ष में कुछ सही मायने में व्यावहारिक उपकरण हैं, जैसे कि अनुभवजन्य वितरण समारोह। दुनिया में कोई भी तरीका ईडीएफ की जगह नहीं लेगा, न ही कपलान मीयर घटता है, आदि (हालांकि स्पष्ट रूप से यह कहना नहीं है कि वे तरीके विश्लेषण का अंत हैं)।

  • कम निदान। MCMC तरीके, बेइज़ियन मॉडल फिटिंग के लिए सबसे आम तरीका, आमतौर पर उपयोगकर्ता द्वारा उनके लगातार काउंटर भाग की तुलना में अधिक काम की आवश्यकता होती है। आमतौर पर, एक MLE अनुमान के लिए नैदानिक ​​इतना सरल है कि कोई भी अच्छा एल्गोरिथ्म कार्यान्वयन इसे स्वचालित रूप से करेगा (हालांकि यह कहना नहीं है कि हर उपलब्ध कार्यान्वयन अच्छा है ...)। जैसे, अक्सर एल्गोरिथम डायग्नॉस्टिक्स आमतौर पर "सुनिश्चित करें कि मॉडल को फिट करते समय कोई लाल पाठ नहीं है"। यह देखते हुए कि सभी सांख्यिकीविदों के पास सीमित बैंडविड्थ है, यह सवाल पूछने के लिए अधिक समय मुक्त करता है जैसे "क्या मेरा डेटा वास्तव में लगभग सामान्य है?" या "ये खतरे वास्तव में आनुपातिक हैं?", आदि।

  • मॉडल प्रक्षेपीकरण के तहत वैध इंजेक्शन। हम सभी ने सुना है कि "सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं", लेकिन शोध के विभिन्न क्षेत्र इसे कम या ज्यादा गंभीरता से लेते हैं। फ़्रीक्वेंटिस्ट साहित्य मॉडल को गलत तरीके से परिभाषित करने के लिए औचित्य को ठीक करने के तरीकों से भरा है: बूटस्ट्रैप अनुमानक, क्रॉस-सत्यापन, सैंडविच अनुमानक (लिंक भी मॉडल गलत निर्धारण के तहत सामान्य MLE इंजेक्शन की चर्चा करता है), सामान्यीकृत समीकरण समीकरण (GEE), अर्ध-संभावना वाले तरीके, आदि जहाँ तक मुझे पता के रूप में, मॉडल मिसकैरेजिफिकेशन के तहत बेइज़ियन साहित्य के बारे में बहुत कम है (हालांकि मॉडल चेकिंग की बहुत चर्चा है, यानी, पश्चवर्ती भविष्यवाणियां चेक)। मुझे नहीं लगता कि यह सिर्फ संयोग है: मूल्यांकन करने वाला कि एक आकलनकर्ता दोहराए गए परीक्षणों पर कैसे व्यवहार करता है, अनुमानक को "सत्य" मॉडल पर आधारित होने की आवश्यकता नहीं है, लेकिन बेयस प्रमेय का उपयोग करता है!

  • पूर्व से स्वतंत्रता (यह शायद सबसे आम कारण है कि लोग हर चीज के लिए बायेसियन विधियों का उपयोग नहीं करते हैं)। बायेसियन दृष्टिकोण की ताकत को अक्सर पुजारियों के उपयोग के रूप में टाल दिया जाता है। हालाँकि, मैंने जिन सभी क्षेत्रों में काम किया है, उनमें विश्लेषण से पहले एक सूचनात्मक के विचार पर विचार नहीं किया गया है। गैर-सांख्यिकीय विशेषज्ञों से पुजारियों को अलग करने के लिए साहित्य पढ़ना इस के लिए अच्छा तर्क देता है; मैंने ऐसे कागज पढ़े हैं जो कहते हैं कि (क्रूर स्ट्रॉ-मैन की तरह मेरे खुद को पैराफ्रेसिंग करते हुए) "शोधकर्ता से पूछें जिन्होंने आपको काम पर रखा है क्योंकि उन्हें एक सीमा देने के लिए आँकड़ों को समझने में परेशानी होती है कि वे 90% निश्चित हैं प्रभाव का आकार उन्हें परेशानी की कल्पना करना होगा हो, यह सीमा आमतौर पर बहुत संकीर्ण होगी, इसलिए मनमाने ढंग से उन्हें इसे थोड़ा चौड़ा करने की कोशिश करें। उनसे पूछें कि क्या उनका विश्वास एक गामा वितरण की तरह दिखता है। आपको संभवतः उनके लिए एक गामा वितरण आकर्षित करना होगा, और यह दिखाना होगा कि यदि आकार पैरामीटर छोटा है तो यह भारी पूंछ कैसे हो सकता है। इसमें यह बताना भी शामिल होगा कि एक पीडीएफ उनके लिए क्या है। "(ध्यान दें: मुझे नहीं लगता कि सांख्यिकीविद् वास्तव में सटीक रूप से कहने में सक्षम हैंएक प्राथमिकता यह है कि क्या वे 90% या 95% निश्चित हैं कि क्या प्रभाव आकार एक सीमा में है, और यह अंतर विश्लेषण पर पर्याप्त हो सकता है!)। सच कहा जाए, तो मैं काफी निर्दयी हूं और ऐसी परिस्थितियां हो सकती हैं, जहां पहले से कुछ करना थोड़ा और सीधा हो सकता है। लेकिन आप देख सकते हैं कि यह किस प्रकार का कीड़ा है। यहां तक ​​कि अगर आप गैर-जानकारीपूर्ण पादरियों पर स्विच करते हैं, तो भी यह एक समस्या हो सकती है; जब पैरामीटर बदलते हैं, तो गैर-सूचनात्मक पुजारियों के लिए आसानी से क्या गलत हो जाता है अचानक बहुत जानकारीपूर्ण के रूप में देखा जा सकता है! इसका एक और उदाहरण यह है कि मैंने कई शोधकर्ताओं के साथ बात की है जो अदम्य रूप से नहीं करते हैंयह जानना चाहते हैं कि किसी अन्य विशेषज्ञ की डेटा की व्याख्या क्या है क्योंकि अनुभवजन्य रूप से, अन्य विशेषज्ञ आत्मविश्वास से अधिक हैं। वे केवल यह जानते हैं कि दूसरे विशेषज्ञ के डेटा से क्या अनुमान लगाया जा सकता है और फिर अपने निष्कर्ष पर आ सकते हैं। मुझे याद नहीं है कि मैंने इसे कहाँ सुना था, लेकिन कहीं-कहीं मैंने वाक्यांश पढ़ा "यदि आप एक बायेसियन हैं, तो आप चाहते हैं कि हर कोई एक फ्रीक्वेंटिस्ट हो"। मैं इसकी व्याख्या करता हूं कि सैद्धांतिक रूप से, यदि आप बायेसियन हैं और कोई व्यक्ति अपने विश्लेषण परिणामों का वर्णन करता है, तो आपको पहले उनके पूर्व के प्रभाव को हटाने की कोशिश करनी चाहिए और फिर यह पता लगाना चाहिए कि यदि आपने अपना उपयोग किया है तो क्या प्रभाव होगा। यह थोड़ा व्यायाम सरल होगा यदि उन्होंने आपको एक विश्वसनीय अंतराल के बजाय एक आत्मविश्वास अंतराल दिया था!

बेशक, यदि आप जानकारीपूर्ण पुजारियों को छोड़ देते हैं, तो बायेसियन विश्लेषण में अभी भी उपयोगिता है। व्यक्तिगत रूप से, यह मुझे विश्वास है कि उनकी सर्वोच्च उपयोगिता निहित है; कुछ समस्याएं हैं जो MLE विधियों का उपयोग करने से किसी भी उत्तर को प्राप्त करने के लिए अत्यंत कठिन हैं, लेकिन MCMC के साथ आसानी से हल किया जा सकता है। लेकिन बेइज़ियन की सबसे अधिक उपयोगिता के बारे में मेरा विचार मेरे हिस्से पर मजबूत पुजारियों के कारण है, इसलिए इसे नमक के दाने के साथ लें।


1
(+1) अच्छा उत्तर, हालांकि मैं मान रहा हूं कि आपको परिणामों को संग्रहीत करने के लिए उतनी मेमोरी की आवश्यकता नहीं है?
jsakaluk

1
पुजारियों से स्वतंत्रता के संदर्भ में: क्या आप कह रहे हैं कि आपको अपनी समस्या के बारे में जितना कम सोचना और समझना होगा, उतना बेहतर होगा? मैं कई सॉफ्टवेयर विक्रेताओं को जानता हूं जो आपसे बात करना चाहते हैं, इसलिए आप बिंदु-एन-क्लिक कर सकते हैं - या बेहतर अभी तक, एक-क्लिक - और आपके द्वारा कल्पना की जा सकने वाली किसी भी समस्या का जवाब है! हेक, आपको एक समस्या की भी आवश्यकता नहीं है, बस अपने डेटा को उनकी वेबसाइट में फीड करें और वे सभी संभावित समस्याओं का पता लगाएंगे और उन्हें हल करेंगे, टोट स्वीट! (क्षमा करें, एक क्रूर भूसे-आदमी जैसी टिप्पणी के साथ जवाब देने का विरोध नहीं कर सका।)
वेन

1
@Wayne: मुझे पता है कि आप मजाक कर रहे हैं, लेकिन यह 100% सही है। सांख्यिकी वास्तविक दुनिया की समस्याओं का जवाब देने के लिए एक उपकरण है। मैं वास्तव में जोर देना चाहता हूं कि यह एक उपकरण है, अंतिम उत्पाद नहीं। भले ही "फ़्रिक्वेंटिस्ट बनाम बायेसियन" तर्क के माध्यम से किस पक्ष से बाहर निकल गया (मैं "जो भी मुझे अपने प्रश्न का सबसे अच्छा जवाब देता है", जिसका अर्थ है कि मैं दोनों को अलग-अलग समस्याओं के लिए पसंद करता हूं) का उपयोग करने में कोई बहस नहीं है। किसी भी उपकरण के लिए एक बहुत ही वास्तविक उपयोगिता।
क्लिफ एबी

बेशक, अगर आपका उपकरण अक्सर एक भयानक उत्पाद का उत्पादन कर रहा है जो एक समस्या है। और अगर मुझे विश्वास हो गया कि एक लगातार पद्धति यह कर रही है, लेकिन एक बायेसियन विधि नहीं थी, तो मैं जल्दी से बायेसियन पद्धति का समर्थन करूंगा।
क्लिफ एबी

1
@CliffAB: आसानी से उपयोग महत्वपूर्ण है, और जैसा कि आप कहते हैं कि यदि परिणाम समान गुणवत्ता के हैं, तो कठिन-से-उपयोग क्यों चुनें? उसी समय, सोचने, स्पष्ट करने, और समझने वाले पुजारी (बायेसियन नहीं, मेरा मतलब है कि पुरोहितों का कहना है कि हर वैज्ञानिक, हर क्षेत्र और हर अध्ययन में) अच्छे विज्ञान के लिए महत्वपूर्ण है। बायेसियन आँकड़े स्पष्ट हैं और आपको इनमें से कुछ मुद्दों के बारे में सोचने और समझने के लिए मजबूर करते हैं। इस हद तक कि यह केवल पांडित्यपूर्ण असुविधा नहीं है, यह यकीनन अच्छा है, और इसलिए इसका विपरीत स्लैम-डुंक अच्छा भी नहीं है।
वेन

23

लगातार आंकड़ों के कुछ ठोस लाभ:

  • बार-बार होने वाली समस्याओं के लिए अक्सर बंद-फॉर्म समाधान होते हैं, जबकि बेयर्स एनालॉग में बंद फॉर्म समाधान के लिए आपको पहले एक संयुग्म की आवश्यकता होगी। यह कई कारणों से उपयोगी है - जिनमें से एक गणना समय है।
  • एक कारण है कि, उम्मीद है, अंततः चले जाओ: laymen सिखाया जाता है फ्रीक्वेंटर्स आँकड़े। यदि आप बहुतों को समझना चाहते हैं, तो आपको बार-बार बोलने की जरूरत है।
  • "निर्दोष साबित होने तक निर्दोष" अशक्त परिकल्पना महत्व परीक्षण (NHST) दृष्टिकोण तब उपयोगी होता है जब लक्ष्य किसी को गलत साबित करने के लिए होता है (मैं आपका अधिकार ग्रहण करने जा रहा हूं और डेटा को भारी दिखाने का सुझाव देता हूं कि आप गलत हैं)। हां, बायेसियन में एनएचएसटी एनालॉग्स हैं, लेकिन मुझे लगता है कि फ्रिक्वेंस वर्जन बहुत अधिक सीधे-आगे और व्याख्या योग्य हैं।
  • नहीं है ऐसी कोई बात एक के रूप में वास्तव में जो कुछ लोगों को असहज बना देता है uninformative पहले।

1
(+1) धन्यवाद - क्या आप पहले बिंदु को थोड़ा स्पष्ट कर सकते हैं? जैसा कि किसी को बायेसियन में अच्छी तरह से वाकिफ नहीं है, तो जिस बिंदु पर आप "संयुग्म पूर्व" की आवश्यकता के बारे में बना रहे हैं? () मुझ पर थोड़ा सा खो गया है ...
jsakaluk

5
मुझे नहीं लगता कि आप लगातार परिकल्पना परीक्षण की सही व्याख्या कर रहे हैं। आपने अभी , लेकिन p- मान वास्तव में । पी-वैल्यू की सही व्याख्या: शून्य को देखते हुए, चरम या अधिक चरम के परिणामस्वरूप परिणाम प्राप्त करने का केवल एक % मौका है जो कि देखा गया है। बेइज़ियन दृष्टिकोण के लिए बहस करते समय यह गलत व्याख्या अक्सर सामने लाई जाती है। इसके अलावा मुझे आपका जवाब पसंद है। P ( D a t a)P(H0|Data)αP(Data|H0)α
ज़ाचरी ब्लुमेनफ़ेल्ड

@ZacharyBlumenfeld इस ओर इशारा करने के लिए धन्यवाद, मेरे दिमाग में बायेसियन था। अब इसे ठीक करो।
TrynnaDoStat

1
αβα+i=1nxiβ+ni=1nxi) किसी भी सिमुलेशन, नमूना, या गहन गणना करने के लिए बिना।
TrynnaDoStat

16

फ़्रीक्वेंटिस्ट दृष्टिकोण का उपयोग करने का सबसे महत्वपूर्ण कारण, जिसका आश्चर्यजनक रूप से अभी तक उल्लेख नहीं किया गया है, त्रुटि नियंत्रण है। बहुत बार, अनुसंधान से द्विभाजित व्याख्याएं होती हैं (क्या मुझे इस पर एक अध्ययन भवन बनाना चाहिए, या नहीं? एक हस्तक्षेप लागू करना चाहिए, या नहीं?)। बार-बार आने वाले दृष्टिकोण आपको अपनी टाइप 1 त्रुटि दर को सख्ती से नियंत्रित करने की अनुमति देते हैं। बायेसियन दृष्टिकोण (हालांकि कुछ संभावना संभावना से सार्वभौमिक सीमा प्राप्त करते हैं, लेकिन फिर भी, छोटे नमूनों में त्रुटि दर काफी अधिक हो सकती है और अपेक्षाकृत कम प्रमाण के थ्रेसहोल्ड के साथ (जैसे, बीएफ> 3)। आप फ्रीक्वेंटिस्ट गुणों की जांच कर सकते हैं। बेयर्स कारक (उदाहरण के लिए देखें http://papers.ssrn.com/sol3/papers.cfm?abstract_id=60604513) लेकिन यह अभी भी एक आवृत्तिवादी दृष्टिकोण है। मुझे लगता है कि बहुत बार, शोधकर्ताओं ने त्रुटि नियंत्रण के बारे में प्रति से अधिक मात्रा के प्रमाण के बारे में परवाह की है (कुछ विशिष्ट परिकल्पना के सापेक्ष), और मुझे लगता है कि बहुत कम से कम, हर किसी को कुछ हद तक त्रुटि नियंत्रण की परवाह है, और इस तरह दो दृष्टिकोणों का उपयोग किया जाना चाहिए complementarily।


अच्छी बात। मैं समूह-अनुक्रमिक तरीकों और कई परीक्षणों के अन्य रूपों के बारे में भी सोच रहा हूं, जहां लगता है (मेरे संकीर्ण दृष्टिकोण से, जो कि साहित्य के महत्वपूर्ण हिस्सों को नजरअंदाज कर दिया गया) हो सकता है कि बायेसियन पक्ष में रुचि की कमी हो (इसलिए दूर) किसी प्रकार की त्रुटि नियंत्रण पाने के संदर्भ में। निश्चित रूप से कई परिस्थितियों में बायेसियन तरीके - विशेष रूप से कुछ संदेहपूर्ण पादरियों के साथ या एक पदानुक्रमित मॉडल के माध्यम से कुछ प्रकार की सिकुड़न कुछ असम्बद्ध डिग्री के लिए कुछ हद तक त्रुटियों को नियंत्रित करते हैं, लेकिन वहां अक्सर व्यक्तिवादी सोच पर बहुत अधिक विचार किया गया है।
ब्योर्न

3
(+1) मैं वास्तव में इस बिंदु को पसंद करता हूं ... जैसा कि यह कारण है कि मैं दार्शनिक रूप से अक्सर एक व्यक्ति हूं .... जब हम अनुमान के साथ मदद करने के लिए आँकड़े करते हैं, तो हम चाहते हैं कि हमारे निष्कर्ष अधिक सटीक हों (यानी, कम त्रुटि) अंधे अनुमान से। वास्तव में, अगर मैं वास्तव में सही या गलत होने के बारे में अपने सभी निष्कर्षों की परवाह करता हूं (अनुवर्ती अध्ययन द्वारा मान्य होने के अर्थ में), तो त्रुटि दर बहुत महत्वपूर्ण हैं। मैं बस बायसेनियन संभावना के साथ सहज महसूस कर सकता हूं (हालांकि, तरीके खुद ही समझदार "नियमित अनुमानक" के रूप में बहुत उपयोगी होते हैं, जब एक नमूना आकार छोटा होता है ... एग्रीसिट-कूप सोचते हैं)

यह बेयर्स / लगातार तुलना की तुलना में निर्णय सिद्धांत की तरह लगता है। इसके अलावा, बेयसियन दृष्टिकोण के साथ आपको नियमों को रोकने के बारे में चिंता करने की आवश्यकता नहीं है .... मैं यह भी समझता हूं कि बेयर्स टाइप 1 और टाइप 2 त्रुटि दरों के बीच एक बेहतर "संतुलन" प्राप्त कर सकते हैं ....
संभाव्यता

8

मुझे लगता है कि सबसे बड़े प्रश्नों में से एक, एक सांख्यिकीविद् के रूप में, आपको खुद से पूछना होगा कि क्या आप विश्वास करते हैं या नहीं, या संभावना सिद्धांत का पालन करना चाहते हैं। यदि आप संभावना सिद्धांत में विश्वास नहीं करते हैं, तो मुझे लगता है कि आंकड़ों के लिए निरंतर प्रतिमान अत्यंत शक्तिशाली हो सकता है, हालांकि, यदि आप संभावना सिद्धांत में विश्वास करते हैं, तो (मेरा मानना ​​है कि) आपको सबसे निश्चित रूप से बायेसिटी के प्रतिमान को अलग करना होगा या इसका उल्लंघन न करें।


मामले में आप इससे अपरिचित हैं, संभावना सिद्धांत हमें जो बताता है वह निम्नलिखित है:

θx

(θ;x)=p(x|θ)
x

xy(θ;x)(θ;y)C(x,y)

(θ;x)=C(x,y)(θ;y)for all θ,

xy

C(x,y)(x,y)C(x,y)θ

C(x,y)=1θθ


अब, बायेसियन आँकड़ों में से एक यह है कि उचित पुजारियों के तहत, बायेसियन प्रतिमान कभी भी संभावना सिद्धांत का उल्लंघन नहीं करता है। हालांकि, बहुत सरल परिदृश्य हैं जहां अक्सर प्रतिमान संभावना के सिद्धांत का उल्लंघन करेगा।

यहाँ परिकल्पना परीक्षण के आधार पर एक बहुत ही सरल उदाहरण दिया गया है। निम्नलिखित को धयान मे रखते हुए:

एक प्रयोग पर विचार करें जहां 12 बर्नौली परीक्षण चलाए गए और 3 सफलताएं देखी गईं। रोक नियम के आधार पर हम निम्नलिखित के रूप में डेटा को चिह्नित कर सकते हैं:

  • X|θBin(n=12,θ)x=3
  • Y|θNegBin(k=3,θ)y=12

और इस प्रकार हम निम्नलिखित संभावनाएँ प्राप्त करेंगे: जो उस तात्पर्य करता है और इस तरह, संभावना सिद्धांत के द्वारा, हम के बारे में एक ही अनुमान प्राप्त करना चाहिए या तो संभावना से।

1(θ;x=3)=(123)θ3(1θ)92(θ;y=12)=(112)θ3(1θ)9
1(θ;x)=C(x,y)2(θ,y)
θ

अब, अक्सर प्रतिमान से निम्नलिखित परिकल्पनाओं के परीक्षण की कल्पना करें।

Ho:θ12versusHa:θ<12

द्विपद मॉडल के लिए हमारे पास निम्नलिखित हैं:

p-value=P(X3|θ=12)=(120)(12)12+(121)(12)12+(122)(12)12+(123)(12)12=0.0723

ध्यान दें कि लेकिन अन्य शर्तें संभावना सिद्धांत को संतुष्ट नहीं करते।(123)(12)12=1(12;x=3)

नकारात्मक द्विपद मॉडल के लिए हमारे पास निम्नलिखित हैं:

p-value=P(Y12|θ12)=(112)(12)12+(122)(12)12+(132)(12)12+...=0.0375

उपरोक्त पी-मान गणना से हम देखते हैं कि द्विपद मॉडल में हम को अस्वीकार करने में विफल लेकिन नकारात्मक द्विपद मॉडल का उपयोग करके हम को अस्वीकार कर । इस प्रकार, भले ही वहाँ p-मान हैं, और इन p-मानों के आधार पर निर्णय, संयोग नहीं करते हैं। पी-वैल्यू का यह तर्क बेयसियंस द्वारा अक्सर फ्रीक्वेंटिस्ट पी-वैल्यू के उपयोग के खिलाफ एक है।HoHo1(θ;x)2(θ;y)

अब फिर से निम्नलिखित परिकल्पनाओं का परीक्षण करने पर विचार करें, लेकिन बायेसियन प्रतिमान

Ho:θ12versusHa:θ<12

द्विपद मॉडल के लिए हमारे पास निम्नलिखित हैं:

P(θ12|x)=1/21π(θ|x)dx=1/21θ3(1θ)9π(θ)dθ/01θ3(1θ)9π(θ)dθ

इसी तरह, नकारात्मक द्विपद मॉडल के लिए हमारे पास निम्नलिखित हैं:

P(θ12|y)=1/21π(θ|x)dx=1/21θ3(1θ)9π(θ)dθ/01θ3(1θ)9π(θ)dθ

अब बायेसियन निर्णय नियमों का उपयोग करते हुए, चुनें यदि (या कुछ अन्य सीमा) और लिए इसी तरह दोहराएं ।HoP(θ12|x)>12y

हालाँकि, और इसलिए हम पहुंचते हैं एक ही निष्कर्ष और इस तरह यह दृष्टिकोण संभावना सिद्धांत को संतुष्ट करता है।P(θ12|x)=P(θ12|y)


और इसलिए मेरी रैंबलिंग को समाप्त करने के लिए, यदि आप संभावना सिद्धांत के बारे में परवाह नहीं करते हैं तो लगातारवादी होना महान है! (यदि आप नहीं बता सकते हैं, मैं एक बायेसियन हूं :)


1
मैं स्पष्ट रूप से विचारशील (और संभावित समय लेने वाली) प्रतिक्रिया की सराहना करता हूं, लेकिन मुझे ऐसा लगता है कि यह उत्तर "उत्तर ... थोड़ा संभव के रूप में संभव के रूप में अवगत कराया ..." से एक प्रस्थान है।
jsakaluk

1
@jsakaluk मुझे लगता है कि मैं क्या करने के लिए लक्ष्य कर रहा था, और तर्क का समर्थन करना सुनिश्चित करना चाहता था, यह है कि यदि आप कुछ चीजों को नजरअंदाज करने के लिए तैयार हैं, जो कई लागू सांख्यिकीविदों के लिए हर समय लेते हैं, अर्थात् संभावना सिद्धांत, तो उपयोग करना लगातार प्रतिमान बायेसियन प्रतिमान के लिए एक बहुत सरल विकल्प हो सकता है। हालाँकि, यदि आप नहीं कर सकते हैं तो आपको सबसे अधिक विकल्प तलाशने होंगे।
रिस्टस्टैटिस्टिशियन

4
@RustyStatistician संभावना सिद्धांत, संभावनावादियों के लिए एक केंद्रीय सिद्धांत है। Likelihoodists बायेसियन नहीं हैं सब पर । मैंने अपने उत्तर में लिंक पोस्ट किए। आपका दावा "यदि आप संभावना सिद्धांत में विश्वास करते हैं, तो (मुझे विश्वास है) आपको सबसे निश्चित रूप से बायेसियन प्रतिमान को अलग करना होगा" झूठा है।
स्टेन

@ मैं आपसे सहमत हूं कि हां संभावनावादियों को यकीन सिद्धांत में विश्वास है। लेकिन मुझे यह मानने में बेहद मुश्किल होगी कि यदि आप किसी बायेसियन से पूछें कि क्या वे इस संभावना सिद्धांत का पालन करते हैं कि वे कहेंगे कि वे ऐसा नहीं करते हैं (यह सिर्फ मेरी राय है जिसे आपको सहमत नहीं करना है)।
RustyStatistician

2
संभावना सिद्धांत (एलपी), सशर्तता सिद्धांत (सीपी) और पर्याप्तता सिद्धांत (एसपी) के अनुमानों की भूमिका सरल नहीं है। यह इसलिए है क्योंकि ये सिद्धांत साक्ष्य से संबंधित हैं (जैसा कि डेटा द्वारा प्रस्तुत किया गया है), जबकि निष्कर्ष में सबूत से परे जाना शामिल है । यह हमेशा जोखिम भरा है, लेकिन प्रगति करने के लिए आवश्यक है। देखें Birnbaums प्रमेय (यहाँ पर चर्चा की ... मैं जरूरी कागज के बाकी के साथ सहमत नहीं हूँ): arxiv.org/abs/1302.5468

6

आप और मैं दोनों वैज्ञानिक हैं, और वैज्ञानिकों के रूप में, साक्ष्य के सवालों में मुख्य रूप से रुचि रखते हैं। इस कारण से, मुझे लगता है कि बायेसियन दृष्टिकोण, जब संभव है, बेहतर हैं।

बायेसियन दृष्टिकोण हमारे प्रश्न का उत्तर देते हैं: एक परिकल्पना के लिए दूसरे पर सबूत की ताकत क्या है? दूसरी ओर, लगातार दृष्टिकोण, ऐसा नहीं करते: वे केवल रिपोर्ट करते हैं कि क्या डेटा अजीब हैं, एक परिकल्पना दी गई है।

उस ने कहा, एंड्रयू गेलमैन, उल्लेखनीय बायेसियन, मॉडल विनिर्देश में त्रुटियों के लिए एक चेक के रूप में पी-मूल्यों (या पी-मूल्य-जैसे ग्राफिकल चेक) के उपयोग को रद्द करने के लिए लगता है। आप इस ब्लॉग पोस्ट में इस दृष्टिकोण के लिए एक भ्रम देख सकते हैं ।

उनका दृष्टिकोण, जैसा कि मैं समझता हूं, यह दो-चरणीय प्रक्रिया की तरह है: सबसे पहले, वह बायेसियन से सवाल पूछते हैं कि एक मॉडल के दूसरे के लिए क्या सबूत है। दूसरा, वह फ़्रीक्वेंटिस्ट प्रश्न पूछता है कि क्या पसंदीदा मॉडल वास्तव में सभी प्रशंसनीय डेटा को देखता है। यह मुझे एक उचित हाइब्रिड दृष्टिकोण की तरह लगता है।


1
हालांकि गेलमैन ब्लॉग का लिंक वैध रहना चाहिए, लेकिन यह आधी रात के बाद "आज का" नहीं होगा। तदनुसार संपादित किया गया।
निक कॉक्स

8
मैं इस धारणा से पूरी तरह असहमत हूं कि बार-बार आने वाले दृष्टिकोण साक्ष्य को मापते नहीं हैं, और यह पूरी तरह से बायेसियन दुनिया में है। आप परिकल्पना परीक्षण की उत्पत्ति को छोड़ रहे हैं, जैसे कि LR परीक्षण, दूसरे के लिए साक्ष्य के खिलाफ एक परिकल्पना के प्रमाण को मापता है।
क्लिफ एबी

1
(+1) @CliffAB - "लगातार" आंकड़ों के बारे में सोचने वाले सभी लोगों के लिए, कृपया "संभावना अनुपात", "बिरनबाम के प्रमेय" को देखें, और शायद रोयाल को थोड़ा पढ़ लें .... भूसे में न जाएं। एनएचएसटी से जुड़े आदमी के तर्क - जो, वैसे, इसके कथित भयावह दोषों के बावजूद वैज्ञानिक प्रगति को कम करने के लिए नहीं लग रहा था .... ऐसा इसलिए है क्योंकि सांख्यिकीविद् कार्बन-आधारित MINITAB कार्यक्रम नहीं हैं ... वे सोचते हैं [हाँ, आँकड़े कर रहे हैं वास्तव में एक पेशा, जैसे दवा, या अर्थशास्त्र, या ऑटो-यांत्रिकी, ... आप सिर्फ एक पुस्तक नहीं पढ़ सकते हैं, एक सूत्र का प्रयास कर सकते हैं, और सत्य को अपनी गोद में ले जाने की उम्मीद कर सकते हैं]।

2
@Bey: व्यक्तिगत रूप से, मेरा मानना ​​है कि पी-मानों ने वैज्ञानिक प्रक्रिया में कुछ कमी की है (उस जीवविज्ञानी को पेपर प्रकाशित करने के लिए पार्ट टाइम सांख्यिकीविद बनने के लिए मजबूर किया जाता है, जिससे उन्हें जीवविज्ञानी होने का समय कम हो जाता है), लेकिन मैं नहीं किसी भी तरह से इस मूल्य को कम करने के लिए पी-मूल्यों के विकल्प को मत सोचो! मुझे लगता है कि पी-वैल्यू का मुद्दा उनकी सैद्धांतिक पृष्ठभूमि नहीं है, लेकिन गैर-सांख्यिकीविदों द्वारा उनके उपयोग में आसानी है। पिछली संभावनाएं, (उदाहरण के लिए) मुझे लगता है कि उस विशेष मुद्दे को और बेहतर बनाने के बजाय और भी बदतर बना दिया है।
क्लिफ एबी

2
@ क्लिफ़ैब अधिक सहमत नहीं हो सकता था ... उस तरफ से ऐसा नहीं सोचा था..लेकिन मुझे प्रकाशित करने की प्रकृति सिर्फ यह है कि ... जब तक कि अनुसंधान विभाग के कर्मचारी सांख्यिकीविद् नहीं रख सकते। किसी भी सांख्यिकीय उपकरण का दुरुपयोग नहीं किया जा सकता है, इसके उपयोग के जानकार नहीं ... दया सांख्यिकीय उपकरण का उपयोग करना इतना आसान लगता है ...

6

व्यक्तिगत रूप से मुझे ऐसी स्थिति के बारे में सोचने में कठिनाई हो रही है, जहां लगातार जवाब एक बायेसियन पर पसंद किया जाएगा। पी-मान और अशक्त परिकल्पना परीक्षण की समस्याओं के बारे में fharrell.com पर मेरी सोच यहाँ और अन्य ब्लॉग लेखों में विस्तृत है । फ़्रीक्वॉन्सर कुछ मूलभूत समस्याओं की अनदेखी करते हैं। यहाँ सिर्फ एक नमूना है:

  • निरंतर विचरण और कुछ अन्य मामलों के साथ गॉज़ियन रैखिक मॉडल के बाहर , गणना किए गए पी-मान आपके डेटासेट और मॉडल के लिए अज्ञात सटीकता के हैं
  • जब प्रयोग अनुक्रमिक या अनुकूली होता है, तो अक्सर ऐसा होता है कि एक पी-मूल्य की गणना भी नहीं की जा सकती है और कोई केवल प्राप्त करने के लिए एक समग्र स्तर निर्धारित कर सकता है।α
  • फ़्रीवोलॉजर्स को लगता है कि मैं जिस प्रकार की त्रुटि को नीचे नहीं जाने देता, उसे कहने में खुशी होती है, कहते हैं, 0.05 कोई फर्क नहीं पड़ता कि अब नमूना आकार बढ़ता है
  • बहुसांस्कृतिक सुधार कैसे होते हैं, इसके लिए कोई लगातार सुझाव नहीं दिया जाता है, जिसके परिणामस्वरूप तरीकों का तदर्थ हॉज-पॉज हो सकता है

पहले बिंदु के संबंध में, एक आमतौर पर इस्तेमाल किया जाने वाला मॉडल बाइनरी लॉजिस्टिक मॉडल है। इसकी लॉग संभावना बहुत गैर-द्विघात है, और इस तरह के मॉडल के लिए गणना की गई आत्मविश्वास सीमा और पी-मूल्यों का विशाल बहुमत बहुत सटीक नहीं है। इसके विपरीत, बायेसियन लॉजिस्टिक मॉडल के साथ, जो सटीक अनुमान प्रदान करता है।

दूसरों ने लगातार नियंत्रण का उपयोग करने के कारण के रूप में त्रुटि नियंत्रण का उल्लेख किया है । मुझे नहीं लगता कि यह तर्कसंगत है, क्योंकि जिस त्रुटि को वे संदर्भित करते हैं, वह लंबे समय तक चलने वाली त्रुटि है, एक प्रक्रिया की कल्पना करना जिसमें हजारों सांख्यिकीय परीक्षण चलाए जाते हैं। एक न्यायाधीश ने कहा कि "मेरे न्यायालय में लंबे समय से झूठे विश्वास की संभावना केवल 0.03 है" की अवज्ञा की जानी चाहिए। उसे वर्तमान प्रतिवादी के लिए सही निर्णय लेने की उच्चतम संभावना होने का आरोप है । दूसरी ओर एक शून्य से एक प्रभाव की पिछली संभावना शून्य या पीछे की ओर प्रभाव की संभावना है और त्रुटि की संभावना है जो हमें वास्तव में चाहिए।


2
"मल्टीप्लसिटी सुधार कैसे होते हैं, इसके लिए कोई लगातार सुझाव नहीं दिया जाता है, जिसके कारण तरीकों का एक तदर्थ हॉज-पॉज हो सकता है।" दूसरी ओर, मैंने कभी भी बेइज़ियन को कई गुना सुधार करते नहीं देखा। एंड्रयू गेलमैन ने भी गर्व के साथ घोषणा की कि वह कभी भी उनका उपयोग नहीं करता है। उदाहरण के लिए, मैंने लोगों को सीमान्त 95% विश्वसनीय अंतरालों की रिपोर्ट के लिए , लेकिन उन अंतरालों की संयुक्त विश्वसनीयता 95% नहीं है। और न ही यह स्पष्ट है कि इसे संबोधित करना सबसे अच्छा कैसे है। क्या आपके पास कोई सलाह या उदाहरण है? कश्मीरθ1,,θkk
दीवानी

5

कई लोग एक तीसरे दार्शनिक स्कूल के बारे में नहीं जानते हैं: संभावनावाद। AWF एडवर्ड्स की पुस्तक, लाइकलीहुड, शायद इस पर पढ़ने के लिए सबसे अच्छी जगह है। यहाँ एक छोटा लेख उन्होंने लिखा है।
संभावनावाद बेइज़ियनवाद की तरह, पी-मूल्यों को बढ़ाता है, लेकिन बायेसियन के अक्सर संदिग्ध पूर्व से भी बच जाता है। वहाँ एक परिचय उपचार है यहाँ के रूप में अच्छी तरह से।


5
कोलमोगोरोव के विचारों से विकसित, वोक्स द्वारा एल्गोरिदमिक संभावना दृष्टिकोण है।
अक्कल

2
"बहुत से लोग एक तिहाई दार्शनिक स्कूल के बारे में पता नहीं है: likelihoodism" मुझे नहीं लगता कि इस वाक्य 2016 में सच है कि ...
टिम

4
@ टिम, हालांकि हर कोई जानता है कि मैं अक्सरवाद और बायेसियनवाद से परिचित हूं, मैं कभी भी किसी से भी नहीं मिला हूं जिसने संभावनावाद के बारे में सुना था। मूल प्रश्नकर्ता मेरे सहकर्मियों की तरह प्रतीत होता है जिन्हें बार-बार प्रशिक्षित किया जाता था और वे बेइज़ियनिज़्म में दिलचस्पी ले रहे थे। शायद ज्यादातर लोग जो मेरे उत्तर को पढ़ते हैं, मुझे लगता है कि मैं संभावना अनुपात का उपयोग करके अधिकतम संभावना अनुमान या परीक्षण परिकल्पना का उल्लेख कर रहा हूं। नहीं! मैं युडी पावितान और इस व्याख्यान का
स्टेन

7
उन तरीकों में से कोई भी धर्म है, इसलिए वहाँ विश्वास करने के लिए बहुत ज्यादा नहीं है, वे समस्याओं में से कुछ प्रकार के लिए सिर्फ सहायक होते हैं, और तरीकों में से कुछ दूसरों के लिए :) कुछ समस्याओं के लिए बेहतर अनुकूल और अन्य कर रहे हैं
टिम

1
(+1) स्कूल की संभावना का उल्लेख करने के लिए और पवन के संबंध में टिप्पणी के लिए। पवन की पुस्तक "इन ऑल लाइकलीहुड" नाटकीय रूप से व्यापक और सांख्यिकीय अभ्यास द्वारा बढ़ी ... मुझे केवल बेस बनाम फ्रीक्वेंटिज्म के बारे में पता था। वह बेयस के "दैहिक" शास्त्रीयतावाद के बहुत से दार्शनिक और पद्धतिगत पहलुओं से निपटता है, और निश्चित रूप से, शुद्ध संभावना स्कूल को कवर करता है। आँकड़ों के अधिक परिष्कृत उपयोगकर्ता बनने के लिए बस एक शानदार पुस्तक ... आपके दार्शनिक झुकाव की परवाह किए बिना।

4

मॉडल निर्माण के लिए लगातार दृष्टिकोण के सबसे बड़े नुकसान में से एक हमेशा से रहा है, जैसा कि TrynnaDoStats अपने पहले बिंदु में नोट करता है, बड़े बंद-रूप समाधानों को सम्मिलित करने से जुड़ी चुनौतियां। क्लोज्ड-फॉर्म मैट्रिक्स इनवर्जन के लिए आवश्यक है कि रैम में पूरे मैट्रिक्स का निवासी होना चाहिए, बड़ी मात्रा में डेटा या बड़े पैमाने पर श्रेणीबद्ध विशेषताओं के साथ एकल सीपीयू प्लेटफार्मों पर एक महत्वपूर्ण सीमा। बेयसियन तरीके इस चुनौती के आसपास काम करने में सक्षम हैं, एक निर्दिष्ट पूर्व से यादृच्छिक ड्रॉ का अनुकरण करके। यह हमेशा बायेसियन समाधान के सबसे बड़े विक्रय बिंदुओं में से एक रहा है, हालांकि उत्तर केवल सीपीयू में एक महत्वपूर्ण लागत पर प्राप्त होते हैं।

एंड्रयू एंस्ली और केन ट्रेन, लगभग 10 साल पहले के एक पेपर में, मैंने बिएसियन दृष्टिकोण के साथ मॉडल-निर्माण के लिए परिमित मिश्रण (जो अक्सर या बंद रूप हैं) की तुलना में संदर्भ खो दिया है, और पाया कि कार्यात्मक रूपों की एक विस्तृत श्रृंखला में और प्रदर्शन मेट्रिक्स, दो तरीकों ने अनिवार्य रूप से बराबर परिणाम दिए। जहां बेयसियन समाधानों में एक किनारे था या अधिक लचीलापन उन उदाहरणों में थे जहां जानकारी विरल और बहुत उच्च-आयामी दोनों थी।

हालाँकि, उस पेपर को "डिवाइड एंड कॉनकर" एल्गोरिदम से पहले लिखा गया था, जो कि बड़े पैमाने पर समानांतर प्लेटफार्मों का लाभ उठाता था, उदाहरण के लिए, इस बारे में अधिक http://dimacs.rutgers.edu/TechnicalRadports/TechReports/2012/2012 के लिए चेन और मिंग के पेपर देखें। 01.pdf

डी एंड सी दृष्टिकोण के आगमन का मतलब है कि, यहां तक ​​कि सबसे अधिक बालों वाली, सबसे उच्च आयामी समस्याओं के लिए, बेयसियन दृष्टिकोण अब लगातार तरीकों पर एक फायदा नहीं है। दो विधियाँ समता में हैं।

यह अपेक्षाकृत हालिया विकास किसी भी पद्धति के व्यावहारिक लाभ या सीमाओं के बारे में किसी भी बहस में ध्यान देने योग्य है।


मुझे लगता है कि यह चर्चा (+1) का एक अच्छा जोड़ है, लेकिन मुझे इसका पालन करना कठिन लगता है। यह वास्तव में, वास्तव में, वास्तव में इसकी पंच-रेखा को स्थगित करता है ... शायद आप इसे थोड़ा पुनर्गठित कर सकते हैं? :)
us atr11852

@ user11852 आप यह नहीं कहते हैं कि पोस्ट कुछ उपयोगी संवाद करने में विफल रहती है, जबकि आप तार्किक मानकों के विकास को पाते हैं। चूंकि यह धागा "समुदाय" चला गया है, इसलिए मैं आपके सुझाव के आसपास इसे पुनर्गठित करने के लिए बहुत अधिक इच्छुक (प्रेरित) नहीं हूं। यह जैसा है वैसा ही खड़ा रह सकता है। लेकिन upvote और टिप्पणी के लिए वैसे भी धन्यवाद।
माइक हंटर

1.) मैट्रिक्स उलटा अक्सर MLE आकलन के लिए उपयोग किया जाता है (जो कि कई लगातार तरीकों में से एक है), लेकिन हमेशा नहीं। MLE आकलन में मेरे काम में अक्सर पैरामीटर तक अनुकूलन शामिल होता है (यानी पैरामीटर स्थान नमूना आकार के साथ रैखिक रूप से बढ़ सकता है) और मैट्रिक्स व्युत्क्रम बिल्कुल विकल्प नहीं है ... लेकिन मैं अभी भी संभावना का अनुकूलन करता हूं! 2.) मैट्रिक्स का उलटा अभी भी बेज़ियन सांख्यिकी में हर समय होता है, जैसे कि ब्लॉक अपडैटर नमूना। n
क्लिफ एबी

@CliffAB मैं क्रॉस-उत्पादों के मैट्रिक्स के एनोवा-प्रकार के व्युत्क्रम के बारे में सोच रहा था।
माइक हंटर

@DJohnson: मैं देख रहा हूँ। लेकिन मेरा कहना था कि मैट्रिक्स का उलटा लगातार बनाम बायेसियन तरीकों के लिए रूढ़िवादी है; दोनों शिविर उन उपकरणों का उपयोग करते हैं जो अपने कई तरीकों में बहुत समान (कम से कम कम्प्यूटेशनल लागत के संदर्भ में) करते हैं।
क्लिफ एबी

3

बार-बार होने वाले परीक्षण अशक्त परिकल्पना को गलत साबित करते हैं। हालांकि, Null हाइपोथीसिस सिग्नेचर टेस्टिंग (NHST) को बायेसियन परिप्रेक्ष्य से भी किया जा सकता है, क्योंकि सभी मामलों में NHST केवल P (अवलोकित प्रभाव | प्रभाव = 0) की गणना है। इसलिए, ऐसे समय की पहचान करना कठिन है जब एनएचएसटी को लगातार परिप्रेक्ष्य से संचालित करना आवश्यक होगा।

कहा जा रहा है कि, लगातार दृष्टिकोण का उपयोग करते हुए NHST के संचालन के लिए सबसे अच्छा तर्क आसानी और पहुंच है। लोगों को लगातार आंकड़े सिखाए जाते हैं। इसलिए, अक्सर एक एनएचएसटी को चलाना आसान होता है, क्योंकि कई और सांख्यिकीय पैकेज हैं जो ऐसा करने के लिए सरल बनाते हैं। इसी तरह, लगातार एनएचएसटी के परिणामों को संप्रेषित करना आसान है, क्योंकि लोग एनएचएसटी के इस रूप से परिचित हैं। इसलिए, मैं देखता हूं कि लगातार दृष्टिकोण के लिए सबसे अच्छा तर्क के रूप में: सांख्यिकी कार्यक्रमों की पहुंच जो उन्हें चलाएंगे और सहकर्मियों को परिणामों के संचार में आसानी होगी। यह सिर्फ सांस्कृतिक है, हालांकि, यह तर्क बदल सकता है अगर लगातार दृष्टिकोण अपना आधिपत्य खो देते हैं।


5
जब तक आप सटीक उद्धरण प्रदान कर सकते हैं, फिशर ने क्या सोचा था, इस बारे में टिप्पणियां यहां दिखाई गईं। शून्य परिकल्पना एक उपकरण है जो छोटे नमूनों से अधिक-व्याख्यात्मक परिणामों से वैज्ञानिकों को हतोत्साहित करने की कोशिश करने के लिए एक महत्वपूर्ण परीक्षण के एक भाग के रूप में है। फिशर किसी और के रूप में उत्सुक था कि वैज्ञानिकों को अच्छे विज्ञान करने के लिए आँकड़ों का उपयोग करना चाहिए; वह खुद आनुवांशिकी में बहुत गंभीर योगदानकर्ता थे।
निक कॉक्स

4
मैं पूरी तरह से सहमत हूं, और इसलिए मैंने फिशर की मानसिक स्थिति के बारे में अटकलों को दूर करने के लिए उत्तर को संपादित किया।
लिज़ पेज-गोल्ड

3

कई टिप्पणियाँ:

  • बायेसियन और अक्सरवादी सांख्यिकीविद् के बीच मूलभूत अंतर यह है कि बायेसियन उन स्थितियों के लिए प्रायिकता के साधनों का विस्तार करने के लिए तैयार है, जहां व्यक्ति अक्सर नहीं होता।

    • विशेष रूप से, बायेसियन विभिन्न मापदंडों पर अपने स्वयं के मन में अनिश्चितता को मॉडल करने की संभावना का उपयोग करने के लिए तैयार है । लगातार करने वाले के लिए, ये पैरामीटर स्केलर होते हैं (यद्यपि स्केलर जहां सांख्यिकीविद् को सही मूल्य नहीं पता है)। बायेसियन के लिए, विभिन्न मापदंडों को यादृच्छिक चर के रूप में दर्शाया जाता है! यह बेहद अलग है। बायलेसियन के मापदंडों से अधिक अनिश्चितता एक पूर्व द्वारा प्रतिनिधित्व की गई है ।
  • बायेसियन आंकड़ों में, यह आशा है कि डेटा का अवलोकन करने के बाद, पीछे पूर्व को भारी कर देता है, इससे पहले कि कोई फर्क नहीं पड़ता। लेकिन अक्सर ऐसा नहीं होता है: परिणाम पूर्व की पसंद के प्रति संवेदनशील हो सकते हैं! अलग-अलग पुजारियों के साथ अलग-अलग बायेसियन को पोस्टीरियर पर सहमत होने की आवश्यकता नहीं है।

ध्यान रखने की एक महत्वपूर्ण बात यह है कि लगातार सांख्यिकीविद् के बयान ऐसे बयान हैं जो कि किसी भी दो बायेसियन पर सहमत हो सकते हैं, उनकी पूर्व मान्यताओं की परवाह किए बिना!

प्रायोजक पुजारियों या डाकियों पर टिप्पणी नहीं करता है, केवल संभावना है।

कुछ अर्थों में अक्सर सांख्यिकीविद् के बयान कम महत्वाकांक्षी होते हैं, लेकिन बायेसियन के बोल्डर स्टेटमेंट पूर्व के असाइनमेंट पर काफी भरोसा कर सकते हैं। ऐसी स्थितियों में जहां पुजारी मायने रखते हैं और जहां पुजारियों पर असहमति होती है, अक्सर सीमित आंकड़ों के अधिक सीमित, सशर्त बयान बाड़मेर की जमीन पर खड़े हो सकते हैं।


2

ज्यादा शोध का लक्ष्य अंतिम निष्कर्ष तक पहुंचना नहीं है, बल्कि सिर्फ एक दिशा में एक प्रश्न के समुदाय की भावना को बढ़ाने के लिए थोड़ा और साक्ष्य प्राप्त करना है

जब आपको किसी निर्णय या निष्कर्ष का मूल्यांकन करने के लिए उपलब्ध साक्ष्य के आलोक में बायसन के आँकड़े अपरिहार्य हों। बायेसियन आंकड़ों के बिना गुणवत्ता नियंत्रण असंभव होगा। कोई भी प्रक्रिया जहां आपको कुछ डेटा लेने की आवश्यकता होती है और फिर उस पर कार्य करते हैं (रोबोटिक्स, मशीन लर्निंग, बिजनेस डिसीजन मेकिंग) बायेसियन आंकड़ों से लाभान्वित होते हैं।

लेकिन बहुत सारे शोधकर्ता ऐसा नहीं कर रहे हैं। वे कुछ प्रयोग कर रहे हैं, कुछ डेटा एकत्र कर रहे हैं, और फिर कह रहे हैं "डेटा इस तरह इंगित करता है", वास्तव में इस बात के बारे में बहुत चिंता किए बिना कि क्या अब तक के सभी साक्ष्य दूसरों को दिए गए सबसे अच्छे निष्कर्ष हैं। विज्ञान एक धीमी प्रक्रिया हो सकती है, और एक बयान "संभावना है कि यह मॉडल सही है 72%!" अक्सर समय से पहले या अनावश्यक होता है।

यह एक सरल गणितीय तरीके से भी उचित है, क्योंकि अक्सर सांख्यिकीविदों को गणितीय रूप से एक बायेसियन सांख्यिकीय के अपडेट-स्टेप के रूप में समान किया जाता है। दूसरे शब्दों में, जबकि बायेसियन आँकड़े (पूर्व मॉडल, साक्ष्य) → नया मॉडल है, लगातार आंकड़े केवल साक्ष्य है, और अन्य दो भागों में भरने के लिए इसे दूसरों पर छोड़ देता है।


हालाँकि इस पोस्ट का बहुत कुछ दिलचस्प है, लेकिन इसमें कई असमर्थित राय हैं। इस साइट पर किस प्रकार के उत्तर अपेक्षित हैं, इस बारे में कृपया हमारे सहायता केंद्र से परामर्श करें ।
व्हीबर

@ जब भी मैं देखता हूं। मैंने एक प्रशस्ति पत्र जोड़ा है जिसे मैं अपने सिर के ऊपर से याद कर सकता हूं, लेकिन बाकी के लिए मेरे पास उद्धरण नहीं हैं, इसलिए यदि यह बहुत असमर्थ लगता है तो मैं इसे हटा सकता हूं।
ओवेन

5
मुझे आश्चर्य है कि आपने गुणवत्ता नियंत्रण का उल्लेख किया है, क्योंकि ऐसा लगता है कि ऐसा क्षेत्र जहां प्रायिकता की अक्सर व्याख्या (कई परीक्षणों पर सापेक्ष आवृत्ति) बहुत स्वाभाविक होगी: यह देखते हुए कि कारखाना सही ढंग से काम कर रहा है, हम इसे कई बार देख सकते हैं (या अधिक) टूटे हुए विजेट? क्या मैं आपको इस बारे में विस्तार से बताने के लिए प्रेरित कर सकता हूँ कि विशेष रूप से क्यूसी के लिए बायेसियन आँकड़े क्या हैं?
मैट क्रस

@MattKrause मान लें कि हमारा लक्ष्य <1% पर दोषपूर्ण विजेट को शिप करना है। हम जानते हैं कि कारखाने में 10% की दर से दोषपूर्ण विगेट्स का उत्पादन होता है, और हमारे पास एक परीक्षण होता है जिसका प्रकार- I और प्रकार- II त्रुटि दर s और 1 / (sqrt (4 - 1 / s ^ 2)) है जहां s एक है कठोरता पैरामीटर। हमें सख्ती के लिए क्या उपयोग करना चाहिए?
ओवेन

2
यह विचार कि बार-बार के आँकड़े क्रमिक अध्ययनों से जानकारी को जोड़ नहीं सकते हैं, मेटा-विश्लेषण के क्षेत्र की उपेक्षा करता है।
क्लिफ एबी

2

बायेसियन पद्धति का वास्तविक निष्पादन एक फ्रीक्वेंटिस्ट की तुलना में अधिक तकनीकी है। "अधिक तकनीकी" से मेरा मतलब है जैसे: 1) पुजारी चुनना, 2) अपने मॉडल को BUGS / JAGS / STAN में प्रोग्रामिंग करना, और 3) नमूनाकरण और अभिसरण के बारे में सोचना।

स्पष्ट रूप से, # 1 बायेसियन की परिभाषा के अनुसार बहुत अधिक वैकल्पिक नहीं है। हालांकि कुछ समस्याओं और प्रक्रियाओं के साथ, उचित चूक हो सकती हैं, कुछ समस्या को उपयोगकर्ता से छिपाते हुए। (हालांकि यह भी समस्याएं पैदा कर सकता है!)

क्या # 2 एक मुद्दा है जो आपके द्वारा उपयोग किए जाने वाले सॉफ़्टवेयर पर निर्भर करता है। बायेसियन सांख्यिकी में अक्सर सांख्यिकीय विधियों की तुलना में अधिक सामान्य समाधानों की ओर झुकाव होता है, और BUGS, JAGS और STAN जैसे उपकरण इस की एक स्वाभाविक अभिव्यक्ति हैं। हालांकि, विभिन्न सॉफ्टवेयर पैकेजों में बेयसियन फ़ंक्शन हैं जो विशिष्ट अक्सरवादी प्रक्रिया की तरह काम करते दिखाई देते हैं, इसलिए यह हमेशा एक मुद्दा नहीं होता है। (और आर संकुल जैसे हाल के समाधान rstanarmऔर brmsइस अंतर को पाट रहे हैं।) फिर भी, इन उपकरणों का उपयोग करना एक नई भाषा में प्रोग्रामिंग के समान है।

आइटम # 3 आमतौर पर लागू होता है, क्योंकि बहु-विश्व बायेसियन एप्लिकेशन MCMC नमूने का उपयोग करने जा रहे हैं। (दूसरी ओर, अक्सर MLE- आधारित प्रक्रियाएँ अनुकूलन का उपयोग करती हैं, जो एक स्थानीय मिनीमा में परिवर्तित हो सकती हैं या बिल्कुल भी अभिसरण नहीं होती हैं, और मुझे आश्चर्य होता है कि कितने उपयोगकर्ताओं को इसकी जाँच करनी चाहिए और क्या नहीं?)

जैसा कि मैंने एक टिप्पणी में कहा, मुझे यकीन नहीं है कि पुजारियों से स्वतंत्रता वास्तव में एक वैज्ञानिक लाभ है। यह प्रकाशन प्रक्रिया में कई मायनों में और कई बिंदुओं पर निश्चित रूप से सुविधाजनक है, लेकिन मुझे यकीन नहीं है कि यह वास्तव में बेहतर विज्ञान के लिए बनाता है। (और बड़ी तस्वीर में, हम सभी को हमारे पुरोहितों को वैज्ञानिकों के रूप में जानना होगा, या हम अपनी जांच में सभी प्रकार के पूर्वाग्रहों से पीड़ित होंगे, चाहे हम किसी भी सांख्यिकीय तरीके का उपयोग करें।)


(3) के संबंध में, कई शास्त्रीय सांख्यिकी मॉडल (यानी glm) के अवतल लॉग-लाइकहुड हैं, इसलिए यह बहुत दुर्लभ है कि मानक एल्गोरिदम विफल हो जाना चाहिए, चरम कोने के मामलों के बाहर। गैर-अवतल समस्याओं (यानी एनएनएस) के संबंध में, जबकि इनको अनुचित अभिसरण (जिसे आमतौर पर उपयोगकर्ताओं द्वारा समझा जाता है) के बारे में भारी चिंता की आवश्यकता होती है, ये (संयोगवश नहीं) भी ऐसी समस्याएं हैं जिनमें क्लासिक MCMC एल्गोरिदम केवल तभी चलने पर बुरी तरह से विफल हो जाएंगे , कहते हैं, एक इंसान का जीवनकाल। हालाँकि, यह आम तौर पर अनुकूलन एल्गोरिथ्म की तुलना में MCMC को ठीक करने के लिए एक खिंचाव से कम है!
क्लिफ एबी

2

वैचारिक रूप से : मुझे नहीं पता। मेरा मानना ​​है कि बायेसियन आँकड़े सोचने का सबसे तार्किक तरीका है, लेकिन मैंने इस बात को सही नहीं ठहराया है।

लगातार होने का फायदा यह है कि प्राथमिक स्तर पर ज्यादातर लोगों के लिए यह आसान है। लेकिन मेरे लिए यह अजीब था। जब तक मैं वास्तव में बौद्धिक रूप से स्पष्ट कर सकता हूं कि एक आत्मविश्वास अंतराल क्या है, तब तक वर्षों लग गए। लेकिन जब मैंने व्यावहारिक परिस्थितियों का सामना करना शुरू किया, तो लगातार विचार सरल और अत्यधिक प्रासंगिक प्रतीत होते थे।

अनुभव

सबसे महत्वपूर्ण प्रश्न जो मैं आजकल ध्यान केंद्रित करने की कोशिश करता हूं वह व्यावहारिक दक्षता के बारे में अधिक है: व्यक्तिगत काम का समय, सटीक और गणना की गति।

व्यक्तिगत काम का समय: बुनियादी सवालों के लिए, मैं वास्तव में लगभग बायेसियन विधियों का उपयोग नहीं करता हूं: मैं बुनियादी लगातार उपकरणों का उपयोग करता हूं और हमेशा एक बायेसियन समकक्ष पर एक टी-परीक्षण पसंद करूंगा जो मुझे बस एक सिरदर्द देगा। जब मैं जानना चाहता हूं कि क्या मैं अपनी प्रेमिका की तुलना में tictactoe में काफी बेहतर हूं, तो मैं ची-स्क्वर्ट :-) करता हूं। दरअसल, एक कंप्यूटर वैज्ञानिक के रूप में गंभीर काम में भी, लगातार बुनियादी उपकरण समस्याओं की जांच करने और यादृच्छिक के कारण गलत निष्कर्ष से बचने के लिए सिर्फ अमूल्य हैं।

परिशुद्धता: मशीन सीखने में जहां भविष्यवाणी विश्लेषण से अधिक मायने रखती है, वहाँ बेयसियन और अक्सरवादी के बीच एक पूर्ण सीमा नहीं है। MLE एक अक्‍सर एक एक्‍सीडेंट एक्‍सेस है: सिर्फ एक अनुमानक। लेकिन नियमित MLE (MAP) आंशिक रूप से बायेसियन दृष्टिकोण है : आप पोस्टीरियर के मोड को ढूंढते हैं और आप बाकी पोस्टीरियर की परवाह नहीं करते हैं। मुझे नियमितीकरण के औचित्य का पता नहीं है कि नियमितीकरण का उपयोग क्यों करें। व्यावहारिक रूप से, नियमितीकरण कभी-कभी अपरिहार्य होता है क्योंकि कच्चे MLE का अनुमान इतना अधिक होता है कि 0 एक बेहतर भविष्यवक्ता होगा। यदि नियमितीकरण को वास्तव में बायेसियन पद्धति माना जाता है, तो यह अकेले ही उचित है कि बेयस कम डेटा के साथ सीख सकता है।

अभिकलन गति: लगातार विधियां सबसे अधिक कम्प्यूटेशनल रूप से तेज और सरल होती हैं, जिन्हें कार्यान्वित किया जाता है। और किसी भी तरह नियमितीकरण उन में थोड़ा सा बे को पेश करने का एक सस्ता तरीका प्रदान करता है। यह इसलिए हो सकता है कि बायेसियन तरीके अभी भी उतने अनुकूलित नहीं हैं जितना कि वे कर सकते थे। उदाहरण के लिए, कुछ एलडीए कार्यान्वयन आजकल तेजी से हैं। लेकिन उन्हें बहुत मेहनत की आवश्यकता थी। एन्ट्रापी अनुमानों के लिए, पहले उन्नत तरीके बेयसियन थे। उन्होंने बहुत अच्छा काम किया लेकिन जल्द ही अक्सरवादी तरीकों की खोज की गई और बहुत कम गणना समय लिया गया ... गणना समय के लिए अक्सरवादी तरीके स्पष्ट रूप से बेहतर होते हैं। यह बेतुका नहीं है, यदि आपके बायेसियन हैं, तो लगातार तरीकों को बायेसियन तरीकों के अनुमान के रूप में सोचते हैं।


2
"मुझे नियमितीकरण के औचित्य के बारे में पता नहीं है कि क्यों [नियमित उपयोग के लिए]"। यह आसान है; दोहराया परीक्षणों के तहत, यह आउट-ऑफ-सैंपल त्रुटि को कम करने के लिए दिखाया गया है।
एबी एबी

2

एक प्रकार की समस्या जिसमें एक विशेष आवृत्तिवादी आधारित दृष्टिकोण अनिवार्य रूप से किसी भी बायेशियन पर हावी है, वह है एम-ओपन मामले में भविष्यवाणी।

एम-ओपन का क्या अर्थ है?

yxx

ज्यादातर मामलों में, बेयसियन विश्लेषण के लिए यह एक बड़ी समस्या है; बहुत अधिक सभी सिद्धांत जो मुझे पता है कि मॉडल पर निर्भर करता है सही ढंग से निर्दिष्ट किया जा रहा है। बेशक, महत्वपूर्ण सांख्यिकीविदों के रूप में, हमें यह सोचना चाहिए कि हमारा मॉडल हमेशा गलत है। यह काफी मुद्दा है; हमारा अधिकांश सिद्धांत मॉडल के सही होने पर आधारित है, फिर भी हम जानते हैं कि यह कभी नहीं है। असल में, हम बस अपनी उँगलियों को पार कर रहे हैं उम्मीद है कि हमारा मॉडल बहुत गलत नहीं है।

फ़्रीक्वेंटिस्ट तरीके इसे बेहतर तरीके से क्यों संभालते हैं?

सभी नहीं करते। उदाहरण के लिए, यदि हम मानक त्रुटि पैदा करने या पूर्वानुमान अंतराल के निर्माण के लिए मानक MLE टूल का उपयोग करते हैं, तो हम बायेसियन विधियों का उपयोग करने से बेहतर नहीं हैं।

हालांकि, एक विशेष फ्रिक्वेंटिस्ट टूल है जो विशेष रूप से बिल्कुल इस उद्देश्य के लिए है: क्रॉस सत्यापन। यहां, यह अनुमान लगाने के लिए कि हमारा मॉडल नए डेटा पर कितनी अच्छी भविष्यवाणी करेगा, हम बस मॉडल को फिट करते समय कुछ डेटा छोड़ देते हैं और मापते हैं कि हमारा मॉडल अनदेखी डेटा की कितनी अच्छी भविष्यवाणी करता है।

ध्यान दें कि यह विधि पूरी तरह से मॉडल मिस-स्पेसिफिकेशन के लिए अस्पष्ट है, यह केवल हमारे लिए यह अनुमान लगाने की एक विधि प्रदान करती है कि कोई मॉडल नए डेटा पर कितनी अच्छी तरह से भविष्यवाणी करेगा, चाहे मॉडल "सही" हो या नहीं।

मैं इसे बहस करने कि यह वास्तव में भविष्य कहनेवाला मॉडलिंग कि एक बायेसियन नजरिए से सही ठहराने के लिए मुश्किल है के लिए दृष्टिकोण में परिवर्तन भी मुश्किल है नहीं लगता है (पूर्व देखकर डेटा से पहले पूर्व ज्ञान के प्रतिनिधित्व करने के लिए माना जाता है, संभावना समारोह है एक के लिए मॉडल, आदि) यह एक आवृत्तिवादी दृष्टिकोण से औचित्य करना बहुत आसान है (हमने मॉडल + नियमितीकरण मापदंडों को चुना, जो कि बार-बार नमूना लेने पर, नमूना त्रुटियों में से सबसे अच्छा होता है)।

इसने पूरी तरह से क्रांति ला दी है कि भविष्यवाणी कैसे की जाती है। मुझे नहीं लगता कि कोई भी सांख्यिकीविद् (या कम से कम, चाहिए) गंभीरता से एक भविष्य कहनेवाला मॉडल पर विचार करें, जो क्रॉस-मान्यता के साथ निर्मित या जाँच नहीं किया गया था, जब यह उपलब्ध है (यानी, हम उचित मान सकते हैं कि अवलोकन स्वतंत्र हैं, खाते की कोशिश नहीं कर रहे हैं पूर्वाग्रह के नमूने के लिए, आदि)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.