आवृत्तिवाद और पुजारी


17

इस पोस्ट के लिए एक टिप्पणी में रॉबी मैककिलियम कहते हैं :

यह ध्यान दिया जाना चाहिए कि, आवृत्ति के दृष्टिकोण से, ऐसा कोई कारण नहीं है कि आप पूर्व ज्ञान को मॉडल में शामिल नहीं कर सकते हैं। इस अर्थ में, अक्सर देखने वाला दृष्टिकोण सरल होता है, आपके पास केवल एक मॉडल और कुछ डेटा होता है। पूर्व सूचना को मॉडल से अलग करने की आवश्यकता नहीं है

इसके अलावा, यहाँ , @jbowman का कहना है कि फ़्रीक्वेंसी एक लागत / दंड समारोह द्वारा नियमितीकरण का उपयोग करते हैं, जबकि बायेसियन इसे पूर्व कर सकते हैं:

फ्रिक्वेंसीज़ ने महसूस किया कि नियमितीकरण अच्छा था, और इन दिनों इसका उपयोग सामान्य तौर पर किया जाता है - और बेयसियन पादरियों को नियमितीकरण के रूप में आसानी से व्याख्या किया जा सकता है।

तो, मेरा सवाल यह है कि क्या बायोसियन याजकों के रूप में निर्दिष्ट किए गए अपने मॉडल में सामान्य रूप से शामिल हो सकते हैं? नियमितीकरण को एक उदाहरण के रूप में लेते हुए, क्या लागत / दंड समारोह वास्तव में मॉडल में एकीकृत है, या यह समाधान को समायोजित करने का एक विशुद्ध रूप से कृत्रिम साधन है (और साथ ही इसे अद्वितीय बना रहा है)?


क्या कोई मॉडरेटर जम्बोमैन और रॉबी को सूचित कर सकता है, ताकि वे विस्तृत रूप से बता सकें? या यह उचित नहीं है?
पैट्रिक

1
पैट्रिक, आप "@" निर्माण का उपयोग करके इस साइट के किसी भी सदस्य को सूचित कर सकते हैं। मैंने इसे एक छोटे से संपादन के साथ चित्रित किया है।
whuber

यह दोनों स्थानों में काम करता है :-)।
whuber

Gee, @whuber, मुझे सूचित नहीं किया गया ... शायद संपादन नहीं करते हैं? अब मैं उत्सुक हूं।
जूलमैन

1
ठीक है, यह पता चला है कि मैं गलत था : "@" तंत्र टिप्पणियों में काम करता है, सवालों में नहीं। (लेकिन jbowman इस सवाल वैसे भी मिल गया।)
whuber

जवाबों:


8

रॉबी मैककिलियम की टिप्पणी के संबंध में: मुझे लगता है कि एक कठिनाईवादी को "पूर्व ज्ञान" की परिभाषा में इस झूठ के साथ होगा, एक मॉडल में पूर्व ज्ञान को शामिल करने की क्षमता के साथ इतना नहीं। उदाहरण के लिए, इस संभावना का अनुमान लगाने पर विचार करें कि एक दिया गया सिक्का ऊपर आ जाएगा। आइए मान लें कि मेरा पूर्व ज्ञान, अनिवार्य रूप से, एक प्रयोग था, जिसमें वह सिक्का 10 बार फ़्लिप किया गया था और 5 सिर के साथ आया था, या शायद इस रूप में "कारखाने ने 1 मिलियन सिक्के बनाए, और के dist'n , के रूप में विशाल प्रयोगों द्वारा निर्धारित किया जाता है, β ( एक , )पीβ(,)"। हर कोई बेयस नियम का उपयोग करता है जब आपके पास वास्तव में इस प्रकार की पूर्व सूचना होती है (बेयस नियम केवल सशर्त संभावना को परिभाषित करता है, यह बायेसियन-केवल एक चीज नहीं है) इसलिए वास्तविक जीवन में लगातार और बायेसियन एक ही दृष्टिकोण का उपयोग करेंगे, और बेयस नियम के माध्यम से मॉडल में जानकारी को शामिल करें। (कैविएट: जब तक कि आपके नमूने का आकार पर्याप्त बड़ा न हो कि आप सुनिश्चित हैं कि पूर्व सूचना का परिणामों पर प्रभाव नहीं पड़ रहा है।) हालांकि, परिणामों की व्याख्या है। बेशक, अलग।

कठिनाई उत्पन्न होती है, विशेषकर दार्शनिक दृष्टिकोण से, क्योंकि ज्ञान कम उद्देश्यपूर्ण / प्रायोगिक और अधिक व्यक्तिपरक हो जाता है। जैसा कि ऐसा होता है, अक्सर व्यक्ति को इस जानकारी को मॉडल में शामिल करने की संभावना कम हो जाती है, जबकि बायेसियन के पास अभी भी ऐसा करने के लिए कुछ और-या-कम औपचारिक तंत्र हैं, व्यक्तिपरक पूर्व सूचना के बावजूद एक व्यक्ति को परेशान करने की कठिनाइयों।

नियमितीकरण के संबंध में: एक संभावना पर विचार करें और एक पूर्व पी ( θ ) । वहाँ रोकने के लिए कुछ,, द्वारा अधिकतम संभावना अनुमान "नियमित" का उपयोग करने से एक frequentist है कम से कम तकनीकी रूप से नहीं लॉग पी ( θ ) , के रूप में:एल(θ;एक्स)पी(θ)लॉगपी(θ)

θ~=अधिकतमθ{लॉगएल(θ;एक्स)+लॉगपी(θ)}

पी(θ)θθ~

फिर से, दार्शनिक दृष्टिकोण से कठिनाई पैदा होती है। एक नियमितीकरण फ़ंक्शन को दूसरे पर क्यों चुनें? एक बायेसियन ऐसा कर सकता है - पूर्व सूचना पर जाकर - पूर्व सूचना का आकलन करके। एक व्यक्ति के लिए एक कठिन समय होगा (उन पर असमर्थ होना;) उन आधारों पर एक विकल्प का औचित्य साबित कर सकता है, लेकिन नियमित रूप से कार्य के गुणों के आधार पर ऐसा करने की संभावना होगी, जैसा कि उसकी / उसकी समस्या पर लागू होता है, जैसा कि संयुक्त से सीखा गया है। कई सांख्यिकीविदों का काम / अनुभव। OTOH, (व्यावहारिक) Bayesians पुजारियों के साथ भी ऐसा करते हैं - अगर मेरे पास पुर्जों पर हर पेपर के लिए $ 100 था जो मैंने पढ़ा है ...

अन्य "विचार": मैंने यह मानते हुए कि यह लगातार / बेइज़ियन दृष्टिकोण से अप्रभावित है एक संभावना समारोह का चयन करने के पूरे मुद्दे को छोड़ दिया है। मुझे यकीन है कि ज्यादातर मामलों में यह है, लेकिन मैं कल्पना कर सकता हूं कि असामान्य परिस्थितियों में, उदाहरण के लिए, कम्प्यूटेशनल कारणों से।

θθ


तो फिर, अगर मैं आपको सही समझ रहा हूं: तकनीकी रूप से, औपचारिक रूप से, एक व्यक्ति अक्सर उतना ही नियमित कर सकता है जितना उसे पसंद है लेकिन (ओं) उसे समस्या का औचित्य साबित होगा। एक बायेसियन को अभी भी अपने नियमितीकरण को निर्धारित करने में परेशानी हो सकती है, लेकिन गुणात्मक रूप से उसे शामिल करने का एक सुसंगत तरीका है।
पैट्रिक

Bayesian को MAP बिंदु अनुमान का उपयोग करने के लिए भी बाध्य नहीं किया जाता है, जिसके पूर्ण वितरण के बाद उपयोग होता है - लेकिन फिर, व्यक्ति को नियमित रूप से लॉग संभावना को अधिकतम करने की आवश्यकता नहीं होती है, विभिन्न मजबूत अनुमानों का उपयोग करने में सक्षम होने, या विधि-की -मोमेंट आदि उपलब्ध होने पर। फ़्रीक्वेंटिस्ट को अधिकतम करने की आवश्यकता नहीं है। लेकिन यह अभी भी एक विधि है जो फ़्रीक्वोलॉजिस्ट के लिए उपलब्ध है, अगर वे ऐसा चुनते हैं, तो सही? मेरा कूबड़ यह है कि ऐतिहासिक कारणों से (कोई कंप्यूटर नहीं!) फ़्रीक्वेंटर्स के पास बहुत से स्मार्ट अनुमानक हैं जो अपनी आस्तीन का उपयोग करते हैं जो वे एक पूर्ण संभावना की गणना के बजाय उपयोग करते हैं।
पैट्रिक

5

इस सवाल का जवाब देने के उद्देश्य के लिए यह अक्सर "डेटा के कार्यों के नमूने वितरण के गुणों में रुचि के रूप में परिभाषित करने के लिए उपयोगी है।" इस तरह के कार्य बिंदु अनुमानक, परीक्षण आँकड़ों के पी-मान, आत्मविश्वास अंतराल, नेमन-पीयरसन परीक्षण के परिणाम, या मूल रूप से कुछ और जो आप सोच सकते हैं, हो सकते हैं। आवृत्तिवाद यह निर्दिष्ट नहीं करता है कि पूर्ण सामान्यता में अनुमानक, पी-मान आदि का निर्माण कैसे किया जाता है, हालांकि कुछ दिशा-निर्देश मौजूद हैं, उदाहरण के लिए, यदि वे उपलब्ध हैं, तो पर्याप्त आँकड़ों का उपयोग करें, यदि वे उपलब्ध हैं, तो महत्वपूर्ण आँकड़ों का उपयोग करें, आदि। परिप्रेक्ष्य, पूर्व सूचना प्रति मॉडल में शामिल नहीं है , बल्कि फ़ंक्शन मैपिंग डेटा में फ़ंक्शन के आउटपुट के लिए है।

ऊपर वर्णित "रुचि" संपत्तियों के लिए महत्वपूर्ण माना जाता है, जैसे कि पूर्वाग्रह की कमी के रूप में महत्वपूर्ण है, जैसे कि विषमता, अस्मितावादी निरंतरता, विचरण, मतलब चुकता त्रुटि, निरपेक्ष त्रुटि, विश्वास कवरेज (विशेष रूप से नाममात्र बनाम वास्तविक), प्रकार I त्रुटि नियंत्रण, और कुछ भी डेटा से सीखने के लिए स्पष्ट या सहज महत्व के साथ। इन गुणों का मूल्यांकन किया जा सकता है (सिमुलेशन द्वारा, यदि और कुछ नहीं) तो फ़ंक्शन पूर्व सूचना को शामिल करता है या नहीं।

संपत्तियों पर विशेष रूप से रुचि रखने वाले केंद्र, जिन्हें डेटा जनरेशन प्रक्रिया में अंतर्निहित वास्तविक पैरामीटर मानों से कोई फर्क नहीं पड़ता है। उदाहरण के लिए, सामान्य विचरण मॉडल में ज्ञात भिन्नता के साथ डेटा का मतलब निष्पक्ष है और वितरण के लिए समान रूप से संगत है, चाहे वह कोई भी हो। इसके विपरीत, एक संकोचन अनुमानक (डेटा माध्य का औसत औसत और वितरण माध्य के लिए पूर्व अनुमान) में निम्न माध्य चुकता त्रुटि है यदि वितरण माध्य पूर्व अनुमान के करीब है लेकिन उच्च माध्य चुकता त्रुटि है अन्यथा, हालांकि यह " इनहेरिट "डेटा से विषमता संगति।

तो मैं कहूंगा कि एक पूर्व सूचना को निष्कर्ष विधि में रखा जा सकता है, लेकिन यह मॉडल में नहीं जाता है। आवश्यक रूप से गैर-नकारात्मक हैं भौतिक गुणों के लिए आत्मविश्वास के अंतराल के संदर्भ में उल्लिखित धारणाओं का एक अच्छा चित्रण है फेल्डमैन और चचेरे भाई, छोटे सिग्नल के शास्त्रीय सांख्यिकीय विश्लेषण के लिए एक एकीकृत दृष्टिकोण

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.