अनुभवजन्य खाड़ी कैसे मान्य है?


24

इसलिए मैंने सिर्फ एक महान पुस्तक परिचय परिचय को पढ़ना समाप्त कर दिया । मुझे लगा कि पुस्तक महान थी, लेकिन डेटा से पुजारियों का निर्माण गलत लगा। मुझे प्रशिक्षण दिया गया था कि आप एक विश्लेषण योजना के साथ आते हैं, तब आप डेटा एकत्र करते हैं, फिर आप अपने विश्लेषण योजना में आपके द्वारा निर्धारित परिकल्पना का परीक्षण करते हैं। जब आप पहले से एकत्र किए गए डेटा पर विश्लेषण करते हैं, तो यह आपको उत्तर-चयनात्मक निष्कर्ष में डाल देता है जहां आपको "महत्वपूर्ण" कॉल करने पर बहुत अधिक कठोर होना पड़ता है, यहां देखें । मुझे लगता है कि मशीन लर्निंग में कुछ समानता है जिसे "चेरी पिकिंग" कहा जाता है जिसका अर्थ है परीक्षण और प्रशिक्षण सेट ( सांख्यिकीय सीखना का परिचय ) स्थापित करने से पहले भविष्यवाणियों को चुनना ।

यह देखते हुए कि मैंने पहले जो सीखा है वह मुझे लगता है कि अनुभवजन्य बेयस एक कमजोर नींव पर आधारित है। क्या लोग इसे केवल उन सेटिंग्स में उपयोग करते हैं जहां डेटा निष्क्रिय रूप से उत्पन्न हुआ था? यदि ऐसा है, तो यह उचित हो सकता है, लेकिन कठोर प्रयोगात्मक डिजाइन करते समय इसका उपयोग करना सही नहीं लगता है, फिर भी मुझे पता है कि ब्रैड एफ्रॉन विशेष रूप से बायोस्टैटिस्टिक्स के लिए आनुभविक बे का उपयोग करते हैं, आमतौर पर एक बहुत ही एनएचएसटी क्षेत्र।

मेरे प्रश्न हैं:

  1. अनुभवजन्य खाड़ी कैसे मान्य है?
  2. किन स्थितियों में इसका उपयोग किया जाता है?
  3. अनुभवजन्य Bayes दृष्टिकोण का उपयोग करने से आपको किन स्थितियों में बचना चाहिए और क्यों?
  4. क्या लोग इसे बायोस्टैटिस्टिक्स के अलावा अन्य क्षेत्रों में उपयोग कर रहे हैं और यदि हां, तो वे किन स्थितियों में इसका उपयोग कर रहे हैं?

1
"मान्य" का क्या अर्थ है? प्रख्यात प्रति, अब मृतक, बायेसियन, डीवी लिंडले, "अनुभवजन्य बायेसियन से कम बायेसियन कोई नहीं है"।
मार्क एल। स्टोन

जवाबों:


16

मुझे लगता है कि यह याद रखना महत्वपूर्ण है कि अलग-अलग तरीके अलग-अलग चीजों के लिए अच्छे हैं, और महत्व परीक्षण सभी आंकड़ों की दुनिया में नहीं है।

1 और 3) ईबी शायद एक वैध परिकल्पना परीक्षण प्रक्रिया नहीं है, लेकिन यह भी होने का मतलब नहीं है।

वैधता कई चीजें हो सकती हैं, लेकिन आप कठोर प्रायोगिक डिजाइन के बारे में बात कर रहे हैं, इसलिए हम शायद एक परिकल्पना परीक्षण पर चर्चा कर रहे हैं जो आपको एक निश्चित लंबे समय तक चलने वाली आवृत्ति के साथ सही निर्णय लेने में मदद करने वाला है। यह एक सख्त द्वैधपूर्ण हाँ / नहीं-प्रकार का शासन है जो ज्यादातर उन लोगों के लिए उपयोगी है जिन्हें हाँ / नहीं-प्रकार का निर्णय लेना है। वास्तव में बहुत होशियार लोगों द्वारा इस पर बहुत सारे शास्त्रीय काम किए जाते हैं। इन विधियों की सीमा में अच्छी सैद्धांतिक वैधता है, यह मानते हुए कि आपकी सभी धारणाएँ पकड़ती हैं, और सी। हालाँकि, EB निश्चित रूप से इसके लिए नहीं था। यदि आप शास्त्रीय NHST विधियों की मशीनरी चाहते हैं, तो शास्त्रीय NHST विधियों से चिपके रहें।


2) ईबी उन समस्याओं में सबसे अच्छा लागू होता है जहां आप कई समान, परिवर्तनीय मात्रा का अनुमान लगा रहे हैं।

एफ्रॉन ने खुद अपनी पुस्तक लार्ज-स्केल इंफ़ेक्शन सूची के तीन अलग - अलग युगों को सूचीबद्ध किया है, जो बताता है कि हम इस बारे में हैं

[] वैज्ञानिक द्रव्यमान उत्पादन का युग, जिसमें माइक्रोएरे द्वारा टाइप की गई नई प्रौद्योगिकियां वैज्ञानिकों की एक टीम को एक आकार के डेटा सेट का उत्पादन करने की अनुमति देती हैं, जिसे क्वेटलेट ईर्ष्या करेगा। लेकिन अब आंकड़ों की बाढ़ सवालों के एक जलप्रलय के साथ है, शायद हजारों अनुमानों या परिकल्पनाओं का परीक्षण करता है कि सांख्यिकीविद् एक साथ जवाब देने के साथ चार्ज किए जाते हैं; शास्त्रीय आचार्यों के मन में जो था, वह बिल्कुल नहीं।

वह आगे बढ़ता है:

उनके स्वभाव से, अनुभवजन्य बेयस तर्क दोहराया संरचना की समस्याओं का विश्लेषण करने में लगातारवादी और बायेसियन तत्वों को जोड़ती है। बार-बार की जाने वाली संरचनाएं केवल वही होती हैं जो वैज्ञानिक बड़े पैमाने पर उत्पादन करती हैं, उदाहरण के लिए, माइक्रोएरे के माध्यम से एक ही समय में हजारों जीनों के लिए बीमार और स्वस्थ विषयों की तुलना करते हुए अभिव्यक्ति का स्तर।

शायद ईबी का सबसे सफल हालिया आवेदन limma, बायोकॉन्टर पर उपलब्ध है । यह एक R- पैकेज है जिसमें हजारों जीनों के दसियों के दो अध्ययन समूहों के बीच अंतर अभिव्यक्ति (यानी माइक्रोएरे) का आकलन करने के तरीके हैं। स्माइथ से पता चलता है कि उनकी ईबी विधियां स्वतंत्रता की अधिक डिग्री के साथ एक टी-स्टेटिस्टिक उपज देती हैं, यदि आप नियमित जीन-वार टी-आंकड़ों की गणना करते हैं। ईबी का उपयोग "यहां एक अनुमानित अनुमान की ओर अनुमानित नमूना भिन्नता के संकोचन के बराबर है, जिसके परिणामस्वरूप सरणियों की संख्या कम होने पर अधिक स्थिर निष्कर्ष होता है," जो अक्सर मामला होता है।

जैसा कि एफ्रॉन ऊपर बताते हैं कि यह कुछ भी नहीं है कि शास्त्रीय एनएचएसटी के लिए क्या विकसित किया गया था, और सेटिंग आमतौर पर पुष्टिकरण से अधिक खोजपूर्ण है।


4) आम तौर पर आप EB को एक संकोचन विधि के रूप में देख सकते हैं, और यह हर जगह उपयोगी हो सकता है कि संकोचन उपयोगी है

limmaउपरोक्त उदाहरण संकोचन का उल्लेख है। चार्ल्स स्टीन ने हमें आश्चर्यजनक परिणाम दिया कि तीन या अधिक चीजों के साधनों का अनुमान लगाते समय, एक अनुमानक होता है जो प्रेक्षित साधनों, का उपयोग करने से बेहतर है । जेम्स-स्टीन आकलनकर्ता रूप है साथ और एक निरंतर। यह अनुमान का अर्थ है शून्य की ओर, और यह समान रूप से कम जोखिम के मजबूत अर्थ में का उपयोग करने से बेहतर है ।एक्स1,,एक्सकश्मीरθ^मैंजम्मूएस=(1-सी/एस2)एक्समैं,एस2=Σj=1कश्मीरएक्सj,सीएक्समैं

एफ्रॉन और मॉरिस ने पूल किए गए मीन की ओर सिकुड़ने के लिए एक समान परिणाम दिखाया और यही ईबी का अनुमान है। नीचे एक उदाहरण दिया गया है, मैंने ईबी विधियों के साथ विभिन्न शहरों में अपराध दर को कम किया है। जैसा कि आप देख सकते हैं कि अधिक चरम अनुमानों का मतलब की ओर एक उचित दूरी सिकुड़ जाती है। छोटे शहर, जहाँ हम अधिक परिवर्तन की उम्मीद कर सकते हैं, भारी संकोचन प्राप्त करते हैं। काला बिंदु एक बड़े शहर का प्रतिनिधित्व करता है, जिसे मूल रूप से कोई संकोचन नहीं मिला है। मेरे पास कुछ सिमुलेशन हैं जो बताते हैं कि इन अनुमानों में वास्तव में देखे गए MLE अपराध दर का उपयोग करने की तुलना में कम जोखिम है।एक्स¯,

संकोचन

जितना अधिक मात्रा में अनुमान लगाया जाए, उतनी ही अधिक संभावना है कि संकोचन उपयोगी है। बेसबॉल में हिट दरों का उपयोग करने के लिए आपके द्वारा संदर्भित पुस्तक। मॉरिस (1983) कुछ अन्य अनुप्रयोगों के लिए इंगित करता है:

  • राजस्व साझाकरण --- जनगणना ब्यूरो। कई क्षेत्रों के लिए प्रति व्यक्ति जनगणना आय का अनुमान है।
  • गुणवत्ता आश्वासन --- बेल लैब्स। विभिन्न समय अवधि के लिए विफलताओं की संख्या का अनुमान है।
  • बीमा दर बनाने बीमाकृत समूहों के लिए या विभिन्न क्षेत्रों के लिए जोखिम के प्रति जोखिम का अनुमान है।
  • लॉ स्कूल में दाखिला। विभिन्न स्कूलों के लिए GPA के सापेक्ष LSAT स्कोर के लिए वजन का अनुमान है।
  • आग अलार्म --- एनवाईसी। विभिन्न अलार्म बॉक्स स्थानों के लिए गलत अलार्म दर का अनुमान लगाता है।

ये सभी समानांतर-आकलन की समस्याएँ हैं और जहाँ तक मुझे पता है कि वे इस बात का अच्छा अनुमान लगाने के बारे में हैं कि एक निश्चित मात्रा की तुलना में वे एक हाँ / ना निर्णय के बारे में क्या सोचते हैं।


कुछ संदर्भ

  • एफ्रॉन, बी (2012)। बड़े पैमाने पर निष्कर्ष: अनुमान, परीक्षण और भविष्यवाणी के लिए अनुभवजन्य तरीके (खंड 1)। कैम्ब्रिज यूनिवर्सिटी प्रेस। शिकागो
  • एफ्रॉन, बी।, और मॉरिस, सी। (1973)। स्टीन का अनुमान नियम और उसके प्रतियोगियों - एक अनुभवजन्य बेयस दृष्टिकोण। जर्नल ऑफ़ द अमेरिकन स्टेटिस्टिकल एसोसिएशन, 68 (341), 117-130। शिकागो
  • जेम्स, डब्ल्यू।, और स्टीन, सी। (1961, जून)। द्विघात हानि के साथ अनुमान। गणितीय सांख्यिकी और संभाव्यता पर चौथे बर्कले संगोष्ठी की कार्यवाही में (खंड 1, संख्या 1961, पीपी 361-379)। शिकागो
  • मॉरिस, सीएन (1983)। पैरामीट्रिक अनुभवजन्य बेय्स निष्कर्ष: सिद्धांत और अनुप्रयोग। जर्नल ऑफ़ द अमेरिकन स्टेटिस्टिकल एसोसिएशन, 78 (381), 47-55।
  • स्माइथ, जीके (2004)। रैखिक मॉडल और अनुभवजन्य बेयर्स माइक्रोएरे प्रयोगों में अंतर अभिव्यक्ति का आकलन करने के लिए तरीके। आनुवांशिकी और आणविक जीवविज्ञान खंड 3 में सांख्यिकीय अनुप्रयोग, अंक 1, अनुच्छेद 3।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.