Benjamini & Hochberg (1995) और Benjamini & Yekutieli (2001) झूठी खोज दर प्रक्रियाओं के बीच व्यावहारिक अंतर क्या हैं?

मेरे आंकड़े कार्यक्रम बेनजामिनी और होचबर्ग (1995) और बेंजामिनी और येकुतेली (2001) झूठी खोज दर (FDR) दोनों प्रक्रियाओं को लागू करते हैं। मैंने बाद के पेपर के माध्यम से पढ़ने की पूरी कोशिश की है, लेकिन यह काफी गणितीय रूप से सघन है और मैं निश्चित रूप से निश्चित नहीं हूं कि मैं प्रक्रियाओं के बीच के अंतर को समझता हूं। मैं अपने सांख्यिकी कार्यक्रम में अंतर्निहित कोड से देख सकता हूं कि वे वास्तव में अलग हैं और बाद वाले में एक मात्रा क्यू शामिल है जिसे मैंने एफडीआर के संबंध में संदर्भित किया है, लेकिन यह भी समझ में नहीं आता है।

क्या बेंजामिनी और होचबर्ग (1995) की प्रक्रिया बनाम बेंजामिनी और येकुतेली (2001) प्रक्रिया को पसंद करने का कोई कारण है? क्या उनकी अलग-अलग धारणाएँ हैं? इन दृष्टिकोणों के बीच व्यावहारिक अंतर क्या हैं?

बेंजामिनी, वाई।, और होचबर्ग, वाई। (1995)। झूठी खोज दर को नियंत्रित करना: कई परीक्षण के लिए एक व्यावहारिक और शक्तिशाली दृष्टिकोण। जर्नल ऑफ़ द रॉयल स्टैटिस्टिकल सोसायटी सीरीज़ बी, 57, 289300।

बेंजामिनी, वाई।, और येकुतीली, डी। (2001)। निर्भरता के तहत कई परीक्षण में झूठी खोज की दर का नियंत्रण। आँकड़ों की संख्या 29, 1165–1188।

1999 के पेपर में नीचे टिप्पणी में संदर्भित किया गया है: येकुतेली, डी।, और बेंजामिनी, वाई। (1999)। सहसंबद्ध परीक्षण के आँकड़ों के लिए कई परीक्षण प्रक्रियाओं को नियंत्रित करने वाली झूठी खोज दर को फिर से जाँचना। जर्नल ऑफ़ स्टैटिस्टिकल प्लानिंग एंड इनविज़न, 82 (1), 171-196।

post-hoc false-discovery-rate

— russellpierce
स्रोत

मुझे लगा कि 2001 का पेपर निर्भरता के तहत एफडीआर (1995) के गुणों को स्थापित करता है। Yekutieli और Benjamini (जर्नल ऑफ़ स्टैटिस्टिकल प्लानिंग एंड इनविज़न, 1999) एक अलग FDR प्रक्रिया स्थापित करता है। कोई भी मौका जो आप चाह रहे हैं?

— जूलियट

@ जूलियट: 2001 में अमूर्त को पढ़ने के बारे में मेरी समझ थी, लेकिन पेपर में सूत्र (जैसे 27 - 30) क्यू के रूप में संदर्भित मात्रा में शामिल हैं। फिर दोबारा, तो यह 1999 का पेपर आपको उद्धृत करता है। हालांकि मेरी समझ यह है कि 1999 का पेपर एक फिर से नमूने के दृष्टिकोण को लागू करता है जो स्पष्ट रूप से (कोड को देखने से) है कि मेरे आँकड़े कार्यक्रम क्या कर रहे हैं (आर; पी। अन्याय) ... लेकिन मैं गलत हो सकता हूं।

— रुसलपिएर्स

2001 के पेपर के अंत में 1999 के पेपर का हवाला दिया गया है और वे कहते हैं "अंत में, येकुट्टीली और बेनजामिनी (1999) की पुनर्स्मरण आधारित प्रक्रिया को याद करें, जो उपरोक्त समस्या से निपटने की कोशिश करता है और उसी समय निर्भरता के बारे में जानकारी का उपयोग करता है। नमूने से प्राप्त संरचना। अधिक जटिल और केवल अनुमानित फ़र्ज़ी नियंत्रण की कीमत पर रेज़मैप्लिंग आधारित प्रक्रिया अधिक शक्तिशाली है। " ... तो मुझे लगता है कि 2001 के पेपर ने एक बंद फॉर्म कम्प्यूटेशनल समाधान प्रदान किया और यही मेरे सांख्यिकी कार्यक्रम को लागू कर रहा है।

— रुसलपिएरेस

ठीक है, इसलिए आप p.adjust का उपयोग कर रहे हैं। जैसा कि आपने उल्लेख किया कि 99 कागज अलग-अलग हैं। मैंने हमेशा p.adjust में BY विकल्प देखा और ध्यान नहीं दिया। उस 2001 के पेपर को आमतौर पर एफडीआर और 'सकारात्मक प्रतिगमन निर्भरता' के प्रमाण के संबंध में उद्धृत किया जाता है। मैंने इसे एक अलग अनुमानक के हवाले से कभी नहीं देखा, लेकिन शायद यह वहां है। ऐसा लगता है कि मुझे इसे फिर से पढ़ना चाहिए।

— जूलियट

जवाबों:

बेंजामिनी और होचबर्ग (1995) ने झूठी खोज दर की शुरुआत की। बेंजामिनी और येकुतेली (2001) ने साबित किया कि अनुमानक निर्भरता के कुछ रूपों के तहत वैध है। निर्भरता निम्नानुसार उत्पन्न हो सकती है। टी-टेस्ट में उपयोग किए जाने वाले सतत चर और इसके साथ सहसंबद्ध एक अन्य चर पर विचार करें; उदाहरण के लिए, परीक्षण अगर बीएमआई दो समूहों में भिन्न होता है और यदि कमर परिधि इन दो समूहों में भिन्न होती है। क्योंकि ये चर परस्पर संबंधित हैं, परिणामी p- मान भी सहसंबद्ध होंगे। याकुतिली और बेंजामिनी (1999) ने एक और एफडीआर नियंत्रण प्रक्रिया विकसित की, जिसका उपयोग सामान्य वितरण के तहत अशक्त वितरण को फिर से शुरू करके किया जा सकता है। क्योंकि तुलना शून्य क्रमपरिवर्तन वितरण के संबंध में है, क्योंकि वास्तविक सकारात्मकता की कुल संख्या बढ़ जाती है, विधि अधिक रूढ़िवादी हो जाती है। यह पता चला है कि BH 1995 भी रूढ़िवादी है क्योंकि सच्ची सकारात्मकता की संख्या बढ़ती है। इसे सुधारने के लिए, बेंजामिनी और होचबर्ग (2000) ने अनुकूली एफडीआर प्रक्रिया शुरू की। यह एक पैरामीटर का आवश्यक अनुमान है, अशक्त अनुपात, जिसका उपयोग स्टोरी के पीएफडीआर अनुमानक में भी किया जाता है। स्टोरी तुलना और तर्क देते हैं कि उनकी विधि अधिक शक्तिशाली है और 1995 की प्रक्रिया की रूढ़िवादी प्रकृति पर जोर देती है। भंडार में निर्भरता के तहत परिणाम और सिमुलेशन भी हैं।

उपरोक्त सभी परीक्षण स्वतंत्रता के तहत मान्य हैं। सवाल यह है कि स्वतंत्रता से किस तरह का प्रस्थान इन अनुमानों से निपट सकता है।

मेरी वर्तमान सोच यह है कि यदि आप BY (1999) प्रक्रिया से बहुत अधिक वास्तविक सकारात्मक की उम्मीद नहीं करते हैं, तो यह अच्छा है क्योंकि यह वितरण सुविधाओं और निर्भरता को शामिल करता है। हालाँकि, मैं एक कार्यान्वयन से अनजान हूँ। मंजिला की विधि कुछ निर्भरता के साथ कई सच्चे सकारात्मक के लिए डिज़ाइन की गई थी। BH 1995 परिवार-वार त्रुटि दर के लिए एक विकल्प प्रदान करता है और यह अभी भी रूढ़िवादी है।

बेंजामिनी, वाई और वाई होचबर्ग। स्वतंत्र सांख्यिकी के साथ एकाधिक परीक्षण में झूठी डिस्कवरी दर के अनुकूली नियंत्रण पर। 2000 और शैक्षिक सांख्यिकी जर्नल।

— julieth
स्रोत

आपका बहुत बहुत धन्यवाद! क्या आप निम्नलिखित बिंदुओं / मुद्दों को स्पष्ट करने के लिए अपने प्रश्न को संशोधित कर सकते हैं: "अशक्त वितरण को फिर से भरना" 1999 का पेपर है? क्या आप कृपया २००० के पेपर के लिए प्रशस्ति पत्र प्रदान करेंगे? आप p.adjust से परिचित लग रहे थे, क्या यह वास्तव में BY प्रक्रिया को लागू कर रहा है? जब परिकल्पना परीक्षण निर्भर नहीं होते हैं, तो BH का उपयोग करना चाहिए? परिकल्पना परीक्षण किन कारणों पर निर्भर माना जाता है? - कृपया मुझे बताएं कि क्या इनमें से कोई भी प्रश्न वर्तमान दायरे से परे है और एक नए प्रश्न की आवश्यकता है।

— रसेलपीयरस

p.adjust में (BH और BY) दोनों के विकल्प हैं। हालाँकि, मुझे लगा कि ये वही हैं, इसलिए मैंने कुछ याद किया।

— जूलियट

और अंतर्निहित कोड भी अलग है (मैंने चेक किया) इसलिए वे अलग-अलग संख्याओं का उत्पादन करेंगे।

— रासलीपियरस

तो यह क्या प्रक्रिया है जो आपको लगता है कि p.adjust BY तर्क के साथ प्रदर्शन कर रहा है? मुझे नहीं लगता कि यह 1999 की प्रक्रिया है। अंतर्निहित कोड pmin (1, cummin (q * n / i * p [o])) [ro] है। BH pmin (1, कमीन (n / i * p [o])) [ro] है। इसलिए वे केवल q में भिन्न होते हैं जो योग (1 / (1: n)) है जहाँ n = pvalues की संख्या। o और ro केवल फ़ंक्शन के लिए संख्यात्मक क्रम को कम करने में p मान डालने के लिए सेवा करते हैं और फिर उन्हें उसी क्रम में वापस थूकते हैं, जिस क्रम में उपयोगकर्ता ने उन्हें

— इनपुट

इसलिए, जब से कोई नया उत्तर नहीं आ रहा है, मैं इस उत्तर को स्वीकार करूंगा और अपनी समझ को संक्षेप में बताऊंगा। p.adjust BY के लिए मिसिंग हो सकता है। जो किया जाता है वह फिर से शुरू नहीं होता है। BH, 2000 ने अनुकूली एफडीआर प्रक्रिया शुरू की, और इसमें शून्य अनुपात का अनुमान शामिल है, जो कि BY कोड में दिखाई देने वाला q हो सकता है। अंतरिम में, ऐसा लगता है कि समझदारी वाली बात यह है कि p.adjust को सीधे उद्धृत करें क्योंकि आप "BY" विकल्प का उपयोग करते समय उपयोग की जाने वाली वास्तविक प्रक्रिया को दर्शाते हैं और सिर्फ इस बात से अवगत रहें कि "BY" वास्तव में बेंजामिनी और होम्सबर्ग को लागू कर सकता है। 2000.

— russellpierce 16

p.adjust BY के लिए गलत नहीं है। संदर्भ थ्योरम 1.3 का है (कागज में p.1182 पर धारा 5 में प्रमाण):

जैसा कि यह पत्र कई अलग-अलग समायोजन पर चर्चा करता है, p.adjust () के लिए सहायता पृष्ठ (लेखन के समय) पर संदर्भ कुछ अस्पष्ट है। विधि को सामान्य दर पर निर्भरता संरचना के तहत, एफडीआर को नियंत्रित करने की गारंटी दी गई है। क्रिस्टोफर जिनोवेस की स्लाइड्स में जानकारीपूर्ण टिप्पणियां हैं: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf स्लाइड 37 पर टिप्पणी पर ध्यान दें, 2001 के पेपर में थियोरा 1.3 की विधि का जिक्र है [विधि = P.adjust ()) के साथ 'BY' यह है कि: "दुर्भाग्य से, यह आमतौर पर बहुत रूढ़िवादी है, कभी-कभी बोन्फ्रॉनी से भी अधिक।"

संख्यात्मक उदाहरण: method='BY' बनामmethod='BH'

बेनजामिनी और होचबर्ग (2000) पेपर में तालिका 2 के स्तंभ 2 से पी-मानों के लिए विधि की तुलना = 'बीवाई' विधि के साथ 'बीएच' विधि = 'बीएच' का उपयोग करते हुए।

> p <-    c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0

$\sum_{i=1}^m (1/i)$ $m$

> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))

सेटनाम (बहु, पेस्ट (c ('m =', rep ('', 5)), c (11, 30, 34, 226, 1674, 12365)) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000

$m$

— जॉन मेनडॉनल्ड
स्रोत