Benjamini & Hochberg (1995) और Benjamini & Yekutieli (2001) झूठी खोज दर प्रक्रियाओं के बीच व्यावहारिक अंतर क्या हैं?


34

मेरे आंकड़े कार्यक्रम बेनजामिनी और होचबर्ग (1995) और बेंजामिनी और येकुतेली (2001) झूठी खोज दर (FDR) दोनों प्रक्रियाओं को लागू करते हैं। मैंने बाद के पेपर के माध्यम से पढ़ने की पूरी कोशिश की है, लेकिन यह काफी गणितीय रूप से सघन है और मैं निश्चित रूप से निश्चित नहीं हूं कि मैं प्रक्रियाओं के बीच के अंतर को समझता हूं। मैं अपने सांख्यिकी कार्यक्रम में अंतर्निहित कोड से देख सकता हूं कि वे वास्तव में अलग हैं और बाद वाले में एक मात्रा क्यू शामिल है जिसे मैंने एफडीआर के संबंध में संदर्भित किया है, लेकिन यह भी समझ में नहीं आता है।

क्या बेंजामिनी और होचबर्ग (1995) की प्रक्रिया बनाम बेंजामिनी और येकुतेली (2001) प्रक्रिया को पसंद करने का कोई कारण है? क्या उनकी अलग-अलग धारणाएँ हैं? इन दृष्टिकोणों के बीच व्यावहारिक अंतर क्या हैं?

बेंजामिनी, वाई।, और होचबर्ग, वाई। (1995)। झूठी खोज दर को नियंत्रित करना: कई परीक्षण के लिए एक व्यावहारिक और शक्तिशाली दृष्टिकोण। जर्नल ऑफ़ द रॉयल स्टैटिस्टिकल सोसायटी सीरीज़ बी, 57, 289300।

बेंजामिनी, वाई।, और येकुतीली, डी। (2001)। निर्भरता के तहत कई परीक्षण में झूठी खोज की दर का नियंत्रण। आँकड़ों की संख्या 29, 1165–1188।

1999 के पेपर में नीचे टिप्पणी में संदर्भित किया गया है: येकुतेली, डी।, और बेंजामिनी, वाई। (1999)। सहसंबद्ध परीक्षण के आँकड़ों के लिए कई परीक्षण प्रक्रियाओं को नियंत्रित करने वाली झूठी खोज दर को फिर से जाँचना। जर्नल ऑफ़ स्टैटिस्टिकल प्लानिंग एंड इनविज़न, 82 (1), 171-196।


मुझे लगा कि 2001 का पेपर निर्भरता के तहत एफडीआर (1995) के गुणों को स्थापित करता है। Yekutieli और Benjamini (जर्नल ऑफ़ स्टैटिस्टिकल प्लानिंग एंड इनविज़न, 1999) एक अलग FDR प्रक्रिया स्थापित करता है। कोई भी मौका जो आप चाह रहे हैं?
जूलियट

@ जूलियट: 2001 में अमूर्त को पढ़ने के बारे में मेरी समझ थी, लेकिन पेपर में सूत्र (जैसे 27 - 30) क्यू के रूप में संदर्भित मात्रा में शामिल हैं। फिर दोबारा, तो यह 1999 का पेपर आपको उद्धृत करता है। हालांकि मेरी समझ यह है कि 1999 का पेपर एक फिर से नमूने के दृष्टिकोण को लागू करता है जो स्पष्ट रूप से (कोड को देखने से) है कि मेरे आँकड़े कार्यक्रम क्या कर रहे हैं (आर; पी। अन्याय) ... लेकिन मैं गलत हो सकता हूं।
रुसलपिएर्स

1
2001 के पेपर के अंत में 1999 के पेपर का हवाला दिया गया है और वे कहते हैं "अंत में, येकुट्टीली और बेनजामिनी (1999) की पुनर्स्मरण आधारित प्रक्रिया को याद करें, जो उपरोक्त समस्या से निपटने की कोशिश करता है और उसी समय निर्भरता के बारे में जानकारी का उपयोग करता है। नमूने से प्राप्त संरचना। अधिक जटिल और केवल अनुमानित फ़र्ज़ी नियंत्रण की कीमत पर रेज़मैप्लिंग आधारित प्रक्रिया अधिक शक्तिशाली है। " ... तो मुझे लगता है कि 2001 के पेपर ने एक बंद फॉर्म कम्प्यूटेशनल समाधान प्रदान किया और यही मेरे सांख्यिकी कार्यक्रम को लागू कर रहा है।
रुसलपिएरेस

1
ठीक है, इसलिए आप p.adjust का उपयोग कर रहे हैं। जैसा कि आपने उल्लेख किया कि 99 कागज अलग-अलग हैं। मैंने हमेशा p.adjust में BY विकल्प देखा और ध्यान नहीं दिया। उस 2001 के पेपर को आमतौर पर एफडीआर और 'सकारात्मक प्रतिगमन निर्भरता' के प्रमाण के संबंध में उद्धृत किया जाता है। मैंने इसे एक अलग अनुमानक के हवाले से कभी नहीं देखा, लेकिन शायद यह वहां है। ऐसा लगता है कि मुझे इसे फिर से पढ़ना चाहिए।
जूलियट

जवाबों:


21

बेंजामिनी और होचबर्ग (1995) ने झूठी खोज दर की शुरुआत की। बेंजामिनी और येकुतेली (2001) ने साबित किया कि अनुमानक निर्भरता के कुछ रूपों के तहत वैध है। निर्भरता निम्नानुसार उत्पन्न हो सकती है। टी-टेस्ट में उपयोग किए जाने वाले सतत चर और इसके साथ सहसंबद्ध एक अन्य चर पर विचार करें; उदाहरण के लिए, परीक्षण अगर बीएमआई दो समूहों में भिन्न होता है और यदि कमर परिधि इन दो समूहों में भिन्न होती है। क्योंकि ये चर परस्पर संबंधित हैं, परिणामी p- मान भी सहसंबद्ध होंगे। याकुतिली और बेंजामिनी (1999) ने एक और एफडीआर नियंत्रण प्रक्रिया विकसित की, जिसका उपयोग सामान्य वितरण के तहत अशक्त वितरण को फिर से शुरू करके किया जा सकता है। क्योंकि तुलना शून्य क्रमपरिवर्तन वितरण के संबंध में है, क्योंकि वास्तविक सकारात्मकता की कुल संख्या बढ़ जाती है, विधि अधिक रूढ़िवादी हो जाती है। यह पता चला है कि BH 1995 भी रूढ़िवादी है क्योंकि सच्ची सकारात्मकता की संख्या बढ़ती है। इसे सुधारने के लिए, बेंजामिनी और होचबर्ग (2000) ने अनुकूली एफडीआर प्रक्रिया शुरू की। यह एक पैरामीटर का आवश्यक अनुमान है, अशक्त अनुपात, जिसका उपयोग स्टोरी के पीएफडीआर अनुमानक में भी किया जाता है। स्टोरी तुलना और तर्क देते हैं कि उनकी विधि अधिक शक्तिशाली है और 1995 की प्रक्रिया की रूढ़िवादी प्रकृति पर जोर देती है। भंडार में निर्भरता के तहत परिणाम और सिमुलेशन भी हैं।

उपरोक्त सभी परीक्षण स्वतंत्रता के तहत मान्य हैं। सवाल यह है कि स्वतंत्रता से किस तरह का प्रस्थान इन अनुमानों से निपट सकता है।

मेरी वर्तमान सोच यह है कि यदि आप BY (1999) प्रक्रिया से बहुत अधिक वास्तविक सकारात्मक की उम्मीद नहीं करते हैं, तो यह अच्छा है क्योंकि यह वितरण सुविधाओं और निर्भरता को शामिल करता है। हालाँकि, मैं एक कार्यान्वयन से अनजान हूँ। मंजिला की विधि कुछ निर्भरता के साथ कई सच्चे सकारात्मक के लिए डिज़ाइन की गई थी। BH 1995 परिवार-वार त्रुटि दर के लिए एक विकल्प प्रदान करता है और यह अभी भी रूढ़िवादी है।

बेंजामिनी, वाई और वाई होचबर्ग। स्वतंत्र सांख्यिकी के साथ एकाधिक परीक्षण में झूठी डिस्कवरी दर के अनुकूली नियंत्रण पर। 2000 और शैक्षिक सांख्यिकी जर्नल।


आपका बहुत बहुत धन्यवाद! क्या आप निम्नलिखित बिंदुओं / मुद्दों को स्पष्ट करने के लिए अपने प्रश्न को संशोधित कर सकते हैं: "अशक्त वितरण को फिर से भरना" 1999 का पेपर है? क्या आप कृपया २००० के पेपर के लिए प्रशस्ति पत्र प्रदान करेंगे? आप p.adjust से परिचित लग रहे थे, क्या यह वास्तव में BY प्रक्रिया को लागू कर रहा है? जब परिकल्पना परीक्षण निर्भर नहीं होते हैं, तो BH का उपयोग करना चाहिए? परिकल्पना परीक्षण किन कारणों पर निर्भर माना जाता है? - कृपया मुझे बताएं कि क्या इनमें से कोई भी प्रश्न वर्तमान दायरे से परे है और एक नए प्रश्न की आवश्यकता है।
रसेलपीयरस

p.adjust में (BH और BY) दोनों के विकल्प हैं। हालाँकि, मुझे लगा कि ये वही हैं, इसलिए मैंने कुछ याद किया।
जूलियट

और अंतर्निहित कोड भी अलग है (मैंने चेक किया) इसलिए वे अलग-अलग संख्याओं का उत्पादन करेंगे।
रासलीपियरस

तो यह क्या प्रक्रिया है जो आपको लगता है कि p.adjust BY तर्क के साथ प्रदर्शन कर रहा है? मुझे नहीं लगता कि यह 1999 की प्रक्रिया है। अंतर्निहित कोड pmin (1, cummin (q * n / i * p [o])) [ro] है। BH pmin (1, कमीन (n / i * p [o])) [ro] है। इसलिए वे केवल q में भिन्न होते हैं जो योग (1 / (1: n)) है जहाँ n = pvalues ​​की संख्या। o और ro केवल फ़ंक्शन के लिए संख्यात्मक क्रम को कम करने में p मान डालने के लिए सेवा करते हैं और फिर उन्हें उसी क्रम में वापस थूकते हैं, जिस क्रम में उपयोगकर्ता ने उन्हें
इनपुट

1
इसलिए, जब से कोई नया उत्तर नहीं आ रहा है, मैं इस उत्तर को स्वीकार करूंगा और अपनी समझ को संक्षेप में बताऊंगा। p.adjust BY के लिए मिसिंग हो सकता है। जो किया जाता है वह फिर से शुरू नहीं होता है। BH, 2000 ने अनुकूली एफडीआर प्रक्रिया शुरू की, और इसमें शून्य अनुपात का अनुमान शामिल है, जो कि BY कोड में दिखाई देने वाला q हो सकता है। अंतरिम में, ऐसा लगता है कि समझदारी वाली बात यह है कि p.adjust को सीधे उद्धृत करें क्योंकि आप "BY" विकल्प का उपयोग करते समय उपयोग की जाने वाली वास्तविक प्रक्रिया को दर्शाते हैं और सिर्फ इस बात से अवगत रहें कि "BY" वास्तव में बेंजामिनी और होम्सबर्ग को लागू कर सकता है। 2000.
russellpierce 16

5

p.adjust BY के लिए गलत नहीं है। संदर्भ थ्योरम 1.3 का है (कागज में p.1182 पर धारा 5 में प्रमाण):

बेंजामिनी, वाई।, और येकुतीली, डी। (2001)। निर्भरता के तहत कई परीक्षण में झूठी खोज की दर का नियंत्रण। आँकड़ों की संख्या 29, 1165–1188।

जैसा कि यह पत्र कई अलग-अलग समायोजन पर चर्चा करता है, p.adjust () के लिए सहायता पृष्ठ (लेखन के समय) पर संदर्भ कुछ अस्पष्ट है। विधि को सामान्य दर पर निर्भरता संरचना के तहत, एफडीआर को नियंत्रित करने की गारंटी दी गई है। क्रिस्टोफर जिनोवेस की स्लाइड्स में जानकारीपूर्ण टिप्पणियां हैं: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf स्लाइड 37 पर टिप्पणी पर ध्यान दें, 2001 के पेपर में थियोरा 1.3 की विधि का जिक्र है [विधि = P.adjust ()) के साथ 'BY' यह है कि: "दुर्भाग्य से, यह आमतौर पर बहुत रूढ़िवादी है, कभी-कभी बोन्फ्रॉनी से भी अधिक।"

संख्यात्मक उदाहरण: method='BY' बनामmethod='BH'

बेनजामिनी और होचबर्ग (2000) पेपर में तालिका 2 के स्तंभ 2 से पी-मानों के लिए विधि की तुलना = 'बीवाई' विधि के साथ 'बीएच' विधि = 'बीएच' का उपयोग करते हुए।

> p <-    c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0

Σमैं=1मीटर(1/मैं)मीटर

> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))

सेटनाम (बहु, पेस्ट (c ('m =', rep ('', 5)), c (11, 30, 34, 226, 1674, 12365)) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000

मीटर

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.