आधार दरों के मॉडल के बिना एफडीआर प्रक्रियाएं एक गलत डिस्कवरी दर का अनुमान कैसे लगाती हैं?


9

क्या कोई यह बता सकता है कि एफडीआर प्रक्रियाएं मॉडल के बिना एफडीआर का अनुमान लगाने में सक्षम कैसे हैं / वास्तविक सकारात्मकता की आधार दर?

जवाबों:


5

मुझे लगता है कि यह एक बहुत अच्छा सवाल है; बहुत से लोग एक ब्लैक बॉक्स के रूप में बेंजामिनी-होचबर्ग प्रक्रिया (संक्षिप्त बीएच; संभवतः एफडीआर को नियंत्रित करने के लिए सबसे लोकप्रिय प्रक्रिया) का उपयोग करते हैं। वास्तव में यह एक अंतर्निहित धारणा है जो इसे आँकड़ों पर बनाता है और यह पी-मानों की परिभाषा में अच्छी तरह से छिपा हुआ है!

एक अच्छी तरह से परिभाषित पी-वैल्यू यह माना जाता है कि समान रूप से वितरित किया गया है ( ) शून्य परिकल्पना के तहत। कभी-कभी यह भी हो सकता है कि , यानी , समान रूप से समान रूप से छोटा है, लेकिन यह केवल प्रक्रियाओं को अधिक रूढ़िवादी बनाता है (और इसलिए अभी भी मान्य है)। इस प्रकार, अपने पी-मूल्यों की गणना करके, टी-टेस्ट या अपनी पसंद के किसी भी परीक्षण का उपयोग करके, आप अशक्त परिकल्पना के तहत वितरण के बारे में जानकारी प्रदान कर रहे हैं।PPPU[0,1]Pr[Pt]tP

लेकिन यहाँ ध्यान दें कि मैं अशक्त परिकल्पना के बारे में बात करता रहा; इसलिए आपने वास्तविक सकारात्मकता के आधार दर के ज्ञान के बारे में जो उल्लेख किया है , उसकी आवश्यकता नहीं है, आपको केवल झूठी सकारात्मकता के आधार दर के ज्ञान की आवश्यकता है! ऐसा क्यों है?

Let सभी को अस्वीकार कर दिया (सकारात्मक) परिकल्पना और की संख्या को निरूपित झूठे सकारात्मक है, तो:RV

FDR=E[Vmax(R,1)]E[V]E[R]

तो FDR का अनुमान लगाने के लिए आपको , का अनुमान लगाने का एक तरीका चाहिए । अब हम निर्णय नियम जो सभी पी मूल्यों अस्वीकार देखेंगे । संकेतन में यह स्पष्ट करने के लिए मैं इस तरह की प्रक्रिया के संबंधित मात्रा / यादृच्छिक चर के लिए भी लिखूंगा ।E[R]E[V]tFDR(t),R(t),V(t)

चूंकि केवल अस्वीकारों की कुल संख्या की अपेक्षा है, आप निष्पक्ष रूप से आपके द्वारा अवलोकन किए गए अस्वीकार की संख्या से अनुमान लगा सकते हैं, इसलिए अर्थात बस कैसे अपने पी मूल्यों के कई की गणना के द्वारा कर रहे हैं ।E[R(t)]E[R(t)]R(t)t

अब क्या ? खैर मान अपने के की कुल परिकल्पना, रिक्त परिकल्पना कर रहे हैं तो एकरूपता द्वारा (या उप एकरूपता) अशक्त आपको मिल के तहत पी मूल्यों की:E[V]m0m

E[V(t)]=i nullPr[Pit]m0t

लेकिन हम अभी भी नहीं जानते हैं , लेकिन हम जानते हैं कि , इसलिए एक रूढ़िवादी ऊपरी बाध्य सिर्फ । इसलिए, चूंकि हमें झूठी सकारात्मकता की संख्या पर ऊपरी सीमा की आवश्यकता है, इसलिए यह पर्याप्त है कि हम उनके वितरण को जानते हैं! और यह वही है जो बीएच प्रक्रिया करता है।m0m0mE[V(t)]mt

तो, जबकि आरॉन्ग ज़ेंग की टिप्पणी है कि "बीएच प्रक्रिया एफडीआर को दिए गए स्तर पर नियंत्रित करने का एक तरीका है। यह एफडीआर का अनुमान लगाने के बारे में नहीं है" गलत नहीं है, यह भी बहुत भ्रामक है! बिहार प्रक्रिया वास्तव में करता है प्रत्येक के लिए दी गई सीमा से एफडीआर का अनुमान । और फिर यह सबसे बड़ी दहलीज चुनता है, जैसे कि अनुमानित एफडीआर से नीचे है । दरअसल "समायोजित पी-मूल्य" परिकल्पना की अनिवार्य रूप दहलीज पर एफडीआर का सिर्फ एक अनुमान है (isotonization तक)। मुझे लगता है कि मानक बीएच एल्गोरिथ्म इस तथ्य को थोड़ा छुपाता है, लेकिन इन दो दृष्टिकोणों की समानता (एकाधिक परीक्षण साहित्य में "समतुल्यता प्रमेय" भी कहा जाता है) को दिखाना आसान है।tαit=pi

अंतिम टिप्पणी के रूप में, वहाँ मौजूद तरीके हैं जैसे कि Storey की प्रक्रिया, जो डेटा से अनुमान है; यह शक्ति को थोड़ा बढ़ा सकता है। इसके अलावा सिद्धांत रूप में आप सही हैं, एक और अधिक शक्तिशाली प्रक्रियाओं को प्राप्त करने के लिए वैकल्पिक (आपके वास्तविक सकारात्मक आधार दर) के तहत वितरण को मॉडल कर सकता है; लेकिन अब तक कई परीक्षण अनुसंधान मुख्य रूप से शक्ति को अधिकतम करने के बजाय टाइप-आई त्रुटि के नियंत्रण को बनाए रखने पर केंद्रित हैं। एक कठिनाई यह भी होगी कि कई मामलों में आपके प्रत्येक वास्तविक विकल्प में एक अलग वैकल्पिक वितरण होगा (जैसे अलग-अलग परिकल्पनाओं के लिए अलग-अलग शक्ति), जबकि अशक्त के तहत सभी पी-वैल्यू में समान वितरण होता है। यह सही सकारात्मक दर के मॉडलिंग को और भी कठिन बना देता है।m0


3
+1 शायद "बीएच" बेनजामिनी-होचबर्ग को संदर्भित करता है । (यह हमेशा एक अच्छा विचार है कि योगों को समझने के लिए, ऐसा न हो कि लोग गलत समझें।) हमारी साइट पर आपका स्वागत है!
whuber

1
धन्यवाद! इसके अलावा, हाँ, आप सही हैं, मैंने अपनी पोस्ट को प्रतिबिंबित करने के लिए संपादित किया है।
हवा

4

@Air द्वारा सुझाए गए अनुसार, बेंजामिनी-होचबर्ग (BH) प्रक्रिया FDR नियंत्रण की गारंटी देती है। इसका अनुमान लगाना इसका उद्देश्य नहीं है। इस प्रकार परीक्षण के आँकड़ों के बीच एक मात्र कमजोर निर्भरता धारणा की आवश्यकता होती है। [1,2]

एफडीआर [जैसे 3,4,5] का अनुमान लगाने के उद्देश्य वाले तरीकों में अनुमान लगाने के लिए सामान्य प्रक्रिया पर कुछ मान्यताओं की आवश्यकता होती है। वे आमतौर पर मान लेते हैं कि परीक्षण के आंकड़े स्वतंत्र हैं। वे परीक्षण आँकड़ों के अशक्त वितरण पर भी कुछ ग्रहण करेंगे। इस शून्य वितरण से प्रस्थान, स्वतंत्रता धारणा के साथ, इस प्रकार प्रभावों के लिए जिम्मेदार ठहराया जा सकता है, और एफडीआर का अनुमान लगाया जा सकता है।

ध्यान दें कि ये विचार अर्ध-पर्यवेक्षित नवीनता पहचान साहित्य में फिर से प्रकट होते हैं। [6]।

[१] बेनजामिनी, वाई।, और वाई। होचबर्ग। "झूठी डिस्कवरी दर को नियंत्रित करना: एक व्यावहारिक और कई परीक्षण के लिए शक्तिशाली दृष्टिकोण।" चार-रॉयल स्टेटिक सोसाइटी श्रृंखला बी 57 (1995): 289-289।

[२] बेन्जामिनी, वाई।, और डी। येकुतेली। "निर्भरता के तहत एकाधिक परीक्षण में झूठी डिस्कवरी दर का नियंत्रण।" सांख्यिकी 29 की सं। 4 (2001): 1165-88।

[३] मंजिला, जद "झूठी डिस्कवरी दरों के लिए एक प्रत्यक्ष दृष्टिकोण"। रॉयल सांख्यिकीय सोसायटी श्रृंखला बी 64 के जर्नल, नं। 3 (2002): 479–98। डोई: 10.1111 / 1467-9868.00346।

[४] एफ्रॉन, बी। "माइक्रोएरेस, इम्पीरियल बे और टू-ग्रुप मॉडल।" सांख्यिकीय विज्ञान 23, सं। 1 (2008): 1-22

[५] जिन, जिआशुन, और टी। टोनी कै। "बड़े पैमाने पर एकाधिक तुलना में अशक्त और अशक्त प्रभाव का अनुमान।" जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन 102, सं। 478 (1 जून, 2007): 495-506। डोई: 10.1198 / 016214507000000167।

[६] क्लेसेन, मार्क, जेसी डेविस, फ्रैंक डी स्मेट, और बार्ट डी मूर। "केवल सकारात्मक और बिना लेबल वाले डेटा का उपयोग करके बाइनरी क्लासिफायर का आकलन करना।" arXiv: 1504.06837 [सीएस, स्टेट], 26 अप्रैल, 2015 http://arxiv.org/abs/1504.06837


1
+1 हालांकि उस पैरा से मेरी मुख्य मुद्दा यह है कि बिहार प्रक्रिया वास्तव में था करता है (परंपरागत ढंग से एक सा यद्यपि) एफडीआर का आकलन करने का एक तरीका सुझाव है और वास्तव में करता है यह अनुमान लगाने के अंतिम अस्वीकृति दहलीज पर पहुंचने के लिए। संदर्भ में चरणबद्ध प्रक्रिया के रूप में इसकी एल्गोरिदमिक परिभाषा [1] इसे अस्पष्ट करती है, लेकिन दिन के अंत में एफडीआर का अनुमान वास्तव में बीएच प्रक्रिया करती है !! (एफ्रॉन अक्सर उस बिंदु को बनाता है, लेकिन अपने संदर्भ में धारा 4 "दो दृष्टिकोणों के बीच एक कनेक्शन" भी देखें [3]।)
हवा

2
आप सही कह रहे हैं कि [3, Eq.2.5] के बाद, कोई भी BH प्रक्रिया को साथ FDR के रूढ़िवादी अनुमान का उपयोग करते हुए देख सकता है । p0=1
जॉनरोस

0

जब सही अंतर्निहित मॉडल अज्ञात है, तो हम FDR की गणना नहीं कर सकते हैं, लेकिन क्रमचय परीक्षण द्वारा FDR मान का अनुमान लगा सकते हैं । मूल रूप से क्रमपरिवर्तन परीक्षा की प्रक्रिया सिर्फ परिकल्पना के साथ परिणाम चर वेक्टर को बदलकर कई बार परिकल्पना परीक्षण कर रही है। यह नमूनों के क्रमपरिवर्तन के आधार पर भी किया जा सकता है, लेकिन पूर्व की तरह सामान्य नहीं।

कागज यहाँ एफडीआर आकलन के लिए मानक क्रमचय प्रक्रिया की समीक्षा करता है, और यह भी एक नया एफडीआर आकलनकर्ता का प्रस्ताव रखा। यह आपके प्रश्न को संबोधित करने में सक्षम होना चाहिए।


3
BH जैसी सबसे सामान्य प्रक्रिया एक क्रमचय परीक्षण का उपयोग नहीं करती है। इसका क्या उपयोग है? इसके अलावा, क्रमपरिवर्तन परीक्षण आमतौर पर नल के नीचे एक वितरण प्रदान करते हैं, क्या एफडीआर अनुमान में नल और वैकल्पिक दोनों के मॉडल के साथ-साथ प्रत्येक के अंतर्निहित सापेक्ष अनुपात की आवश्यकता नहीं होती है?
user4733

सबसे पहले, BH प्रक्रिया दिए गए स्तर पर FDR को नियंत्रित करने का एक तरीका है । यह एफडीआर का अनुमान लगाने के बारे में नहीं है। दूसरे, क्रमपरिवर्तन परीक्षण सभी परिकल्पनाओं के नल के तहत किए जाते हैं। मुझे यकीन नहीं है कि आपके द्वारा "शून्य और वैकल्पिक दोनों के मॉडल के साथ-साथ प्रत्येक के अंतर्निहित रिश्तेदार अनुपात की आवश्यकता है"। लेकिन जब आप अपनी परिकल्पना स्थापित करते हैं, तो आपके पास पहले से ही अपने अशक्त और वैकल्पिक जोड़े होते हैं। इसका कोई मतलब भी है क्या? q
एरोन ज़ेंग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.