जवाबों:
मुझे लगता है कि यह एक बहुत अच्छा सवाल है; बहुत से लोग एक ब्लैक बॉक्स के रूप में बेंजामिनी-होचबर्ग प्रक्रिया (संक्षिप्त बीएच; संभवतः एफडीआर को नियंत्रित करने के लिए सबसे लोकप्रिय प्रक्रिया) का उपयोग करते हैं। वास्तव में यह एक अंतर्निहित धारणा है जो इसे आँकड़ों पर बनाता है और यह पी-मानों की परिभाषा में अच्छी तरह से छिपा हुआ है!
एक अच्छी तरह से परिभाषित पी-वैल्यू यह माना जाता है कि समान रूप से वितरित किया गया है ( ) शून्य परिकल्पना के तहत। कभी-कभी यह भी हो सकता है कि , यानी , समान रूप से समान रूप से छोटा है, लेकिन यह केवल प्रक्रियाओं को अधिक रूढ़िवादी बनाता है (और इसलिए अभी भी मान्य है)। इस प्रकार, अपने पी-मूल्यों की गणना करके, टी-टेस्ट या अपनी पसंद के किसी भी परीक्षण का उपयोग करके, आप अशक्त परिकल्पना के तहत वितरण के बारे में जानकारी प्रदान कर रहे हैं।
लेकिन यहाँ ध्यान दें कि मैं अशक्त परिकल्पना के बारे में बात करता रहा; इसलिए आपने वास्तविक सकारात्मकता के आधार दर के ज्ञान के बारे में जो उल्लेख किया है , उसकी आवश्यकता नहीं है, आपको केवल झूठी सकारात्मकता के आधार दर के ज्ञान की आवश्यकता है! ऐसा क्यों है?
Let सभी को अस्वीकार कर दिया (सकारात्मक) परिकल्पना और की संख्या को निरूपित झूठे सकारात्मक है, तो:
तो FDR का अनुमान लगाने के लिए आपको , का अनुमान लगाने का एक तरीका चाहिए । अब हम निर्णय नियम जो सभी पी मूल्यों अस्वीकार देखेंगे । संकेतन में यह स्पष्ट करने के लिए मैं इस तरह की प्रक्रिया के संबंधित मात्रा / यादृच्छिक चर के लिए भी लिखूंगा ।
चूंकि केवल अस्वीकारों की कुल संख्या की अपेक्षा है, आप निष्पक्ष रूप से आपके द्वारा अवलोकन किए गए अस्वीकार की संख्या से अनुमान लगा सकते हैं, इसलिए अर्थात बस कैसे अपने पी मूल्यों के कई की गणना के द्वारा कर रहे हैं ।
अब क्या ? खैर मान अपने के की कुल परिकल्पना, रिक्त परिकल्पना कर रहे हैं तो एकरूपता द्वारा (या उप एकरूपता) अशक्त आपको मिल के तहत पी मूल्यों की:
लेकिन हम अभी भी नहीं जानते हैं , लेकिन हम जानते हैं कि , इसलिए एक रूढ़िवादी ऊपरी बाध्य सिर्फ । इसलिए, चूंकि हमें झूठी सकारात्मकता की संख्या पर ऊपरी सीमा की आवश्यकता है, इसलिए यह पर्याप्त है कि हम उनके वितरण को जानते हैं! और यह वही है जो बीएच प्रक्रिया करता है।
तो, जबकि आरॉन्ग ज़ेंग की टिप्पणी है कि "बीएच प्रक्रिया एफडीआर को दिए गए स्तर पर नियंत्रित करने का एक तरीका है। यह एफडीआर का अनुमान लगाने के बारे में नहीं है" गलत नहीं है, यह भी बहुत भ्रामक है! बिहार प्रक्रिया वास्तव में करता है प्रत्येक के लिए दी गई सीमा से एफडीआर का अनुमान । और फिर यह सबसे बड़ी दहलीज चुनता है, जैसे कि अनुमानित एफडीआर से नीचे है । दरअसल "समायोजित पी-मूल्य" परिकल्पना की अनिवार्य रूप दहलीज पर एफडीआर का सिर्फ एक अनुमान है (isotonization तक)। मुझे लगता है कि मानक बीएच एल्गोरिथ्म इस तथ्य को थोड़ा छुपाता है, लेकिन इन दो दृष्टिकोणों की समानता (एकाधिक परीक्षण साहित्य में "समतुल्यता प्रमेय" भी कहा जाता है) को दिखाना आसान है।
अंतिम टिप्पणी के रूप में, वहाँ मौजूद तरीके हैं जैसे कि Storey की प्रक्रिया, जो डेटा से अनुमान है; यह शक्ति को थोड़ा बढ़ा सकता है। इसके अलावा सिद्धांत रूप में आप सही हैं, एक और अधिक शक्तिशाली प्रक्रियाओं को प्राप्त करने के लिए वैकल्पिक (आपके वास्तविक सकारात्मक आधार दर) के तहत वितरण को मॉडल कर सकता है; लेकिन अब तक कई परीक्षण अनुसंधान मुख्य रूप से शक्ति को अधिकतम करने के बजाय टाइप-आई त्रुटि के नियंत्रण को बनाए रखने पर केंद्रित हैं। एक कठिनाई यह भी होगी कि कई मामलों में आपके प्रत्येक वास्तविक विकल्प में एक अलग वैकल्पिक वितरण होगा (जैसे अलग-अलग परिकल्पनाओं के लिए अलग-अलग शक्ति), जबकि अशक्त के तहत सभी पी-वैल्यू में समान वितरण होता है। यह सही सकारात्मक दर के मॉडलिंग को और भी कठिन बना देता है।
@Air द्वारा सुझाए गए अनुसार, बेंजामिनी-होचबर्ग (BH) प्रक्रिया FDR नियंत्रण की गारंटी देती है। इसका अनुमान लगाना इसका उद्देश्य नहीं है। इस प्रकार परीक्षण के आँकड़ों के बीच एक मात्र कमजोर निर्भरता धारणा की आवश्यकता होती है। [1,2]
एफडीआर [जैसे 3,4,5] का अनुमान लगाने के उद्देश्य वाले तरीकों में अनुमान लगाने के लिए सामान्य प्रक्रिया पर कुछ मान्यताओं की आवश्यकता होती है। वे आमतौर पर मान लेते हैं कि परीक्षण के आंकड़े स्वतंत्र हैं। वे परीक्षण आँकड़ों के अशक्त वितरण पर भी कुछ ग्रहण करेंगे। इस शून्य वितरण से प्रस्थान, स्वतंत्रता धारणा के साथ, इस प्रकार प्रभावों के लिए जिम्मेदार ठहराया जा सकता है, और एफडीआर का अनुमान लगाया जा सकता है।
ध्यान दें कि ये विचार अर्ध-पर्यवेक्षित नवीनता पहचान साहित्य में फिर से प्रकट होते हैं। [6]।
[१] बेनजामिनी, वाई।, और वाई। होचबर्ग। "झूठी डिस्कवरी दर को नियंत्रित करना: एक व्यावहारिक और कई परीक्षण के लिए शक्तिशाली दृष्टिकोण।" चार-रॉयल स्टेटिक सोसाइटी श्रृंखला बी 57 (1995): 289-289।
[२] बेन्जामिनी, वाई।, और डी। येकुतेली। "निर्भरता के तहत एकाधिक परीक्षण में झूठी डिस्कवरी दर का नियंत्रण।" सांख्यिकी 29 की सं। 4 (2001): 1165-88।
[३] मंजिला, जद "झूठी डिस्कवरी दरों के लिए एक प्रत्यक्ष दृष्टिकोण"। रॉयल सांख्यिकीय सोसायटी श्रृंखला बी 64 के जर्नल, नं। 3 (2002): 479–98। डोई: 10.1111 / 1467-9868.00346।
[४] एफ्रॉन, बी। "माइक्रोएरेस, इम्पीरियल बे और टू-ग्रुप मॉडल।" सांख्यिकीय विज्ञान 23, सं। 1 (2008): 1-22
[५] जिन, जिआशुन, और टी। टोनी कै। "बड़े पैमाने पर एकाधिक तुलना में अशक्त और अशक्त प्रभाव का अनुमान।" जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन 102, सं। 478 (1 जून, 2007): 495-506। डोई: 10.1198 / 016214507000000167।
[६] क्लेसेन, मार्क, जेसी डेविस, फ्रैंक डी स्मेट, और बार्ट डी मूर। "केवल सकारात्मक और बिना लेबल वाले डेटा का उपयोग करके बाइनरी क्लासिफायर का आकलन करना।" arXiv: 1504.06837 [सीएस, स्टेट], 26 अप्रैल, 2015 http://arxiv.org/abs/1504.06837 ।
जब सही अंतर्निहित मॉडल अज्ञात है, तो हम FDR की गणना नहीं कर सकते हैं, लेकिन क्रमचय परीक्षण द्वारा FDR मान का अनुमान लगा सकते हैं । मूल रूप से क्रमपरिवर्तन परीक्षा की प्रक्रिया सिर्फ परिकल्पना के साथ परिणाम चर वेक्टर को बदलकर कई बार परिकल्पना परीक्षण कर रही है। यह नमूनों के क्रमपरिवर्तन के आधार पर भी किया जा सकता है, लेकिन पूर्व की तरह सामान्य नहीं।
कागज यहाँ एफडीआर आकलन के लिए मानक क्रमचय प्रक्रिया की समीक्षा करता है, और यह भी एक नया एफडीआर आकलनकर्ता का प्रस्ताव रखा। यह आपके प्रश्न को संबोधित करने में सक्षम होना चाहिए।