विभिन्न सरोगेट मॉडल की भविष्यवाणियों में अस्थिरता का प्रभाव
हालाँकि, द्विपद विश्लेषण के पीछे एक धारणा यह है कि प्रत्येक परीक्षण के लिए सफलता की समान संभावना है, और मुझे यकीन नहीं है कि क्रॉस-मान्यता में 'सही' या 'गलत' के वर्गीकरण के पीछे की विधि को माना जा सकता है सफलता की समान संभावना।
खैर, आमतौर पर यह समानता एक धारणा है जो आपको अलग-अलग सरोगेट मॉडल के परिणामों को पूल करने की अनुमति देने के लिए भी आवश्यक है।
व्यवहार में, आपके अंतर्ज्ञान कि इस धारणा का उल्लंघन हो सकता है अक्सर सच होता है। लेकिन आप माप सकते हैं कि क्या यह मामला है। यह वह जगह है जहाँ मैं iterated पार सत्यापन सहायक पाते हैं: विभिन्न सरोगेट मॉडल द्वारा एक ही मामले के लिए पूर्वानुमानों की स्थिरता आपको यह निर्धारित करने देती है कि मॉडल समकक्ष (स्थिर पूर्वानुमान) हैं या नहीं।
यहाँ पुनरावृत्त (उर्फ दोहराया) -फोल्ड क्रॉस सत्यापन की एक योजना है :क
कक्षाएं लाल और नीली हैं। दाईं ओर मंडलियां भविष्यवाणियों का प्रतीक हैं। प्रत्येक पुनरावृत्ति में, प्रत्येक नमूने की भविष्यवाणी एक बार की जाती है। आमतौर पर, भव्य मतलब परोक्ष यह सोचते हैं कि के प्रदर्शन, प्रदर्शन अनुमान के रूप में प्रयोग किया जाता है सरोगेट मॉडल बराबर है। यदि आप अलग-अलग सरोगेट मॉडल (यानी स्तंभों के पार) द्वारा की गई भविष्यवाणियों में प्रत्येक नमूने की तलाश करते हैं, तो आप देख सकते हैं कि इस नमूने के लिए पूर्वानुमान कितने स्थिर हैं।मैं ⋅ के
आप प्रत्येक पुनरावृत्ति (ड्राइंग में 3 पंक्तियों के ब्लॉक) के लिए प्रदर्शन की गणना भी कर सकते हैं। इन दोनों के बीच किसी भी प्रकार का विचलन का अर्थ है कि सरोगेट मॉडल समान हैं (एक दूसरे के लिए और इसके अलावा सभी मामलों में निर्मित "भव्य मॉडल")। लेकिन यह भी बताता है कि आपमें कितनी अस्थिरता है। द्विपदीय अनुपात के लिए मुझे लगता है कि जब तक सही प्रदर्शन एक ही है (यानी स्वतंत्र है कि हमेशा एक ही मामलों को गलत भविष्यवाणी की जाती है या क्या एक ही संख्या लेकिन अलग-अलग मामलों की गलत भविष्यवाणी की जाती है)। मुझे नहीं पता कि सरोगेट मॉडल के प्रदर्शन के लिए कोई विशेष वितरण समझदारी से कर सकता है या नहीं। लेकिन मुझे लगता है कि यह किसी भी मामले में वर्गीकरण त्रुटियों की वर्तमान आम रिपोर्टिंग पर एक फायदा है यदि आप उस अस्थिरता की रिपोर्ट करते हैं।कक
«
nकमैं
ड्राइंग अंजीर का एक नया संस्करण है। 5 इस पत्र में: बेलेइट्स, सी। एंड सैल्जर, आर .: छोटे नमूना आकार की स्थितियों में केमोमीट्रिक मॉडल की स्थिरता का आकलन और सुधार करना, गुदा बायोएनल केम, 390, 1261-1271 (2008)। DOI: 10.1007 / s00216-007-1818-6
ध्यान दें कि जब हमने पेपर लिखा था तो मुझे अभी तक विचरण के विभिन्न स्रोतों के बारे में पूरी तरह से पता नहीं चला था, जो मैंने यहाँ समझाया - ध्यान रखें। इसलिए मुझे लगता है कि तर्कप्रभावी नमूना आकार के आकलन के लिए, वहाँ सही नहीं है, भले ही आवेदन निष्कर्ष है कि प्रत्येक रोगी के भीतर विभिन्न ऊतक प्रकार एक समग्र ऊतक प्रकार के साथ एक नए रोगी के रूप में ज्यादा समग्र जानकारी के बारे में योगदान करते हैं, शायद अभी भी मान्य है (मेरे पास पूरी तरह से अलग प्रकार का है साक्ष्य जो इस तरह से भी बताते हैं)। हालाँकि, मैं अभी तक इस बारे में पूरी तरह से आश्वस्त नहीं हूँ (और न ही इसे कैसे बेहतर किया जा सकता है और इस तरह से जाँच की जा सकती है), और यह मुद्दा आपके प्रश्न से असंबंधित है।
द्विपद विश्वास अंतराल के लिए किस प्रदर्शन का उपयोग करें?
अब तक, मैं औसत देखे गए प्रदर्शन का उपयोग कर रहा हूं। आप सबसे खराब देखे गए प्रदर्शन का भी उपयोग कर सकते हैं: मनाया गया प्रदर्शन करीब 0.5, बड़ा विचरण और इस प्रकार आत्मविश्वास अंतराल। इस प्रकार, 0.5 से निकटतम मनाया प्रदर्शन का विश्वास अंतराल आपको कुछ रूढ़िवादी "सुरक्षा मार्जिन" देता है।
ध्यान दें कि द्विपद विश्वास अंतरालों की गणना करने के लिए कुछ तरीके भी काम करते हैं यदि सफलताओं की संख्या एक पूर्णांक नहीं है। मैं रॉस, टीडी में वर्णित के रूप में "बायेसियन पोस्टीरियर प्रायिकता का एकीकरण" का उपयोग करता हूं
: द्विपद अनुपात और पॉइज़न दर अनुमान, कम्प्यूट ब्योल मेड, 33, 509-531 (2003) के लिए सटीक आत्मविश्वास अंतराल। DOI: 10.1016 / S0010-4825 (03) 00019-2
(मैं मतलाब के लिए नहीं जानता, लेकिन आर में आप binom::binom.bayes
दोनों आकार मापदंडों के साथ 1 का उपयोग कर सकते हैं )।
n
इन्हें भी देखें: बेंगियो, वाई। और ग्रैंडवेल्ट, वाई . : के-फोल्ड क्रॉस-वैलिडेशन के वैरिएस का कोई निष्पक्ष अनुमानक नहीं, जर्नल ऑफ मशीन लर्निंग रिसर्च, 2004, 5, 1089-1105 ।
(इन चीजों के बारे में अधिक सोचना मेरे शोध टूडू-सूची पर है ... लेकिन जैसा कि मैं प्रायोगिक विज्ञान से आ रहा हूं, मुझे प्रायोगिक डेटा के साथ सैद्धांतिक और सिमुलेशन निष्कर्ष को पूरक करना पसंद है - जो कि यहां मुश्किल है क्योंकि मुझे एक बड़ी आवश्यकता होगी संदर्भ परीक्षण के लिए स्वतंत्र मामलों का सेट)
अद्यतन: क्या एक बायोमियल वितरण मान लेना उचित है?
क
n
nपीn