अनौपचारिक / दृश्य "कई तुलना" के लिए कई तुलनात्मक सुधार आवश्यक हैं?


9

मेरे पास एक प्रकार का दार्शनिक प्रश्न है कि कब कई तुलनात्मक सुधार आवश्यक हैं।

मैं एक निरंतर समय बदलती संकेत (असतत समय बिंदुओं पर) को माप रहा हूं। अलग-अलग घटनाएं समय-समय पर होती हैं और मैं यह स्थापित करना चाहूंगा कि क्या इन घटनाओं का मापा संकेत पर महत्वपूर्ण प्रभाव पड़ता है।

तो मैं एक घटना के बाद मतलब संकेत ले सकता हूं, और आमतौर पर मैं एक निश्चित शिखर के साथ वहां कुछ प्रभाव देख सकता हूं। यदि मैं उस चोटी का समय चुनता हूं और यह निर्धारित करने के लिए एक टी-टेस्ट कहता हूं कि क्या यह महत्वपूर्ण है जब घटना नहीं होती है तो क्या मुझे कई तुलना सुधार करने की आवश्यकता है?

हालाँकि मैंने कभी केवल एक टी-टेस्ट (1 मान की गणना) किया था, अपने प्रारंभिक दृश्य निरीक्षण में मैंने एक के लिए सबसे बड़े संभावित प्रभाव के साथ चयन किया (कहना) 15 अलग-अलग पोस्ट देरी समय बिंदु मैंने साजिश रची। तो क्या मुझे उन 15 परीक्षणों के लिए कई तुलनात्मक सुधार करने की ज़रूरत है जो मैंने कभी नहीं किए?

अगर मैंने दृश्य निरीक्षण का उपयोग नहीं किया, लेकिन बस प्रत्येक ईवेंट लैग में परीक्षण किया और सबसे अधिक एक का चयन किया, तो मुझे निश्चित रूप से सही करने की आवश्यकता होगी। मैं केवल इस बात को लेकर थोड़ा भ्रमित हूं कि मुझे 'सर्वश्रेष्ठ विलंब' के चयन की आवश्यकता है या नहीं, केवल परीक्षण की तुलना में कुछ अन्य मानदंडों द्वारा किया जाता है (जैसे दृश्य चयन, उच्चतम अर्थ आदि)

जवाबों:


11

तकनीकी रूप से, जब आप परीक्षण करने के लिए एक दृश्य का चयन करते हैं, तो आपको पहले से ही इसके लिए सही होना चाहिए: आपकी आँखें और मस्तिष्क पहले से ही डेटा में कुछ अनिश्चितताओं को बायपास करते हैं, यदि आप उस बिंदु पर परीक्षण करते हैं, तो आप इसका कोई हिसाब नहीं रखते हैं। ।

कल्पना करें कि आपका 'शिखर' वास्तव में एक पठार है, और आप 'चोटी' का अंतर चुनते हैं, फिर उस पर एक परीक्षण चलाते हैं और यह मुश्किल से महत्वपूर्ण निकलता है। यदि आप परीक्षण को बाएं या दाएं से थोड़ा अधिक चलाना चाहते थे, तो परिणाम बदल सकता है। इस तरह, आपको प्राइसेलेशन की प्रक्रिया का हिसाब देना होगा: आपके पास यह निश्चितता नहीं है कि आप क्या कहते हैं! आप चयन करने के लिए डेटा का उपयोग कर रहे हैं, इसलिए आप एक ही जानकारी का दो बार प्रभावी ढंग से उपयोग कर रहे हैं।

बेशक, व्यवहार में, एक हैंडपैकिंग प्रक्रिया की तरह कुछ के लिए खाता होना बहुत मुश्किल है, लेकिन इसका मतलब यह नहीं है कि आपको (या कम से कम / परिणामी राज्य अंतराल नहीं लेना चाहिए / नमक के दाने के साथ परीक्षण के परिणाम)।

निष्कर्ष : यदि आप उन तुलनाओं का चयन कैसे करते हैं, तो आपको कई तुलनाओं के लिए हमेशा सही करना चाहिए, यदि आप कई तुलनाएं करते हैं। यदि वे डेटा को देखने से पहले नहीं उठाए गए थे , तो आपको इसके अलावा सही करना चाहिए।

नोट: मैनुअल प्रिसेप्शन के लिए सही करने का एक विकल्प (उदाहरण के लिए जब यह व्यावहारिक रूप से असंभव है) संभवत: आपके परिणामों को बताता है ताकि वे स्पष्ट रूप से मैनुअल चयन के संदर्भ में हों। लेकिन वह 'प्रजनन योग्य शोध' नहीं है, मुझे लगता है।


1
हमेशा सुधार करते हुए, अपने प्रकार II त्रुटि दर को बढ़ाता है। यदि आपके पास सुधार से पहले सभी महत्वपूर्ण परिणाम हैं, तो आप उन सभी सुधारों के बाद खो सकते हैं, न कि सभी महत्वपूर्ण परिणामों को प्राप्त करने की कम बाधाओं के लिए लेखांकन। यह आपके संदर्भ में टाइप I या टाइप II त्रुटि की लागत पर निर्भर हो सकता है।
इटियेन लो-डेकेरी

निक ने जो जवाब दिया वह मैं देना चाहूंगा अगर मैं पहली बार जवाब दूं। हालाँकि प्रारंभिक सेटअप में आपने (mkpitas) कहा था कि यदि आपने वास्तव में 15 परीक्षण किए हैं तो आपको कई गुना सुधार नहीं करना पड़ेगा। मैं नहीं देखता कि आप ऐसा क्यों कहेंगे। मुझे लगता है कि उस मामले में गुणन सुधार की आवश्यकता अधिक स्पष्ट हो जाती है। @etienne अपनी बात एफडब्ल्यूईआर सुधार पर लागू होती है जो टाइप I त्रुटि को नियंत्रित करने में बहुत सख्त है। यदि आप FDR का उपयोग करते हैं तो आप उतनी शक्ति का त्याग नहीं करेंगे।
माइकल आर। चेरिक

8

बहुत पहले, मेरी पहली सांख्यिकी कक्षाओं में, मैं एक पाठ में इस बारे में पढ़ रहा था (मुझे लगता है कि यह कोहेन की किताब का एक पुराना संस्करण था) जहां इसने कहा "यह एक ऐसा सवाल है जिसके बारे में उचित लोग अलग हो सकते हैं"।

यह मेरे लिए स्पष्ट नहीं है कि किसी को कभी भी कई तुलनाओं के लिए सही करने की आवश्यकता होती है, और न ही, यदि वे करते हैं, तो तुलना की अवधि या सेट किस समय उन्हें सही होना चाहिए। प्रत्येक लेख? प्रत्येक प्रतिगमन या एनोवा? सब कुछ वे एक विषय पर प्रकाशित करते हैं? अन्य लोग क्या प्रकाशित करते हैं?

जैसा कि आप अपनी पहली पंक्ति में लिखते हैं, यह दार्शनिक है।


4
आप सही हैं कि एक सवाल है कि कितनी तुलना की जा रही है, लेकिन मुझे नहीं लगता कि इससे आपका निष्कर्ष निकलता है। उचित लोग अलग-अलग हो सकते हैं क्योंकि उनके अलग-अलग उद्देश्य हैं और संभावित परिणामों के लिए अलग-अलग वैल्यूएशन (नुकसान के कार्य) हैं। यदि आपको कई तुलनाओं के लिए सही होना चाहिए, तो ऐसा इसलिए है क्योंकि इससे बेहतर अपेक्षित नुकसान होता है। जैसे, यह एक गहन व्यावहारिक मुद्दा है, न कि केवल "दर्शन", और इसे हल करने के लिए तर्कसंगत तरीके हैं, जिस पर उचित लोग सहमत हो सकते हैं।
whuber

2
@ कुछ स्थितियों में आप निश्चित रूप से सही हैं। कभी-कभी एक समझदार हानि कार्य होता है, हालांकि स्पष्ट रूप से किसी एक को प्राप्त करना अक्सर कठिन होता है। लेकिन अन्य बार, उदाहरणार्थ काम में, मुझे यह देखने में परेशानी होती है कि कोई नुकसान कैसे संभव है। बेशक, पूरे नुकसान फ़ंक्शन विचार हमें पी = .05 के ग्रिल जैसे कद से दूर हो जाता है, और विशिष्ट धारणा है कि बिजली = .8 या .9 पर्याप्त अच्छी है, और मेरे दिमाग में (और अधिक समझदार) विचार है। हम इन्हें और अधिक ठोस आधार पर स्थापित करते हैं।
पीटर Flom

1
गुंजाइश और अपने उत्तर की भावना को स्पष्ट करने के लिए धन्यवाद, पीटर।
फुबेर

4
जब लोग कहते हैं कि मैं बहुविकल्पीय परीक्षण से कोई फर्क नहीं पड़ता, तो मैं संक्रमित हो जाता हूं। मैं देख रहा हूं कि चिकित्सा अनुसंधान में यह रवैया बहुत बार व्यक्त किया गया है। आप कई कागजात को इंगित कर सकते हैं जो गलत निष्कर्ष पर पहुंच गए क्योंकि बहुलता को नजरअंदाज कर दिया गया था। दवा में गलत निष्कर्ष के साथ पत्रों को प्रकाशित नहीं करना महत्वपूर्ण है क्योंकि यह प्रभावित करता है कि मरीजों का इलाज कैसे किया जाता है और जीवन दांव पर है। बहुपक्षीयता प्रकाशन पूर्वाग्रह में योगदान करती है (क्योंकि जब किसी मुद्दे का कई बार अध्ययन किया जाता है केवल महत्वपूर्ण परिणाम प्रकाशित किए जाते हैं) जो मेटा विश्लेषण में एक गंभीर मुद्दा है,
माइकल आर। चेरिक

1
@MichaelChernick, मैं मानता हूं - यह बहुत समस्याग्रस्त है जब लोग कई परीक्षण सुधारों की उपेक्षा करते हैं। हालांकि, मुझे लगता है कि पीटर एक अच्छा बिंदु लाता है - कई परीक्षण की गुंजाइश क्या होनी चाहिए? सभी परीक्षण एक ही पेपर में किए गए? एकल डेटा सेट के साथ किए गए सभी परीक्षण? समय की शुरुआत के बाद से किए गए सभी परीक्षण? वहाँ एक स्पष्ट रूप से सही जवाब नहीं लगता है।
मैक्रों

4

यदि आप वास्तविकता के बारे में एकतरफा निर्णय लेने की कोशिश कर रहे हैं और उस दर को नियंत्रित करना चाहते हैं जिस पर आप अशक्त परिकल्पना को गलत तरीके से खारिज करते हैं, तो आप अशक्त परिकल्पना महत्व परीक्षण (NHST) का उपयोग करेंगे और कई तुलनाओं में सुधार का उपयोग करना चाहेंगे। हालाँकि, पीटर फ़्लॉम ने अपने उत्तर में कहा, यह स्पष्ट नहीं है कि तुलनात्मकता के सेट को कैसे परिभाषित किया जाए, जिसमें सुधार लागू किया जाए। सबसे आसान विकल्प किसी दिए गए डेटा सेट पर लागू तुलनाओं का सेट है, और यह सबसे आम दृष्टिकोण है।

हालांकि, विज्ञान यकीनन संचयी प्रणाली के रूप में सर्वश्रेष्ठ माना जाता है जहां एकतरफा निर्णय आवश्यक नहीं होते हैं और वास्तव में केवल साक्ष्य संचय की दक्षता को कम करने के लिए काम करते हैं (सूचना के एक बिट से प्राप्त साक्ष्य को कम करना)। इस प्रकार, यदि कोई सांख्यिकीय विश्लेषण के लिए एक उचित वैज्ञानिक दृष्टिकोण का अनुसरण करता है, तो संभावना अनुपात (संभवतः बायेसियन दृष्टिकोण) जैसे उपकरणों के लिए एनएचएसटी को छोड़कर, तो कई तुलनाओं की "समस्या" गायब हो जाती है।


1

आपके प्रश्न के आधार पर, सुधार का एक संभावित विकल्प, पी-मानों के योग के महत्व के लिए परीक्षण करना है। फिर आप अपने आप को परीक्षण के लिए दंडित कर सकते हैं जो उच्च पी-मूल्यों को जोड़कर नहीं किया जाता है।

फिशर की विधि के विस्तार (जिसमें स्वतंत्रता की आवश्यकता नहीं है) (जिसे परीक्षण की स्वतंत्रता की आवश्यकता होती है) का उपयोग किया जा सकता है।

उदाहरण के लिए। कोस्ट की विधि


ये मेटा-विश्लेषण में उपयोग की जाने वाली प्रक्रियाओं के उदाहरण हैं जब व्यक्तिगत अध्ययन केवल पी-वैल्यू प्रदान करते हैं या डेटा को संयुक्त नहीं किया जा सकता है, लेकिन प्रत्येक अध्ययन में एक पी-मूल्य की गणना की जाती है। इसके अलावा फिशर की संयोजन विधि और उलटा सामान्य अनुकूली डिजाइनों में नियमों को रोकने के तरीके हैं।
माइकल आर। चेरिक ने

1

एक बहुत महत्वपूर्ण बात याद रखना है कि कई परीक्षण सुधार स्वतंत्र परीक्षणों को मानते हैं। यदि आपका विश्लेषण करने वाला डेटा स्वतंत्र नहीं है, तो प्रदर्शन किए गए परीक्षणों की संख्या को ठीक करने की तुलना में चीजें थोड़ी अधिक जटिल हो जाती हैं, आपको विश्लेषण किए जा रहे डेटा के बीच संबंध का ध्यान रखना होगा या आपका सुधार संभवत: बहुत रूढ़िवादी होगा और आप करेंगे एक उच्च प्रकार II त्रुटि दर है। मैंने पाया है कि क्रॉस-मान्यता, क्रमपरिवर्तन परीक्षण, या बूटस्ट्रैपिंग कई तुलनाओं से निपटने के लिए प्रभावी तरीके हो सकते हैं यदि उनका उपयोग ठीक से किया जाए। दूसरों ने एफडीआर का उपयोग करने का उल्लेख किया है, लेकिन यह गलत परिणाम दे सकता है यदि आपके डेटा में बहुत अधिक गैर-स्वतंत्रता है क्योंकि यह मानता है कि पी-मान शून्य के तहत सभी परीक्षणों में समान हैं।


2
मैट, साइट पर आपका स्वागत है। अपने शुरुआती वाक्य के बारे में: एक बहुत महत्वपूर्ण बात याद रखना है कि कई परीक्षण सुधार स्वतंत्र परीक्षणों को मानते हैं। ध्यान दें कि यह कुछ एकाधिक-परीक्षण सुधार प्रक्रियाओं के लिए सही है, लेकिन निश्चित रूप से सभी नहीं। उदाहरण के लिए, सभी का सबसे सरल (बोनफेरोनी) कोई स्वतंत्रता की धारणा नहीं बनाता है, और, वास्तव में काफी अक्षम है अगर परीक्षण वास्तव में स्वतंत्र हैं! :-) इसके अलावा, एक सतत-वितरण सेटिंग में, एकल का (सीमांत) वितरणपी-वेल्यू नल के नीचे एक समान होगा; आप अपनी टिप्पणियों को स्पष्ट करने के लिए संपादन पर विचार कर सकते हैं।
कार्डिनल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.