प्रयोगात्मक डिजाइन में नुकसान: मृत प्रयोगों से बचना


27

मैं कई बार इस उद्धरण पर आया हूं:

एक प्रयोग समाप्त होने के बाद सांख्यिकीविद से परामर्श करने के लिए अक्सर उसे केवल पोस्टमार्टम परीक्षा आयोजित करने के लिए कहने के लिए कहा जाता है। वह शायद कह सकता है कि प्रयोग क्या मर गया। - रोनाल्ड फिशर (1938)

मेरे लिए, यह शायद थोड़ा अनुमान है। एकमात्र उदाहरण जो मैंने कभी वर्णित किया है कि बिना अच्छे डिजाइन के प्रयोग कैसे मर जाते हैं, नियंत्रण की कमी या खराब नियंत्रण के आसपास। उदाहरण के लिए, प्रयोग जो एक उर्वरक के आवेदन के लिए नियंत्रित करते हैं, लेकिन अनुप्रयोग के लिए आवश्यक वातावरण के लिए नियंत्रित करने में विफल रहते हैं। शायद यह सिर्फ मेरे लिए है, लेकिन ऐसा लगता है कि फिशर के डिजाइन सिद्धांतों पर विकिपीडिया अनुभाग के माध्यम से एक त्वरित रीडिंग अधिकांश ठिकानों को कवर करेगा।

एक सांख्यिकीविद् के रूप में, आप कितनी बार डेटा के साथ प्रयोग-संबंधित समस्याओं के डिजाइन को देखते हैं? क्या वे हमेशा फिशर द्वारा बताए गए उन कुछ कारकों से संबंधित हैं, या अन्य गंभीर नुकसान हैं, जिन्हें हम गैर-सांख्यिकीय रूप से प्रशिक्षित वैज्ञानिकों के लिए देख रहे हैं?


4
कितनी बार: बहुत बार। प्रयोग को "मृत" कहने के लिए आमतौर पर बहुत दूर जा रहा है, लेकिन मैं कई प्रयोगों को देखता हूं जो डिजाइन में केवल थोड़े से बदलाव के साथ बेहतर हो सकते हैं।
mark999

3
मैंने कुछ देखा है। हालांकि यह अब संभव हो सकता है , याद रखें कि जब फिशर ने कहा था, तो आप विकिपीडिया को देख नहीं सकते थे। शुरुआती दिनों में यह दर कहीं अधिक हो सकती है।
Glen_b -Reinstate मोनिका

4
अच्छा लगा कि आपने यह बात उठाई। मैं इस बात को लेकर भी उत्सुक हूं कि संभवत: पहली बार जब मैंने चतुर्भुज क्वालीफायर देखा है: "मेरे लिए, यह शायद थोड़ा अनुमान है।" :-)
rolando2

1
@ rolando2: हे, अच्छी तरह से यह फिशर है। उन्होंने उन सभी क्वालीफायर को अर्जित किया : D
n

5
मैंने देखा है - सचमुच - मेरे कैरियर में कई हजारों डेटासेट (और वस्तुतः उनमें से कोई भी किसी सांख्यिकीविद् द्वारा समीक्षा किए गए डिजाइन के अनुसार एकत्र नहीं किया गया था)। उनमें से अधिकांश औपचारिक उद्देश्यों के लिए एकत्र किए गए थे, जैसे कि नियामक आवश्यकताओं को पूरा करना। मैं एक भी एक को याद नहीं कर सकता हूं जिसमें कुछ डिज़ाइन-संबंधित समस्याएं नहीं थीं (हालांकि कभी-कभी ये मामूली थे)। यह कहना नहीं है कि डेटासेट बेकार या "मृत" थे: लेकिन लगभग सभी मामलों में मेरा काम (चिकित्सा सादृश्य को जारी रखना) पहले डेटासेट को पुनर्जीवित करना और फिर अपने इच्छित उद्देश्य पर लागू करना था, यदि संभव हो तो।
whuber

जवाबों:


14

मेरा मानना ​​है कि फिशर ने अपने प्रसिद्ध उद्धरण में जो कहा है वह "हम अपने अध्ययन के लिए एक पूर्ण तथ्यात्मक डिजाइन करेंगे" या किसी अन्य डिजाइन दृष्टिकोण से परे है। प्रयोग की योजना बनाते समय किसी सांख्यिकीविद् से सलाह लेना, इसका मतलब है कि शोध के उद्देश्य सहित, बुद्धिमानी से समस्या के हर पहलू के बारे में सोचना, चर क्या प्रासंगिक हैं, उन्हें कैसे इकट्ठा करना है, डेटा प्रबंधन, नुकसान, प्रयोग कैसे हो रहा है और कितना का मध्यवर्ती मूल्यांकन अधिक। अक्सर, मुझे लगता है कि प्रस्तावित प्रयोग के हर पहलू को वास्तव में समझने के लिए यह देखना महत्वपूर्ण है कि कठिनाइयाँ कहाँ हैं।

मेरा अनुभव मुख्य रूप से चिकित्सा अनुप्रयोगों से है। जिन मुद्दों का मैंने सामना किया है उनमें से कुछ को पहले से एक सांख्यिकीविद् से परामर्श करके रोका जा सकता था:

  • अपर्याप्त नमूना आकार, निश्चित रूप से, इस सूची में नंबर एक है। अक्सर, पिछले अध्ययनों का डेटा उपलब्ध होता और उन्हें आवश्यक नमूने के आकार का एक उचित अनुमान देना आसान होता। इन मामलों में, एकमात्र पुनरावृत्ति अक्सर डेटा का विशुद्ध रूप से वर्णनात्मक विश्लेषण करने के लिए होता है और कागज में आगे अनुसंधान का वादा करता है (प्रकाशित नहीं होता है आमतौर पर डॉक्टरों द्वारा मूल्यवान समय का निवेश करने के बाद एक विकल्प नहीं है)।
  • प्रयोगों के निष्पादन को डिजाइन के बजाय सुविधा और मौका के लिए छोड़ दिया जाता है। एक उदाहरण जो मैं वर्तमान में काम कर रहा हूं उसमें समय के साथ माप एकत्र किए गए हैं। माप समय, माप आवृत्ति और निगरानी अवधि के अंत सभी व्यक्तियों के बीच बेतहाशा भिन्नता है। प्रति व्यक्ति माप की संख्या बढ़ाना और माप की तारीखों और निगरानी अवधि के अंत को ठीक करना काफी कम अतिरिक्त काम होता है (इस मामले में) और अध्ययन के लिए बहुत फायदेमंद होगा।
  • उपद्रव कारकों का खराब नियंत्रण जिसे आसानी से नियंत्रित किया जा सकता था। उदाहरण के नमूने के संग्रह के दिन कभी-कभी माप किए जाते थे और कभी-कभी बाद में इस संभावना को छोड़ दिया जाता है कि नमूना खराब हो गया है।
  • मेरे व्यक्तिगत पसंदीदा सहित खराब डेटा प्रबंधन, "मैंने इसे कंप्यूटर में डालने से पहले डेटा को गोल किया, क्योंकि मशीन अपने माप में गलत है"। अक्सर, प्रासंगिक डेटा केवल एकत्र नहीं किया जाता है और इस तथ्य के बाद इसे प्राप्त करना असंभव है।

अक्सर, एक अध्ययन के साथ समस्या और भी पीछे चली जाती है, अनुसंधान के प्रारंभिक गर्भाधान के लिए:

  • डेटा कभी-कभी एक स्पष्ट उद्देश्य के बिना एकत्र किया जाता है और सिर्फ यह धारणा कि यह किसी भी तरह से उपयोगी होगा। परिकल्पना का निर्माण और "महत्वपूर्ण परिणाम" सांख्यिकीविद् के लिए छोड़ दिया जाता है।
  • और इसके विपरीत: डेटा एक विशिष्ट बिंदु साबित करने के उद्देश्य से एक साथ बिखरा हुआ है, जो कि पीआई उसके सिर में है, डेटा के बावजूद और वास्तव में इसके साथ क्या साबित हो सकता है। इस बार, सांख्यिकीविद् को केवल आंकड़ों के सामने आने वाले निष्कर्षों के बिना पूर्व लिखित निष्कर्षों पर महत्व की अपनी मुहर लगाने वाली है।

अब तक, यह मुख्य रूप से लगता है कि सांख्यिकीविद् ग्रस्त है और शायद वैज्ञानिक अखंडता पीड़ित है जब पीआई डेटा (हमेशा एक मजेदार चर्चा) द्वारा समर्थित निष्कर्षों को धक्का देने की कोशिश नहीं करता है। लेकिन प्रायोगिक टीम के रूप में अच्छी तरह से ग्रस्त है, क्योंकि वे प्रायोगिक चरण के दौरान अनावश्यक अतिरिक्त कार्य (आवश्यक कार्य नहीं करते हुए) करते हैं और इस तथ्य के बाद अपने सांख्यिकीविद् के साथ चर्चा में अधिक समय बिताने की आवश्यकता होती है, क्योंकि उन्हें पहले उनकी सलाह नहीं मिली थी। और निश्चित रूप से, अंतिम पेपर बदतर होगा, कम निष्कर्ष होंगे (और अधिक "अनुमान") और संभवत: इसे उच्च-प्रभाव वाली पत्रिका में नहीं बनाया जाएगा जिसे पीआई चाहता था।


बुलेट बिंदुओं के अपने दूसरे सेट के दूसरे के संबंध में, मुझे लगता है कि एक अध्ययन का सामान्य तर्क विशिष्ट बिंदुओं को साबित करने के उद्देश्य से डेटा इकट्ठा करना है।
रॉबर्ट जोन्स

1
आप निश्चित रूप से, पूरी तरह से सही हैं। मैं वहां बहुत कम था। मेरे कहने का मतलब एक ऐसा परिदृश्य था जहां एक पीआई जो एक बिंदु और खराब गुणवत्ता वाले डेटा को साबित करने के लिए बहुत दृढ़ है, जो उस बिंदु को साबित नहीं कर सकता है (अक्सर मौलिक डिजाइन मुद्दों के कारण) एक साथ हो जाते हैं।
रॉब हॉल

12

दो शब्द: नमूना आकार ... एक शक्ति विश्लेषण एक चाहिए। गेट-गो से अपनी टीम के एक सक्षम सांख्यिकीविद् को शामिल करके, आप अपनी पांडुलिपि या रिपोर्ट के परिणामों और चर्चा अनुभागों को लिखते समय अपने आप को बहुत हद तक हताशा से बचा लेंगे।

30 से कम विषयों के नमूने से "पूर्वानुमान मॉडल" या "कारण संबंध" की अपेक्षा के साथ एक सांख्यिकीविद् से परामर्श करने से पहले एक प्रमुख अन्वेषक के लिए डेटा एकत्र करना बहुत आम है। यदि पीआई ने डेटा एकत्र करने से पहले एक सांख्यिकीविद् से परामर्श किया होता, तो सांख्यिकीविद् पीआई को सूचित कर सकते थे, उपयुक्त विश्लेषण के बाद, अधिक डेटा / विषय एकत्र करने के लिए या अपने विश्लेषण योजना / परियोजना के लक्ष्यों का पुनर्गठन करने के लिए।


1
मैं "एक शक्ति विश्लेषण एक चाहिए" से असहमत हूं। मुझे लगता है कि बहुत से लोग शक्ति विश्लेषण के महत्व से अधिक हैं।
mark999

3
@ mark999: हो सकता है, लेकिन यह प्रयोग करने से पहले कुछ प्रकार के शक्ति विश्लेषण करने के महत्व को नकारता नहीं है , जिसे मैं मैट की बात समझता हूं।
Scortchi - को पुनः स्थापित मोनिका

3
@ mark999: वे निश्चित रूप से उपयोगी हो सकते हैं। लेकिन किन परिस्थितियों में आप प्रयोग करने से पहले किसी भी प्रकार के शक्ति विश्लेषण (आत्मविश्वास अंतराल की अनुमानित चौड़ाई का अनुमान लगाने सहित) की सिफारिश नहीं करेंगे? मैं केवल (1) एक पायलट अध्ययन के बारे में सोच सकता हूं, जहां आप केवल प्रोटोकॉल के माध्यम से चलने में रुचि रखते हैं और मोटे तौर पर त्रुटि का अनुमान लगाते हैं, और (2) एक प्रयोग जिसके लिए आप किसी कारण के लिए एक नमूना आकार नहीं चुन सकते हैं, जिससे शक्ति विश्लेषण निरर्थक।
Scortchi - को पुनः स्थापित मोनिका

2
@ mark999: मुझे लगता है कि हम करते हैं। आपके मामले (B) के लिए, मैं पायलट अध्ययन -> शक्ति विश्लेषण -> प्रयोग करने का सुझाव दूंगा या एक अकल्पनीय योजना के रूप में प्रभाव के आकार का अनुमान लगा सकता हूं ।
Scortchi - को पुनः स्थापित मोनिका

3
यहां तक ​​कि अगर आपके पास एक निश्चित नमूना आकार है, तो मुझे आपके सिर को रेत में दफनाने का कोई कारण नहीं दिखता है और एक शक्ति विश्लेषण (संसाधन की कमी और एक तरफ अज्ञानता के लिए उचित प्रतिक्रिया) से बचें।
एंडी डब्ल्यू

11

मुझे लगता है कि यह इस बात पर निर्भर करता है कि आप "डिजाइन" शब्द की कितनी सख्ती से व्याख्या करते हैं। यह कभी-कभी पूरी तरह से यादृच्छिक बनाम यादृच्छिक ब्लॉकों आदि के अर्थ में लिया जाता है, मुझे नहीं लगता कि मैंने एक अध्ययन देखा है जो उस से मर गया। इसके अलावा, जैसा कि दूसरों ने उल्लेख किया है, मुझे संदेह है कि "मर गया" बहुत मजबूत है, लेकिन यह इस बात पर निर्भर करता है कि आप शब्द की व्याख्या कैसे करते हैं। निश्चित रूप से मैंने उन अध्ययनों को देखा है जो 'गैर-महत्वपूर्ण' थे (और बाद में शोधकर्ताओं ने परिणाम के रूप में प्रकाशित करने की कोशिश नहीं की); इस धारणा के तहत कि ये अध्ययन अलग-अलग तरीके से किए गए 'महत्वपूर्ण' हो सकते हैं (स्पष्ट सलाह के अनुसार जो मैंने दिए होंगे), और इसलिए प्रकाशित किया गया था, "मृत्यु" के रूप में योग्य हो सकता है। इस गर्भाधान के प्रकाश में, @RobHall और @MattReichenbach दोनों द्वारा उठाया गया बिजली का मुद्दा बहुत सरल है, लेकिन नमूना आकार की तुलना में अधिक शक्ति है, और वे "डिजाइन" के शिथिल गर्भाधान के तहत गिर सकते हैं। यहां कुछ उदाहरण दिए गए हैं:

  • जानकारी एकत्र करना / रिकॉर्ड करना / या फेंकना नहीं,
    मैंने एक अध्ययन पर काम किया जहां शोधकर्ता इस बात में रुचि रखते थे कि क्या एक विशेष लक्षण कैंसर से संबंधित था। उन्हें दो लाइनों (यानी, आनुवंशिक लाइनों, कुछ गुणों के लिए चूहों को काट दिया गया) से चूहों को मिला, जहां एक पंक्ति में दूसरे की तुलना में अधिक गुण होने की उम्मीद थी। हालांकि, प्रश्न में विशेषता वास्तव में मापा नहीं गया था, भले ही यह हो सकता था। यह स्थिति एक सतत चर को द्विगुणित करने या दूर करने के अनुरूप है, जो शक्ति को कम करती है। हालांकि, भले ही परिणाम 'महत्वपूर्ण' थे, वे कम जानकारीपूर्ण होंगे यदि हम प्रत्येक माउस के लिए विशेषता के परिमाण को जानते थे।

    इसी हेडिंग के भीतर एक और मामला स्पष्ट कोवरिएट्स के बारे में सोचने और इकट्ठा करने का नहीं है।

  • खराब प्रश्नावली डिजाइन
    मैंने हाल ही में एक अध्ययन पर काम किया है जहां दो स्थितियों के तहत एक रोगी संतुष्टि सर्वेक्षण किया गया था। हालाँकि, कोई भी आइटम रिवर्स-स्कोर नहीं किया गया था। ऐसा प्रतीत हुआ कि अधिकांश रोगियों ने केवल सूची को छोड़ दिया और सभी 5s ( दृढ़ता से सहमत ) को चिह्नित किया , संभवतः वस्तुओं को पढ़े बिना भी। कुछ अन्य मुद्दे थे, लेकिन यह बहुत स्पष्ट है। अजीब तरह से, अध्ययन करने के प्रभारी साथी ने मुझे बताया कि उसके उपस्थित होने ने स्पष्ट रूप से उसे एक सांख्यिकीविद् के साथ अध्ययन करने के लिए प्रोत्साहित किया था , भले ही हम इस तरह के परामर्श के लिए स्वतंत्र और आसानी से उपलब्ध हों।


वाह ... पहले एक साथ, क्या था वे उपाय? यह एक छोटा सा लगता है, उम, स्पष्ट है। या क्या उन्हें हाथ से पहले आश्वासन दिया गया था कि लक्षण अलग-अलग लाइनों में भिन्न थे? दूसरा उदाहरण शांत है, एक तरह का रैंडमाइजेशन, जिसके बारे में ज्यादातर लोग नहीं सोचते।
n

5
यह सिर्फ 1 तनाव बनाम दूसरे का परीक्षण कर रहा था। प्रश्न में विशेषता वास्तव में लाइनों में से एक के लिए अधिक हो जाती है, लेकिन कुछ ओवरलैप है - वितरण पूरी तरह से अलग नहीं होते हैं।
गंग -

मुझे बिंदु 1 के समान अनुभव था: एक माइक्रोफ्लुइडिक डिवाइस को कुछ प्रकार के सेल को पहचानने के लिए स्थापित किया गया था। कोशिकाओं से मान्यता प्राप्त और नियंत्रण कोशिकाओं का मिश्रण इंजेक्ट किया गया था और मान्यता के लिए उपयोग किए जाने वाले एक वीडियो स्ट्रीम + सिग्नल स्ट्रीम का अधिग्रहण किया गया था। दुर्भाग्य से, जबकि वीडियो स्ट्रीम का उपयोग संदर्भ के रूप में किया जा सकता है कि क्या किसी निश्चित समय पर डिटेक्टर पर एक सेल था, यह बताने का कोई तरीका नहीं था कि वास्तव में सेल किस प्रकार का था, इसलिए यह निर्धारित करने का कोई तरीका नहीं है कि सिग्नल सही था या सकारात्मक गलत नकारात्मक या कोई संकेत सही नकारात्मक या गलत सकारात्मक था ...
cbeleites

8

मैंने सर्वेक्षण-जैसे और मनोवैज्ञानिक प्रयोगों में इस तरह की समस्या देखी है।

एक मामले में, पूरे प्रयोग को एक सीखने के अनुभव के लिए तैयार किया जाना था। कई स्तरों पर समस्याएं थीं, जिसके परिणामस्वरूप परिणामों की गड़बड़ी हुई थी, लेकिन परिणाम जो परिकल्पना के लिए कुछ समर्थन देने के लिए लग रहे थे। अंत में, मैं एक अधिक कठोर प्रयोग की योजना बनाने में मदद करने में सक्षम था, जिसमें अनिवार्य रूप से परिकल्पना को अस्वीकार करने की पर्याप्त शक्ति थी।

अन्य मामले में, मुझे एक सर्वेक्षण सौंपा गया था जो पहले से ही डिजाइन और निष्पादित किया गया था, और कई समस्याएं थीं जिनके परिणामस्वरूप ब्याज के कई क्षेत्र प्रभावित हुए थे। उदाहरण के लिए, एक प्रमुख क्षेत्र में, उन्होंने यह पूछा कि ग्राहकों के आने से कितनी बार वे एक कार्यक्रम से दूर हो गए, जब वे पहुंचे। समस्या यह है कि सवाल पर कोई समय सीमा नहीं है, इसलिए आप किसी ऐसे व्यक्ति के बीच अंतर नहीं बता सकते हैं जिसने 4 बार उपस्थित होने की कोशिश की थी और 4 बार दूर हो गया था और किसी ने 40 बार भाग लेने की कोशिश की थी और केवल 4 बार ही दूर किया गया था ।

मैं एक प्रशिक्षित, पूंजी-एस सांख्यिकीविद् नहीं हूँ, लेकिन अगर वे पहले से मेरे पास आते, तो मैं इन मुद्दों को ठीक करने और बेहतर परिणाम प्राप्त करने में उनकी मदद करने में सक्षम होता। पहले मामले में, यह अभी भी निराशाजनक रहा होगा, "क्षमा करें, आपकी परिकल्पना बेहद असंभव है", लेकिन यह उन्हें एक दूसरा प्रयोग बचा सकता था। दूसरे मामले में, इसने उन्हें कुछ महत्वपूर्ण सवालों के जवाब दिए होंगे और परिणामों को तेज किया होगा। (उनके पास एक और समस्या यह थी कि उन्होंने समय के साथ कई स्थानों का सर्वेक्षण किया और कम से कम कुछ लोगों का इस प्रकार कई बार सर्वेक्षण किया गया, जैसे कि "क्या आपने यह सर्वेक्षण कहीं और किया है?"

शायद प्रति से सांख्यिकीय मुद्दे नहीं हैं, लेकिन इन दोनों मामलों में, स्मार्ट, अच्छी तरह से शिक्षित डोमेन विशेषज्ञों ने ऐसे उपकरण बनाए हैं जो त्रुटिपूर्ण थे, और परिणाम एक मृत प्रयोग थे और अंगों के साथ एक प्रयोग विवादास्पद था।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.