यह एक जटिल मुद्दा है जो कई संबंधित मुद्दों का परिचय देता है: 1) एक परिकल्पना को स्पष्ट रूप से निर्दिष्ट करना, 2) यह समझना कि क्या कारण तंत्र (हो सकता है) एक परिकल्पित प्रभाव और 3) पसंद / प्रस्तुति की शैली से गुजरते हैं।
आप रहे हों तो सही है कि, अगर हम ध्वनि सांख्यिकीय अभ्यास लागू होते हैं, का दावा है कि "समूहों के लिए कर रहे हैं इसी तरह की", एक तुल्यता की एक परीक्षण करने के लिए होगा। हालांकि, समतुल्यता के परीक्षण उनके एनएचएसटी समकक्ष के समान मुद्दों को पीड़ित करते हैं: शक्ति केवल नमूना आकार और तुलनाओं की संख्या का प्रतिबिंब है: हम मतभेदों की अपेक्षा करते हैं, लेकिन एक मुख्य विश्लेषण पर उनकी सीमा और प्रभाव कहीं अधिक महत्वपूर्ण है।
जब इन स्थितियों का सामना किया जाता है, तो आधारभूत तुलना लगभग हमेशा लाल-झुमके होती है। बेहतर तरीके (विज्ञान और सांख्यिकी के) लागू किए जा सकते हैं। मेरे पास कुछ स्टॉक अवधारणाएं / प्रतिक्रियाएं हैं जो मैं इस तरह के सवालों का जवाब देते समय विचार करता हूं।
विभाजन-दर-उपचार कॉलम की तुलना में "कुल" कॉलम अधिक महत्वपूर्ण है; एक चर्चा उन मूल्यों से वंचित है ।
नैदानिक परीक्षणों में, सुरक्षा नमूने का आमतौर पर विश्लेषण किया जाता है। यह उन लोगों का सबसेट है, जिन्हें पहले संपर्क किया गया था, फिर सहमति दी गई, फिर यादृच्छिक किया गया, और अंत में नियंत्रण या उपचार के कम से कम एक पुनरावृत्ति के संपर्क में लाया गया। उस प्रक्रिया में, हम भागीदारी पूर्वाग्रह की अलग-अलग डिग्री का सामना करते हैं।
संभवतः इन अध्ययनों का सबसे महत्वपूर्ण और छोड़ा गया पहलू कुल मिलाकर तालिका 1 परिणाम प्रस्तुत कर रहा है । यह तालिका 1 के सबसे महत्वपूर्ण उद्देश्य को प्राप्त करता है: अन्य जांचकर्ताओं को प्रदर्शित करता है कि अध्ययन का नमूना सामान्य आबादी के लिए कैसे व्यापक है जिसमें परिणाम लागू होते हैं।
मुझे यह आश्चर्यचकित करता है कि कैसे जांचकर्ताओं, पाठकों और समीक्षकों ने रोगी विशेषताओं के भीतर मूर्त प्रवृत्तियों पर ध्यान दिया है जब समावेश / बहिष्करण मानदंड और नमूने की सामान्यता की पूरी अवहेलना होती है।
मुझे यह कहते हुए शर्म आ रही है कि मैं एक परीक्षण पर एक विश्लेषक था जिसने इस मुद्दे के रूप में अनदेखी की। हमने रोगियों को भर्ती किया और फिर, लॉजिस्टिक मुद्दों के कारण, हमने हस्तक्षेप को लागू करने से पहले लगभग एक साल इंतजार किया। न केवल कॉन्सोर्ट आरेख ने उन अवधि के बीच भारी गिरावट दिखाई, बल्कि नमूना स्थानांतरित हो गया। इसका परिणाम उन लोगों की तुलना में काफी हद तक संयुक्त राष्ट्र / बेरोजगार, पुराने और स्वस्थ थे, जिन तक पहुँचने का इरादा था। मुझे अध्ययन की सामान्यता के बारे में गहरी चिंताएं थीं, लेकिन उन चिंताओं की पैरवी करना मुश्किल था, जिन्हें जाना जाता है।
आधारभूत विशेषताओं में असंतुलन का पता लगाने के लिए परीक्षणों की शक्ति और टाइप- I त्रुटि वास्तविक संख्या विशेषताओं पर निर्भर करती है
बेसलाइन चर की इस तरह की एक विस्तृत सूची पेश करने का बिंदु, जैसा कि पहले उल्लेख किया गया है, नमूना का एक संपूर्ण स्नैपशॉट देना है; उनके रोगी का इतिहास, प्रयोगशाला, दवाएं और जनसांख्यिकी। ये सभी पहलू हैं जो चिकित्सक मरीजों को इलाज की सलाह देने के लिए उपयोग करते हैं। वे सभी परिणाम की भविष्यवाणी करने के लिए विश्वास कर रहे हैं। लेकिन ऐसे कारकों की संख्या चौंका देने वाली है। 30 विभिन्न चर की तुलना की जा सकती है। टाइप I एरर का क्रूड जोखिम 1- (1-0.05) ^ 30 = 0.79 है। यदि परीक्षण किया जाना चाहिए, तो बोन्फ्रोनी या क्रमचय सुधार उचित हैं ।
अपने शुद्धतम रूप में सांख्यिकीय परीक्षण निष्पक्ष होने का मतलब है, और इसे पूर्व निर्धारित किया जाना चाहिए। हालांकि, बेसलाइन विशेषताओं की पसंद और प्रस्तुति अक्सर सापेक्ष होती है। मुझे लगता है कि बाद दृष्टिकोण उचित है: यदि हमें पता चलता है, जैसे मेरे परीक्षण में, वहाँ रोचक लक्षण है कि नमूने को प्रभावी ढंग से वर्णित करते हैं, हम स्वतंत्रता उन मूल्यों को पेश करने के लिए चयन करने के लिए होना चाहिए तदर्थ । यदि यह किसी भी मूल्य का है, तो परीक्षण किया जा सकता है, लेकिन सामान्य कैविटीज़ लागू होती हैं: वे ब्याज की परिकल्पना नहीं हैं, भ्रम का एक उच्च जोखिम है कि महत्वपूर्ण और गैर-महत्वपूर्ण परिणाम क्या हैं, और परिणाम अधिक प्रतिबिंब हैं किसी भी सत्य की तुलना में नमूना आकार और प्रस्तुति विचार।
रिरगेनिज़्म किया जा सकता है, लेकिन केवल रोगियों के इलाज से पहले
जैसा कि मैंने उल्लेख किया है, विश्लेषण किया गया नमूना आम तौर पर सुरक्षा नमूना है। हालांकि, पुनर्जागरण रोगियों के लिए एक भारी वकालत और सैद्धांतिक रूप से सुसंगत दृष्टिकोण है जो उपचार का अध्ययन करने के लिए उजागर नहीं हुए हैं। यह केवल उन सेटिंग्स पर लागू होता है जिसमें बैच नामांकन किया जाता है। यहां, 100 प्रतिभागियों की भर्ती की जाती है और उन्हें यादृच्छिक बनाया जाता है। यदि, उदाहरण के लिए, संभावना एक समूह में पुराने लोगों के उच्च अनुपात को असाइन करती है, तो उम्र को संतुलित करने के लिए नमूने को फिर से संगठित किया जा सकता है। यह अनुक्रमिक या कंपित नामांकन के साथ नहीं किया जा सकता है, जो कि सेटिंग है जिसमें अधिकांश परीक्षण आयोजित किए जाते हैं। ऐसा इसलिए है क्योंकि नामांकन का समय प्रचलित स्थिति "पूर्वाग्रह" (भ्रम की घटना और प्रचलित पात्रता मानदंड) द्वारा रोगी की स्थिति की भविष्यवाणी करता है।
संतुलित डिजाइन वैध अनुमान के लिए एक आवश्यकता नहीं है
यादृच्छिककरण धारणा कहती है कि, सैद्धांतिक रूप से, सभी प्रतिभागियों को कोवरिएट्स के औसत समान वितरण पर होगा। हालांकि, जैसा कि पहले उल्लेख किया गया है, 30 या अधिक स्तरों की तुलना करते समय, असंतुलन की संचयी संभावना नगण्य है। वास्तव में, पूरे विचार करने पर सहसंयोजकों का असंतुलन अप्रासंगिक हो सकता है।
यदि रैंडमाइजेशन उचित है, तो हम देख सकते हैं कि उपचार समूह में उम्र को बढ़ाया गया है, लेकिन धूम्रपान नियंत्रण समूह में ऊंचा है: दोनों परिणाम के जोखिम के लिए व्यक्तिगत रूप से योगदान करते हैं। कुशल और वैध अनुमान के लिए जो आवश्यक है वह यह है कि समूहों के बीच प्रवृत्ति स्कोर संतुलित है। यह बहुत कमजोर स्थिति है। दुर्भाग्य से, जोखिम मॉडल के बिना संतुलन के लिए प्रवृत्ति का निरीक्षण नहीं किया जा सकता है। हालाँकि, यह देखना आसान है कि इस तरह की प्रवृत्ति सहसंयोजकों के संयोजन पर निर्भर करती है, और एक यादृच्छिक नमूने में भविष्यवाणियों में असंतुलन की संभावना बिल्कुल कम असंभव है, बिल्कुल सटीक दिखाने के बावजूद असंभव है।
यदि कोई जोखिम मॉडल ज्ञात है, या परिणाम के मजबूत भविष्यवाणियां मौजूद हैं, तो अधिक कुशल और वैध आरसीटी केवल उन कारकों के लिए समायोजित करके किए जाते हैं, भले ही वे उपचार समूहों के बीच संतुलित हों या नहीं।
मेरे पसंदीदा पत्रों में से एक, यादृच्छिक नियंत्रित परीक्षणों के 7 मिथक , इस पर चर्चा करते हैं। समायोजन चर की दृढ़ता से पूर्वानुमानित होने पर समायोजन दक्षता में सुधार करता है। यह पता चलता है कि सही 50/50 संतुलन के साथ भी, अवरुद्ध रेंडमाइजेशन का उपयोग करते हुए, या रैंडमाइजेशन कैसे किया गया था, के संयोग के रूप में, समायोजन सीआई को सिकोड़ देगा, कम प्रतिभागियों को समान रूप से संचालित अध्ययन करने की आवश्यकता होगी; यह लागत और जोखिम को कम करता है। यह चौंकाने वाला है कि यह अधिक बार नहीं किया गया है।
अवलोकन संबंधी अध्ययनों को तालिका 1 से पता चलता है कि इसकी परवाह किए बिना नियंत्रण के लिए नियंत्रण की आवश्यकता है
रैंडमाइजेशन धारणा भ्रम को समाप्त करता है। गैर-आयामी उपचार के साथ, भ्रमित है। एक कन्फ़्यूडर एक चर है जो परिणाम का कारण है और अर्ध-प्रायोगिक उपचार की प्राप्ति की भविष्यवाणी करता है। यह निर्धारित करने के लिए कोई परीक्षण नहीं है कि कौन सा चर (ओं) / कन्फ़्यूज़न हैं। इन सवालों का जवाब देने के लिए डेटा में झांकने का जोखिम यह है कि कन्फ़्यूडर वस्तुतः अनुदैर्ध्य मूल्यों (और तब भी ...) की पूरी तरह से सही माप के बिना मध्यस्थों या कोलाइडर से अप्रभेद्य हैं। मध्यस्थों के लिए समायोजन किसी भी प्रभाव को दर्शाता है, कोलाइडर-समायोजन किसी भी प्रकार के पूर्वाग्रह का कारण बन सकता है। इसके अलावा, कन्फ़्यूज़नर्स के कुल सेट के लिए किसी को समायोजित करने की आवश्यकता नहीं है, बल्कि उन्हें पिछले दरवाजे की कसौटी को हटाना होगा।
उदाहरण के लिए, किशोरों में फेफड़े के कार्य और धूम्रपान के अध्ययन में: बड़े बच्चों में धूम्रपान की संभावना अधिक होती है, लेकिन चूंकि वे लम्बे होते हैं, इसलिए उनके फेफड़ों का कार्य अधिक होता है। यह पिछले ऊंचाई कसौटी पर खरा उतरने के बाद से ही कंफ्यूजन को दूर करने के लिए ऊंचाई के लिए एडजस्ट करने का काम करता है। उम्र के लिए आगे समायोजन केवल दक्षता खो देता है। हालांकि, धूम्रपान करने वालों और गैर-धूम्रपान करने वालों में एक तालिका 1 के "संतुलन" का निरीक्षण करने से पता चलता है कि उम्र और ऊंचाई दोनों "असंतुलित" हैं और इस तरह के लिए नियंत्रित किया जाना चाहिए। यह गलत है।