जब हम नियंत्रण चर पर समूहों की तुलना करते हैं तो क्या हमें समानता के परीक्षणों का उपयोग करना चाहिए?


13

उपचार और परिणामों पर विचार करने वाले कई पत्रों में, मैं तालिकाओं को देखता हूं (आमतौर पर "तालिका 1") जिसे उपद्रव चर कहा जा सकता है (अक्सर जनसांख्यिकी, कभी-कभी चिकित्सा की स्थिति) महत्व और पाठ के परीक्षणों के साथ जैसे "समूह मोटे तौर पर समान थे, वहाँ XXXXX पर कोई महत्वपूर्ण अंतर नहीं थे, तालिका देखें "। तो स्पष्ट लक्ष्य यह दिखाना है कि विभिन्न उपचारों को सौंपे गए समूह समान हैं।

हालाँकि, यह मुझे ऐसा लगता है कि यह "अशक्त स्वीकार करना" हो सकता है और यह कि हमें क्या करना चाहिए (या मांग की जानी चाहिए) तुल्यता का परीक्षण है।

यह यादृच्छिक परीक्षण या अवलोकन अध्ययनों पर लागू हो सकता है। क्या मुझसे कोई चूक हो रही है?


1
मैं इकट्ठा करता हूं कि आप 'तालिका 1' का जिक्र कर रहे हैं। क्या आप प्रति आरसीटी के बारे में पूछ रहे हैं, या अवलोकन संबंधी अध्ययन भी कर रहे हैं?
गंग -

@ हां, यह आमतौर पर तालिका 1 है। यह अवलोकन अध्ययन या आरसीटी हो सकता है। आपकी टिप्पणी को दर्शाने के लिए मैंने अपना प्रश्न संपादित किया।
पीटर Flom - को पुनः स्थापित मोनिका

1
यहां तक ​​कि अगर मैं स्पष्ट बताते हुए जोखिम उठाता हूं: इस मुद्दे को संबोधित करने वाले कुछ कागजात हैं (उदाहरण के लिए डी बोअर एट अल। (2015) )। मुझे लगता है कि कन्सलस यह है कि आधारभूत तालिकाओं में परिकल्पना परीक्षण को छोड़ दिया जाना चाहिए। पत्नी वक्तव्य क्लिनिकल परीक्षण के लिए और साथ ही स्ट्रोब वक्तव्य पर्यवेक्षणीय अध्ययन परिकल्पना न करें आधारभूत तालिकाओं में परीक्षण के लिए। यदि तुल्यता परीक्षण बेहतर हैं, तो मुझे नहीं पता।
COOLSerdash

चाहे आप शून्य के खिलाफ परीक्षण करें या तुल्यता के लिए परीक्षण प्रेरणा पर निर्भर करता है और तालिका से खींची जाने वाली चर्चा को प्रभावित करता है। समतुल्यता सम्‍मिलित करना एक बहुत मजबूत स्थिति है और मुझे संदेह नहीं है कि अधिकांश मामलों के लिए आवश्यक नहीं है जब तक कि लेखक जनसांख्यिकी आदि के बारे में मजबूत निष्कर्ष नहीं निकालना चाहता। यह संबद्ध में असंतुलन के कारण पूर्वाग्रह के जोखिम को कम करने के लिए एक औपचारिक प्रक्रिया है। जनसांख्यिकी। मैंने उस पर ध्यान नहीं दिया है, लेकिन दूसरों की राय में दिलचस्पी होगी कि वह कैसा दिख सकता है।
रेनेबट

जवाबों:


10

यह एक जटिल मुद्दा है जो कई संबंधित मुद्दों का परिचय देता है: 1) एक परिकल्पना को स्पष्ट रूप से निर्दिष्ट करना, 2) यह समझना कि क्या कारण तंत्र (हो सकता है) एक परिकल्पित प्रभाव और 3) पसंद / प्रस्तुति की शैली से गुजरते हैं।

आप रहे हों तो सही है कि, अगर हम ध्वनि सांख्यिकीय अभ्यास लागू होते हैं, का दावा है कि "समूहों के लिए कर रहे हैं इसी तरह की", एक तुल्यता की एक परीक्षण करने के लिए होगा। हालांकि, समतुल्यता के परीक्षण उनके एनएचएसटी समकक्ष के समान मुद्दों को पीड़ित करते हैं: शक्ति केवल नमूना आकार और तुलनाओं की संख्या का प्रतिबिंब है: हम मतभेदों की अपेक्षा करते हैं, लेकिन एक मुख्य विश्लेषण पर उनकी सीमा और प्रभाव कहीं अधिक महत्वपूर्ण है।

जब इन स्थितियों का सामना किया जाता है, तो आधारभूत तुलना लगभग हमेशा लाल-झुमके होती है। बेहतर तरीके (विज्ञान और सांख्यिकी के) लागू किए जा सकते हैं। मेरे पास कुछ स्टॉक अवधारणाएं / प्रतिक्रियाएं हैं जो मैं इस तरह के सवालों का जवाब देते समय विचार करता हूं।

विभाजन-दर-उपचार कॉलम की तुलना में "कुल" कॉलम अधिक महत्वपूर्ण है; एक चर्चा उन मूल्यों से वंचित है ।

नैदानिक ​​परीक्षणों में, सुरक्षा नमूने का आमतौर पर विश्लेषण किया जाता है। यह उन लोगों का सबसेट है, जिन्हें पहले संपर्क किया गया था, फिर सहमति दी गई, फिर यादृच्छिक किया गया, और अंत में नियंत्रण या उपचार के कम से कम एक पुनरावृत्ति के संपर्क में लाया गया। उस प्रक्रिया में, हम भागीदारी पूर्वाग्रह की अलग-अलग डिग्री का सामना करते हैं।

संभवतः इन अध्ययनों का सबसे महत्वपूर्ण और छोड़ा गया पहलू कुल मिलाकर तालिका 1 परिणाम प्रस्तुत कर रहा है । यह तालिका 1 के सबसे महत्वपूर्ण उद्देश्य को प्राप्त करता है: अन्य जांचकर्ताओं को प्रदर्शित करता है कि अध्ययन का नमूना सामान्य आबादी के लिए कैसे व्यापक है जिसमें परिणाम लागू होते हैं।

मुझे यह आश्चर्यचकित करता है कि कैसे जांचकर्ताओं, पाठकों और समीक्षकों ने रोगी विशेषताओं के भीतर मूर्त प्रवृत्तियों पर ध्यान दिया है जब समावेश / बहिष्करण मानदंड और नमूने की सामान्यता की पूरी अवहेलना होती है।

मुझे यह कहते हुए शर्म आ रही है कि मैं एक परीक्षण पर एक विश्लेषक था जिसने इस मुद्दे के रूप में अनदेखी की। हमने रोगियों को भर्ती किया और फिर, लॉजिस्टिक मुद्दों के कारण, हमने हस्तक्षेप को लागू करने से पहले लगभग एक साल इंतजार किया। न केवल कॉन्सोर्ट आरेख ने उन अवधि के बीच भारी गिरावट दिखाई, बल्कि नमूना स्थानांतरित हो गया। इसका परिणाम उन लोगों की तुलना में काफी हद तक संयुक्त राष्ट्र / बेरोजगार, पुराने और स्वस्थ थे, जिन तक पहुँचने का इरादा था। मुझे अध्ययन की सामान्यता के बारे में गहरी चिंताएं थीं, लेकिन उन चिंताओं की पैरवी करना मुश्किल था, जिन्हें जाना जाता है।

आधारभूत विशेषताओं में असंतुलन का पता लगाने के लिए परीक्षणों की शक्ति और टाइप- I त्रुटि वास्तविक संख्या विशेषताओं पर निर्भर करती है

बेसलाइन चर की इस तरह की एक विस्तृत सूची पेश करने का बिंदु, जैसा कि पहले उल्लेख किया गया है, नमूना का एक संपूर्ण स्नैपशॉट देना है; उनके रोगी का इतिहास, प्रयोगशाला, दवाएं और जनसांख्यिकी। ये सभी पहलू हैं जो चिकित्सक मरीजों को इलाज की सलाह देने के लिए उपयोग करते हैं। वे सभी परिणाम की भविष्यवाणी करने के लिए विश्वास कर रहे हैं। लेकिन ऐसे कारकों की संख्या चौंका देने वाली है। 30 विभिन्न चर की तुलना की जा सकती है। टाइप I एरर का क्रूड जोखिम 1- (1-0.05) ^ 30 = 0.79 है। यदि परीक्षण किया जाना चाहिए, तो बोन्फ्रोनी या क्रमचय सुधार उचित हैं ।

अपने शुद्धतम रूप में सांख्यिकीय परीक्षण निष्पक्ष होने का मतलब है, और इसे पूर्व निर्धारित किया जाना चाहिए। हालांकि, बेसलाइन विशेषताओं की पसंद और प्रस्तुति अक्सर सापेक्ष होती है। मुझे लगता है कि बाद दृष्टिकोण उचित है: यदि हमें पता चलता है, जैसे मेरे परीक्षण में, वहाँ रोचक लक्षण है कि नमूने को प्रभावी ढंग से वर्णित करते हैं, हम स्वतंत्रता उन मूल्यों को पेश करने के लिए चयन करने के लिए होना चाहिए तदर्थ । यदि यह किसी भी मूल्य का है, तो परीक्षण किया जा सकता है, लेकिन सामान्य कैविटीज़ लागू होती हैं: वे ब्याज की परिकल्पना नहीं हैं, भ्रम का एक उच्च जोखिम है कि महत्वपूर्ण और गैर-महत्वपूर्ण परिणाम क्या हैं, और परिणाम अधिक प्रतिबिंब हैं किसी भी सत्य की तुलना में नमूना आकार और प्रस्तुति विचार।

रिरगेनिज़्म किया जा सकता है, लेकिन केवल रोगियों के इलाज से पहले

जैसा कि मैंने उल्लेख किया है, विश्लेषण किया गया नमूना आम तौर पर सुरक्षा नमूना है। हालांकि, पुनर्जागरण रोगियों के लिए एक भारी वकालत और सैद्धांतिक रूप से सुसंगत दृष्टिकोण है जो उपचार का अध्ययन करने के लिए उजागर नहीं हुए हैं। यह केवल उन सेटिंग्स पर लागू होता है जिसमें बैच नामांकन किया जाता है। यहां, 100 प्रतिभागियों की भर्ती की जाती है और उन्हें यादृच्छिक बनाया जाता है। यदि, उदाहरण के लिए, संभावना एक समूह में पुराने लोगों के उच्च अनुपात को असाइन करती है, तो उम्र को संतुलित करने के लिए नमूने को फिर से संगठित किया जा सकता है। यह अनुक्रमिक या कंपित नामांकन के साथ नहीं किया जा सकता है, जो कि सेटिंग है जिसमें अधिकांश परीक्षण आयोजित किए जाते हैं। ऐसा इसलिए है क्योंकि नामांकन का समय प्रचलित स्थिति "पूर्वाग्रह" (भ्रम की घटना और प्रचलित पात्रता मानदंड) द्वारा रोगी की स्थिति की भविष्यवाणी करता है।

संतुलित डिजाइन वैध अनुमान के लिए एक आवश्यकता नहीं है

यादृच्छिककरण धारणा कहती है कि, सैद्धांतिक रूप से, सभी प्रतिभागियों को कोवरिएट्स के औसत समान वितरण पर होगा। हालांकि, जैसा कि पहले उल्लेख किया गया है, 30 या अधिक स्तरों की तुलना करते समय, असंतुलन की संचयी संभावना नगण्य है। वास्तव में, पूरे विचार करने पर सहसंयोजकों का असंतुलन अप्रासंगिक हो सकता है।

यदि रैंडमाइजेशन उचित है, तो हम देख सकते हैं कि उपचार समूह में उम्र को बढ़ाया गया है, लेकिन धूम्रपान नियंत्रण समूह में ऊंचा है: दोनों परिणाम के जोखिम के लिए व्यक्तिगत रूप से योगदान करते हैं। कुशल और वैध अनुमान के लिए जो आवश्यक है वह यह है कि समूहों के बीच प्रवृत्ति स्कोर संतुलित है। यह बहुत कमजोर स्थिति है। दुर्भाग्य से, जोखिम मॉडल के बिना संतुलन के लिए प्रवृत्ति का निरीक्षण नहीं किया जा सकता है। हालाँकि, यह देखना आसान है कि इस तरह की प्रवृत्ति सहसंयोजकों के संयोजन पर निर्भर करती है, और एक यादृच्छिक नमूने में भविष्यवाणियों में असंतुलन की संभावना बिल्कुल कम असंभव है, बिल्कुल सटीक दिखाने के बावजूद असंभव है।

यदि कोई जोखिम मॉडल ज्ञात है, या परिणाम के मजबूत भविष्यवाणियां मौजूद हैं, तो अधिक कुशल और वैध आरसीटी केवल उन कारकों के लिए समायोजित करके किए जाते हैं, भले ही वे उपचार समूहों के बीच संतुलित हों या नहीं।

मेरे पसंदीदा पत्रों में से एक, यादृच्छिक नियंत्रित परीक्षणों के 7 मिथक , इस पर चर्चा करते हैं। समायोजन चर की दृढ़ता से पूर्वानुमानित होने पर समायोजन दक्षता में सुधार करता है। यह पता चलता है कि सही 50/50 संतुलन के साथ भी, अवरुद्ध रेंडमाइजेशन का उपयोग करते हुए, या रैंडमाइजेशन कैसे किया गया था, के संयोग के रूप में, समायोजन सीआई को सिकोड़ देगा, कम प्रतिभागियों को समान रूप से संचालित अध्ययन करने की आवश्यकता होगी; यह लागत और जोखिम को कम करता है। यह चौंकाने वाला है कि यह अधिक बार नहीं किया गया है।

अवलोकन संबंधी अध्ययनों को तालिका 1 से पता चलता है कि इसकी परवाह किए बिना नियंत्रण के लिए नियंत्रण की आवश्यकता है

रैंडमाइजेशन धारणा भ्रम को समाप्त करता है। गैर-आयामी उपचार के साथ, भ्रमित है। एक कन्फ़्यूडर एक चर है जो परिणाम का कारण है और अर्ध-प्रायोगिक उपचार की प्राप्ति की भविष्यवाणी करता है। यह निर्धारित करने के लिए कोई परीक्षण नहीं है कि कौन सा चर (ओं) / कन्फ़्यूज़न हैं। इन सवालों का जवाब देने के लिए डेटा में झांकने का जोखिम यह है कि कन्फ़्यूडर वस्तुतः अनुदैर्ध्य मूल्यों (और तब भी ...) की पूरी तरह से सही माप के बिना मध्यस्थों या कोलाइडर से अप्रभेद्य हैं। मध्यस्थों के लिए समायोजन किसी भी प्रभाव को दर्शाता है, कोलाइडर-समायोजन किसी भी प्रकार के पूर्वाग्रह का कारण बन सकता है। इसके अलावा, कन्फ़्यूज़नर्स के कुल सेट के लिए किसी को समायोजित करने की आवश्यकता नहीं है, बल्कि उन्हें पिछले दरवाजे की कसौटी को हटाना होगा।

उदाहरण के लिए, किशोरों में फेफड़े के कार्य और धूम्रपान के अध्ययन में: बड़े बच्चों में धूम्रपान की संभावना अधिक होती है, लेकिन चूंकि वे लम्बे होते हैं, इसलिए उनके फेफड़ों का कार्य अधिक होता है। यह पिछले ऊंचाई कसौटी पर खरा उतरने के बाद से ही कंफ्यूजन को दूर करने के लिए ऊंचाई के लिए एडजस्ट करने का काम करता है। उम्र के लिए आगे समायोजन केवल दक्षता खो देता है। हालांकि, धूम्रपान करने वालों और गैर-धूम्रपान करने वालों में एक तालिका 1 के "संतुलन" का निरीक्षण करने से पता चलता है कि उम्र और ऊंचाई दोनों "असंतुलित" हैं और इस तरह के लिए नियंत्रित किया जाना चाहिए। यह गलत है।


1
मैं इससे सहमत हूं और p मानों के साथ समस्याओं से अच्छी तरह परिचित हूं। (आपको इस साइट पर कम लोग मिलेंगे या I की तुलना में अधिक एंटी-पी वैल्यू हैं)। और मैं बेहतर तरीकों के लिए हूं, जिनमें से कुछ आप उठाते हैं। बेशक, कुछ चर दमनकारी हो सकते हैं (ताकि उनके सहित मुख्य प्रभाव का आकार बढ़ जाए)। हालांकि, अगर मैं कहता हूं, किसी पत्रिका के लिए एक पेपर की समीक्षा कर रहा हूं, तो क्या आपको लगता है कि तालिका 1 के लिए समकक्ष परीक्षण की सिफारिश करना अच्छा है, या आप यहां अपने पूर्ण उत्तर के लिए जाएंगे?
पीटर Flom - को पुनः स्थापित मोनिका

1
@PeterFlom मैं अब संदर्भ को थोड़ा बेहतर देखता हूं। एक सांख्यिकीय समीक्षक के रूप में, मैं इस पर विचार करूंगा कि क्या टिप्पणी बाद के विश्लेषणों के लिए प्रासंगिक है। यदि यह प्रासंगिक नहीं है, तो मैं उन्हें टिप्पणी करने के लिए प्रोत्साहित करूंगा क्योंकि यह उपयोगी नहीं है। यदि यह प्रासंगिक है, तो मैं उन्हें प्रोत्साहित करता हूं कि) एक अधिक मजबूत विश्लेषण दृष्टिकोण पर विचार करें या बी) संवेदनशीलता विश्लेषण का उपयोग यह निर्धारित करने के लिए करें कि क्या एक संभावित प्रभाव है। सहसंयोजकों का संतुलन विश्लेषण को प्रभावित करता है क्योंकि मैं ध्यान देना पसंद करूंगा, यही वह मायने रखता है। यह एक प्रवृत्ति-मिलान वाला डिज़ाइन नहीं है, शायद, यह है?
एडमो

1
@PeterFlom एक समीक्षक के रूप में, "तालिका 1" में पी-वैल्यू से छुटकारा पाने की सिफारिश करने का कोई मतलब नहीं होगा?
अमीबा का कहना है कि

1
एडमो, महान जवाब (+1), लेकिन मैं इस सिफारिश से थोड़ा चिंतित हूं कि "टेबल 1" के संदर्भ में कई परीक्षण समायोजन "सलाह" हैं। क्या टाइप I यहाँ किसी चिंता का त्रुटि है? मुझे लगता है कि इस मामले में, टाइप II त्रुटि वास्तव में बहुत अधिक महत्वपूर्ण है (कोई इस तथ्य को याद नहीं करना चाहेगा कि कुछ आधारभूत चर उपचार और नियंत्रण समूहों के बीच भिन्न होते हैं)। बोनफर्रानी के उपयोग से टाइप II त्रुटि बहुत बढ़ जाएगी। यह समानता के परीक्षणों के बारे में @ पीटर के बिंदु से संबंधित है: एक अर्थ में, प्रकार I और प्रकार II विनिमय स्थान यदि आप "तुल्यता" के दृष्टिकोण पर स्विच करते हैं।
अमीबा का कहना है कि मोनिका

1
@ बाम्बे बिल्कुल। यदि हम इस दृष्टिकोण पर जोर देते हैं (मेरी अनुशंसा नहीं) एनएचएसटी के लिए आवश्यक है कि हम टाइप I त्रुटि को नियंत्रित करें। मुझे लगता है कि मेरी बात यह है कि हमें एफडब्ल्यूईआर को नियंत्रित करना चाहिए क्योंकि हमें परवाह नहीं है कि कौन सा चर असंतुलित है। यह 0.2 जैसे एक उदार मूल्य पर सेट किया जा सकता है। मुझे किसी भी समतुल्यता परीक्षण के बारे में पता नहीं है जिसके लिए शक्ति ऊपर जाती है जैसा कि नमूना आकार बढ़ता है, इसलिए ऐसे परीक्षणों के औचित्य चिंताजनक, व्यक्तिपरक और अप्रभावी होते हैं।
एडमो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.