डाइकोटोमाइजिंग चर का प्रभाव क्या है?


14
  • जब डायवर्टोमाइजिंग चर होते हैं, तो प्रक्रिया में क्या जानकारी खो जाती है?
  • विश्लेषणों में एक द्विभाजन कैसे मदद करता है?

जेलमैन और पार्क के पास एक लेख है, जो जारी चर से तीन श्रेणियां बनाने की प्रथा की तुलना करता है, जैसा कि दो के विपरीत है। आमतौर पर नीचे दिए गए अन्य कारणों के लिए चर को जारी रखना सबसे अच्छा होता है।
माइकल बिशप

जवाबों:


10

क्या जानकारी खो गई है: यह चर पर निर्भर करता है। आम तौर पर, dichotomizing द्वारा, आप यह सुनिश्चित कर रहे हैं कि एक चर और दूसरे के बीच प्रभाव की एक सीधी रेखा है। उदाहरण के लिए, कैंसर पर एक अध्ययन में प्रदूषक के संपर्क में निरंतर माप पर विचार करें। यदि आप इसे "उच्च" और "कम" करने के लिए द्विभाजित करते हैं, तो आप दावा करते हैं कि वे केवल दो मूल्य हैं जो मायने रखते हैं। उच्च में कैंसर का खतरा होता है, और निम्न में से एक होता है। लेकिन क्या होगा अगर जोखिम थोड़ी देर के लिए तेजी से बढ़ता है, तो बाहर निकलता है, फिर उच्च मूल्यों पर स्पाइकिंग से पहले फिर से उगता है? वह सब खो गया।

आप क्या हासिल करते हैं: यह आसान है। Dichotomous वैरिएबल अक्सर सांख्यिकीय रूप से निपटने के लिए बहुत आसान होते हैं। ऐसा करने के लिए कारण हैं - अगर एक निरंतर चर दो स्पष्ट समूहों में वैसे भी गिरता है , लेकिन मैं द्विध्रुवण से बचने के लिए जाता हूं जब तक कि इसका प्राकृतिक रूप पहले स्थान पर नहीं होता। यह भी अक्सर उपयोगी होता है यदि आपका क्षेत्र वैसे भी चीजों को द्विगुणित कर रहा हो तो किसी चर का द्विभाजित रूप होना। उदाहरण के लिए, कई लोग 400 से कम की सीडी 4 सेल गिनती को एचआईवी के लिए एक महत्वपूर्ण सीमा मानते हैं। इस प्रकार, मेरे पास अक्सर ० / १०० से ऊपर / ४०० के लिए एक ० / १ चर होता है, हालांकि मैं निरंतर सीडी ४ गणना चर को भी बनाए रखूंगा। यह आपके अध्ययन को दूसरों के साथ सहयोग करने में मदद करता है।

मैं पीटर से थोड़ा असहमत हूँ। श्रेणियों में एक निरंतर चर को विभाजित करते समय अक्सर एक क्रूड डाइकोटोमाइजेशन की तुलना में अधिक समझदार होता है, मैं क्वांटाइल श्रेणीकरण के विरोध में हूं। इस तरह के वर्गीकरण अर्थपूर्ण व्याख्याएं देना बहुत कठिन हैं। मुझे लगता है कि आपका पहला कदम यह देखना चाहिए कि क्या जैविक या नैदानिक ​​रूप से अच्छी तरह से समर्थित वर्गीकरण का उपयोग किया जा सकता है, और केवल एक बार उन विकल्पों को समाप्त हो जाने पर आपको क्वांटाइल्स का उपयोग करना चाहिए।


हाय @ पेपीग्राड। मुझे लगता है कि मात्रात्मक प्रतिगमन की काफी आसान व्याख्या है; यह नियमित ओएलएस प्रतिगमन के समान है, "मतलब" के लिए "XXX प्रतिशतक" को छोड़कर।
पीटर Flom - को पुनः स्थापित मोनिका

@PeterFlom क्षमा करें, मुझे और अधिक स्पष्ट होना चाहिए था। जब मैं नैदानिक ​​/ जैविक साक्ष्य से निर्मित श्रेणियों की तुलना में नैदानिक ​​/ जैविक रूप से प्रासंगिक व्याख्या के रूप में रचना करना मुश्किल पाता हूं। यह मेरी ओर से क्षेत्र-विशिष्ट पूर्वाग्रह है।
फोमाइट

ओह, ठीक है, @ पेइग्रैड, जो समझ में आता है। और मैं इस मामले को शामिल करने के लिए अपने जवाब को संपादित करूंगा।
पीटर Flom - को पुनः स्थापित मोनिका

1
ऐसा लगता है कि EpiGrad और @PeterFlom अलग-अलग "मात्रात्मक प्रतिगमन" की व्याख्या करते हैं। एपीग्रैड एक्स वेरिएंट को क्वांटिल्स द्वारा परिभाषित समूहों में विभाजित करने के बारे में बात करता है, जबकि पीटर फ्लॉम मॉडलिंग के बारे में बात करते हैं, कहते हैं, अपने मतलब के बजाय प्रतिक्रिया का 90 वां क्वांटाइल।
अनीको

@ एनिको भी संभव हो सकता है। मैंने मान लिया था कि (शायद गलत तरीके से) पीटर का मतलब था कि डेटा को मात्राओं में वर्गीकृत करना और एक प्रतिगमन मॉडल में इसका उपयोग करना। मेरे क्षेत्र में एक सामान्य (और चिड़चिड़ा) प्रवृत्ति। हो सकता है कि ऐसा न हो।
फोमाइट

9

Dichotimization डेटा विश्लेषण के लिए जादुई सोच जोड़ता है। यह बहुत अच्छा विचार है।

यहाँ रोस्टन, अल्टमैन और सॉरेबरी का एक लेख कुछ कारणों से है कि यह एक बुरा विचार क्यों है।

मेरे अपने विचार: यदि आप एक आश्रित चर को द्विगुणित करते हैं, कहते हैं, जन्म का वजन 2.5 किग्रा (यह हर समय किया जाता है) तो आप उन शिशुओं का इलाज कर रहे हैं जो जन्म से 2.49 किलोग्राम के हैं, जैसे कि 1.5 किलोग्राम के बच्चे और 2.51 में पैदा हुए बच्चे। किलो वही जो 3.5 किग्रा। इसका कोई अर्थ नहीं है।

एक बेहतर विकल्प अक्सर मात्रात्मक प्रतिगमन होता है। मैंने हाल ही में NESUG के लिए इस बारे में लिखा था। वह कागज यहाँ है

उपरोक्त के लिए एक अपवाद तब है जब श्रेणियां निश्चित रूप से प्रेरित होती हैं; उदाहरण के लिए, यदि आप ड्राइविंग व्यवहार के साथ काम कर रहे हैं, तो ड्राइविंग के लिए कानूनी उम्र के आधार पर वर्गीकृत करना समझदारी होगी।


5
खूबसूरती से पीटर ने कहा। मैं ऐसी स्थिति की कल्पना नहीं कर सकता जहाँ विश्लेषण में द्विभाजन एक अच्छा विचार है।
फ्रैंक हरेल

5

मुझे @ एपिग्राद और @ पीटर के उत्तर दोनों पसंद और समर्थन करते हैं। मैं बस जोड़ना चाहता था, कि, द्विआधारी एक में अंतराल अंतराल को कम कर देता है (संभवतः) मीट्रिक चर सिर्फ क्रमबद्ध एक। बाइनरी वैरिएबल के साथ यह माध्य या विचरण की गणना करने के लिए अनुचित है (कुछ लोग ऐसा करने के बावजूद), और, जैसा कि मैंने कहीं और नोट किया है , कुछ बहुभिन्नरूपी विश्लेषण सैद्धांतिक या तार्किक रूप से अनुपयुक्त हो जाते हैं। उदाहरण के लिए, मुझे लगता है कि बाइनरी चर के साथ सेंट्रोइड / वार्ड पदानुक्रमित क्लस्टरिंग या कारक विश्लेषण का उपयोग करना सही नहीं है।

जाँच के ग्राहक अक्सर हमें आउटपुट पर विचरण करने के लिए मजबूर करते हैं क्योंकि एक निरंतर विशेषता के बजाय कुछ वर्गों के संदर्भ में सोचना सरल होता है, जानकारी कम धूमिल और (झूठा) अधिक भारी लगती है।

हालांकि, ऐसे मामले हैं, जब डायकोटोटाइजेशन वारंट हो सकता है। उदाहरण के लिए जहां मजबूत जैव विविधता है या जब विश्लेषण (उदाहरण MAMBAC या अन्य) 2 अव्यक्त वर्गों की उपस्थिति दिखाते हैं।


मुझे आपके तर्क को समझने में मुश्किल समय आ रहा है। और अगर कोई ग्राहक चाहता है कि हम खराब सांख्यिकीय अभ्यास में संलग्न हों तो हमें दो बार सोचना चाहिए। नोट: trichotomise एक शब्द नहीं है। Dichotomization = dicho (दो) + tomous (cut), इसलिए यदि इसका उपयोग किया जाता है तो यह tritomize / tritomise होगा।
फ्रैंक हरेल

क्लाइंट पर पैसेज एक विलाप था, तर्क नहीं। ग्रीक के लिए, आप सही हैं; मैंने शब्द हटा दिया।
ttnphns 3

1
धन्यवाद। मैं कोशिश करता हूं, जितना संभव हो उतना मानवीय रूप से, सांख्यिकीय लामेंट्स को सुधारात्मक कार्रवाई में अनुवाद करने के लिए, हालांकि क्लाइंट के साथ एक गहन शिक्षा प्रक्रिया।
फ्रैंक हरेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.