- जब डायवर्टोमाइजिंग चर होते हैं, तो प्रक्रिया में क्या जानकारी खो जाती है?
- विश्लेषणों में एक द्विभाजन कैसे मदद करता है?
जवाबों:
क्या जानकारी खो गई है: यह चर पर निर्भर करता है। आम तौर पर, dichotomizing द्वारा, आप यह सुनिश्चित कर रहे हैं कि एक चर और दूसरे के बीच प्रभाव की एक सीधी रेखा है। उदाहरण के लिए, कैंसर पर एक अध्ययन में प्रदूषक के संपर्क में निरंतर माप पर विचार करें। यदि आप इसे "उच्च" और "कम" करने के लिए द्विभाजित करते हैं, तो आप दावा करते हैं कि वे केवल दो मूल्य हैं जो मायने रखते हैं। उच्च में कैंसर का खतरा होता है, और निम्न में से एक होता है। लेकिन क्या होगा अगर जोखिम थोड़ी देर के लिए तेजी से बढ़ता है, तो बाहर निकलता है, फिर उच्च मूल्यों पर स्पाइकिंग से पहले फिर से उगता है? वह सब खो गया।
आप क्या हासिल करते हैं: यह आसान है। Dichotomous वैरिएबल अक्सर सांख्यिकीय रूप से निपटने के लिए बहुत आसान होते हैं। ऐसा करने के लिए कारण हैं - अगर एक निरंतर चर दो स्पष्ट समूहों में वैसे भी गिरता है , लेकिन मैं द्विध्रुवण से बचने के लिए जाता हूं जब तक कि इसका प्राकृतिक रूप पहले स्थान पर नहीं होता। यह भी अक्सर उपयोगी होता है यदि आपका क्षेत्र वैसे भी चीजों को द्विगुणित कर रहा हो तो किसी चर का द्विभाजित रूप होना। उदाहरण के लिए, कई लोग 400 से कम की सीडी 4 सेल गिनती को एचआईवी के लिए एक महत्वपूर्ण सीमा मानते हैं। इस प्रकार, मेरे पास अक्सर ० / १०० से ऊपर / ४०० के लिए एक ० / १ चर होता है, हालांकि मैं निरंतर सीडी ४ गणना चर को भी बनाए रखूंगा। यह आपके अध्ययन को दूसरों के साथ सहयोग करने में मदद करता है।
मैं पीटर से थोड़ा असहमत हूँ। श्रेणियों में एक निरंतर चर को विभाजित करते समय अक्सर एक क्रूड डाइकोटोमाइजेशन की तुलना में अधिक समझदार होता है, मैं क्वांटाइल श्रेणीकरण के विरोध में हूं। इस तरह के वर्गीकरण अर्थपूर्ण व्याख्याएं देना बहुत कठिन हैं। मुझे लगता है कि आपका पहला कदम यह देखना चाहिए कि क्या जैविक या नैदानिक रूप से अच्छी तरह से समर्थित वर्गीकरण का उपयोग किया जा सकता है, और केवल एक बार उन विकल्पों को समाप्त हो जाने पर आपको क्वांटाइल्स का उपयोग करना चाहिए।
Dichotimization डेटा विश्लेषण के लिए जादुई सोच जोड़ता है। यह बहुत अच्छा विचार है।
यहाँ रोस्टन, अल्टमैन और सॉरेबरी का एक लेख कुछ कारणों से है कि यह एक बुरा विचार क्यों है।
मेरे अपने विचार: यदि आप एक आश्रित चर को द्विगुणित करते हैं, कहते हैं, जन्म का वजन 2.5 किग्रा (यह हर समय किया जाता है) तो आप उन शिशुओं का इलाज कर रहे हैं जो जन्म से 2.49 किलोग्राम के हैं, जैसे कि 1.5 किलोग्राम के बच्चे और 2.51 में पैदा हुए बच्चे। किलो वही जो 3.5 किग्रा। इसका कोई अर्थ नहीं है।
एक बेहतर विकल्प अक्सर मात्रात्मक प्रतिगमन होता है। मैंने हाल ही में NESUG के लिए इस बारे में लिखा था। वह कागज यहाँ है
उपरोक्त के लिए एक अपवाद तब है जब श्रेणियां निश्चित रूप से प्रेरित होती हैं; उदाहरण के लिए, यदि आप ड्राइविंग व्यवहार के साथ काम कर रहे हैं, तो ड्राइविंग के लिए कानूनी उम्र के आधार पर वर्गीकृत करना समझदारी होगी।
मुझे @ एपिग्राद और @ पीटर के उत्तर दोनों पसंद और समर्थन करते हैं। मैं बस जोड़ना चाहता था, कि, द्विआधारी एक में अंतराल अंतराल को कम कर देता है (संभवतः) मीट्रिक चर सिर्फ क्रमबद्ध एक। बाइनरी वैरिएबल के साथ यह माध्य या विचरण की गणना करने के लिए अनुचित है (कुछ लोग ऐसा करने के बावजूद), और, जैसा कि मैंने कहीं और नोट किया है , कुछ बहुभिन्नरूपी विश्लेषण सैद्धांतिक या तार्किक रूप से अनुपयुक्त हो जाते हैं। उदाहरण के लिए, मुझे लगता है कि बाइनरी चर के साथ सेंट्रोइड / वार्ड पदानुक्रमित क्लस्टरिंग या कारक विश्लेषण का उपयोग करना सही नहीं है।
जाँच के ग्राहक अक्सर हमें आउटपुट पर विचरण करने के लिए मजबूर करते हैं क्योंकि एक निरंतर विशेषता के बजाय कुछ वर्गों के संदर्भ में सोचना सरल होता है, जानकारी कम धूमिल और (झूठा) अधिक भारी लगती है।
हालांकि, ऐसे मामले हैं, जब डायकोटोटाइजेशन वारंट हो सकता है। उदाहरण के लिए जहां मजबूत जैव विविधता है या जब विश्लेषण (उदाहरण MAMBAC या अन्य) 2 अव्यक्त वर्गों की उपस्थिति दिखाते हैं।