निरंतर डेटा से श्रेणीगत हमेशा गलत है?


14

जब मैंने आपके डेटा को सेटअप करने के तरीके के बारे में पढ़ा, तो एक बात जो मुझे अक्सर पता चली है, वह यह है कि कुछ निरंतर डेटा को श्रेणीबद्ध डेटा में बदलना एक अच्छा विचार नहीं है, क्योंकि आप बहुत अच्छी तरह से गलत निष्कर्ष निकाल सकते हैं यदि थ्रेसहोल्ड खराब तरीके से निर्धारित किए जाते हैं।

हालाँकि, मेरे पास वर्तमान में कुछ डेटा (प्रोस्टेट कैंसर के रोगियों के लिए पीएसए मूल्य) हैं, जहां मुझे लगता है कि आम सहमति यह है कि अगर आप 4 से नीचे हैं तो आपके पास यह नहीं है, यदि आप ऊपर हैं तो आप जोखिम में हैं, और फिर कुछ ऐसा है 10 और 20 से ऊपर, आपके पास शायद है। ऐसा कुछ। उस स्थिति में, क्या मेरे निरंतर PSA मानों को 0-4, 4-10 और> 10 के समूहों में वर्गीकृत करना गलत होगा? या यह वास्तव में ठीक है क्योंकि थ्रेसहोल्ड बोलने के लिए "अच्छी तरह से निर्धारित" हैं।


5
यह निर्भर करता है (हमेशा की तरह)। उदाहरण के लिए, यदि आप अध्ययन कर रहे हैं कि चिकित्सक कैसे निर्णय लेंगे, और वे इन श्रेणियों के आधार पर निर्णय लेते हैं, तो यह आपको उसी श्रेणियों का उपयोग करने के लिए प्रेरित करता है। यदि आप इसके बजाय उन्नत पीएसए से जुड़े जैविक परिणामों का अध्ययन कर रहे हैं, तो सबसे अधिक संभावना है कि आप पीएसए को वर्गीकृत नहीं करना चाहते हैं। इस प्रकार, आपके व्यापक प्रश्न का कोई निश्चित उत्तर नहीं है "क्या यह ठीक है।"
whuber

आप डेटा के साथ क्या करने की कोशिश कर रहे हैं? उस तरह की सीमाएँ नहीं हैं, जो आमतौर पर आप यह जानना चाहते हैं कि उन्हें हाथ में रखकर सवाल पूछ रहा है?
रेमकोगर्लिच

मैं लॉजिस्टिक रिग्रेशन मॉडल के लिए डेटा सेट कर रहा हूं। तो मुख्य प्रश्न वास्तव में है कि क्या केवल निरंतर डेटा का उपयोग करना है, या इसके बजाय असतत डेटा है।
डेनवर डांग

1
यह मेरे लिए स्पष्ट नहीं है कि 'निरंतर' डेटा क्या है। यह वास्तविकता में मौजूद कुछ नहीं है। अनंत परिशुद्धता के साथ माप / आँकड़ा जैसी कोई चीज नहीं है।
जिम्मीजाम्स

1
@ बिलहोरवथ हाँ, मैं डॉक्टर नहीं हूँ, इसलिए मुझे पूरी तरह से यकीन नहीं है कि यह कैसे निर्धारित किया गया है। यदि आप विकी पृष्ठ पर एक नज़र डालते हैं तो यह एक जगह बताता है: "PSA का स्तर 4 और 10 एनजी / एमएल (नैनोग्राम प्रति मिली लीटर) के बीच संदिग्ध माना जाता है और पुनरावृत्ति परीक्षण के साथ असामान्य पीएसए की पुष्टि करने के लिए विचार किया जाना चाहिए। " और फिर दूसरी जगह: "लो-रिस्क: पीएसए <10, ग्लिसेन स्कोर AND 6, और क्लिनिकल स्टेज medi टी 2 ए इंटरमीडिएट-रिस्क: पीएसए 10-20, ग्लीसन स्कोर 7, या क्लिनिकल स्टेज टी 2 बी / सी हाई-रिस्क, पीएसए> 20 , ग्लीसन स्कोर, 8, या नैदानिक ​​चरण ≥ T3 ”
डेनवर डांग

जवाबों:


23

क्या आपके थ्रेसहोल्ड में एक तीव्र असंतोष है?

उदाहरण के लिए, मान लें कि आपके पास 3.9 और 4.1 के मान वाले दो रोगी A और B हैं, और 6.7 और 6.9 के मान वाले अन्य दो रोगी C और D हैं। है अंतर ए और बी के बीच कैंसर के लिए संभावना में सी और डी के बीच इसी अंतर से भी ज्यादा बड़ा?

यदि हाँ, तो विवेक समझ में आता है।

यदि नहीं, तो आपके थ्रेसहोल्ड आपके डेटा को समझने में मदद कर सकते हैं, लेकिन वे सांख्यिकीय रूप से सार्थक अर्थों में "अच्छी तरह से निर्धारित" नहीं हैं। विवेक मत करो। इसके बजाय, अपने परीक्षण स्कोर का उपयोग करें "जैसा है", और यदि आपको किसी प्रकार की गैर-मौजूदगी पर संदेह है, तो उपयोग करें ।

यह बहुत अनुशंसित है।


2
नीचे का लिंक शानदार बिंदुओं से भरा है। इस उत्तर के भविष्य के पाठकों को इसकी जांच करनी चाहिए।
eric_kernfeld

मुझे लगता है कि विवेकाधीन होने का कोई मतलब नहीं है जब तक कि प्रस्तावित ब्रेक पर परिणाम में बड़ी छलांग न हो और यदि परिणाम उन समूहों के लिए अपेक्षाकृत समरूप हो। अन्यथा, फ़ंक्शन @Stephan Kolassa में "जंप" के लिए बेहतर तरीके हैं
LSC

1

मुझे लगता है कि मानक उत्तर यह हमेशा खराब होता है क्योंकि आप प्रक्रिया में जानकारी खो देते हैं। यह विश्वास करना मुश्किल है कि कोई भी मामला है जहां आप प्राकृतिक अंतराल डेटा लेने और उसे श्रेणीबद्ध बनाने से कुछ भी हासिल करेंगे।


उपयुक्त स्थिति वह होगी जहां DV के साथ उस विशेष x के संबंध में एक सच्ची असंतोष है और "श्रेणियों" के भीतर परिणाम अपेक्षाकृत सजातीय है।
एलएससी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.