गिनती डेटा के रूप में स्केल चर - सही है या नहीं?


10

में इस पत्र (केंद्रीय PubMed के माध्यम से स्वतंत्र रूप से उपलब्ध), लेखकों 10 आइटम स्क्रीनिंग साधन पर स्कोर मॉडल करने के लिए नकारात्मक द्विपद प्रतिगमन का उपयोग 0-40 रन बनाए। यह प्रक्रिया गणना डेटा मानती है, जो स्पष्ट रूप से यहां मामला नहीं है। मुझे इस पर आपकी राय पसंद है कि क्या यह दृष्टिकोण स्वीकार्य है, क्योंकि मैं कभी-कभी अपने काम में एक ही उपकरण या समान का उपयोग करता हूं। यदि नहीं, तो मैं जानना चाहूंगा कि क्या कोई स्वीकार्य विकल्प हैं। नीचे अधिक जानकारी:

उपयोग किया जाने वाला पैमाना अल्कोहल यूज डिसऑर्डर आइडेंटिफिकेशन टेस्ट (AUDIT) है, जो एक 10-आइटम प्रश्नावली है जिसे अल्कोहल उपयोग विकार और खतरनाक / हानिकारक पीने के लिए स्क्रीनिंग इंस्ट्रूमेंट के रूप में बनाया गया है। साधन 0 से 40 तक रन किया जाता है, और परिणाम आमतौर पर भारी-तिरछे होते हैं।

मेरी समझ में, गणना डेटा का उपयोग यह मानता है कि "गिने" जाने वाले सभी मान एक-दूसरे से स्वतंत्र हैं - प्रत्येक दिन एक आपातकालीन वार्ड में आने वाले मरीज, एक निश्चित समूह में घातक संख्या, आदि - वे सभी एक-दूसरे से स्वतंत्र होते हैं, हालांकि अंतर्निहित चर पर निर्भर है। इसके अलावा, मुझे लगता है कि गणना डेटा का उपयोग करते समय एक अधिकतम अनुमत संख्या नहीं हो सकती है, हालांकि मुझे लगता है कि जब डेटा में मनाया अधिकतम की तुलना में सैद्धांतिक अधिकतम बहुत अधिक है तो इस धारणा को शिथिल किया जा सकता है।

AUDIT स्केल का उपयोग करते समय, हमारे पास सही गणना नहीं है। हमारे पास अधिकतम 40 अंकों के साथ 10 आइटम हैं, हालांकि उच्च स्कोर शायद ही कभी अभ्यास में देखा जाता है। वस्तुओं पर स्कोर स्वाभाविक रूप से एक दूसरे के साथ सहसंबद्ध होते हैं।

गणना डेटा का उपयोग करने के लिए आवश्यक मान्यताओं का उल्लंघन किया जाता है। लेकिन क्या यह अभी भी एक स्वीकार्य दृष्टिकोण है? मान्यताओं का उल्लंघन कितना गंभीर है? क्या ऐसी कुछ परिस्थितियां हैं जिनके तहत इस दृष्टिकोण को अधिक स्वीकार्य माना जा सकता है? क्या इस दृष्टिकोण का कोई विकल्प है जो श्रेणियों के पैमाने को कम करने में शामिल नहीं है?

जवाबों:


4

AUDIT इंस्ट्रूमेंट अनिवार्य रूप से एक लिकट पैमाना है। प्रश्नों का एक सेट (लिकर्ट आइटम), पांच-बिंदु पैमाने पर अक्सर उत्तर के साथ, कुछ अंतर्निहित घटना पर प्राप्त करने के लिए डिज़ाइन किया गया है। प्रश्नों के सेट की प्रतिक्रियाओं का योग, लिकर्ट स्केल, तब अंतर्निहित घटना के माप के रूप में उपयोग किया जाता है। हालांकि लिकेर्ट आइटम अक्सर "जोरदार असहमत" के पैमाने पर होते हैं, "दृढ़ता से सहमत होने के लिए", इस " आई डेंटिफिकेशन टी इस्ट" में " लैंस यू सी डी आइसार्ड्स" की ओर झुकाव को मापने के लिए आवेदन सीधा है।

जैसा कि लिकर्ट स्केल विकिपीडिया पृष्ठ में उल्लेख किया गया है , "क्या व्यक्तिगत लिकर आइटमों को अंतराल-स्तर के डेटा के रूप में माना जा सकता है, या क्या उन्हें आदेश-श्रेणीबद्ध डेटा के रूप में माना जाना चाहिए, साहित्य में काफी असहमति का विषय है, जो मजबूत सजाओं के साथ हैं। सबसे अधिक लागू तरीके। " यह विवाद संभवत: 80+ वर्षों के दौरान सबसे अधिक होता है क्योंकि लिकर्ट ने पहले पैमाने का प्रस्ताव दिया था: पैमाने के बराबर प्रत्येक कदम है, दोनों के भीतर और पैमाने बनाने वाली वस्तुओं के बीच? इस मुद्दे को क्रॉस वैधता पर संबोधित किया गया है, क्योंकि इस प्रश्न के उत्तर में , इस साइट पर पूछे गए सबसे शुरुआती प्रश्नों में से एक है।

यदि आप इस विचार को स्वीकार करते हैं कि पैमाने में कदम हैं जो समान हैं (या हाथ में आवेदन के लिए समान रूप से पर्याप्त है, तो शायद 10 अलग-अलग वस्तुओं को जोड़कर औसतन, जैसा कि AUDIT में है), तो विश्लेषण के कई दृष्टिकोण संभव हैं। एक पैमाने पर प्रतिक्रिया पर विचार करना है क्योंकि चुने गए चरणों की एक श्रृंखला के रूप में पैमाने को स्थानांतरित करने के लिए चुना गया है या नहीं, प्रत्येक चरण को बढ़ने की समान संभावना के साथ।

यह @MikeLawrence से 2010 के प्रश्न के अनुसार " एन-पॉइंट लिक्टर स्केल डेटा को एक द्विपद प्रक्रिया से n परीक्षणों के रूप में" सोचने की अनुमति देता है । यद्यपि उस प्रश्न की प्रतिक्रियाएँ उस विचार का बहुत अधिक समर्थन नहीं करती थीं, लेकिन 2014 के एक अध्ययन को जल्दी से खोजना कठिन नहीं था, जिसने इस दृष्टिकोण को अलग-अलग द्विपद संभाव्यता के साथ उप-आबादी को अलग करने के लिए सफलतापूर्वक उपयोग किया और बढ़ाया। यद्यपि एक द्विपद प्रक्रिया का उपयोग अक्सर डेटा गणना करने के लिए किया जाता है, इस प्रकार इसका उपयोग संख्याओं की गणना करने के लिए किया जा सकता है, उन चरणों की गणना जो किसी व्यक्ति ने "अल्कोहल उपयोग विकार" के पैमाने के साथ की।

जैसा कि @Scortchi ने दूसरे पैराग्राफ में जुड़े प्रश्न के उत्तर में उल्लेख किया , द्विपद मॉडल की एक सीमा यह है कि यह माध्य और प्रतिक्रिया के विचरण के बीच एक विशेष संबंध स्थापित करता है। नकारात्मक द्विपद हटा देगा कि सरल द्विपद मॉडल के आधार पर प्रदान की आसान व्याख्या के नुकसान के साथ प्रतिबंध,। विश्लेषण में, जो अतिरिक्त पैरामीटर फिट करने की आवश्यकता है, वह स्वतंत्रता के सिर्फ एक अतिरिक्त डिग्री का उपयोग करता है। इसके विपरीत, 40 लिटर-आइटम चरणों में से प्रत्येक के लिए अलग-अलग संभावनाओं को निर्दिष्ट करने की कोशिश करना और लिकर्ट स्केल में उनकी राशि चुनौतीपूर्ण होगी।

जैसा कि @MatthewGraves ने इस प्रश्न के उत्तर में उल्लेख किया है, कि क्या नकारात्मक द्विपद मॉडल उपयुक्त है, अवशिष्टों की जांच करके सबसे अच्छा उत्तर दिया गया है। ऑडीआईटी को विकसित करने वाले मूल अध्ययन में , 40 अलग-अलग पैमाने पर 8 या अधिक के मूल्य में 6 अलग-अलग देशों में "खतरनाक या हानिकारक अल्कोहल उपयोग" के लिए निदान करने वालों के लिए पर्याप्त उचित विशिष्टता और संवेदनशीलता थी। तो शायद उच्च-जोखिम और कम-जोखिम वाले आबादी पर आधारित दो-आबादी वाले द्विपद मॉडल, ऊपर दिए गए 2014 के अध्ययन के समान, बेहतर होगा।

AUDIT में रुचि रखने वालों को विशेष रूप से उस मूल अध्ययन की जांच करनी चाहिए। उदाहरण के लिए, हालांकि सुबह की पेय की आवश्यकता पीने की आवृत्ति से पूरी तरह से अलग कुछ मापने के लिए लग सकती है, जैसा कि @SeanEaster ने कहा है, सुबह के शराब पीने के उपायों के पैमाने के साथ 0.73 का भारित माध्य सहसंबंध है। (यह परिणाम किसी ऐसे व्यक्ति के लिए आश्चर्य की बात नहीं है, जिनके अल्कोहल उपयोग विकारों के साथ दोस्त हैं।) AUDIT एक साधन विकसित करने के लिए आवश्यक ट्रेडऑफ़ का एक अच्छा उदाहरण प्रतीत होता है, जिसे कई संस्कृतियों में मज़बूती से उपयोग किया जा सकता है।


अच्छे उत्तर के लिए धन्यवाद। जब 20000 से अधिक व्यक्तियों के अपने स्वयं के AUDIT डेटा को देखते हैं, तो आकृति एक नकारात्मक द्विपद वितरण के करीब लगती है, इसलिए उस वितरण धारणा का उपयोग करना उचित हो सकता है, या शायद एक अर्ध-पॉइसन मॉडल का उपयोग किया जा सकता है? यदि हम बिंदुओं पर विचार करके एक द्विपद वितरण का उपयोग करते हैं, तो k 40 bernoulli परीक्षणों में से सफलताओं के रूप में है, तो क्या हमें अतिविशिष्टता के साथ गंभीर समस्या नहीं होगी? यह मेरे डेटा में ऐसा लगता है। क्या अर्ध-द्विपद एक विकल्प हो सकता है?
जॉनबोर

बहुत कुछ इस बात पर निर्भर करता है कि आप 0-40 AUDIT स्कोर क्यों बना रहे हैं और परिणाम पर आप क्या व्याख्या करना चाहते हैं। यदि आप चाहते हैं कि अन्य वेरिएबल्स के संबंध में वेरिएबल स्कोर का केवल डिस्ट्रीब्यूशन पैरामीटर मानों की सीमित व्याख्या के साथ, तो एक वितरण का उपयोग करें जो अच्छी तरह से व्यवहार किए गए अवशिष्ट प्रदान करता है; आपके सुझाव वाजिब हैं। डेटा के लिए एक एकल द्विपद को रोकना समस्याग्रस्त है, लेकिन अलग-अलग पी के साथ 2 द्विपद (उच्च जोखिम और कम जोखिम वाले समूहों) का मिश्रण जानकारीपूर्ण हो सकता है। विषय वस्तु के अपने ज्ञान के आधार पर अपने निर्णय का उपयोग करें।
एडीएम

2

नकारात्मक द्विपद बंटन "संक्रामक" असतत घटनाओं के लिए पसंद किया जाता है। एक प्वासों बंटन प्रयोग किया जाता है जब असतत घटनाओं से स्वतंत्र हैं। इन वितरण भी काफी आसान काटना, की जगह हैं एक साथ बिंदु बिंदु, मूल रूप से।x 40एक्स=40एक्स40

एक सामान्य टिप्पणी के रूप में, प्रतिगमन के विभिन्न स्वादों में मापदंडों (यानी नियमितीकरण) और विभिन्न शोर मॉडल के लिए अलग-अलग पुजारी होते हैं। मानक कम से कम वर्ग प्रतिगमन में एक गाऊसी शोर मॉडल है, नकारात्मक द्विपद प्रतिगमन में एक नकारात्मक द्विपद शोर मॉडल है, और इसी तरह। एक प्रतिगमन मॉडल उपयुक्त है या नहीं, इसका सही परीक्षण यह है कि अवशिष्ट शोर का अपेक्षित वितरण है या नहीं।

तो आप अपने डेटा में नकारात्मक द्विपद प्रतिगमन लागू कर सकते हैं, अवशिष्टों की गणना कर सकते हैं, और फिर उन्हें एक नकारात्मक द्विपद संभावना प्लॉट पर प्लॉट कर सकते हैं, और यह समझ सकते हैं कि मॉडल उपयुक्त है या नहीं। यदि शोर को किसी अन्य तरीके से संरचित किया जाता है, तो हमें एक शोर मॉडल की तलाश करनी होगी जो उस संरचना को अधिक बारीकी से फिट करता है।

जेनेरेटिव मॉडल से शोर संरचना में रीजनिंग सहायक है - अगर हम जानते हैं कि डेटा एडिटिव के बजाय गुणक है, उदाहरण के लिए, हम सामान्य के बजाय लॉगऑनॉर्मल तक पहुंचते हैं - लेकिन यदि अपेक्षित जेनेरेटिव मॉडल और शोर संरचना असहमति है डेटा के साथ जाओ, अपेक्षा नहीं।


दिलचस्प है, मुझे नहीं पता था कि घटनाएं "संक्रामक" हो सकती हैं। व्यवहार में x = 40 के साथ x = 40 को प्रतिस्थापित करने का क्या मतलब है? मैं आर में एक नकारात्मक द्विपद संभावना प्लॉट कैसे करूं? मुझे लगता है आप फिट मूल्यों के खिलाफ साजिश अवशेषों मतलब नहीं है? क्या आप एक QQ कथानक की तरह हैं?
जॉनब्लॉक

@JonB मान लीजिए कि आपके पास r = 1 और सफलता की संभावना p = .9 के साथ एक नकारात्मक द्विपद है। 40 परीक्षणों के बचे रहने की संभावना 0.148% है; 40 या अधिक परीक्षणों के जीवित रहने की संभावना 1.48% है। इसलिए [and,३ ९] के लिए नकारात्मक द्विपद का उपयोग करके और फिर [४०] स्थापित करने से डोमेन पर एक अच्छी तरह से गठित संभावना को परिभाषित किया जा सकता है, ताकि यह एक के लिए बोले, क्योंकि नकारात्मक द्विपद वितरण अच्छी तरह से है- गठित संभावना है कि यह 40 या अधिक है।
मैथ्यू ग्रेव्स

@JonB बिल्कुल, मेरा मतलब एक QQ प्लॉट की तरह है। मैंने इसे पहले R में नहीं किया है, लेकिन मुझे आशा है कि यह लिंक मदद करेगा।
मैथ्यू ग्रेव्स

1
मैंने AUDIT स्कोर के साथ कुछ डेटा पर एक प्रयोग किया। क्यूक प्लॉट बनाते समय, मुझे एक नकारात्मक द्विपद वितरण से परिणामों का यादृच्छिक वेक्टर बनाने की आवश्यकता होती है। म्यू / थीटा मेरे प्रतिगमन मॉडल द्वारा दिया गया है, लेकिन मैं यह कैसे जान सकता हूं कि उपयोग करने के लिए "आकार" क्या है? मुझे खेद है कि अगर यह एक आर-विशिष्ट प्रश्न है .. वैसे भी, क्या आपके पास एक अच्छा संदर्भ है जो मैं नकारात्मक द्विपद (और अन्य वितरण) को लागू करने के बारे में अधिक पढ़ सकता हूं इस प्रकार के तराजू कई वस्तुओं को जोड़ते हैं जो कि प्रकार को मापते हैं उसी प्रक्रिया का?
जोनब

मैंने अब कुछ अतिरिक्त प्रयोग किए। मैंने दो चरों के साथ एक डेटासेट का अनुकरण किया: x और y। 50% x = 0 हैं, 50% x = 1 हैं। जो लोग x = 0 हैं उनके पास y = 1 के लिए 0.2 प्रायिकता है, और जो x = 1 हैं उनके लिए y = 1 के लिए 0.4 संभावना है। मैंने तब एक लॉजिस्टिक रिग्रेशन चलाया और अवशिष्टों पर एक नज़र डाली। द्विपद को बिल्कुल भी वितरित न करें। वास्तव में, वे (निश्चित रूप से) 4 विशिष्ट मूल्यों को लेते हैं। क्या आप निश्चित हैं कि अवशिष्ट पैटर्न हमेशा वितरण संबंधी धारणा से मेल खाना चाहिए? क्योंकि इस उदाहरण में, यह स्पष्ट रूप से गलत है।
JonB
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.