एक पाँच बिंदु पर आइटम अंतर समूह


22

इस प्रश्न से निम्नलिखित : कल्पना कीजिए कि आप 5-बिंदु लिकर आइटम पर दो समूहों (जैसे, पुरुषों और महिलाओं) के बीच केंद्रीय प्रवृत्ति में अंतर के लिए परीक्षण करना चाहते हैं (उदाहरण के लिए, जीवन से संतुष्टि: संतुष्ट करने के लिए असंतुष्ट)। मुझे लगता है कि अधिकांश प्रयोजनों के लिए एक टी-टेस्ट पर्याप्त रूप से सटीक होगा, लेकिन यह कि समूह साधनों के बीच अंतर का बूटस्ट्रैप परीक्षण अक्सर विश्वास अंतराल का अधिक सटीक अनुमान प्रदान करेगा। आप किस सांख्यिकीय परीक्षण का उपयोग करेंगे?


2
एक संबंधित प्रश्न: इस तरह के डेटा के लिए लोग अक्सर नॉनपैमेट्रिक मैन-व्हिटनी परीक्षण का उपयोग करते हैं। चूंकि केवल पांच संभावित मूल्य हैं, बहुत सारे बंधे हुए रैंक होंगे। मान-व्हिटनी परीक्षण बंधे रैंकों के लिए समायोजित करता है, लेकिन क्या यह समायोजन काम करता है जब बड़ी संख्या में संबंध होते हैं?
हार्वे मोटुलस्की

5
आप इस हाल के लेख में प्रकाशित हो सकते हैं, जो कि PARE, फाइव-पॉइंट लिकेर्ट आइटमों में प्रकाशित है : t test vs Mann-Whitney-Wilcoxon , j.mp/biLWrA
chl

मुझे यकीन नहीं है कि ची-स्क्वायर परीक्षण भी उपयुक्त है, यह परीक्षण करता है कि क्या समूहों और वस्तुओं के बीच कोई निर्भरता है (समूहों के बीच अलग-अलग वितरण)।
pe-pe-rry

जवाबों:


12

क्लैसन एंड डोरमोडी ने लिकर्ट आइटम के लिए सांख्यिकीय परीक्षण ( व्यक्तिगत लिकर-प्रकार की वस्तुओं द्वारा मापा गया डेटा का विश्लेषण) के मुद्दे पर चर्चा की । मुझे लगता है कि एक बूटस्ट्रैप्ड परीक्षण ठीक है जब दो वितरण समान (घंटी के आकार और बराबर विचरण) दिखते हैं। हालाँकि, श्रेणीबद्ध डेटा (उदाहरण के लिए ट्रेंड या फ़िशर टेस्ट, या ऑर्डिनल लॉजिस्टिक रिग्रेशन) के लिए एक परीक्षण दिलचस्प होगा क्योंकि यह आइटम श्रेणियों में प्रतिक्रिया वितरण की जांच करने की अनुमति देता है, एग्रीस्टी की पुस्तक को श्रेणीबद्ध डेटा विश्लेषण (अध्याय 7 के लिए लॉजिट मॉडल) के लिए देखें। बहुराष्ट्रीय प्रतिक्रियाएं )।

इसके अलावा, आप उन स्थितियों की कल्पना कर सकते हैं जहां टी-टेस्ट या कोई अन्य गैर-पैरामीट्रिक परीक्षण विफल हो जाएंगे यदि प्रतिक्रिया वितरण दो समूहों के बीच दृढ़ता से असंतुलित है। उदाहरण के लिए, यदि समूह A के सभी लोग 1 या 5 (समान रूप से अनुपात में) हैं, जबकि समूह B के सभी लोग उत्तर 3 का जवाब देते हैं, तो आप समूह के भीतर समान के साथ अंत करते हैं और इस मामले में परीक्षण सार्थक नहीं है, हालांकि इस मामले में समरूपता धारणा का काफी हद तक उल्लंघन किया जाता है।


क्लैसन एंड डोरमोडी लेख अच्छा लगता है। आपकी प्रतिक्रिया वितरण टिप्पणियाँ चिंतन के लिए दिलचस्प हैं। मैं मानता हूं कि वितरण में अंतर ब्याज का हो सकता है। लेकिन अगर आप केवल इस बात में रुचि रखते थे कि क्या जनसंख्या समूह के साधन अलग-अलग हैं, तो जरूरी नहीं कि वितरण ने ऐसी समानता को जन्म दिया हो।
जेरोमे एंग्लीम

इस स्थिति में, आप मान रहे हैं कि आपका लिकर्ट स्केल (दूसरे शब्दों में, के बीच कथित अंतर, जैसे बहुत संतुष्ट और "बस" संतुष्ट) आदर्श व्यवहार करता है और दोनों की आबादी में समान अर्थ माना जाता है। इस प्रकार आप स्पष्ट रूप से यह धारणा बना रहे हैं कि यह एक संख्यात्मक पैमाना है, लेकिन मैं मानता हूं कि इसे अक्सर इस तरह के रूप में लागू शोध में माना जाता है, खासकर अगर प्रतिभागियों को उसी देश से आते हैं। मेरी बात सिर्फ स्पष्ट डेटा विश्लेषण परिप्रेक्ष्य पर जोर देने के लिए थी, जैसा कि आमतौर पर फैक्टर विश्लेषण परंपरा में पाया जाता है, जैसे मेरे प्रश्न # 10 के उत्तर में।
chl

मेरा मानना ​​है कि एक लिकर आइटम का जवाब देने वाले नमूने का मतलब आम तौर पर अंतर्निहित आयाम पर समूह की स्थिति का एक सार्थक सारांश है। यह सोचने के लिए दिलचस्प है कि एक लिकेर्ट आइटम का अर्थ समूहों के बीच व्यवस्थित रूप से कैसे भिन्न होगा। बेशक, यह मुद्दा सिर्फ लिकर्ट आइटम से परे है, शायद किसी भी व्यक्तिपरक माप प्रक्रिया के लिए।
जेरोमे एंग्लीम

8

प्रश्न में डेटासेट के आकार के आधार पर, एक क्रमपरिवर्तन परीक्षण एक बूटस्ट्रैप के लिए बेहतर हो सकता है कि यह परिकल्पना (और एक सटीक CI) का सटीक परीक्षण प्रदान करने में सक्षम हो सकता है।


4

IMHO आप लिकट स्केल के लिए एक टी-टेस्ट का उपयोग नहीं कर सकते। लिकर्ट स्केल ऑर्डिनल है और "जानता है" केवल एक चर के मूल्यों के संबंधों के बारे में है: उदाहरण के लिए "पूरी तरह से असंतुष्ट" "किसी तरह असंतुष्ट" से भी बदतर है। दूसरी ओर एक टी-टेस्ट को साधन और अधिक की गणना करने की आवश्यकता होती है और इस तरह अंतराल डेटा की आवश्यकता होती है। आप डेटा को अंतराल के स्कोर स्केल कर सकते हैं ("पूरी तरह से असंतुष्ट" 1 और इसी तरह) है, लेकिन कोई भी गारंटी नहीं देता है कि "पूरी तरह से असंतुष्ट" "किसी तरह असंतुष्ट" के लिए "किसी भी तरह से असंतुष्ट" के समान दूरी है "न तो" और न ही "। वैसे: "पूरी तरह से असंतुष्ट" और "किसी भी तरह असंतुष्ट" के बीच अंतर क्या है? इसलिए अंत में, आप अपने क्रमिक डेटा के कोडित मूल्यों पर एक टी-टेस्ट करेंगे, लेकिन इसका कोई मतलब नहीं है।


9
... और फिर भी यह आमतौर पर किया जाता है। इंगित करने के लिए एक बात, और हाँ यह थोड़ा पांडित्य है, यदि आप एक एकल लिकट-प्रकार आइटम का उपयोग कर रहे हैं जो कि एक लिकर्ट स्केल नहीं है। अंतर सार्थक है (हालांकि प्रश्न पूछने वाला एक लिकर आइटम के बारे में बात कर रहा है और अध्यादेश एक मुद्दा है)। एक लिकर्ट स्केल कई लिकेर्ट आइटमों के योग या औसत का परिणाम है। इस दृष्टिकोण को विशेष रूप से उस सीमा तक विकसित करने के लिए विकसित किया गया था, जो वास्तव में क्रमिक डेटा क्रमिक था और इसे अंतराल के पैमाने पर होने के रूप में व्यवहार करने के लिए अधिक उचित बनाता है।
रुसेल्पियर

3

यदि प्रश्नावली में प्रत्येक एकल आइटम क्रमबद्ध है, और मुझे नहीं लगता कि इस बिंदु को विवादित किया जा सकता है कि यह जानने का कोई तरीका नहीं है कि क्या "दृढ़ता से सहमत" और "सहमत" के बीच मात्रात्मक अंतर एक समान है " दृढ़ता से असहमत "और" असहमत ", फिर इन सभी क्रमिक स्तर के तराजू का मूल्य एक मान क्यों पैदा करेगा जो कि सच्चे अंतराल स्तर के डेटा के गुणों को साझा करता है?

उदाहरण के लिए, यदि हम एक अवसाद सूची से परिणामों की व्याख्या कर रहे हैं, तो यह समझ में नहीं आता है (कम से कम मेरे लिए) यह कहने के लिए कि "20" के स्कोर वाला व्यक्ति दो बार के स्कोर वाले व्यक्ति के रूप में उदास है " 10 "। ऐसा इसलिए है क्योंकि प्रश्नावली में प्रत्येक आइटम अवसाद के स्तरों में वास्तविक अंतर को नहीं माप रहा है (यह मानते हुए कि अवसाद एक स्थिर, आंतरिक, जैविक विकार है), बल्कि व्यक्ति विशेष के साथ समझौते की व्यक्तिपरक रेटिंग। यह पूछे जाने पर, "आप कितना उदास कहेंगे कि आपका मूड 1-4 के पैमाने पर है, 1 बहुत उदास है और 4 बिल्कुल भी डिस्प्रिट नहीं किए जा रहे हैं", मुझे कैसे पता चलेगा कि एक प्रतिवादी की व्यक्तिपरक रेटिंग 1 की प्रतिक्रिया के समान है। ? या मुझे कैसे पता चलेगा कि 4 और 3 के बीच का अंतर व्यक्ति के संदर्भ में 3 और 4 के समान है ' अवसाद का वर्तमान स्तर। यदि हम इसका कोई भी पता नहीं लगा सकते हैं, तो इन सभी क्रमिक वस्तुओं के अंतराल स्तर के डेटा के रूप में इलाज करने का कोई मतलब नहीं है। यहां तक ​​कि अगर डेटा एक सामान्य वितरण का निर्माण करता है, तो मुझे नहीं लगता कि स्कोर के बीच के अंतर को डेटा स्तर के रूप में समझना उचित है, यदि वे सभी प्रतिक्रियाओं को एक समान-आइटम में जोड़कर गणना की गई हो। डेटा के एक सामान्य वितरण का मतलब सिर्फ इतना है कि प्रतिक्रियाएं संभवतः ग्रीपर आबादी के प्रतिनिधि हैं; इसका अर्थ यह नहीं है कि आविष्कारों से प्राप्त मूल्य अंतराल स्तर के डेटा के महत्वपूर्ण गुणों को साझा करते हैं। टी लगता है कि अंतराल स्तर के डेटा के रूप में स्कोर के बीच के अंतर का इलाज करना उचित है यदि उन्हें एक कॉम्पर्ट-आइटम में सभी प्रतिक्रियाओं को जोड़कर गणना की गई थी। डेटा के एक सामान्य वितरण का मतलब सिर्फ इतना है कि प्रतिक्रियाएं संभवतः ग्रीपर आबादी के प्रतिनिधि हैं; इसका अर्थ यह नहीं है कि आविष्कारों से प्राप्त मूल्य अंतराल स्तर के डेटा के महत्वपूर्ण गुणों को साझा करते हैं। टी लगता है कि अंतराल स्तर के डेटा के रूप में स्कोर के बीच के अंतर का इलाज करना उचित है यदि उन्हें एक कॉम्पर्ट-आइटम में सभी प्रतिक्रियाओं को जोड़कर गणना की गई थी। डेटा के एक सामान्य वितरण का मतलब सिर्फ इतना है कि प्रतिक्रियाएं संभवतः ग्रीपर आबादी के प्रतिनिधि हैं; इसका अर्थ यह नहीं है कि आविष्कारों से प्राप्त मूल्य अंतराल स्तर के डेटा के महत्वपूर्ण गुणों को साझा करते हैं।

हमें व्यवहार विज्ञान में सावधानी बरतने की आवश्यकता है कि हम अपने द्वारा अध्ययन किए जा रहे अव्यक्त चरों के बारे में बात करने के लिए आँकड़ों का उपयोग कैसे करते हैं, क्योंकि इन काल्पनिक निर्माणों को मापने का कोई सीधा तरीका नहीं है, जब हम उन्हें परिमाणित करने का प्रयास करते हैं तो महत्वपूर्ण समस्याएँ होती हैं। पैरामीट्रिक परीक्षणों के लिए। फिर से, क्योंकि हमने मानों को प्रतिक्रियाओं के एक सेट को सौंपा है, इसका मतलब यह नहीं है कि इन मूल्यों के बीच अंतर सार्थक हैं।


1
यदि आप आइटम स्कोर से खुश हैं, तो आप पहले से ही माप के कड़ाई से क्रमिक स्तर से अधिक मान चुके हैं। सख्ती से बोलना, क्रमिक उपायों को सार्थक रूप से जोड़ा या औसत नहीं किया जा सकता है (संयोग से, स्टीवंस उस बारे में स्पष्ट है)। एक बार जब आप ऐसा कर लेते हैं, तो परिणामी अंकों को अंतराल स्तर के डेटा के रूप में व्यवहार करना पूरी तरह से उचित है।
गाला

0

आनुपातिक ऑड्स अनुपात मॉडल बेहतर है तो लिकट आइटम स्केल के लिए टी-टेस्ट करें।


1
क्या आप अपने कारणों की व्याख्या करना चाहेंगे? मैं देख सकता हूं कि इस तरह का मॉडल मनाया प्रतिक्रियाओं का अधिक सटीक मॉडल कैसे प्रदान कर सकता है। हालाँकि, मैंने जो सामान्य व्यावहारिक अनुसंधान स्थितियों में देखा है, शोधकर्ताओं ने इस बात में दिलचस्पी ली है कि क्या दोनों समूह माध्य के संदर्भ में अलग-अलग हैं (जैसे, प्रशिक्षण समूह ने नियंत्रण से अधिक प्रदर्शन किया था; छात्र की संतुष्टि अगले एक साल तक अधिक थी; )। आनुपातिक ऑड्स अनुपात मॉडल इस सवाल का ठीक से परीक्षण नहीं करता है जहां तक ​​मैं जानता हूं।
जेरोमी एंग्लिम

0

मैं इस संदर्भ में आनुपातिक बाधाओं के अनुपात के मॉडल को समझाने का प्रयास करूंगा क्योंकि यह इस प्रश्न के कम से कम 2 उत्तरों में सुझाया गया था और इंगित किया गया था।

आनुपातिक बाधाओं के मॉडल का स्कोर परीक्षण विल्कोकॉन रैंक सम टेस्ट के बराबर है।

अधिक सटीक रूप से, एक आनुपातिक ऑड्स संचयी लॉजिस्टिक रिग्रेशन मॉडल (मैककुलघ 1980) में एकल द्विध्रुवीय सहसंयोजक के प्रभाव के लिए स्कोर टेस्ट स्टेटिक को विल्कोक्स रैंक योग टेस्ट टेस्ट स्टेटिस्टिक के बराबर दिखाया गया था। ( जटिल नमूना सर्वेक्षण डेटा के लिए विलकॉक्स रैंक-सम टेस्ट के विस्तार में प्रमाण ।)

विलकॉक्सन रैंक सम टेस्ट की तरह, इस परीक्षण से पता चलता है कि क्या दो नमूनों को अलग-अलग वितरणों से खींचा गया था, भले ही अपेक्षित मूल्यों की परवाह किए बिना।

यह परीक्षण अमान्य है यदि आप केवल यह जानना चाहते हैं कि क्या विल्कोक्सन रैंक योग परीक्षण की तरह ही दो नमूनों को अलग-अलग अपेक्षित मूल्यों के साथ वितरण से खींचा गया था।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.