क्या प्रकार के डेटा (नाममात्र / क्रमिक / अंतराल / अनुपात) को वास्तव में चर के प्रकार माना जाना चाहिए?


10

इसलिए उदाहरण के लिए, मैं मानक पाठ पुस्तकों से प्राप्त की जाने वाली परिभाषाएँ हैं

चर - जनसंख्या या नमूने की विशेषता। पूर्व। एक परीक्षण पर एक शेयर या ग्रेड की कीमत

डेटा - वास्तविक देखे गए मान

तो एक दो कॉलम की रिपोर्ट के लिए [नाम | आय] कॉलम नाम चर और वास्तविक मान मान {dave | 100K}, {jim | 200K} डेटा होगा

इसलिए यदि मैं कहता हूं कि [नाम] कॉलम नाममात्र डेटा है और यह [आय] अनुपात डेटा है, तो क्या मैं इसे एक प्रकार के डेटा के बजाय एक प्रकार के चर के रूप में वर्णन करना अधिक सटीक नहीं होगा, जैसे अधिकांश पाठ्यपुस्तकें? मैं समझता हूं कि यह शब्दार्थ हो सकता है, और यह ठीक है कि यह सब भी है। लेकिन मुझे डर है कि मुझे यहां कुछ याद आ रहा है।


मुझे एक सार्थक अंतर के रूप में हड़ताल नहीं करता; मैं या तो व्यक्तिगत रूप से स्वीकार्य होने पर विचार करूंगा। "चर" की परिभाषा हालांकि थोड़ी दूर लगती है।
निक स्टूनर

2
@ मुझे विश्वास है कि अगर हम बोलचाल की "विशेषता" का गणितीय "वास्तविक-मूल्यवान कार्य" में अनुवाद करते हैं, तो हमें एक यादृच्छिक चर की परिभाषा का हिस्सा मिलता है। (लापता हिस्सा, निश्चित रूप से, आबादी पर एक सिग्मा फ़ील्ड के संबंध में औसत दर्जे का है।) आम तौर पर, हालांकि, हम "नमूना की विशेषता" को तकनीकी शब्द सांख्यिकीय में अनुवाद करेंगे : शायद यही आप एक भाग के रूप में संदर्भित कर रहे हैं। "थोड़ा दूर।" इन अनुवादों के साथ, चर का स्टीवंस के अर्थ में "प्रकार" बिल्कुल नहीं है (हम केवल निरंतर वितरण से असतत को अलग कर सकते हैं ) - लेकिन कुछ डेटा कर सकते हैं।
whuber

जवाबों:


16

स्टीवंस की स्केल टाइपोलॉजी आवश्यक रूप से चर की कुछ अंतर्निहित विशेषता नहीं है, और न ही स्वयं डेटा, लेकिन हम किस तरह से जानकारी का इलाज करते हैं - हम इसका उपयोग करने के लिए क्या कर रहे हैं ।

कुछ परिस्थितियों में, एक ही मूल्य को अनुपात, अंतराल, क्रमिक या नाममात्र माना जा सकता है, जो हम इसके साथ कर रहे हैं पर निर्भर करता है - यह एक बात है कि हम मूल्यों को क्या अर्थ देते हैं, जो एक विश्लेषण से अगले में बदल सकता है। स्टीवंस की टाइपोलॉजी का कुछ मूल्य है, लेकिन यह इसके बारे में अधिक निर्धारित नहीं करता है।

अर्थ के महत्व का यह मुद्दा कम से कम भगवान (1953) के लिए वापस आ गया है, जिन्होंने एक उदाहरण पेश किया जहां संख्याओं के समान सेट की नाममात्र और अंतराल दोनों व्याख्याएं थीं।

यह बिंदु और भी स्पष्ट रूप से वैलेमैन और विल्किंसन (1993) द्वारा बनाया गया था, जो एक टिकट पर एक पुरस्कार से सम्मानित होने के साथ रिसेप्शन में प्रवेश पर लगातार गिने हुए टिकट प्राप्त करने वाले लोगों का उदाहरण पेश करते हैं; टिकटों पर संख्याओं के उपयोग के आधार पर, उनके पास सभी चार पैमानों पर व्याख्याएं हैं।

इसलिए, उदाहरण के लिए 'क्या मैं जीत गया?' एक प्रश्न को नाममात्र के रूप में माना जाता है, जबकि 'क्या मैं जीतने की टिकट पाने के लिए बहुत जल्दी पहुंच गया?' एक ऐसा सवाल है जो इसे अध्यादेश के रूप में मानता है; दूसरी ओर (और मुझे नहीं लगता कि यह एक कागज में है) 5 यादृच्छिक टिकट नंबरों का उपयोग करके अनुमान लगाने के लिए कि कमरे में लोगों की संख्या उन्हें अनुपात के रूप में मानती है (जैसे अगर 4 यादृच्छिक रूप से तैयार किए गए नंबर थे सांत्वना पुरस्कार, आपके पास कुल 5 यादृच्छिक संख्याएँ होंगी जिनसे कुल उपस्थिति का अनुमान लगाया जाता है)।

उनका तर्क है कि "अच्छा डेटा विश्लेषण डेटा प्रकारों को ग्रहण नहीं करता है", "स्टीवंस की श्रेणियां डेटा की निश्चित विशेषताओं का वर्णन नहीं करती हैं", "स्टीवंस की श्रेणियां डेटा पैमानों का वर्णन करने के लिए अपर्याप्त हैं" और "सांख्यिकी प्रक्रियाओं को स्टेंसन के मानदंडों के अनुसार वर्गीकृत नहीं किया जा सकता" (वास्तव में प्रत्येक कथन एक खंड शीर्षक भी है)।

तुकी द्वारा कई स्थानों पर आलोचनाएं भी प्रस्तुत की गईं (उदाहरण के लिए, एस्टर और टुके की 1977 की पुस्तक डेटा विश्लेषण और प्रतिगमन के अध्याय 5 में ); एस्टर और टुकी ने एक टाइपोलॉजी की पेशकश की - नाम , ग्रेड (लेबल का आदेश दिया), रैंक (1 से शुरू, जो या तो सबसे बड़ा या सबसे छोटा प्रतिनिधित्व कर सकता है), गिने हुए अंश (शून्य और एक से घिरा हुआ, इनमें प्रतिशत शामिल हैं), गणना (गैर-नकारात्मक) पूर्णांक), राशियाँ (गैर-नकारात्मक वास्तविक संख्याएँ), शेष (बिना रुके, सकारात्मक या नकारात्मक मान)।

अपने काम में, मैंने उन स्थितियों को देखा है जहां विश्लेषण की गंभीर समस्याएं लोगों द्वारा स्तरों से संबंधित चर (कभी-कभी 'स्टॉक' चर) कहा जाता है और प्रवाह के बीच के महान अंतर की सराहना करने में विफल रहने के कारण होती हैं - इन प्रकारों का एक सरल उदाहरण अंतर है विश्लेषण के प्रकार में पानी की मात्रा के लिए उपयुक्त अवधि के प्रत्येक क्रम में भंडारण टैंक में वास्तव में, और उसमें बहने वाले पानी की मात्रा। ये (उन मामलों में से कुछ में) दोनों Mosteller और Tukey 'की उप श्रेणियों होगा मात्रा में ' प्रकार (और उन्हीं मामलों में, स्टीवंस के योजना में दोनों अनुपात चर), यह दर्शाता है typology के मुद्दों काफी सूक्ष्म हो सकता है, लेकिन अभी भी गंभीर रूप से उचित विश्लेषण को प्रभावित कर सकता है।

PFVelleman और L.Wilkinson (1993),
" नॉमिनल, ऑर्डिनल , इंटरवल, और रेशियो टाइपिस्ट्स मिसलीडिंग ,"
द अमेरिकन स्टेटिस्टिशियन , वॉल्यूम। 47 नंबर 1 पीपी .65-72

(एक काम करने वाला संस्करण यहां 2 लेखकों के वेब पेज पर उपलब्ध है )

लॉर्ड, एफ। (1953),
"फुटबॉल नंबरों के सांख्यिकीय उपचार पर,"
अमेरिकी मनोवैज्ञानिक , 8 , पीपी .7-7.11

(इस पेपर का वर्ष गलत तरीके से वेलेमैन और विल्किंसन पेपर I के लिंक के संदर्भ में दिया गया है, लेकिन कागज के शरीर में सही ढंग से संदर्भित है)


धन्यवाद। बहुत गहन उत्तर। मैं उन पंक्तियों के साथ सोच रहा था लेकिन जब इस सामान पर शोध करते हैं तो कई बार ऐसा लगता है कि जैसे यह ठोस है और आम सहमति हो गई है। इसलिए मैं यहीं समाप्त हो गया।
उपयोगकर्ता 42

स्टीवंस की टाइपोलॉजी पर पहली बार प्रकाशित होने के बाद से विवाद और विवाद हो गया है। यह एक कभी-मददगार ढांचा है, न कि एक प्रमेय।
Glen_b -Reinstate मोनिका

स्टीवंस और मोस्टर के अलावा कोई "नया पसंदीदा" है? स्तरों / प्रवाह के उदाहरण में, यदि मैं आपको सही ढंग से समझता हूं, तो दोनों का एक ही प्रकार है, फिर भी अलग तरह से इलाज करने की आवश्यकता है? क्या आप इस अंतर को समझा सकते हैं? और इस टाइपोलॉजी में मूल्य परिवर्तन का लॉग रूपांतरण कैसे होगा? धन्यवाद।
एरच Schubert

1. मैं किसी एक को बनाने के हाल के प्रयासों के बारे में नहीं जानता - और मुझे लगता है कि वे आवश्यक रूप से उपयोगी नहीं हैं क्योंकि वे लोगों को कम उपयुक्त विश्लेषणों में शामिल करते हैं (एक खिलौना उदाहरण के लिए भगवान का पेपर देखें लेकिन विश्लेषण के लिए परिणाम हैं बहुत वास्तविक - प्रकार द्वारा विश्लेषण की उन सूचियों में भयानक सांख्यिकीय विश्लेषण का कोई अंत नहीं है, जबकि उपयुक्त परिस्थितियों में विचार की संभावना से आंकड़ों के विशाल swathes काट)। .. ctd
Glen_b -Reinstate Monica

ctd ... 2. एक उदाहरण कि कैसे स्तर और प्रवाह काफी भिन्न हैं: ध्यान दें कि यदि आप प्रत्येक दिन के स्तर को देखते हैं, तो आज का स्तर पिछले स्तर से अधिक होगा और साथ-साथ या बाहर-प्रवाह (या दोनों का योग) , अगर दोनों संभव हैं)। तो स्तर माप आवश्यक रूप से निर्भर होते हैं, अक्सर अत्यधिक होते हैं। यह समझ में नहीं आता कि उनके साथ ऐसा व्यवहार किया जाए जैसे वे स्वतंत्र थे - फिर भी मैं देखता हूं कि लोग इसे हर समय करते हैं। 3. मुझे यकीन नहीं है कि आप लॉग चीज़ के साथ क्या पूछ रहे हैं। क्या आप उस बारे में अधिक स्पष्ट हो सकते हैं? कौन सी टाइपोलॉजी (ध्यान दें कि मैं एक से अधिक का उल्लेख करता हूं)?
Glen_b -Reinstate Monica

1

डेटा का प्रकार संबंधित है लेकिन चर के प्रकार के समान नहीं है। अधिकांश मामलों में, वे एक ही हैं, लेकिन वे होने की जरूरत नहीं है।

उदाहरण के लिए, यदि आप सामान्य वितरण से एन नमूने एकत्र करते हैं। आपको लगता है कि यह एक संख्यात्मक (अनुपात या स्केल) डेटा है। लेकिन मैं यह भी कह सकता हूं कि यह प्रत्येक श्रेणी के लिए 1 की आवृत्ति के साथ, एन विभिन्न श्रेणियों के साथ एक श्रेणीबद्ध चर है। यह बेवकूफ लग रहा है, लेकिन यह एक वैध चर भी है।


यह स्टीवंस के साथ थोड़ा सा लगता है (जो इस टाइपोलॉजी को तैयार करने का श्रेय दिया जाता है), जिन्होंने लिखा था "वास्तविक मुद्दा माप का अर्थ है।" यद्यपि आप हमेशा ऐसे डेटा को नाममात्र का इलाज करने के लिए चुन सकते हैं, जो उन्हें स्टीवंस के अनुमान में नाममात्र का नहीं बनाता है। उसका पेपर gaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/… पर उपलब्ध है ।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.