श्रेणीबद्ध या गुणात्मक चर के साथ उपयोग करने के लिए कौन से सारांश आँकड़े?


18

बस स्पष्ट करने के लिए, जब मेरा मतलब सारांश आँकड़े हैं, तो मैं मीन, मेडियन चतुर्थक पर्वतमाला, वैरियनस, मानक विचलन का उल्लेख करता हूं।

सारांशित करते समय एक अविभाज्य जो है , जो नाममात्र और साधारण दोनों मामलों पर विचार करते हुए श्रेणीबद्ध या गुणात्मक है , क्या इसका मतलब, माध्य, चतुर्थक पर्वतमाला, भिन्नता और मानक विचलन का पता लगाना है?

यदि ऐसा है तो यदि आप एक सतत चर का सारांश प्रस्तुत कर रहे हैं, और कैसे?


2
मैं बमुश्किल एक शब्दावली को छोड़कर, श्रेणीगत और गुणात्मक चर के बीच कोई अंतर देखता हूं। वैसे भी, यह मामूली या चर (जैसे, बालों का रंग) पर मीन या एसडी जैसे कुछ भी गणना करने के लिए बहुत मुश्किल होगा। शायद आप ऑर्डर किए गए स्तरों के साथ श्रेणीबद्ध चर के बारे में सोच रहे हैं?
CHL

नहींं, यदि श्रेणीबद्ध डेटा में एक आदेश या रैंक किया गया स्तर है, तो उन्हें इस वेबसाइट के अनुसार साधारण कहा जाता है: [ आंकड़े.gla.ac.uk/steps/glossary/preting_data.html#orddat] , और यह कहता है कि "आप गिन सकते हैं" और आदेश, लेकिन माप नहीं, क्रमिक डेटा "
chutsu

लेकिन क्या मैं गलत हूं?
चुतसू

जवाबों:


8

सामान्य तौर पर, उत्तर नहीं है। हालांकि, कोई यह तर्क दे सकता है कि आप क्रमिक डेटा का माध्य ले सकते हैं, लेकिन आप निश्चित रूप से माध्यिका की श्रेणी में होंगे, संख्या नहीं। माध्य डेटा को समान रूप से विभाजित करता है: आधा ऊपर, आधा नीचे। साधारण डेटा केवल आदेश पर निर्भर करता है।

आगे, कुछ में मामलों में, अध्यादेश को मोटे अंतराल स्तर के डेटा में बनाया जा सकता है। यह तब सच है जब क्रमिक डेटा को समूहीकृत किया जाता है (जैसे आय के बारे में प्रश्न अक्सर इस तरह से पूछे जाते हैं)। इस मामले में, आप एक सटीक मंझला पा सकते हैं, और आप अन्य मूल्यों को अनुमानित करने में सक्षम हो सकते हैं, खासकर यदि निचले और ऊपरी सीमा निर्दिष्ट हैं: आप प्रत्येक श्रेणी के भीतर कुछ वितरण (जैसे वर्दी) मान सकते हैं। क्रमिक डेटा का एक और मामला जिसे अंतराल बनाया जा सकता है वह है जब स्तरों को संख्यात्मक समकक्ष दिया जाता है। उदाहरण के लिए: कभी नहीं (0%), कभी-कभी (10-30%), लगभग आधा समय (50%) और इसी तरह।

टू (एक बार फिर) डेविड कॉक्स बोली:

कोई नियमित सांख्यिकीय प्रश्न नहीं हैं, केवल संदिग्ध सांख्यिकीय दिनचर्या है


1
आप अच्छी तरह से संबंधित जानकारी प्रदान करते हैं लेकिन मुझे लगता है कि chl प्रश्न के जवाब में, ओपी ने स्पष्ट किया कि वह स्पष्ट डेटा के बारे में बात कर रहा है जो क्रमबद्ध नहीं है। तो आपकी प्रतिक्रिया वास्तव में एक उत्तर देने वाला नहीं है, लेकिन मैं ऐसा नहीं हूं जो एक नकारात्मक पक्ष दे। लेकिन मुझे लगता है कि आपको इसे टिप्पणी में बदलना चाहिए।
माइकल आर। चेर्निक

1
नहीं, मैं उत्तर को अस्वीकार नहीं करूंगा क्योंकि मुझे लगता है कि इसने मेरी सीमित समझ के लिए कुछ मूल्य जोड़ा है। मुझे अपने विवरण में यह स्पष्ट करना चाहिए था कि मैं दोनों साधारण और नाममात्र सारांश आंकड़ों पर विचार कर रहा हूं, इसलिए दोष मेरा है।
चुतसू 12:23 पर

5

जैसा कि उल्लेख किया गया है, साधन, एसडी और काज अंक स्पष्ट डेटा के लिए सार्थक नहीं हैं। क्रम अंक (जैसे, माध्यिका और चतुर्थक) क्रमिक डेटा के लिए सार्थक हो सकते हैं। आपका शीर्षक यह भी पूछता है कि श्रेणीबद्ध आंकड़ों का वर्णन करने के लिए कौन से सारांश आँकड़े का उपयोग किया जाना चाहिए। यह मायने रखता है और प्रतिशत द्वारा श्रेणीबद्ध डेटा को चिह्नित करने के लिए मानक है। (आप प्रतिशत के आसपास 95% विश्वास अंतराल भी शामिल करना चाह सकते हैं।) उदाहरण के लिए, यदि आपका डेटा था:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

आप उन्हें इस तरह संक्षेप में प्रस्तुत कर सकते हैं:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)

3

यदि आपके पास नाममात्र चर हैं तो कोई आदेश या दूरी फ़ंक्शन नहीं है। तो आप अपने सारांश के किसी भी आँकड़े को कैसे परिभाषित कर सकते हैं? मुझे नहीं लगता कि आप कर सकते हैं। चतुर्थांश और सीमा को कम से कम क्रम और साधनों की आवश्यकता होती है और भिन्नता के लिए संख्यात्मक डेटा की आवश्यकता होती है। मुझे लगता है कि बार ग्राफ और पाई चार्ट गुणात्मक चर को सारांशित करने के उचित तरीकों के विशिष्ट उदाहरण हैं जो कि अध्यादेश नहीं हैं।


3
@PeterFlom मेरा बिंदु गुणात्मक डेटा को सारांशित करने के लिए सभी ऑकलर ग्राफिकल प्रक्रियाओं को सूचीबद्ध करना नहीं था। मैं वास्तव में जोर देना चाहता हूं कि यह वास्तव में अनुपात है जिसकी तुलना की जा सकती है और जिस तरह से अनुपात श्रेणियों में वितरित किए जाते हैं। समानुपातिक रूप से अंतर पहचानने के लिए मुझे लगता है कि बार चार्ट पाई चार्ट की तुलना में कल्पना करना आसान है, लेकिन वे श्रेणीबद्ध डेटा को संक्षेप में प्रस्तुत करने के लिए सिर्फ दो लोकप्रिय तरीके हैं। मैं यह नहीं कहना चाहता कि वे सबसे अच्छे हैं क्योंकि मैं सभी उपलब्ध तरीकों से परिचित नहीं हूं।
माइकल आर। चेर्निक

7
वे निश्चित रूप से लोकप्रिय हैं! लेकिन मुझे लगता है कि पाई चार्ट को कम लोकप्रिय बनाने के लिए क्षेत्र के विशेषज्ञों के रूप में यह हमारी जिम्मेदारी का हिस्सा है ।
पीटर फ्लॉम -

3
क्लीवलैंड ने दिखाया, पहले, कि लोग रैखिक दूरी की तुलना में कोणीय माप को समझने में बदतर हैं। दूसरा, एक पाई चार्ट में रंगों को बदलने से लोगों के स्लाइस के आकार की धारणा बदल गई। तीसरा, पाई चार्ट को घुमाने से लोगों के स्लाइस के आकार की धारणा बदल गई। चौथा है कि लोगों को स्लाइस को सबसे बड़े से छोटे तक ऑर्डर करने में परेशानी होती है जब तक कि वे बहुत अलग आकार के न हों। क्लीवलैंड डॉट प्लॉट इन सभी से बचते हैं।
पीटर Flom - को पुनः स्थापित मोनिका

6
@ मिचेल "एक टेबल डंब पाई चार्ट की तुलना में लगभग हमेशा बेहतर होती है; पाई चार्ट की तुलना में एकमात्र खराब डिजाइन उनमें से कई है ... पाई चार्ट का उपयोग कभी नहीं किया जाना चाहिए।" - टफटे "पाई चार्ट द्वारा दिखाए जाने वाले डेटा को हमेशा एक डॉट चार्ट द्वारा दिखाया जा सकता है ... 1920 के दशक में पाई चार्ट और विभाजित बार चार्ट के सापेक्ष गुणों के बारे में जेएएसए के पृष्ठों पर लड़ाई छिड़ी ... दोनों खेमे हार गए क्योंकि अन्य ग्राफ़ या तो विभाजित बार चार्ट या पाई चार्ट से बेहतर प्रदर्शन करते हैं। "- क्लीवलैंड। जैसा कि आप जानते हैं, क्लीवलैंड प्रिस्क्रिप्टिव नहीं है: यह उतना ही मजबूत है जितना वह किसी भी चीज के बारे में मिलता है।
whuber

6
BTW, @ मिचेल, मैं आपसे सहमत हूं और इस धागे में आपके द्वारा की जा रही दलीलें (जो मुझे अच्छी लगती हैं और अच्छी तरह से प्रस्तुत की गई हैं), लेकिन एक मध्यस्थ के रूप में मुझे "स्वर की आवाज़" के बारे में समुदाय के सदस्यों द्वारा सुनाई गई कड़ी आपत्तियों से अवगत कराना है। आप अपना रहे हैं। कृपया साइट के शिष्टाचार का पालन करें: विषय से चिपके रहें और दूसरों पर हमला न करें। सामान भी मत लिखो जो एक हमले की तरह लग सकता है, यहां तक ​​कि जेस्ट में भी। बेशक एक ही नसीहत हर किसी तक फैली हुई है।
whuber

2

मोड अभी भी काम करता है! क्या यह एक महत्वपूर्ण सारांश नहीं है? (सबसे सामान्य श्रेणी क्या है?) मुझे लगता है कि औसतन सुझाव का सांख्यिकीय के रूप में कोई महत्व नहीं है, लेकिन मोड करता है।

यह भी अलग गिनती मूल्यवान होगा। (आपके पास कितनी श्रेणियां हैं?)

आप अनुपात बना सकते हैं, जैसे (सबसे सामान्य श्रेणी) / (सबसे सामान्य श्रेणी) या (# 1 सबसे आम श्रेणी) / (# 2 सबसे आम श्रेणी)। इसके अलावा (सबसे सामान्य श्रेणी) / (अन्य सभी श्रेणियां), 80/20 नियम की तरह।

आप अपनी श्रेणियों के लिए नंबर भी दे सकते हैं और सभी सामान्य आंकड़ों के साथ पागल हो सकते हैं। AA = 1, Hisp = 2, आदि। अब आप माध्य, माध्य, मोड, SD, आदि की गणना कर सकते हैं।


0

मैं अन्य जवाबों की सराहना करता हूं, लेकिन मुझे लगता है कि कुछ टोपोलॉजिकल बैकग्राउंड ने प्रतिक्रियाओं को बहुत जरूरी संरचना दी है।

परिभाषाएं

आइए डोमेन की परिभाषाएँ स्थापित करने के साथ शुरू करें:

  • श्रेणीगत चर वह है जिसके डोमेन में तत्व होते हैं, लेकिन उनके बीच कोई ज्ञात संबंध नहीं है (इस प्रकार हमारे पास केवल श्रेणियां हैं)। उदाहरण, संदर्भ पर निर्भर करते हैं, लेकिन मैं सामान्य मामले में कहूंगा, सप्ताह के दिनों की तुलना करना मुश्किल है: सोमवार रविवार से पहले है, यदि हां, तो अगले सोमवार के बारे में क्या है? शायद एक आसान, लेकिन कम इस्तेमाल किया जाने वाला उदाहरण कपड़े के टुकड़े हैं: कुछ संदर्भ प्रदान किए बिना जो एक आदेश की भावना पैदा करेगा, यह कहना मुश्किल है कि क्या जंपर्स से पहले पतलून आते हैं या इसके विपरीत।

  • क्रमिक चर वह है जिसका कुल आदेश डोमेन पर परिभाषित होता है, अर्थात डोमेन के प्रत्येक दो तत्वों के लिए, हम बता सकते हैं कि या तो वे समान हैं, या एक दूसरे से बड़ा है। एक लिकिएंट-स्केल ऑर्डिनल वेरिएबल की परिभाषा का एक अच्छा उदाहरण है। "कुछ हद तक सहमत" निश्चित रूप से "असहमत" की तुलना में "दृढ़ता से सहमत" के करीब है।

  • अंतराल चर एक है, जिसका डोमेन तत्वों (एक मीट्रिक ) के बीच की दूरी को परिभाषित करता है , इस प्रकार हमें अंतराल को परिभाषित करने की अनुमति देता है।

डोमेन उदाहरण

जैसा कि सबसे आम सेट जो हम उपयोग करते हैं, प्राकृतिक और वास्तविक संख्याओं में मानक कुल आदेश और मीट्रिक हैं। यही कारण है कि जब हम अपनी श्रेणियों को नंबर असाइन करते हैं तो हमें सावधान रहने की आवश्यकता होती है। यदि हम आदेश और दूरी की अवहेलना करने के लिए सावधान नहीं हैं, तो हम व्यावहारिक रूप से अंतराल डेटा में अपने श्रेणीबद्ध डेटा को परिवर्तित करते हैं। जब कोई यह जानने के बिना मशीन लर्निंग एल्गोरिदम का उपयोग करता है, तो कोई अनिच्छा से इस तरह की धारणाएं बनाता है, इस प्रकार संभावित रूप से किसी के स्वयं के परिणामों को अमान्य करता है। उदाहरण के लिए, सबसे लोकप्रिय गहरे शिक्षण एल्गोरिदम वास्तविक संख्या के साथ काम करते हैं जो उनके अंतराल और निरंतर गुणों का लाभ उठाते हैं। एक और उदाहरण, 5-पॉइंट लिकेर्ट स्केल के बारे में सोचें, और हम उन पर कैसे विश्लेषण लागू करते हैं, यह मानता है कि आपस में सहमति और सहमति के बीच की दूरीअसहमति के समान है और न ही सहमत है और न ही असहमत है । ऐसे रिश्ते के लिए एक मामला बनाना मुश्किल है।

एक और सेट जो हम अक्सर काम करते हैं वह है स्ट्रिंग्सस्ट्रिंग स्ट्रिंग समानता मैट्रिक्स की एक संख्या है जो स्ट्रिंग्स के साथ काम करते समय काम में आती है। हालांकि, ये हमेशा उपयोगी नहीं होते हैं। उदाहरण के लिए, पते के लिए, जॉन स्मिथ स्ट्रीट और जॉन स्मिथ रोड, स्ट्रिंग समानता के संदर्भ में काफी करीब हैं, लेकिन स्पष्ट रूप से दो अलग-अलग संस्थाओं का प्रतिनिधित्व करते हैं जो मीलों अलग हो सकते हैं।

सारांश आँकड़े

ठीक है, अब देखते हैं कि इसमें कुछ सारांश आंकड़े कैसे फिट होते हैं। चूंकि आंकड़े संख्याओं के साथ काम करते हैं, इसके कार्यों को अंतराल पर अच्छी तरह से परिभाषित किया गया है। लेकिन आइए उदाहरण देखें कि क्या हम उन्हें श्रेणीबद्ध या क्रमिक डेटा के लिए सामान्य कर सकते हैं:

  • मोड - दोनों जब श्रेणीबद्ध और क्रमिक डेटा के साथ काम कर रहे हैं, हम बता सकते हैं कि किस तत्व का सबसे अधिक उपयोग किया जाता है। तो हमारे पास यह है। फिर हम उन सभी अन्य उपायों को भी प्राप्त कर सकते हैं जो @Maddenker अपने उत्तर में सूचीबद्ध करते हैं। @ गंग का आत्मविश्वास अंतराल भी उपयोगी हो सकता है।
  • माध्यिका - जैसा कि @ पीटर-फ्लॉम कहते हैं, जब तक आपके पास एक आदेश है, आप अपने माध्य को प्राप्त कर सकते हैं।
  • मतलब है , लेकिन यह भी मानक विचलन, प्रतिशत, आदि - आप केवल दूरी के मीट्रिक की आवश्यकता के कारण अंतराल डेटा के साथ ये प्राप्त करते हैं।

डेटा संदर्भ का उदाहरण

अंत में, मैं फिर से जोर देना चाहता हूं कि आपके डेटा पर आपके द्वारा परिभाषित आदेश और मैट्रिक्स बहुत प्रासंगिक हैं। यह अब तक स्पष्ट होना चाहिए, लेकिन मैं आपको एक अंतिम उदाहरण देता हूं: भौगोलिक स्थानों के साथ काम करते समय, हमारे पास दृष्टिकोण करने के लिए बहुत से अलग तरीके हैं:

  • यदि हम उनके बीच की दूरी में रुचि रखते हैं, तो हम उनके जियोलोकेशन के साथ काम कर सकते हैं, जो मूल रूप से हमें दो आयामी संख्यात्मक स्थान देता है, इस प्रकार अंतराल।
  • यदि हम उनके संबंधों के भाग में रुचि रखते हैं , तो हम कुल आदेश को परिभाषित कर सकते हैं (जैसे एक सड़क एक शहर का हिस्सा है, दो शहर समान हैं, एक महाद्वीप में एक देश शामिल है)
  • अगर हम इस बात में रुचि रखते हैं कि क्या दो तार एक ही पते का प्रतिनिधित्व करते हैं, तो हम कुछ स्ट्रिंग दूरी के साथ काम कर सकते हैं जो वर्तनी की गलतियों और शब्दों की अदला-बदली को बर्दाश्त करेंगे, लेकिन विभिन्न शब्दों और नामों को अलग करना सुनिश्चित करेंगे। यह एक आसान बात नहीं है, लेकिन सिर्फ मामला बनाने के लिए।
  • अन्य उपयोग के बहुत सारे मामले हैं, हम सभी का सामना रोजाना होता है, जहां इसका कोई मतलब नहीं है। उनमें से कुछ में सिर्फ अलग-अलग श्रेणियों के रूप में पते का इलाज करने के अलावा और कुछ नहीं है, दूसरों में यह बहुत स्मार्ट डेटा मॉडलिंग और प्रीप्रॉफ़िंग के लिए नीचे आता है।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.