छोटे नमूने रेखांकन


13

मेरे पास एक कार्य पूरा करने के लिए 14 अलग-अलग समय का एक छोटा डेटा सेट है। हालाँकि, मुझे डेटा को ग्राफ़ करने के लिए उपयोग करने के लिए एक उपयुक्त ग्राफ़ खोजने में कठिनाई हो रही है। यदि नमूना बड़ा था, तो मैं एक बॉक्स प्लॉट या हिस्टोग्राम का उपयोग करूंगा, लेकिन मुझे यकीन नहीं है कि नमूना छोटा होने पर इस मामले में उपयोग करना उचित होगा।

अपडेट: समय 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4,4,4,4,4,4,4,4,4,4,4 बार है


4
कुछ भी नहीं है जो वास्तविक डेटा दिखा रहा है कि आप लोगों को विभिन्न समाधानों को पोस्ट करने के लिए प्रोत्साहित करने के लिए एक ठोस उदाहरण के रूप में परवाह करते हैं। अग्रिम में मैं बॉक्स ओवरलैड के साथ डॉट या स्ट्रिपलॉट और क्वांटाइल प्लॉट सुझाता हूं।
निक कॉक्स

जवाबों:


16

मुझे लगता है कि यहां कार्डिनल सिद्धांत यह है कि आप सभी व्यक्तिगत मूल्यों को दिखा सकते हैं और दिखाना चाहिए। यहां तक ​​कि अगर विस्तार स्पष्ट रूप से दिलचस्प या उपयोगी नहीं है, तो इसे दिखाने का कोई कारण नहीं है, या पाठक को एक हिस्टोग्राम को डिकोड (कहने) के लिए बाध्य करने के लिए जिसमें बार सिर्फ एक या दो मूल्यों का प्रतिनिधित्व कर सकते हैं।

मैं यहां एक छोटा सा सम्मिश्रण प्रस्तुत करता हूं। टॉप लेफ्ट एक डॉट या स्ट्रिप प्लॉट है (क्षैतिज विचार प्रस्तुत एक ही विचार के लिए कम से कम बीस अन्य नामों का उपयोग किया गया है) और शीर्ष दाईं ओर एक ही विचार लंबवत प्रस्तुत किया गया है। स्टैक करके समान मान के उदाहरणों का मिलान किया जाता है।

नीचे परजेन के अर्थ में एक क्वांटाइल-बॉक्स प्लॉट है, जिसमें टैसीट क्षैतिज स्तर संचयी प्रायिकता (प्लॉटिंग पोजिशन, एक सामान्य शब्दजाल में) और पारंपरिक माध्य और-चतुर्थक बॉक्स को आधा खींचा जा सकता है (सिद्धांत रूप में) मान बॉक्स के अंदर होते हैं, जैसा कि हमेशा विज्ञापित किया जाता है, और आधे मूल्य बाहर। यहाँ अतिरिक्त क्षैतिज रेखा माध्य का प्रतिनिधित्व करती है। कुछ लोग अतिरिक्त बिंदु या मार्कर प्रतीक के रूप में बॉक्स भूखंडों को जोड़ते हैं; मुझे लगता है कि डेटा को स्वयं दिखाने के साथ टकराव हो सकता है, और मैं एक अतिरिक्त लाइन पसंद करता हूं। यदि माध्यिका के लिए रेखा और माध्य के लिए रेखा संयोग से दिखाई देती है, तो आपको यह सोचना होगा कि क्या करना है। लगभग हमेशा माध्य और माध्य अलग-अलग होते हैं।

संभवतः यह माप की इकाइयों को ग्राफ पर स्पष्ट करने के लिए मानक है, लेकिन मैं नहीं देखता कि वे क्या हैं।

यहाँ छवि विवरण दर्ज करें

(मैंने जानबूझकर यहां एक अतिरिक्त बिंदु को धक्का दिया, जो यह है कि रेखांकन बहुत छोटा हो सकता है लेकिन अभी भी जानकारीपूर्ण हो सकता है। व्यवहार में, मैं उन्हें इस छोटे से नहीं बनाऊंगा।)

संपादित करें:

पारज़ेन के अर्थ में मोटे तौर पर बॉक्स-प्लॉट में क्रॉस-रेफरेंस जोड़े गए (आगे दूसरे संदर्भ में, "क्वांटाइल-बॉक्स प्लॉट्स के अन्य उपयोग मौजूद हैं)"

मैं कई शून्य के साथ गैर-पैरामीट्रिक डेटा के बीच अंतर को कैसे माप सकता हूं?

उन बिंदुओं को खोजने के लिए बॉक्सप्लेट्स का उपयोग कैसे करें जहां विभिन्न स्थितियों से मूल्यों के आने की अधिक संभावना है?

स्वतंत्र दो नमूना टी-टेस्ट की कल्पना कैसे करें?

मैन-व्हिटनी यू टेस्ट का उपयोग करके मुझे कौन सा प्रयोग बेहतर मिल रहा है?

शेरा, डीएम 1991। डेटा प्रस्तुति को बढ़ाने के लिए क्वांटाइल प्लॉट्स के कुछ उपयोग। कम्प्यूटिंग विज्ञान और सांख्यिकी 23: 50-53।

मिलिटकी, जे। और एम। मेलून। 1993. अन्वेषी खोज डेटा विश्लेषण के लिए कुछ ग्राफिकल एड्स। एनालिटिका चिमीका एक्टा 277: 215-221।

मेलौन, एम। और जे। मिलित्स्की। 1994. विश्लेषणात्मक रसायन विज्ञान में कंप्यूटर-सहायक डेटा उपचार। I. एकतरफा डेटा का खोजपूर्ण विश्लेषण। केमिकल पेपर्स 48: 151-157।

संपादित करें 2:

इन थ्रेड्स का मुख्य बिंदु सिर्फ तात्कालिक प्रश्न का उत्तर देना नहीं है, बल्कि ऐसे ही प्रश्नों पर बारीकी से छूना भी है जो दूसरों को रूचि दे सकते हैं।

अन्य जवाबों में कुछ अन्य ग्राफ डिज़ाइन यहाँ पहचानकर्ताओं को दिखाते हैं, अज्ञेय ने अन्य विवरणों के अभाव में 1 ... 14 को लेबल किया है। यह मानते हुए कि ये और अन्य पहचानकर्ता व्याख्या में उपयोग के थे, उन्हें दिखाने के लिए एक सरल डिजाइन एक (क्लीवलैंड) डॉट चार्ट है। यहां कई संभावनाओं में से दो हैं, जिसमें पहचानकर्ता आदेश का शाब्दिक (बाएं) सम्मान किया जाता है और जिसमें मानों को क्रमबद्ध (दाएं) किया जाता है। यदि आवश्यक हो तो लंबे समय तक लेबल के लिए बहुत जगह है।

बार चार्ट पर इस डिज़ाइन का एक फायदा यह है कि प्रतिक्रिया या परिणाम अक्ष एक शून्य पर शुरू हो सकता है यदि बेहतर विकल्प लगता है।

चार्ट्स को घुमाते हुए ताकि प्रतिक्रिया अक्ष ऊर्ध्वाधर हो, आसानी से भी कल्पना की जा सकती है।

यहाँ छवि विवरण दर्ज करें


(+1) मैंने कभी-कभी डॉट या स्ट्रिप प्लॉट देखा है, खासकर अगर वर्टीकल ओरिएंटेड, "स्टैक्ड" पॉइंट्स के साथ सेंटीमेंटली लेफ्ट-अलाइन्ड की बजाए (यानी अगर तीन स्टैक किए गए पॉइंट्स होते हैं तो बीच वाला एक लाइन के साथ होगा। बिना अंक के)। यह समरूपता की एक पंक्ति देता है जो सौंदर्यवादी रूप से मनभावन है लेकिन मुझे यकीन नहीं है कि यह व्यावहारिक रूप से कितना फायदेमंद है। शायद यह एक बॉक्स को सुपरिमेट करना आसान बनाता है। क्या इसका कोई अलग नाम है, क्या आप जानते हैं? और क्या इससे बचने / अपनाने की कोई सलाह दी गई है?
सिल्वरफिश

1
इसके अलावा, क्या कोई मौका है जो आप परजेन के लिए एक संदर्भ दे सकते हैं? मैंने हमेशा इन भूखंडों को पसंद किया है, लेकिन वास्तव में उनके लिए एक उचित संदर्भ कभी नहीं पढ़ा है।
सिल्वरफिश

@ सिल्वरफ़िश केंद्रित (केंद्रित) वेरिएंट निश्चित रूप से लोकप्रिय हैं और अक्सर चर्चा की जाती है। छोटे मुद्दों को समरूपता की इच्छा प्रतीत होती है, जैसा कि आप उल्लेख करते हैं, बनाम हिस्टोग्राम शैली जैसा दिखता है, जिसे मैं थोड़ा पसंद करता हूं, लेकिन यह स्वाद और परिस्थिति की बात है। मैंने क्रॉस-रेफरेंस जोड़े हैं और बदले में दूसरों का स्वागत करेंगे।
निक कॉक्स

3

@ नाइक कॉक्स ने पहले से ही कुछ अच्छे उदाहरण दिए हैं, दो अन्य विकल्प जो मैं कुछ हद तक उपयोग करता हूं वे हैं बॉक्स ओवरले के साथ प्लॉट प्लॉट, या थोड़ा घबराना,

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

आर कोड के साथ

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

संपादित करें: यदि आप ऐसा चाहते हैं तो आप वायलिन साजिश का भी उपयोग कर सकते हैं

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

यहाँ छवि विवरण दर्ज करें


1
उत्तर देने के लिए बहुत बहुत धन्यवाद। मैं मूल रूप से नमूने के आकार के कारण अपने विश्लेषण में बॉक्स भूखंडों का उपयोग करने के लिए अनिच्छुक था। लेकिन विभिन्न पाठ्य पुस्तकों को देखने के बाद ऐसा लगता है कि मेरा नमूना आकार पर्याप्त है।
Eamonn

1

आपके प्रश्न ने मुझे इस ब्लॉग पोस्ट में वर्णित तकनीक की याद दिला दी । इसके असतत घटनाओं के दृश्य के बारे में।

कोर ट्रिक the time before an eventx प्लॉट करने की है the time after an event

आपके डेटा की कल्पना [1]

यह संयोग से हो सकता है, लेकिन शीर्ष मध्य क्षेत्र में कोई डेटा नहीं है। तो कुछ संरचना दिखाई दे रही है।


त्वरित और गंदा Rकोड।

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

ओपी ने 14 अलग-अलग बार कहा। मैंने पढ़ा है कि इसका मतलब है कि ये एक श्रृंखला नहीं हैं । यदि वे एक श्रृंखला हैं, तो आपका विचार निश्चित रूप से प्रासंगिक है।
निक कॉक्स

शायद आप सही हैं। हालांकि, यहां तक कि अगर वे कर रहे हैं नहीं एक श्रृंखला है, ग्राफ जाएगा बार के बीच निर्भरता दिखा। जाहिर है कि अक्ष लेबल गलत हैं।
हेराल्ड थॉमसन

2
केवल ओपी ही स्पष्ट कर सकता है कि डेटा क्या हैं, लेकिन मुझे नहीं लगता कि यह ग्राफ़ किसी भी तरह से जीतता है। यदि डेटा अलग-अलग समय है, तो ग्राफ़ तब तक अर्थहीन है जब तक कि उस क्रम में कोई अर्थ नहीं है जिसमें मान दिए गए हैं।
निक कॉक्स

fyi textवेक्टर तर्क लेती है - text(x, y, 1:12)काम करना चाहिए।
माइकलचिरिको

1

एक और विचार, चूंकि आप समय का उपयोग कर रहे हैं।

एक रेसट्रैक प्लॉट - ध्रुवीय निर्देशांक के साथ एक बारप्लेट - स्टॉपवॉच की तरह ही प्रभाव देता है:

दौड़ का मैदान

आदर्श रूप से अवलोकन लेबल सलाखों पर या कम से कम दूसरे छोर पर लगाए जाएंगे। अभी दर्शक के पास यह देखने का अतिरिक्त तनाव है कि किसी भी तुलना को करते समय कौन सा अवलोकन (ऊपर / नीचे) है।


2
मेरा मानना ​​है कि एक सनकी के रूप में, वास्तव में पूरी तरह से विकृत होने के लिए, ग्राफ तकनीक। आंख चाप की लंबाई भी नहीं देखती है, लेकिन एक क्षेत्र को इस तरह से डिकोड किया जा सकता है, लेकिन मस्तिष्क को हस्तक्षेप करना पड़ता है और रेखांकित करना पड़ता है कि केवल रोटेशन कोण जानकारीपूर्ण है। यह देखने के लिए भी कड़ी मेहनत की जाती है कि कौन से मूल्य एक से अधिक या एक से अधिक हैं, जो किसी भी स्वीकार्य ग्राफ शैली में तत्काल है।
निक कॉक्स

जब तक ग्रेडिंग असामान्य डिज़ाइन के लिए नहीं होती है, तब तक मैं केवल इस डिज़ाइन को देख सकता हूं, यह है कि पहचानकर्ता # 1 से # 14 इस डिज़ाइन में तत्काल हैं। मैंने अपने स्वयं के उत्तर को संपादित करने में इस बिंदु को उठाया है।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.