कई "हिस्टोग्राम" (बार-चार्ट) विज़ुअलाइज़ करना


9

मुझे डेटा की कल्पना करने के सही तरीके का चयन करने में मुश्किलें आ रही हैं। मान लें कि हमारे पास बुकस्टोर हैं जो किताबें बेचते हैं , और हर पुस्तक में कम से कम एक श्रेणी है

एक किताबों की दुकान के लिए, यदि हम पुस्तकों की सभी श्रेणियों को गिनते हैं, तो हम एक हिस्टोग्राम प्राप्त करते हैं, जो उस किताब की दुकान के लिए एक विशिष्ट श्रेणी में आने वाली पुस्तकों की संख्या को दर्शाता है।

मैं किताबों की दुकान के व्यवहार की कल्पना करना चाहता हूं, मैं यह देखना चाहता हूं कि क्या वे अन्य श्रेणियों की श्रेणी के पक्ष में हैं। मैं यह नहीं देखना चाहता कि क्या वे सभी मिलकर Sci-Fi का पक्ष ले रहे हैं, लेकिन मैं यह देखना चाहता हूं कि क्या वे हर वर्ग के साथ समान व्यवहार कर रहे हैं या नहीं।

मेरे पास ~ 1M बुकस्टोर है।

मैंने 4 तरीकों के बारे में सोचा है:

  1. डेटा का नमूना, केवल 500 बुकस्टोर के हिस्टोग्राम दिखाते हैं। 10x10 ग्रिड का उपयोग करके उन्हें 5 अलग-अलग पृष्ठों में दिखाएं। 4x4 ग्रिड का उदाहरण:

    कई हिस्टोग्राम 1

  2. # 1 के समान। लेकिन इस बार x अक्ष मान उनकी गिनती desc के अनुसार है, इसलिए यदि कोई अनुकूल है तो यह आसानी से देखा जा सकेगा।

  3. एक डेक की तरह # 2 में हिस्टोग्राम लगाने और उन्हें 3 डी में दिखाने की कल्पना करें। कुछ इस तरह:
    3 डी हिस्टोग्राम

  4. रंगों का प्रतिनिधित्व करने के लिए तीसरे अक्ष सूटिंग रंग का उपयोग करने के बजाय, इसलिए हीटमैप (2 डी हिस्टोग्राम) का उपयोग करना: 2 डी हिस्टोग्राम
    यदि आम तौर पर बुकस्टोर्स दूसरों के लिए कुछ श्रेणियों को पसंद करते हैं तो इसे बाएं से दाएं एक अच्छा ढाल के रूप में प्रदर्शित किया जाएगा।

क्या आपके पास कई हिस्टोग्राम्स का प्रतिनिधित्व करने के लिए कोई अन्य दृश्य विचार / उपकरण हैं?


4
मुझे लगता है कि आपको हिस्टोग्राम के बजाय बार चार्ट से मतलब है
रोब हंडमैन

@ रोब: एक विशेष प्रकार के बार चार्ट को हिस्टोग्राम नहीं करता है जो आवृत्ति वितरण का प्रतिनिधित्व करता है? मैं कई बुकस्टोर के लिए श्रेणी आवृत्तियों की कल्पना करने की कोशिश कर रहा हूं।
बजे

1
@nimcap नहीं, क्योंकि हिस्टोग्राम एक निरंतर चर पर है, और पुस्तक श्रेणी एक श्रेणीगत चर है।

@mbq मान लीजिए कि एक बुक स्टोर में 3 किताबें हैं, और उनकी श्रेणियां हैं: B1: [c1, c2, c3] B2: [c1, c3] B3: [c1, c4]। जब हम श्रेणी गणना करते हैं तो हमें [c1 x 3, c2 x 1, c3 x 2, c4 x 1] मिलता है। क्या यह हिस्टोग्राम उत्पन्न करने के लिए पर्याप्त नहीं है?
nimcap

2
@nimcap नहीं, यह एक बार चार्ट उत्पन्न करने के लिए पर्याप्त है। उदाहरण के लिए किसी पुस्तक की कीमत के लिए हिस्टोग्राम किया जा सकता है।

जवाबों:


12

जैसा कि आपको पता चला है कि आपके प्रश्न का कोई आसान उत्तर नहीं है!

मुझे लगता है कि आप अजीब या अलग-अलग बुक स्टोर खोजने में रुचि रखते हैं? अगर ऐसा है तो आप पीसीए जैसी चीजों की कोशिश कर सकते हैं ( अधिक जानकारी के लिए विकिपीडिया क्लस्टर विश्लेषण पृष्ठ देखें)।

आपको एक विचार देने के लिए, इस उदाहरण पर विचार करें। आपके पास 26 बुकशॉप (नाम ए, बी, .. जेड के साथ) हैं। सभी कार्यशालाएँ समान हैं, सिवाय इसके:

  1. शॉप Z कुछ ही इतिहास की किताबें बेचता है।
  2. दुकानें ओए औसत से अधिक रोमांस किताबें बेचती हैं।

एक प्रमुख घटक साजिश आगे की जांच के लिए इन दुकानों को उजागर करता है।

यहाँ कुछ नमूना आर कोड है:

> d = data.frame(Romance = rpois(26, 50), Horror = rpois(26, 100), 
               Science = rpois(26, 75), History = rpois(26, 125))
> rownames(d) = LETTERS
#Alter a few shops
> d[15:25,][1] = rpois(11,150)
> d[26,][4] = rpois(1, 10)
#look at the data
> head(d, 2)
       Romance Horror Science History
 A      36    107      62     139
 B      47     93      64     118
> books.PC.cov = prcomp(d)
> books.scores.cov = predict(books.PC.cov)
# Plot of PC1 vs PC2
> plot(books.scores.cov[,1],books.scores.cov[,2],
       xlab="PC 1",ylab="PC 2", pch=NA)
> text(books.scores.cov[,1],books.scores.cov[,2],labels=LETTERS)

यह निम्नलिखित कथानक देता है:

पीसीए प्लॉट http://img265.imageshack.us/img265/7263/tmplx.jpg

नोटिस जो:

  1. शॉप z एक आउटलाइनिंग पॉइंट है।
  2. अन्य दुकानें दो अलग-अलग समूह बनाती हैं।

अन्य संभावनाएं

आप GGobi को भी देख सकते हैं , मैंने कभी इसका उपयोग नहीं किया है, लेकिन यह दिलचस्प लगता है।


आपके बहुमूल्य उत्तर के लिए धन्यवाद। स्थिति का वर्णन अपनी मूल भाषा में भी करना मुश्किल है :) मुझे कोशिश करने दीजिए। मुझे कोई दिलचस्पी नहीं है अगर बुकस्टोर्स विशेष श्रेणियों के पक्ष में हैं, लेकिन मैं देखना चाहता हूं कि क्या वे श्रेणियों के पक्ष में हैं। वास्तव में यही मैं उम्मीद कर रहा हूं। मान लीजिए कि मेरे पास 3 बुकस्टोर (बी 1, बी 2, बी 3) और 4 श्रेणियां (सी 1, सी 2, सी 3, सी 4) हैं। ये उनके बिक्री डेटा हैं: बी 1 (1, 1, 20, 20) बी 2 (90, 1, 1, 1), बी 3 (1, 1, 1, 30)। इस डेटा को देखकर मैं बता सकता हूं कि वे कुछ श्रेणियों को दूसरों के पक्ष में करते हैं। लेकिन अगर डेटा बी 1 (20, 30, 20, 20) बी 2 (90, 100, 100, 100), बी 3 (30, 30, 40, 40) जैसा था, तो मैं कह सकता हूं कि।
10

मेरे उदाहरण में, दुकानें ओए रोमांस की पुस्तकों के पक्ष में हैं। यही कारण है कि ये दुकानें पीसी प्लॉट में एक अलग समूह में हैं।
13

2
मैंने इसे एक अच्छे सामान्य उत्तर के रूप में वोट दिया, लेकिन एक व्यावहारिक उत्तर के रूप में, इससे निपटने के लिए कई डेटा बिंदु क्रूर होने जा रहे हैं।
जॉन

1
+1 यह निश्चित रूप से वही है जो ओपी चाहता है, फिर भी यह निश्चित रूप से वह है जो उसे चाहिए।

1
PCA के "डाउन-टू-अर्थ" एप्लिकेशन का अच्छा उदाहरण।
निको

3

मैं कुछ ऐसा सुझाऊंगा जिसे परिभाषित नाम नहीं मिला है (शायद "समानांतर साजिश") और इस तरह दिखता है:

वैकल्पिक शब्द

मूल रूप से आप सभी बुकस्टोर्स के लिए सभी गणनाओं को एक्स अक्ष पर सूचीबद्ध श्रेणियों के बिंदुओं के रूप में प्लॉट करते हैं और प्रत्येक बुकस्टोर के परिणामों को एक लाइन के साथ जोड़ते हैं। हालांकि यह 1M लाइनों के लिए बहुत पेचीदा हो सकता है। अवधारणा GGobi से आती है जिसका उल्लेख पहले से ही csgillespie द्वारा किया गया था।


1
समानांतर भूखंड चर के "सही" आदेश पर बहुत अधिक निर्भर करते हैं, इसलिए कई श्रेणियों के लिए यह थकाऊ हो जाएगा। और सही स्रोत ए। इनसलबर्ग, 1981 लगता है।
बेंजामिन बैनियर

3
उन्हें समानांतर समन्वित भूखंड कहा जाता है: en.wikipedia.org/wiki/Parallel_coordinates
साइमन बायरन

@Simon धन्यवाद; @ मैं सहमत हूँ, यह एक कारण है कि मैं उनका उपयोग क्यों नहीं करता।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.