यह भूखंड दो-तरफ़ा आकस्मिकता तालिका प्रदर्शित करता है जिसका डेटा लगभग ये हैं:
Branded Unbranded Social Referring Direct RSS
First-time... 177276 472737 88638 265915 472737 59092
Return Visits... 236002 629339 118001 354003 629339 78667
4+ Visits in ... 166514 444037 83257 249771 444037 55505
10+ Visit in ... 28782 76751 14391 43172 76751 9594
At Least One Visit... 6707 17886 3354 10061 17886 2236
Last Touch... 660 1759 330 989 1759 220
इस भूखंड के निर्माण के असंख्य तरीके हैं। उदाहरण के लिए, आप रंग के प्रत्येक आयताकार पैच के पदों की गणना कर सकते हैं और प्रत्येक पैच को अलग से प्लेट कर सकते हैं। सामान्य तौर पर, हालांकि, यह इस बात का संक्षिप्त विवरण खोजने में मदद करता है कि एक भूखंड डेटा का प्रतिनिधित्व कैसे करता है।
प्रस्थान के बिंदु के रूप में, हम इसे स्टैक्ड बार चार्ट के रूपांतर के रूप में देख सकते हैं ।
इस साजिश को एक विवरण की आवश्यकता है: परिचितता के माध्यम से हम जानते हैं कि आयत की प्रत्येक पंक्ति आकस्मिक तालिका की प्रत्येक पंक्ति से मेल खाती है; आयतों की लंबाई सीधे उनकी गिनती के समानुपाती होती है; वे ओवरलैप नहीं करते हैं; और यह कि रंग तालिका के स्तंभों के अनुरूप हैं।
यदि हम इस तालिका को "डेटा फ़्रेम" या "डेटा तालिका" में परिवर्तित करते हैं एक्सफ़ील्ड नाम, कॉलम नाम और गिनती को इंगित करने वाले फ़ील्ड्स के साथ प्रति पंक्ति एक पंक्ति में होना, फिर एक उपयुक्त फ़ंक्शन को कॉल करने के लिए आमतौर पर प्लॉट करना और पंक्ति नाम, कॉलम नाम और गणना को खोजने के लिए निर्धारित करना। ग्राफिक्स कार्यान्वयन के एक व्याकरण का उपयोग (के लिए ggplot2
पैकेज R
) यह कुछ इस तरह दिखेगा
ggplot(X, aes(Outcome, Count, fill=Referral)) + geom_col()
ग्राफिक का विवरण, जैसे कि सलाखों की एक पंक्ति कितनी चौड़ी है और किस रंग का उपयोग करना है, आमतौर पर स्पष्ट रूप से निर्धारित किया जाना चाहिए। यह कैसे किया जाता है यह प्लॉटिंग वातावरण पर निर्भर करता है (और इसलिए अपेक्षाकृत कम रुचि है: आपको बस इसे देखना होगा)।
ग्राफिक्स के व्याकरण का यह विशेष रूप से कार्यान्वयन सलाखों की स्थिति में थोड़ा लचीलापन प्रदान करता है। कम से कम प्रयास के साथ वांछित रूप का उत्पादन करने का एक तरीका है, प्रत्येक पट्टी के आधार पर एक अदृश्य श्रेणी सम्मिलित करना ताकि सलाखों को केंद्रित किया जाए। थोड़ी सी सोच बताती है कि प्रत्येक बार को केंद्र में रखने के लिए आवश्यक नकली गणना बार की कुल लंबाई और सबसे लंबी बार की औसत होनी चाहिए। इस उदाहरण के लिए यह मानों के साथ एक प्रारंभिक कॉलम होगा
254478.0 0.0 301115.0 897955.0 993610.5 1019817.0
यहां परिणामी स्टैक्ड बार चार्ट है जो हल्के ग्रे में नकली डेटा दिखा रहा है:
नकली कॉलम के लिए ग्राफिक्स बनाकर वांछित आकृति बनाई गई है:
भूखंड के ग्राफिक्स विवरण के व्याकरण को बदलने की आवश्यकता नहीं है: हमने बस एक ही विवरण के अनुसार प्रदान की जाने वाली एक अलग आकस्मिक तालिका की आपूर्ति की है (और नकली कॉलम के लिए डिफ़ॉल्ट रंग असाइनमेंट को ओवररोड करें)।
टिप्पणियाँ
ये ग्राफिक्स ईमानदार हैं: प्रत्येक रंगीन पैच की क्षैतिज सीमा विरूपण के बिना अंतर्निहित डेटा के सीधे आनुपातिक है। उन्हें मूल (प्रश्न में) से तुलना करने पर पता चलता है कि इसकी विकृति कितनी चरम है (टुटे के झूठ का कारक )।
यदि यह "फ़नल" के निचले भाग में विवरण दिखाने के लिए वांछित है, तो लंबाई के बजाय क्षेत्र द्वारा गिनती का प्रतिनिधित्व करने पर विचार करें । आप सलाखों की लंबाई को कुल लंबाई के वर्गमूल के समानुपाती बना सकते हैं और उनकी चौड़ाई (ऊर्ध्वाधर दिशा में) वर्ग की जड़ों के समानुपाती भी हो सकती है। अब "फ़नल" का तल लगभग एक-चौदहवीं सबसे लंबी लंबाई होगी, बजाय इसके एक-चार-सौवें हिस्से में, कुछ विस्तार दिखाने की अनुमति होगी। दुर्भाग्य से, ggplot2
कार्यान्वयन किसी को बार की चौड़ाई के लिए एक चर को मैप करने की अनुमति नहीं देता है, और इसलिए अधिक सम्मिलित कार्य-के आसपास की आवश्यकता होती है (एक जो वास्तव में प्रत्येक आयत का व्यक्तिगत रूप से वर्णन करता है)। शायद एक पायथन कार्यान्वयन है जो अधिक लचीला है।
संदर्भ
एडवर्ड टफ्टे, द विज़ुअल डिस्प्ले ऑफ़ क्वांटिटेटिव इंफॉर्मेशन । चेशायर प्रेस 1984।
लेलैंड विल्किंसन, द ग्रामर ऑफ़ ग्राफिक्स। स्प्रिंगर 2005।