इंटरैक्टिव डेटा विज़ुअलाइज़ेशन का उपयोग कब उपयोगी है?


17

एक बात की तैयारी करते हुए, मैं जल्द ही दे दूंगा, मैंने हाल ही में इंटरेक्टिव डेटा विज़ुअलाइज़ेशन के लिए दो प्रमुख (फ्री) टूल्स में खुदाई शुरू की: जीजीबी और मॉन्ड्रियन - दोनों क्षमताओं की एक बड़ी रेंज पेश करते हैं (भले ही वे थोड़ी छोटी गाड़ी हों)।

मैं आर्टिकुलेटिंग में आपकी मदद के लिए पूछना चाहता हूं (अपने आप को, और अपने भविष्य के दर्शकों के लिए) यह इंटरएक्टिव भूखंडों का उपयोग करने के लिए कब मददगार है? या तो डेटा अन्वेषण (खुद के लिए) और डेटा प्रस्तुति (एक "क्लाइंट" के लिए)?

ग्राहक को डेटा की व्याख्या करते समय, मैं इसके लिए एनीमेशन का मूल्य देख सकता हूं:

  • ग्राफ़ में कौन सा डेटा बिंदु है, यह देखने के लिए "पहचान / लिंकिंग / ब्रशिंग" का उपयोग करना।
  • डेटा का संवेदनशीलता विश्लेषण प्रस्तुत करना (उदाहरण के लिए: "यदि हम इस बिंदु को हटाते हैं, तो यहां हमें क्या मिलेगा)
  • डेटा में विभिन्न समूहों का प्रभाव दिखा रहा है (उदाहरण के लिए: "चलो पुरुषों के लिए हमारे रेखांकन देखें और अब महिलाओं के लिए")
  • समय के प्रभाव (या उम्र, या सामान्य रूप से, प्रस्तुति के लिए एक और आयाम) दिखाना

जब हम स्वयं डेटा की खोज करते हैं, तो हम उस डेटासेट की पहचान / लिंकिंग / ब्रशिंग के मूल्य को देख सकते हैं, जब हम जिस डेटासेट पर काम कर रहे हैं, उसमें एक आउटलेयर की खोज करते हैं।

लेकिन अन्य तब ये दो उदाहरण हैं, मुझे यकीन नहीं है कि अन्य व्यावहारिक इन तकनीकों का क्या उपयोग करते हैं। विशेष रूप से हमारे अपने डेटा अन्वेषण के लिए!

यह तर्क दिया जा सकता है कि इंटरेक्टिव भाग डेटा में विभिन्न समूहों / समूहों के एक अलग व्यवहार (उदाहरण के लिए) की खोज के लिए अच्छा है। लेकिन जब (व्यवहार में) मैंने ऐसी स्थिति से संपर्क किया, तो मुझे जो करना था वह प्रासंगिक सांख्यिकीय प्रक्रियाओं (और पोस्ट-हॉक टेस्ट) को चलाने के लिए था - और जो मुझे महत्वपूर्ण लगा, उसके बाद मैं रंगों के साथ स्पष्ट रूप से डेटा को विभाजित करने की साजिश रचूंगा। प्रासंगिक समूह। जो मैंने देखा है, यह एक सुरक्षित दृष्टिकोण है फिर डेटा को "आश्चर्यचकित करना" (जो आसानी से डेटा ड्रेजिंग को जन्म दे सकता है (ये सुधार के लिए आवश्यक कई तुलनाओं का दायरा भी स्पष्ट नहीं है)।

इस विषय पर आपके अनुभव / विचार पढ़कर मुझे बहुत खुशी होगी।

(यह सवाल एक विकी हो सकता है - हालाँकि यह व्यक्तिपरक नहीं है और एक अच्छी तरह से सोचा गया उत्तर खुशी से मेरे "उत्तर" चिह्न को जीत जाएगा)


3
कम से कम मेरे मामले में, मैं कुछ हद तक उसी नाव में हूं। मैं मोंड्रियन की सराहना करता हूं और इसे अद्यतित रखता हूं, लेकिन जब मैं वास्तव में एक नए डेटासेट का पता लगाता हूं तो यह आर में हो जाता है, जो कम इंटरैक्टिव लेकिन समग्र रूप से अधिक लचीला होता है। मैंने आपको एक पूर्ण उत्तर लिखना शुरू किया और महसूस किया कि मैं सैद्धांतिक में बोल रहा था और वास्तविक अनुभव से नहीं।
वेन

जवाबों:


8

मात्रात्मक या गुणात्मक डेटा को स्थानिक पैटर्न से जोड़ने के अलावा, जैसा कि @whuber द्वारा चित्रित किया गया है, मैं अनुदैर्ध्य और उच्च-आयामी डेटा विश्लेषण के लिए ईडीए के उपयोग, ब्रश करने और एक साथ प्लॉट को जोड़ने के विभिन्न तरीकों का उल्लेख करना चाहूंगा ।

डायने कुक और डेबोरा एफ स्वेन (स्प्रिंगर यूसेज !, 2007) द्वारा दोनों को उत्कृष्ट पुस्तक, इंटरएक्टिव और डायनेमिक ग्राफिक्स फॉर डेटा एनालिसिस विद आर और जीगोबी में चर्चा की गई है, जिसे आप निश्चित रूप से जानते हैं। लेखकों ने अध्याय 1 में EDA पर एक अच्छी चर्चा की है, जॉन Tukey (पृष्ठ 13) के हवाले से EDA को "हम पर अप्रत्याशित बल देने" की आवश्यकता को उचित ठहराते हुए: इंटरैक्टिव और डायनामिक डिस्प्ले का उपयोग न तो डेटा स्नूपिंग है , न ही प्रारंभिक डेटा। निरीक्षण (उदाहरण के लिए, विशुद्ध रूप से डेटा के ग्राफिकल सारांश), लेकिन यह केवल डेटा की एक इंटरैक्टिव जांच के रूप में देखा जाता है जो शुद्ध परिकल्पना-आधारित सांख्यिकीय मॉडलिंग से पहले या पूरक हो सकता है।

अपने R इंटरफेस ( rggobi ) के साथ GGobi का उपयोग करना भी समस्या का हल करता है कि कैसे इंटरएक्टिव रिपोर्ट या अंतिम प्रकाशन के लिए स्थैतिक ग्राफिक्स उत्पन्न करें, यहां तक ​​कि प्रोजेक्शन परस्यूट (pp। 26-34) के साथ, DescribeDisplay या ggplot2 संकुल के लिए धन्यवाद ।

इसी पंक्ति में, माइकल फ्रेंडली ने लंबे समय से श्रेणीबद्ध डेटा विश्लेषण में डेटा विज़ुअलाइज़ेशन के उपयोग की वकालत की है, जो कि बड़े पैमाने पर vcd पैकेज में अनुकरणीय है , लेकिन अधिक हाल के vcdExtra पैकेज में (गतिशील viz सहित ), rgl पैकेज के माध्यम से। लॉग-लीनियर मॉडल के विस्तार के लिए vcd और gnm संकुल के बीच गोंद के रूप में कार्य करता है । उन्होंने हाल ही में 6 वें CARME सम्मेलन के दौरान उस काम का एक अच्छा सारांश दिया , R में vcd, gnm और vcdExtra संकुल का उपयोग करते हुए श्रेणीबद्ध डेटा को विज़ुअलाइज़ करने में उन्नति

इसलिए, EDA को विशुद्ध रूप से सांख्यिकीय मॉडलिंग दृष्टिकोण से पहले या इसके समानांतर में , डेटा के एक दृश्य विवरण (इस अर्थ में कि यह मनाया डेटा में अप्रत्याशित पैटर्न के लिए हो सकता है) के रूप में सोचा जा सकता है। यही है, ईडीए न केवल हाथ में डेटा की आंतरिक संरचना का अध्ययन करने के लिए उपयोगी तरीके प्रदान करता है, बल्कि यह उस पर लागू सांख्यिकीय मॉडल को परिष्कृत और / या संक्षेप करने में भी मदद कर सकता है। यह सार में है कि biplots क्या करने की अनुमति देते हैं, उदाहरण के लिए। हालांकि वे प्रति बहुआयामी विश्लेषण तकनीक नहीं हैं , वे बहुआयामी विश्लेषण से परिणाम देखने के लिए उपकरण हैं (एक अनुमान देकरसभी व्यक्तियों के एक साथ, या सभी चर एक साथ, या दोनों पर विचार करते समय संबंध। फैक्टर स्कोर का उपयोग बाद की मॉडलिंग में मूल मीट्रिक के स्थान पर या तो आयाम को कम करने के लिए किया जा सकता है या प्रतिनिधित्व के मध्यवर्ती स्तर प्रदान करने के लिए किया जा सकता है।

पक्षीय लेख

पुराने जमाने के जोखिम में, मैं समय-समय पर xlispstat( ल्यूक टियरनी ) का उपयोग कर रहा हूं । यह इंटरएक्टिव डिस्प्ले के लिए सरल अभी तक प्रभावी कार्यात्मकता है, वर्तमान में बेस आर ग्राफिक्स में उपलब्ध नहीं है। क्लोजर + इन्कंटर (+ प्रोसेसिंग) में समान क्षमताओं के बारे में मुझे जानकारी नहीं है।


8

अन्वेषणात्मक स्थानिक डेटा विश्लेषण , या ईएसडीए के लिए ग्राफिक्स का गतिशील लिंकिंग प्राकृतिक और प्रभावी है । ईएसडीए सिस्टम आम तौर पर एक या एक से अधिक मात्रात्मक मानचित्र (जैसे कि कोरोप्लेथ मानचित्र ) को सारणीबद्ध विचारों और अंतर्निहित डेटा के सांख्यिकीय ग्राफिक्स के साथ जोड़ते हैं। ऐसी कुछ क्षमताएं लगभग 15 वर्षों के लिए कुछ डेस्कटॉप जीआईएस सिस्टम का हिस्सा रही हैं, विशेष रूप से आर्कवे 3 (एक वाणिज्यिक उत्पाद बंद)। मुफ्त जियोडा सॉफ्टवेयर स्थानिक डेटा अन्वेषण और सांख्यिकीय विश्लेषण के लिए डिज़ाइन किए गए वातावरण में इनमें से कुछ क्षमताएं प्रदान करता है। यह एक उदासीन इंटरफेस और बिना ग्राफिक्स वाले क्लूनी है, लेकिन काफी बग मुक्त है।

ईडीए का यह प्रयोग इस आपत्ति को रोकता है कि सांख्यिकीय परीक्षण इंटरएक्टिव अन्वेषण से बेहतर हो सकता है क्योंकि कई (अधिकांश?) स्थितियों में कोई स्पष्ट सांख्यिकीय मॉडल नहीं है, कोई स्पष्ट (या यहां तक ​​कि उचित) सांख्यिकीय परीक्षण नहीं है, और परिकल्पना परीक्षण अक्सर अप्रासंगिक है: लोगों को यह देखने की जरूरत है कि क्या होता है , यह कहां होता है और एक स्थानिक संदर्भ में चर के बीच सांख्यिकीय संबंधों का निरीक्षण करना है। सभी डेटा विश्लेषण नहीं है, या औपचारिक प्रक्रियाओं से मिलकर भी होना चाहिए!


हैलो व्हीबर। ईएसडीए का आपका उदाहरण एक महान उदाहरण है, धन्यवाद! यदि आप (या अन्य) औपचारिक प्रक्रियाओं के कम प्रासंगिक होने के अन्य उदाहरण सुझा सकते हैं - तो यह सबसे अधिक उपयोगी होगा।
ताल गैली

7

मेरे लिए इंटरेक्टिव विज़ुअलाइज़ेशन केवल मेरे स्वयं के अन्वेषण के लिए उपयोगी है, या जब एक बहुत ही हाथ से क्लाइंट के साथ काम कर रहा है। अंतिम प्रस्तुति के साथ काम करते समय, मैं स्थैतिक ग्राफ चुनना पसंद करता हूं जो मेरी बात को सबसे अच्छा बनाता है। अन्यथा ग्राहक gee-whiz फैक्टर द्वारा पूरी तरह से विचलित हो सकते हैं।

इससे जो सबसे बड़ा लाभ मुझे मिलता है, वह एक गति का स्तर है जो मुझे हल करने के लिए रुकने की तुलना में कहीं अधिक जांचने के लिए मुक्त करता है। JMP इसके लिए मेरा पसंदीदा टूल है क्योंकि यह एक सिंगल इंटरफेस में बहुत कुछ एकीकृत करता है। मुझे लगता है कि ज्यादातर लोग जो अच्छे सांख्यिकीय प्रोग्रामर हैं, जेएमपी (या जीजीबी, इत्यादि) की कोशिश करते हैं, जो वास्तव में अच्छा पाने के लिए बहुत कम अवधि के लिए है। JMP विशेष रूप से आपको यह आभास देगा कि आप इसे केवल मेनू पर देख रहे हैं। हालांकि, मैनुअल के माध्यम से काम करना वास्तव में अपनी सभी शक्ति को उजागर करने के लिए आवश्यक है।

आपने हालांकि गति के इस स्तर के बारे में मेरी मुख्य चिंता का उल्लेख किया है: आप अपने पी-मूल्यों का क्या मतलब है, इसका बिल्कुल पता नहीं है। कुछ ही मिनटों में आप नेत्रहीन सैकड़ों संबंधों की जांच कर सकते हैं। सब के बाद परिकल्पना परीक्षण करना जो पूरी तरह से भ्रामक है, लेकिन मुझे लगता है कि लोग हर समय ऐसा करते हैं।

GGobi में मुझे पसंद है एक विशेषता इसकी प्रक्षेपण खोज है, जिसमें आप निर्दिष्ट करते हैं कि आप किस प्रकार के पैटर्न को एक उच्च आयामी स्थान में चाहते हैं और फिर आप वापस बैठते हैं और उस लक्ष्य का "पीछा" करते हैं। उत्तम सामग्री!


2
+1। अंतिम प्रस्तुतियों के बारे में टिप्पणी एक उल्लेखनीय प्रतिधारण के रूप में ध्यान में लाती है, हंस रोसलिंग की प्रसिद्ध 2006 टेड टॉक ( ted.com/talks/… )। पुन: "अधिक दूर" की जांच करने के बारे में, मुझे याद दिलाया गया है कि कैसे एक बयान में एक वकील ने मुझसे पूछा कि मैंने उस डेटा की जांच कैसे की थी जिसने मेरी गवाही का समर्थन किया था और जब उसने काम सीखा तो उसका चेहरा कैसे गिर गया था। इसलिए कुछ भी मुद्रित या सहेजा नहीं गया था (जिसे वह फिर सबपून कर सकता है, जांच सकता है, और थोपने की कोशिश कर सकता है)। ;-)
whuber

JMP वहाँ से बाहर सबसे अच्छे आँकड़े अनुप्रयोगों में से एक है। सांख्यिकीविदों को निश्चित रूप से इसका उपयोग करना सीखना चाहिए, यदि केवल अपने ग्राहकों को प्रभावित करने के लिए। यह महंगा है, लेकिन सस्ता है अगर आप एक स्कूल / कॉलेज / विश्वविद्यालय में एक छात्र या स्टाफ सदस्य हैं
नील मैकग्विन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.