एक बहुत अच्छा डेटा रेखांकन दिखाने के लिए


15

मैं एक ऐसी परियोजना पर काम कर रहा हूं जिसमें आवास डेटा के लिए 14 चर और 345,000 अवलोकन शामिल हैं (वर्ष निर्मित, वर्ग फुटेज, मूल्य बेचे, काउंटी का निवास, आदि)। मैं अच्छी ग्राफिकल तकनीकों और आर लाइब्रेरीज़ को खोजने की कोशिश कर रहा हूँ, जिनमें अच्छी प्लॉटिंग तकनीकें हैं।

मैं पहले से ही देख रहा हूँ कि ggplot और जाली में क्या अच्छी तरह से काम करेगा, और मैं अपने कुछ संख्यात्मक चर के लिए वायलिन प्लॉट करने के बारे में सोच रहा हूँ।

एक स्पष्ट, पॉलिश और सबसे महत्वपूर्ण बात, रसीला तरीके से बड़ी मात्रा में संख्यात्मक या कारक-टाइप किए गए चर को प्रदर्शित करने के लिए लोग अन्य पैकेजों की क्या सिफारिश करेंगे?


"स्पष्ट, पॉलिश, और सबसे महत्वपूर्ण बात, रसीला ढंग" मुझे ggplot2 की तरह लगता है।
ब्रैंडन बर्टेल्सन

1
मैं न केवल आर पुस्तकालयों के लिए देख रहा हूं, बल्कि किसी भी विशिष्ट प्रकार के रेखांकन भी। रेखांकन का मेरा ज्ञान स्कैटर, बॉक्स, qq, हिस्टोग्राम, वायलिन, कर्नेल घनत्व के अनुमान आदि तक सीमित है। किसी भी थोड़ा अधिक अस्पष्ट ग्राफ जो डेटा के बारे में अधिक बता सकता है, वह शानदार होगा।
क्रिस्टोफर अदन

2
समानांतर निर्देशांक का उल्लेख करने के लिए एक दूसरे की तरह लगता है। डायमेंशन की कमी के तरीके भी सहायक हो सकते हैं।
ताल गलिली

जवाबों:


13

सबसे अच्छा "ग्राफ" इतना स्पष्ट है कि किसी ने अभी तक इसका उल्लेख नहीं किया है: नक्शे बनाओ। आवास डेटा मूल रूप से स्थानिक स्थान पर निर्भर करता है (अचल संपत्ति के बारे में पुरानी देखी गई) के अनुसार, इसलिए किया जाने वाला सबसे पहला काम प्रत्येक चर का एक स्पष्ट विस्तृत नक्शा बनाना है। एक लाख अंक के तीसरे के साथ यह अच्छी तरह से करने के लिए वास्तव में एक औद्योगिक शक्ति जीआईएस की आवश्यकता होती है, जो प्रक्रिया का छोटा काम कर सकती है। उसके बाद यह समझ में आता है कि प्रायिकता के वितरण का पता लगाने के लिए संभावना प्लॉट और बॉक्सप्लाट्स बनाने के लिए, और निर्भरता का पता लगाने के लिए स्क्रैपप्लेट मैट्रिसेस और भटकते हुए योजनाबद्ध बॉक्सप्लाट्स, आदि की साजिश करें - लेकिन नक्शे तुरंत सुझाव देंगे कि क्या पता लगाएं, कैसे मॉडल करें डेटा रिश्ते, और कैसे डेटा को भौगोलिक रूप से सार्थक सबसेट में तोड़ना है।


महान विचार! मेरे पास पहले से ही सभी डेटा पॉइंट्स के अक्षांश और देशांतर हैं, इसलिए ऐसा कार्य अपेक्षाकृत प्राथमिक होगा। मैं सोच रहा था कि मैप्स लाइब्रेरी एक अच्छा रास्ता होगा, जब तक कि कुछ बेहतर न हो।
क्रिस्टोफर एडेन

2
@Christopher आप ggplot2(esp। यदि आपको देश की सीमाओं को आकर्षित करने की आवश्यकता नहीं है) के साथ भी कर सकते हैं , had.co.nz/ggplot2/coord_map.html । अन्यथा, maps, gmapsबेहतर हैं। GeoXpGRASS में एक और R इंटरफ़ेस भी है । BTW, मोंड्रियन में भौगोलिक डेटा के लिए एक प्लगइन है :)
chl

एक बेहतरीन जवाब देना मुश्किल हो सकता है जब कई बेहतरीन सुझाव हों, लेकिन मुझे लगता है कि "आत्महत्या" को ध्यान में रखते हुए यह सही दिशा है। मैं ggplot2 को एक कोशिश दूंगा, और नक्शे, जियोएक्सपी और मोंड्रियन पर एक नज़र डालूंगा। स्थानिक रूप से रेखांकन के विचार के लिए धन्यवाद!
क्रिस्टोफर अदन

नक्शे के बारे में कुछ अच्छे पोस्ट। blog.revolutionanalytics.com/2012/07/… stevendkay.wordpress.com/2010/04/21/…
क्रिस बीले

मैं के साथ अच्छे सफलता मिली है latticeकी levelplotऔर contourplot। पैकेज fieldsमें कुछ अच्छी विशेषताएं हैं, जिनमें quiltplotशामिल है यदि आपका डेटा ग्रिड पर कड़ाई से नहीं है तो अच्छा है। Tpsग्रिड में गैर-ग्रिड डेटा को सुचारू करने के लिए इसमें एक पतली पतली प्लेट का कार्य भी है । समर्पित जीआईएस सॉफ्टवेयर के लिए, जीआरएएसएस किसी भी तरह से मेरे लिए कभी मायने नहीं रखता है, मैं क्यूजीआईएस पसंद करता हूं।
वेन

6

मैं GGobi पर एक नज़र डालने की सलाह दूंगा , जिसमें R इंटरफ़ेस भी है, कम से कम खोजपूर्ण उद्देश्यों के लिए। इसमें बड़ी संख्या में टिप्पणियों और चरों से निपटने और इन्हें एक साथ जोड़ने के लिए विशेष रूप से उपयोगी कई ग्राफ़िकल डिस्प्ले हैं। आप GGobi पेज पर "वॉच ए डेमो" सेक्शन के तहत कुछ वीडियो देखकर शुरू करना चाह सकते हैं ।

अपडेट करें

GGobi के लिए Hadley Wickham के टूल के लिंक, जैसा कि टिप्पणियों में chl द्वारा सुझाया गया है:

  • वर्णन करें "आर पैकेज जो आर में ggobi ग्राफिक्स को फिर से बनाने का एक तरीका प्रदान करता है"
  • क्लस्टरवर्क "उच्च आयामों में क्लस्टरिंग परिणामों का अन्वेषण करें"
  • Rggobi "R पैकेज जो GGobi के साथ एक आसान इंटरफ़ेस प्रदान करता है"

1
@ars GGobi के अनुभव को बढ़ाने के लिए हैडले के R टूल को शामिल करें, जैसे DescribeDisplayऔर clusterfly
chl

हाय ars, जैसा कि मैंने अपने जवाब पर लिखा था - ggobi के साथ मेरा अनुभव यह है कि यह बड़े डेटासेट को अच्छी तरह से हैंडल नहीं करता है। क्या आपके पास इसके साथ एक और अनुभव है?
ताल गलिली

@ ताल स्क्रीन डिस्प्ले / रेंडरिंग के लिए ग्लिफ़ पर निर्भर न होने से आती है, जो आर बेस ग्राफिक्स के लिए आम है। यह नवीनतम DSC सम्मेलन ( j.mp/bpOhBH ) पर चर्चा की गई थी । दरअसल, बड़े डेटा सेट्स के इंटरएक्टिव डिस्प्ले को बढ़ाने के लिए Qt के साथ बैकेंड और GGobi के नए पोर्ट के साथ एक प्रोजेक्ट चल रहा है।
chl

1
@ ताल: मेरा अनुभव यह है कि विचारों को ताज़ा / निरस्त करते समय यह काफी धीमा है, उदाहरण के लिए जब एक चर जोड़ते हैं या पीसीपी में डिस्प्ले को पुन: व्यवस्थित करने के लिए खींचते हैं। फिर भी, यह प्रयोग करने योग्य नहीं है, क्योंकि बड़े डेटा के साथ विज्ञापन के रूप में इंटरैक्टिव नहीं है। @chl: यह जानने के लिए वास्तव में अच्छा है, धन्यवाद!
ars

1
@ars @ ताल यहां R ( j.mp/d1AJp7 ) और GGobi ( j.mp/cUOvfp ) के लिए Qt इंटरफ़ेस के लिंक हैं । हैडली की गितुब भंडार भी देखें!
chl

6

मुझे लगता है कि आप वास्तव में दो प्रश्न पूछ रहे हैं: 1) किस प्रकार के विज़ुअलाइज़ेशन का उपयोग करना है और 2) आर पैकेज उन्हें क्या पैदा कर सकता है।

किस प्रकार के ग्राफ का उपयोग करना है, इसके मामले में, कई हैं, और यह आपकी आवश्यकताओं पर निर्भर करता है (उदाहरण के लिए: चर के प्रकार - संख्यात्मक, कारक, भौगोलिक आदि, और आपके द्वारा प्रदर्शित किए जाने वाले कनेक्शन के प्रकार):

  • आप कई सांख्यिक चर है, तो आप एक बिखराव साजिश मैट्रिक्स का उपयोग करने के (एक नजर है चाहते हो सकता है यहाँ )
  • आप कई कारक चर है, तो आप कारकों के लिए एक बिखराव साजिश मैट्रिक्स का उपयोग करने के (एक नजर है चाहते हो सकता है यहाँ )
  • तुम भी कुछ कर रही है के साथ जा सकते हैं समानांतर निर्देशांक वहाँ रहे हैं कई तरीके आर में यह करने के लिए
  • R में चित्रमय सुविधाओं की एक विस्तृत श्रृंखला के लिए, ग्राफिक्स कार्य दृश्य पर एक नज़र डालें ।

अब इसे कैसे करें के बारे में। कई डेटा बिंदुओं के साथ एक समस्या प्लॉट बनने तक का समय है। ggplot2, iplots, ggobi बहुत अधिक डेटा पॉइंट (कम से कम मेरे अनुभव से) के लिए बहुत अच्छे नहीं हैं। जिस स्थिति में आप आर बेस ग्राफिक्स सुविधाओं पर ध्यान केंद्रित करना चाहते हैं, या अपने डेटा का नमूना और उस पर अन्य सभी उपकरणों का उपयोग कर सकते हैं। या आप आशा कर सकते हैं कि लोगों को iplots चरम (या विकासशील एसिनोनिक्स ) एक अग्रिम रिहाई चरण के लिए मिलेगा।


लिंक के बारे में rflowcytऔर Acinonyx के लिए धन्यवाद ।
CHL

BTW, rflowcytहाल ही में बायोकॉन्टर के रिलीज के साथ पदावनत किया गया है, अब इसका उपयोग करने की सिफारिश की गई है flowViz। वैसे भी, दोनों पर भरोसा करते हैं lattice
chl

बहुत अच्छी तरह से जवाब, ताल! प्लॉट पीढ़ी का समय बहुत बड़ा मुद्दा नहीं होना चाहिए। मैं अपने अधिकांश ग्राफ़ को बेस पैकेज के साथ कर रहा हूं, और ग्राफ़ के अच्छे होने का मुद्दा तब था जब मैं पेपर के लिए ग्राफ़ का उपयोग करने का निर्णय लेता हूं। मैंने संख्यात्मक चर के लिए एक स्कैप्लेटोट मैट्रिक्स का उपयोग करने पर विचार किया था, लेकिन चूंकि उनमें से कई अलग-अलग इकाइयों के हैं (कुछ डॉलर में हैं, अन्य वर्ग में), एकमात्र मूल्यवान जानकारी मुझे सामान्य रुझान मिलेगा, लेकिन ~ 8 संख्यात्मक के साथ चर, एक 8x8 एसपीएम थोड़ा अव्यवस्थित है।
क्रिस्टोफर एडेन

3

मोंड्रियन इंटरैक्टिव सुविधाएँ प्रदान करता है और काफी बड़े डेटा सेट (यह जावा में, हालांकि) संभालता है।

पैराव्यू में 2 डी / 3 डी अर्थात शामिल हैं। विशेषताएं।


दो उपन्यास पुस्तकालयों के लिए धन्यवाद। इन दोनों के साथ मेरा मुख्य संघर्ष यह है कि मैं अपनी रिपोर्ट पेपर कॉपी के माध्यम से प्रस्तुत कर रहा हूं, इसलिए इंटरैक्टिव ग्राफिक्स का पूरी तरह से उपयोग नहीं किया जा सकता है। मोंड्रियन के ग्राफिक्स बहुत जटिल लगते हैं। मैं इसे नज़र-अंदाज़ कर दूँगा।
क्रिस्टोफर एडेन

@Christopher For Mondrian, आपके पास iplots@Tal द्वारा उद्धृत "समतुल्य" R संस्करण है । पैराव्यू के बारे में, आपके पास अपने अर्थात के स्क्रीनशॉट को बचाने का विकल्प है। DescribeDisplayGGobi, cran.r-project.org/web/packages/DescribeDisplay/index.html से डायनामिक विज़ुअलाइज़ेशन निर्यात करने का तरीका है ।
chl

-3

मैं आपके ध्यान में लाना चाहता हूं, समानांतर निर्देशांक: विज़ुअल मल्टीमेडिअम जियोमेट्री और इसके अनुप्रयोग , जिसमें क्षेत्र में नवीनतम सफलताएं और एप्लिकेशन शामिल हैं।

इस पुस्तक की प्रशंसा स्टीफन हॉकिंग ने भी की थी। सतहों को उनके बिंदुओं पर उनके सामान्य वैक्टर द्वारा (द्वैत का उपयोग करके) वर्णित किया गया है। इसमें एयर ट्रैफिक कंट्रोल (स्वचालित टकराव से बचाव - 3 यूएसए पेटेंट), मल्टीवेरेट डेटा माइनिंग (असली डेटासेट पर कुछ के साथ सैकड़ों चर), मल्टीबोजिव ऑप्टिमाइज़ेशन, प्रोसेस कंट्रोल, इंटेंसिव केयर स्मार्ट डिस्प्ले, सिक्योरिटी, नेटवर्क विज़ुअलाइज़ेशन और हाल ही में बिग डेटा।


5
हाय अल्फ्रेड, साइट में शामिल होने के लिए धन्यवाद, यह थोड़ा प्रचारक के रूप में आता है। शायद आपके पास ओपी के डाटासेट (14 चर और 345,000 टिप्पणियों) के समान एक उदाहरण है कि आप एक तस्वीर प्रदान कर सकते हैं और वर्णन कर सकते हैं / प्रदर्शित कर सकते हैं कि समानांतर निर्देश कैसे उपयोगी हो सकते हैं? कई स्थिर समानांतर निर्देशांक चार्ट जो मैंने बहुत सारी टिप्पणियों के साथ देखे हैं, वे एक प्लेट पर स्पेगेटी की तरह दिखते हैं, मुझे संदेह है कि आपके पास इस तरह के बड़े एन डेटा की समझ बनाने के लिए बेहतर अंतर्दृष्टि है।
एंडी डब्ल्यू

हाय एंडी, मेरे पास कई टिप्पणियों के साथ एक उदाहरण नहीं है। में
अल्फ्रेड इनसेलबर्ग 24:12

हाय एंडी, मेरे पास कई टिप्पणियों के साथ एक उदाहरण नहीं है। डेटा की खोज के लिए अन्तरक्रियाशीलता आवश्यक है। मैंने "रहस्यमय" विफलताओं की खोज करने के लिए एक सेलुरल टेलीफोन नेटवर्क में लगभग 800 चर और 10,000 टिप्पणियों के साथ एक डेटासेट पर काम किया। क्लासिफायर का उपयोग करते हुए स्टेजवाइज और इंटरेक्टिव के साथ 11 वैरिएबल जिम्मेदार पाए गए और समय के साथ नेटवर्क में उन्हें पीछे की ओर ट्रेस करते हुए विफलता को नोटिस करने से पहले 3-4 में पता चला था।
अल्फ्रेड इनसेलबर्ग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.