डेटासेट पर पहली त्वरित नज़र


10

कृपया मेरी अज्ञानता को क्षमा करें, लेकिन ...

मैं खुद को एक स्थिति में पाता रहता हूं, जहां मुझे नए डेटा का एक गुच्छा मिला है, जिसे मैं खोजने में कामयाब रहा। यह डेटा आमतौर पर कुछ इस तरह दिखता है:

Date     Number1  Number2  Category1  Category2
20120125      11      101        Dog      Brown
20120126      21       90        Cat      Black
20120126      31      134        Cat      Brown
(...)

आमतौर पर पहली नज़र में मैं वास्तव में नहीं बता सकता कि क्या यहाँ कोई रुझान है। विभिन्न स्तंभों के बीच सहसंबंध बहुत महत्वपूर्ण नहीं हो सकता है, लेकिन मुझे खुशी होगी अगर मुझे कॉलम / श्रेणियों के हर संभव संयोजन के लिए मैन्युअल रूप से एक भूखंड नहीं बनाना पड़ता।

क्या कोई ऐसा उपकरण है जो डेटा की एक तालिका को स्वीकार करेगा, साथ ही यह भी जानकारी देगा कि कौन से कॉलम को संख्याओं, तिथियों और श्रेणियों के रूप में माना जाना चाहिए और फिर उसे बनाने के लिए:

  • प्रत्येक दो संख्यात्मक स्तंभों के बीच संबंध
  • प्रत्येक श्रेणी के लिए अलग-अलग ट्रेंड लाइनों के साथ प्रत्येक दो संख्यात्मक स्तंभों के बीच संबंध
  • समय श्रृंखला के रूप में प्रत्येक संख्या स्तंभ,
  • एक समय श्रृंखला के रूप में प्रत्येक संख्या स्तंभ, श्रेणी द्वारा अलग किया गया,
  • आदि।

अंत में यह बड़ी संख्या में भूखंड उत्पन्न करेगा, जिनमें से अधिकांश केवल शोर दिखाएगा। आदर्श रूप से, उपकरण सहसंबंध द्वारा भूखंडों को स्कोर कर सकता है और अंत में एक स्लाइड शो दिखा सकता है जो उच्चतम स्कोरिंग भूखंडों के साथ शुरू होता है। यह डेटासेट पर एक बहुत ही अपूर्ण, लेकिन उपयोगी पहली नज़र होगी।

इसलिए? क्या कोई ऐसा उपकरण है जिसके लिए हर कोई उपयोग करता है और मुझे अभी इसके बारे में पता नहीं है, या यह कुछ ऐसा है जिसे हमें बनाने की आवश्यकता है?


आपके जवाब के लिए बहुत बहुत धन्यवाद। आपके द्वारा मेरे डेटा पर उल्लिखित प्रत्येक टूल का परीक्षण करने के लिए मैं अपना समय ले रहा हूं। मैं अपने परीक्षणों के बाद उत्तर दूंगा। मुझे लगता है कि यह बहुत बुरा है मैं और अधिक नहीं ले सकता तो एक :)
Postrational

जवाबों:


15

@Ondrej और @Michelle ने यहां कुछ अच्छी जानकारी दी है। मुझे आश्चर्य है कि अगर मैं कहीं उल्लेख नहीं किए गए कुछ बिंदुओं को संबोधित करके योगदान कर सकता हूं। मैं अपने आप को पिटाई नहीं करूँगा कि सारणीबद्ध रूप में डेटा से बहुत अधिक चमकने में सक्षम नहीं है, टेबल आम तौर पर जानकारी प्रस्तुत करने के लिए एक बहुत अच्छा तरीका नहीं है (सीएफ, गेलमैन एट अल।, टर्बिंग टेबल्स इन ग्राफ्स )। दूसरी ओर, एक ऐसे उपकरण के लिए पूछना जो स्वचालित रूप से एक नया डेटा सेट तलाशने में आपकी मदद करने के लिए सभी सही ग्राफ़ उत्पन्न करेगा, लगभग एक उपकरण के लिए पूछने जैसा है जो आपके लिए आपकी सोच को पूरा करेगा। (यह गलत तरीका मत लो, मैं मानता हूं कि आपका प्रश्न स्पष्ट करता है कि आप उस तक नहीं जा रहे हैं; मेरा मतलब है कि वास्तव में ऐसा कोई उपकरण कभी नहीं होगा।) इससे संबंधित एक अच्छी चर्चा मिल सकती है। यहाँ

ये बातें कही जा रही हैं, मैं उन प्लॉटों के प्रकार के बारे में थोड़ी बात करना चाहता था जिन्हें आप अपने डेटा का पता लगाने के लिए उपयोग करना चाहते हैं। प्रश्न में सूचीबद्ध भूखंड एक अच्छी शुरुआत होगी, लेकिन हम इसे थोड़ा अनुकूलित कर सकते हैं। शुरू करने के लिए, "बड़ी संख्या में भूखंड" बनाना, चर के सहसंबद्ध जोड़े आदर्श नहीं हो सकते हैं। एक स्कैल्पलॉट केवल दो चर के बीच सीमांत संबंध प्रदर्शित करता है । महत्वपूर्ण रिश्तों को अक्सर कई चर के कुछ संयोजन में छिपाया जा सकता है। तो इस दृष्टिकोण को गोमांस करने का पहला तरीका एक स्क्रैपप्लेट मैट्रिक्स बनाना हैजो सभी जोड़ीदार स्कैप्लेटों को एक साथ प्रदर्शित करता है। स्कैटरप्लॉट मैट्रिसेस को विभिन्न तरीकों से बढ़ाया जा सकता है: जैसे, उन्हें प्रत्येक चर के वितरण के अविभाज्य कर्नेल घनत्व प्लॉटों के साथ जोड़ा जा सकता है, विभिन्न मार्करों / रंगों का उपयोग विभिन्न समूहों की साजिश रचने के लिए किया जा सकता है, और संभावित nonlinear संबंधों का मूल्यांकन एक फिट फिट द्वारा किया जा सकता है। scatterplot.matrixआर में कार पैकेज में समारोह इन बातों के सभी अच्छी तरह से कर सकते हैं (एक उदाहरण देखा जा सकता है आधे रास्ते नीचे पेज ऊपर लिंक)।

हालांकि, जबकि स्कैप्लेटोट मैट्रिसेस एक अच्छी शुरुआत है, वे अभी भी केवल सीमांत अनुमानों को प्रदर्शित कर रहे हैं। इससे आगे बढ़ने की कोशिश करने के कुछ तरीके हैं। आर में रिग पैकेज का उपयोग करके 3-आयामी भूखंडों का पता लगाना है। एक अन्य दृष्टिकोण सशर्त भूखंडों का उपयोग करना है; कोप्लॉट एक साथ 3 या 4 चर के बीच संबंधों के साथ मदद कर सकते हैं। एक विशेष रूप से उपयोगी दृष्टिकोण स्कैटरप्लॉट मैट्रिक्स का उपयोग अंतःक्रियात्मक रूप से करना है(यद्यपि, इसे सीखने के लिए और अधिक प्रयास की आवश्यकता होगी), जैसे 'ब्रश करना'। ब्रशिंग आपको मैट्रिक्स के एक फ्रेम में एक बिंदु या अंक को उजागर करने की अनुमति देता है और उन बिंदुओं को एक साथ अन्य सभी फ़्रेमों में हाइलाइट किया जाएगा। ब्रश को चारों ओर घुमाकर, आप देख सकते हैं कि सभी चर एक साथ कैसे बदलते हैं। अद्यतन: एक और संभावना है कि मैं उल्लेख करना भूल गया था कि एक समानांतर निर्देशांक भूखंड का उपयोग करना है । यह आपके प्रतिक्रिया चर को विशिष्ट नहीं बनाने में एक नुकसान है, लेकिन उपयोगी हो सकता है, उदाहरण के लिए, आपके एक्स चर के बीच अंतर-सहसंबंधों की जांच करने में।

मैं आपके द्वारा संग्रहित तिथि के अनुसार आपके डेटा की जांच के लिए भी आपकी प्रशंसा करना चाहता हूं। हालांकि डेटा हमेशा समय के साथ इकट्ठा होता है, लोग हमेशा ऐसा नहीं करते हैं। एक पंक्ति ग्राफ को प्लॉट करना अच्छा है, लेकिन मैं आपको सुझाव दूंगा कि ऑटोकरेक्लेशन और आंशिक ऑटोकॉर्लेशन के ग्राफ के साथ । आर में, इन के लिए कार्य क्रमशः acfऔर pacfहैं।

मैं मानता हूं कि यह सब आपके उपकरण को देने के अर्थ में आपके सवाल का काफी जवाब नहीं देता है, जो आपके लिए सभी भूखंडों को स्वचालित रूप से बना देगा, लेकिन एक निहितार्थ यह है कि आपको वास्तव में उतने भूखंड नहीं बनाने चाहिए जितने आप डरते हैं , उदाहरण के लिए, एक स्कैल्पलॉट मैट्रिक्स कोड की सिर्फ एक पंक्ति है। इसके अलावा, आर में, अपने लिए एक फ़ंक्शन / कुछ पुन: प्रयोज्य कोड लिखना संभव होना चाहिए जो इस में से कुछ को स्वचालित रूप से स्वचालित करेगा (उदाहरण के लिए, मैं एक फ़ंक्शन की कल्पना कर सकता हूं जो चर की सूची और दिनांक-क्रम में ले जाता है, उन्हें सॉर्ट करें , लाइन, acf, और pacf भूखंडों के साथ प्रत्येक के लिए एक नई विंडो पॉप अप)।


हमेशा की तरह, उत्कृष्ट अंक। :)
मिशेल

2
(+1) ggobi और latticeExtra पैकेज marginal.plotसे न चूकें ।
chl

7

संख्यात्मक स्तंभ के प्रत्येक जोड़े के बीच सहसंबंध को सहसंबंध मैट्रिक्स में दिखाया जा सकता है। यह विशुद्ध रूप से संख्यात्मक होने की आवश्यकता नहीं है, यह त्वरित-नज़र मूल्यांकन के लिए अनुमति देने के लिए रंग कोडित किया जा सकता है। की जाँच करें corrplot आर के लिए पैकेज

आगे के विश्लेषण के लिए, रैटल काफी उपयोगी GUI टूल है।

यदि आप कीवर्ड "गलियारे" या "खड़खड़" का उपयोग करके स्टैक एक्सचेंज खोजते हैं, तो आपको कई विषय मिलेंगे जहां ये उपकरण और उनके विकल्प शामिल हैं। इस तरह एक

सौभाग्य!


4

@ ऑन्ड्रेज ने कुछ अच्छी सलाह दी है, इसलिए मैं आपके प्रश्न पर ध्यान केंद्रित करूँगा कि सॉफ़्टवेयर आयातित डेटा का इलाज कैसे करता है। चरित्र डेटा, "श्रेणी 1" और "श्रेणी 2" के साथ, सॉफ्टवेयर स्वचालित रूप से समूह या कारकों के रूप में इनका इलाज करता है, क्योंकि डेटा के इन टुकड़ों पर गणितीय संचालन नहीं किया जा सकता है। इसका मतलब है कि आपको उन श्रेणियों में से कुछ भी दर्ज करने से रोका जाएगा (वैकल्पिक रूप से, आपको एक विश्लेषण में एक त्रुटि मिलेगी यदि आप एक मेनू-संचालित प्रणाली के बजाय सिंटैक्स या कमांड लाइन का उपयोग कर रहे हैं) एक विश्लेषण में जिसे संख्याओं की आवश्यकता होती है।

आपके "नंबर 1" और "नंबर 2" जैसे डेटा के लिए, सॉफ्टवेयर इन्हें न्यूमेरिक के रूप में पढ़ता है। यदि आपके पास कोई समूह / कारक हैं जिसमें विशुद्ध रूप से संख्यात्मक डेटा शामिल हैं, तो आपको अपने सॉफ़्टवेयर को यह निर्देश देने की आवश्यकता होगी कि ये समूह / कारक हैं।

कभी-कभी डेट्स को सांख्यिकीय सॉफ़्टवेयर में बुरी तरह से आयात किया जा सकता है। एक बार जब आप अपना डेटा आयात करते हैं, तो आपको यह देखना चाहिए कि आपके सांख्यिकीय सॉफ़्टवेयर में डेटा प्रकार "दिनांक" के लिए "दिनांक" प्रकार का कोई रूप दिखा रहा है। यदि आप डेटा प्रकार को किसी अन्य तिथि के अलावा देखते हैं, तो आपके पास एक समस्या है। यहां तक ​​कि अगर यह तारीख के रूप में दिखा रहा है, तो कुछ पंक्तियों के आयात की जांच करें जहां आपके पास तारीखें हैं जैसे महीने के 13 वें या 25 वें दिन - सॉफ्टवेयर कैसे सेट किया जाता है, इसके आधार पर, कभी-कभी अमेरिकी / ब्रिटिश तारीख स्वरूपण आयात से खराब डेटा का कारण बनता है , क्योंकि दिन / महीने के उलट।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.