डेटा में नए ज्ञान की खोज के लिए दिशानिर्देश


9

मैं खुद को या किसी और को एक बिंदु बनाने के लिए कुछ साजिश करता हूं। आमतौर पर, एक प्रश्न इस प्रक्रिया को शुरू करता है, और अक्सर व्यक्ति एक विशेष उत्तर की उम्मीद करता है।

मैं कम पक्षपाती तरीके से डेटा के बारे में दिलचस्प चीजें कैसे सीख सकता हूं?

अभी मैं इस विधि का अनुसरण कर रहा हूँ:

  1. सारांश आँकड़े।
  2. खंड चार्ट।
  3. स्कैटर प्लॉट।
  4. शायद डेटा के एक दिलचस्प सबसेट के साथ दोहराएं।

लेकिन यह पर्याप्त या वैज्ञानिक नहीं लगता है।

क्या ऐसे दिशानिर्देश या प्रक्रियाएँ हैं जिनका पालन करना डेटा को उन चीजों के बारे में बताता है जिन्हें मैं पूछना नहीं चाहूंगा? जब मैंने पर्याप्त विश्लेषण किया है तो मुझे कैसे पता चलेगा?

जवाबों:


6

जॉन W. Tukey द्वारा खोजपूर्ण डेटा विश्लेषण नामक इस विषय पर खोजपूर्ण डेटा विश्लेषण (EDA) और उत्कृष्ट पुस्तक का एक पूरा क्षेत्र है ।

मुझे पसंद है कि आप ग्राफ़ का उपयोग कर रहे हैं - कई अन्य ग्राफ़ हैं जो आपके डेटा के आधार पर उपयोगी हो सकते हैं - कितने चर? किस प्रकृति के चर (श्रेणीबद्ध? संख्यात्मक? निरंतर? मायने रखते हैं? साधारण?)

एक ग्राफ जो अक्सर कई चर वाले डेटा के लिए उपयोगी होता है, वह एक स्कैप्लेटोट मैट्रिक्स है।

आप विभिन्न प्रकार के आउटलेर की तलाश कर सकते हैं, जो अक्सर दिलचस्प बिंदु होते हैं।

लेकिन मुझे नहीं लगता कि इस पूरी प्रक्रिया को वास्तव में व्यवस्थित और वैज्ञानिक बनाया जा सकता है - अन्वेषण वह है जो पहले से आता है पद्धतिगत और वैज्ञानिक दृष्टिकोणों को इसमें लाया जा सकता है। यहां, मुझे लगता है कि प्रमुख पहलू चंचलता है।


(+1) क्या आप उल्लिखित पुस्तक का लिंक प्रदान कर सकते हैं?
स्टीफेन

EDA इंजीनियरिंग एंड स्टैटिस्टिक्स हैंडबुक itl.nist.gov/div898/handbook/eda/eda.htm से
सेल्डन

@Peter Flom 13 वेरिएबल्स आउटपुट के दो सेटों की तुलना प्रोग्राम के दो इनपुटों पर चलने वाले प्रोग्राम द्वारा उत्पादित करके की जाती है। कार्यक्रम समय-समय पर चलता है। चर क्रमिक, श्रेणी, श्रेणी, श्रेणी, श्रेणी, गणना, गणना, गणना, संख्या, संख्यात्मक, संख्या, और गिनती हैं। नाम आईडी, मशीनए, इनपुटए, मशीनबी, इनपुटबी, नए, समान, गुम, नएपी, लापतापी, लंबाई, लंबाई, स्कोरए, स्कोरबी हैं। लेकिन केवल सबसे हालिया आउटपुट की तुलना करने का निर्णय भी मेरा अच्छा / बुरा विचार है।
सेल्डन जूल

पुस्तक को वास्तव में एक्सप्लोरेटरी डेटा एनालिसिस कहा जाता है (ईडीए नहीं) यह जॉन डब्ल्यू। ट्युकी द्वारा किया गया है (मेरी मेमोरी ने मुझे धोखा दिया क्योंकि मेरे संस्करण के कवर को ईडीए लेबल किया गया है) लिंक: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 / ...
पीटर Flom

@ वेलडन, आईडी शायद एक उपयोगी चर नहीं है। दो स्पष्ट चर के बीच आप मोज़ेक भूखंड देख सकते हैं; एक श्रेणीबद्ध और एक संख्यात्मक के बीच, समानांतर बॉक्सप्लॉट अच्छे हो सकते हैं।
पीटर Flom

1

यदि आपके पास कालानुक्रमिक डेटा ietime श्रृंखला डेटा है तो "ज्ञात" हैं और खोजे जाने की प्रतीक्षा "अज्ञात" हैं। उदाहरण के लिए यदि आपके पास १० अवधि के लिए १, ९, १, ९, १,५,५, १, ९, १, ९ में डेटा बिंदुओं का क्रम है तो इस नमूने के आधार पर कोई १, ९, १ ९९ की अपेक्षा कर सकता है , ... भविष्य में उत्पन्न होने के लिए। डेटा विश्लेषण से पता चलता है कि पीरियड 6 में एक "असामान्य" रीडिंग है, भले ही यह डीजीएफ -3-सिग्मा सीमा के भीतर अच्छी तरह से यह सुझाव दे रही हो कि डीजीएफ ने पकड़ नहीं बनाई। Inlier / Outlier को अनकमिंग करने से हम डेटा के बारे में चीजों को प्रकट कर सकते हैं। हम यह भी ध्यान देते हैं कि मीन वैल्यू एक्सपेक्टेड वैल्यू नहीं है। यह विचार आसानी से मीन शिफ्ट और / या लोकल टाइम ट्रेंड्स का पता लगाने तक फैला हुआ है जो डेटा के विश्लेषण से पहले अज्ञात हो सकता था (हाइपोथिसिस जेनरेशन)। अब यह बहुत संभव है कि अगले 10 रीडिंग भी 1,9,1,9 हैं, 1,5,1,9,1,9 यह सुझाव देते हैं कि "5" जरूरी नहीं है कि अनहोनी हो। यदि हम एक उपयुक्त मॉडल से एक त्रुटि प्रक्रिया का निरीक्षण करते हैं जो कि गैर-निरंतर भिन्नता को प्रदर्शित करता है, तो हम प्रकृति के निम्नलिखित राज्यों में से एक का खुलासा कर सकते हैं: 1) पैरामीटर एक विशेष बिंदु पर समय में बदल सकते हैं; 2. भारित विश्लेषण (जीएलएस) की आवश्यकता हो सकती है; 3. पावर ट्रांसफ़ॉर्म के माध्यम से डेटा को बदलने की आवश्यकता हो सकती है; 4. वास्तव में त्रुटियों के विचरण को मॉडल करने की आवश्यकता हो सकती है। यदि आपके पास दैनिक डेटा अच्छा विश्लेषण है, तो यह प्रकट हो सकता है कि सुसंगत / पूर्वानुमेय व्यवहार को दर्शाते हुए प्रत्येक अवकाश के आसपास प्रतिक्रिया (लीड, समकालीन और अंतराल संरचना) की एक खिड़की है। आप यह भी प्रकट करने में सक्षम हो सकते हैं कि महीने के कुछ दिनों का महत्वपूर्ण प्रभाव पड़ता है या सोमवार की छुट्टी से पहले शुक्रवार को असाधारण गतिविधि होती है। 9 का सुझाव है कि "5" जरूरी नहीं है कि अनहोनी हो। यदि हम एक उपयुक्त मॉडल से एक त्रुटि प्रक्रिया का निरीक्षण करते हैं जो कि गैर-निरंतर भिन्नता को प्रदर्शित करता है, तो हम प्रकृति के निम्नलिखित राज्यों में से एक का खुलासा कर सकते हैं: 1) पैरामीटर एक विशेष बिंदु पर समय में बदल सकते हैं; 2. भारित विश्लेषण (जीएलएस) की आवश्यकता हो सकती है; 3. पावर ट्रांसफ़ॉर्म के माध्यम से डेटा को बदलने की आवश्यकता हो सकती है; 4. वास्तव में त्रुटियों के विचरण को मॉडल करने की आवश्यकता हो सकती है। यदि आपके पास दैनिक डेटा अच्छा विश्लेषण है, तो यह प्रकट हो सकता है कि सुसंगत / पूर्वानुमेय व्यवहार को दर्शाते हुए प्रत्येक अवकाश के आसपास प्रतिक्रिया (लीड, समकालीन और अंतराल संरचना) की एक खिड़की है। आप यह भी प्रकट करने में सक्षम हो सकते हैं कि महीने के कुछ दिनों का महत्वपूर्ण प्रभाव पड़ता है या सोमवार की छुट्टी से पहले शुक्रवार को असाधारण गतिविधि होती है। 9 का सुझाव है कि "5" जरूरी नहीं है कि अनहोनी हो। यदि हम एक उपयुक्त मॉडल से एक त्रुटि प्रक्रिया का निरीक्षण करते हैं जो कि गैर-निरंतर भिन्नता को प्रदर्शित करता है, तो हम प्रकृति के निम्नलिखित राज्यों में से एक का खुलासा कर सकते हैं: 1) पैरामीटर एक विशेष बिंदु पर समय में बदल सकते हैं; 2. भारित विश्लेषण (जीएलएस) की आवश्यकता हो सकती है; 3. पावर ट्रांसफ़ॉर्म के माध्यम से डेटा को बदलने की आवश्यकता हो सकती है; 4. वास्तव में त्रुटियों के विचरण को मॉडल करने की आवश्यकता हो सकती है। यदि आपके पास दैनिक डेटा अच्छा विश्लेषण है, तो यह प्रकट हो सकता है कि सुसंगत / पूर्वानुमेय व्यवहार को दर्शाते हुए प्रत्येक अवकाश के आसपास प्रतिक्रिया (लीड, समकालीन और अंतराल संरचना) की एक खिड़की है। आप यह भी प्रकट करने में सक्षम हो सकते हैं कि महीने के कुछ दिनों का महत्वपूर्ण प्रभाव पड़ता है या सोमवार की छुट्टी से पहले शुक्रवार को असाधारण गतिविधि होती है। जरूरी नहीं कि अनहोनी हो। यदि हम एक उपयुक्त मॉडल से एक त्रुटि प्रक्रिया का निरीक्षण करते हैं जो कि गैर-निरंतर भिन्नता को प्रदर्शित करता है, तो हम प्रकृति के निम्नलिखित राज्यों में से एक का खुलासा कर सकते हैं: 1) पैरामीटर एक विशेष बिंदु पर समय में बदल सकते हैं; 2. भारित विश्लेषण (जीएलएस) की आवश्यकता हो सकती है; 3. पावर ट्रांसफ़ॉर्म के माध्यम से डेटा को बदलने की आवश्यकता हो सकती है; 4. वास्तव में त्रुटियों के विचरण को मॉडल करने की आवश्यकता हो सकती है। यदि आपके पास दैनिक डेटा अच्छा विश्लेषण है, तो यह प्रकट हो सकता है कि सुसंगत / पूर्वानुमेय व्यवहार को दर्शाते हुए प्रत्येक अवकाश के आसपास प्रतिक्रिया (लीड, समकालीन और अंतराल संरचना) की एक खिड़की है। आप यह भी प्रकट करने में सक्षम हो सकते हैं कि महीने के कुछ दिनों का महत्वपूर्ण प्रभाव पड़ता है या सोमवार की छुट्टी से पहले शुक्रवार को असाधारण गतिविधि होती है। जरूरी नहीं कि अनहोनी हो। यदि हम एक उपयुक्त मॉडल से एक त्रुटि प्रक्रिया का निरीक्षण करते हैं जो कि गैर-निरंतर भिन्नता को प्रदर्शित करता है, तो हम प्रकृति के निम्नलिखित राज्यों में से एक का खुलासा कर सकते हैं: 1) पैरामीटर एक विशेष बिंदु पर समय में बदल सकते हैं; 2. भारित विश्लेषण (जीएलएस) की आवश्यकता हो सकती है; 3. पावर ट्रांसफ़ॉर्म के माध्यम से डेटा को बदलने की आवश्यकता हो सकती है; 4. वास्तव में त्रुटियों के विचरण को मॉडल करने की आवश्यकता हो सकती है। यदि आपके पास दैनिक डेटा अच्छा विश्लेषण है, तो हो सकता है कि सुसंगत / पूर्वानुमानित व्यवहार को दर्शाते हुए प्रत्येक अवकाश के आसपास प्रतिक्रिया (लीड, समकालीन और अंतराल संरचना) की एक खिड़की हो। आप यह भी प्रकट करने में सक्षम हो सकते हैं कि महीने के कुछ दिनों का महत्वपूर्ण प्रभाव पड़ता है या सोमवार की छुट्टी से पहले शुक्रवार को असाधारण गतिविधि होती है। यदि हम एक उपयुक्त मॉडल से एक त्रुटि प्रक्रिया का निरीक्षण करते हैं जो कि गैर-निरंतर भिन्नता को प्रदर्शित करता है, तो हम प्रकृति के निम्नलिखित राज्यों में से एक का खुलासा कर सकते हैं: 1) पैरामीटर एक विशेष बिंदु पर समय में बदल सकते हैं; 2. भारित विश्लेषण (जीएलएस) की आवश्यकता हो सकती है; 3. पावर ट्रांसफ़ॉर्म के माध्यम से डेटा को बदलने की आवश्यकता हो सकती है; 4. वास्तव में त्रुटियों के विचरण को मॉडल करने की आवश्यकता हो सकती है। यदि आपके पास दैनिक डेटा अच्छा विश्लेषण है, तो हो सकता है कि सुसंगत / पूर्वानुमानित व्यवहार को दर्शाते हुए प्रत्येक अवकाश के आसपास प्रतिक्रिया (लीड, समकालीन और अंतराल संरचना) की एक खिड़की हो। आप यह भी प्रकट करने में सक्षम हो सकते हैं कि महीने के कुछ दिनों का महत्वपूर्ण प्रभाव पड़ता है या सोमवार की छुट्टी से पहले शुक्रवार को असाधारण गतिविधि होती है। यदि हम एक उपयुक्त मॉडल से एक त्रुटि प्रक्रिया का निरीक्षण करते हैं जो कि गैर-निरंतर भिन्नता को प्रदर्शित करता है, तो हम प्रकृति के निम्नलिखित राज्यों में से एक का खुलासा कर सकते हैं: 1) पैरामीटर एक विशेष बिंदु पर समय में बदल सकते हैं; 2. भारित विश्लेषण (जीएलएस) की आवश्यकता हो सकती है; 3. पावर ट्रांसफ़ॉर्म के माध्यम से डेटा को बदलने की आवश्यकता हो सकती है; 4. वास्तव में त्रुटियों के विचरण को मॉडल करने की आवश्यकता हो सकती है। यदि आपके पास दैनिक डेटा अच्छा विश्लेषण है, तो हो सकता है कि सुसंगत / पूर्वानुमानित व्यवहार को दर्शाते हुए प्रत्येक अवकाश के आसपास प्रतिक्रिया (लीड, समकालीन और अंतराल संरचना) की एक खिड़की हो। आप यह भी प्रकट करने में सक्षम हो सकते हैं कि महीने के कुछ दिनों का महत्वपूर्ण प्रभाव पड़ता है या सोमवार की छुट्टी से पहले शुक्रवार को असाधारण गतिविधि होती है। भारित विश्लेषण (जीएलएस) की आवश्यकता हो सकती है; 3. पावर ट्रांसफ़ॉर्म के माध्यम से डेटा को बदलने की आवश्यकता हो सकती है; 4. वास्तव में त्रुटियों के विचरण को मॉडल करने की आवश्यकता हो सकती है। यदि आपके पास दैनिक डेटा अच्छा विश्लेषण है, तो यह प्रकट हो सकता है कि सुसंगत / पूर्वानुमेय व्यवहार को दर्शाते हुए प्रत्येक अवकाश के आसपास प्रतिक्रिया (लीड, समकालीन और अंतराल संरचना) की एक खिड़की है। आप यह भी प्रकट करने में सक्षम हो सकते हैं कि महीने के कुछ दिनों का महत्वपूर्ण प्रभाव पड़ता है या सोमवार की छुट्टी से पहले शुक्रवार को असाधारण गतिविधि होती है। भारित विश्लेषण (जीएलएस) की आवश्यकता हो सकती है; 3. पावर ट्रांसफ़ॉर्म के माध्यम से डेटा को बदलने की आवश्यकता हो सकती है; 4. वास्तव में त्रुटियों के विचरण को मॉडल करने की आवश्यकता हो सकती है। यदि आपके पास दैनिक डेटा अच्छा विश्लेषण है, तो हो सकता है कि सुसंगत / पूर्वानुमानित व्यवहार को दर्शाते हुए प्रत्येक अवकाश के आसपास प्रतिक्रिया (लीड, समकालीन और अंतराल संरचना) की एक खिड़की हो। आप यह भी प्रकट करने में सक्षम हो सकते हैं कि महीने के कुछ दिनों का महत्वपूर्ण प्रभाव पड़ता है या सोमवार की छुट्टी से पहले शुक्रवार को असाधारण गतिविधि होती है। समसामयिक / अनुमानित व्यवहार को दर्शाते हुए प्रत्येक अवकाश के आसपास समसामयिक और अंतराल संरचना)। आप यह भी प्रकट करने में सक्षम हो सकते हैं कि महीने के कुछ दिनों का महत्वपूर्ण प्रभाव पड़ता है या सोमवार की छुट्टी से पहले शुक्रवार को असाधारण गतिविधि होती है। समसामयिक / अनुमानित व्यवहार को दर्शाते हुए प्रत्येक अवकाश के आसपास समसामयिक और अंतराल संरचना)। आप यह भी प्रकट करने में सक्षम हो सकते हैं कि महीने के कुछ दिनों का महत्वपूर्ण प्रभाव पड़ता है या सोमवार की छुट्टी से पहले शुक्रवार को असाधारण गतिविधि होती है।


0

डाटामाइनिंग को दो श्रेणियों में विभाजित किया जा सकता है। यदि आप किसी विशिष्ट चर पर डेटा सेट / चर के प्रभाव को मापने में रुचि रखते हैं, तो यह पर्यवेक्षित शिक्षण माना जाएगा। बिना किसी उद्देश्य के साथ गहन और खोजपूर्ण सीखने के लिए आप बिना पढ़े हुए शिक्षण से गुजर रहे हैं।

डेटा का रेखांकन और सांख्यिकीय विश्लेषण (वितरणों को समझना और अंतर्ज्ञान प्राप्त करना) पहले चरण हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.