डेटा एकत्र करने और विश्लेषण करने के सर्वोत्तम तरीके

13

अभी हाल ही में खुद को सिखाना शुरू किया मशीन लर्निंग और डेटा एनालिसिस मैं खुद को डेटा के बड़े सेट बनाने और क्वेरी करने के लिए एक ईंट की दीवार पर मार रहा हूं। मैं अपने पेशेवर और व्यक्तिगत जीवन में डेटा एकत्र करना चाहूंगा और उसका विश्लेषण करूंगा लेकिन मैं निम्नलिखित करने के लिए सबसे अच्छे तरीके से अनिश्चित हूं।

मुझे यह डेटा कैसे संग्रहीत करना चाहिए? एक्सेल? एसक्यूएल? ??
इस डेटा का विश्लेषण करने के लिए शुरुआत करने वाले के लिए एक अच्छा तरीका क्या है? मैं एक पेशेवर कंप्यूटर प्रोग्रामर हूं इसलिए जटिलताएं प्रोग्राम लिखने में नहीं है लेकिन डेटा विश्लेषण के क्षेत्र में कम या ज्यादा विशिष्ट हैं।

संपादित करें: मेरी अस्पष्टता के लिए क्षमा याचना, जब आप पहली बार कुछ के बारे में सीखना शुरू करते हैं तो यह जानना मुश्किल होता है कि आप क्या नहीं जानते, फिर जानते हैं? ;)

यह कहने के बाद, मेरा उद्देश्य इसे दो मुख्य विषयों पर लागू करना है:

सॉफ्टवेयर टीम मेट्रिक्स (सोचते हैं कि फुर्तीला वेग, जोखिम की मात्रा निर्धारित करना, सफलतापूर्वक पूर्ण किए गए पुनरावृत्ति की संभावना, कहानी के अंकों की x संख्या दी गई है)
मशीन लर्निंग (पूर्व प्रणाली अपवाद मॉड्यूल के दिए गए सेट में हुए हैं, क्या संभावना है कि एक मॉड्यूल क्षेत्र में एक अपवाद फेंक देगा, उस लागत में कितना होगा, डेटा मुझे बताएगा कि सुधार करने के लिए महत्वपूर्ण मॉड्यूल के बारे में क्या बताएगा मेरे हिरन के लिए सबसे अच्छा धमाका है, भविष्यवाणी करें कि उपयोगकर्ता डेटा लोड करने के लिए सिस्टम का कौन सा भाग आगे उपयोग करना चाहेगा, आदि)।

data-mining dataset eda

— जस्टिन बोज़ोनियर
स्रोत

यह मुझे बहुत अस्पष्ट लगता है। किस तरह का डेटा, और किस तरह का विश्लेषण? इसके अलावा, यह सामुदायिक विकी होना चाहिए यदि यह व्यक्तिपरक है।

— शेन

19

यदि आपके पास बड़े डेटा सेट हैं - जो एक्सेल या नोटपैड लोड को धीरे-धीरे बनाते हैं, तो एक डेटाबेस जाने का एक अच्छा तरीका है। पोस्टग्रेज ओपन-सोर्स और बहुत अच्छी तरह से बनाया गया है, और यह JMP, SPSS और अन्य कार्यक्रमों से जुड़ना आसान है। आप इस मामले में नमूना लेना चाह सकते हैं। आपको डेटाबेस में डेटा को सामान्य करने की आवश्यकता नहीं है। अन्यथा, CSV साझा-अनुकूल है।

अपाचे हाइव पर विचार करें यदि आपके पास 100 मीटर + पंक्तियाँ हैं।

विश्लेषण के संदर्भ में, यहां कुछ शुरुआती बिंदु हैं:

एक चर का वर्णन करें:

हिस्टोग्राम
सारांश आँकड़े (मतलब, सीमा, मानक विचलन, न्यूनतम, अधिकतम, आदि)
क्या आउटलेयर हैं? (1.5x से अधिक अंतर-चतुर्थक श्रेणी)
किस प्रकार का वितरण इसका पालन करता है? (सामान्य, आदि)

चरों के बीच संबंध बताएं:

स्कैटर प्लॉट
सह - संबंध
बाहरी कारकों के कारण? महालनोबिस दूरी की जाँच करें
स्पष्ट के लिए मोज़ेक साजिश
स्पष्ट के लिए आकस्मिक तालिका

एक वास्तविक संख्या (जैसे मूल्य) की भविष्यवाणी करें: प्रतिगमन

ओएलएस रिग्रेशन या मशीन लर्निंग रिग्रेशन तकनीक
जब भविष्यवाणी करने के लिए इस्तेमाल की जाने वाली तकनीक मनुष्यों द्वारा समझ में आती है, तो इसे मॉडलिंग कहा जाता है। उदाहरण के लिए, एक तंत्रिका नेटवर्क भविष्यवाणियां कर सकता है, लेकिन आमतौर पर समझ में नहीं आता है। आप कुंजी प्रदर्शन संकेतक खोजने के लिए प्रतिगमन का उपयोग कर सकते हैं।

वर्ग की सदस्यता की भविष्यवाणी या कक्षा की सदस्यता की संभावना (जैसे पारित / असफल): वर्गीकरण

लॉजिस्टिक रिग्रेशन या मशीन लर्निंग तकनीक, जैसे एसवीएम

टिप्पणियों को "प्राकृतिक" समूहों में रखें: क्लस्टरिंग

आम तौर पर कोई भी उनके बीच की दूरी की गणना करके "समान" टिप्पणियों को पाता है।

"प्राकृतिक" समूहों में गुण लगाएं: फैक्टरिंग

और अन्य मैट्रिक्स ऑपरेशन जैसे कि पीसीए, एनएमएफ

जोखिम की मात्रा निर्धारित करना = मानक विचलन, या समय का अनुपात जो कि "बुरी चीजें" होती हैं x वे कितने बुरे हैं

कहानी अंक = लॉजिस्टिक प्रतिगमन की x संख्या को सफलतापूर्वक पूरा किए गए पुनरावृत्ति की संभावना

सौभाग्य!

— नील मैकग्यूगन
स्रोत

यह कमाल था। इस प्रतिक्रिया के लिए बहुत बहुत धन्यवाद। आपने मुझे एक शानदार जंपिंग पॉइंट दिया है। आपके द्वारा सुझाए गए किसी भी पुस्तक को "पाने" के लिए लगता है कि मैं कहाँ पर हूँ।

— जस्टिन बोजोनियर

आपका स्वागत है। किताबें: शुरू करने के लिए सादा अंग्रेजी में सांख्यिकी। उसके बाद बालों द्वारा मल्टीवेरेट डेटा विश्लेषण। ये अच्छे वेब संसाधन हैं: itl.nist.gov/div898/handbook , ystsoft.com

— नील

4

यदि आप सिस्टम के दोषों को देख रहे हैं, तो आपको ईबे पर गलती निदान के लिए मशीन लर्निंग तकनीक को निम्नलिखित पेपर में रुचि हो सकती है। यह आपको इस बात की जानकारी दे सकता है कि किस तरह के डेटा को इकट्ठा करना है या कैसे एक टीम ने एक समान डोमेन में एक विशिष्ट समस्या का सामना किया है।

निर्णय पेड़ों का उपयोग कर दोष निदान

यदि आप अभी शुरुआत कर रहे हैं, तो RapidMiner या Orange जैसी कोई चीज़ आपके डेटा के साथ बहुत तेज़ी से खेलना शुरू करने के लिए एक अच्छा सॉफ़्टवेयर सिस्टम हो सकता है। वे दोनों विभिन्न स्वरूपों में डेटा का उपयोग कर सकते हैं (फ़ाइल सीएसवी, डेटाबेस, अन्य के बीच)।

— आर्स
स्रोत

3

आपका प्रश्न इतना व्यापक है कि उत्तर है: यह निर्भर करता है। फिर भी, कुछ और उपयोगी उत्तर देने के लिए मैं बताता हूं कि मुझे लगता है कि रिसर्च में आम हैं।

डेटा का भंडारण बहुत बार पाठ फ़ाइलों में किया जाता है। सांख्यिकीय विश्लेषण करते समय आप ज्यादातर एक प्रकार के वैक्टर के संग्रह के साथ काम करते हैं। यह एक तालिका के रूप में देखा जा सकता है और सीएसवी प्रारूप में लिखा जा सकता है। कारण thins अक्सर सादे-पाठ में संग्रहीत होते हैं, ऐसा इसलिए है क्योंकि बस हर उपकरण उन्हें पढ़ सकता है और उन्हें बदलना आसान है।

विश्लेषण के बारे में, यह विशिष्ट होना थोड़ा कठिन है। यदि यह 2 आयामी है, तो एक स्कैल्पलेट बनाएं। यदि यह उच्च-आयामी है, तो पीसीए करें और देखें कि महत्वपूर्ण चर खोजने के लिए पहले प्रमुख घटक कहां मौजूद हैं। यदि आपके पास समय डेटा है, तो उसे प्लॉट करें। यह सब इतना सामान्य है कि उपयोगी होने के लिए आपको वास्तव में बेहतर संकेत देना होगा कि आपका डेटा क्या है।

— पीटर स्मिट
स्रोत

पीटर, तुमने मुझे मुक्का मारा! मैं पूरी तरह से डेटा को पाठ के रूप में संग्रहीत करने से सहमत हूं, हालांकि आकार (सैकड़ों लाखों अवलोकन) के आधार पर यह मैप-रिड्यूसबल डेटाबेस (जैसे, सुअर, कैसेंड्रा, या NoSQL विकल्पों में से एक) में स्थानांतरित करने के लिए आवश्यक हो सकता है।

— DrewConway

ओह ओके दिलचस्प! तो बस प्रत्येक चर के लिए डेटा लें और इसे पंक्ति-स्तंभ प्रारूप में रखें और नंबर क्रंचिंग एह तक प्राप्त करें? क्या कोई उपकरण है जिसे मुझे देखना चाहिए या मुझे बस कुछ प्रोग्रामिंग करनी चाहिए?

— जस्टिन बोजोनियर

R आँकड़ों के लिए एक बहुत ही व्यापक (और मुक्त) टूलकिट / प्रोग्रामिंग भाषा / पुस्तकालय है। अधिकांश चीजों के लिए मेरा पसंदीदा हालांकि साइपफी / न्यूमपी के साथ अजगर है

— पीटर स्मिट

0

एक बात यह है कि ROOT वास्तव में अच्छा है जो डेटा की पर्याप्त मात्रा में भंडारण कर रहा है। ROOT एक C ++ लाइब्रेरी है जिसका उपयोग कण भौतिकी में किया जाता है; यह रूबी और पायथन बाइंडिंग के साथ भी आता है, इसलिए जब आप पाते हैं कि डेटा का विश्लेषण करने के लिए आप इन भाषाओं में पैकेज का उपयोग कर सकते हैं (जैसे कि NumPy या Scipy) तो ROOT कुछ संभावनाओं को पूरा करता है।

ROOT फाइलफॉर्मैट पेड़ों या टुपल्स को स्टोर कर सकता है, और प्रविष्टियों को क्रमिक रूप से पढ़ा जा सकता है, इसलिए आपको एक ही समय में सभी डेटा को मेमोरी में रखने की आवश्यकता नहीं है। यह पेटाबाइट डेटा का विश्लेषण करने की अनुमति देता है, कुछ जिसे आप एक्सेल या आर के साथ आज़माना नहीं चाहेंगे।

रूट I / O प्रलेखन यहाँ से पहुँचा जा सकता है ।

— बेंजामिन बैनियर
स्रोत