डेटा प्रीप्रोसेसिंग और आउटलाइयर डिटेक्शन तकनीकों को कवर करने वाली अच्छी किताबें


11

जैसा कि शीर्षक से पता चलता है, क्या किसी को एक अच्छी तारीख का पता है, जो सामान्य रूप से और विशेष रूप से बाह्य पहचान तकनीकों में डेटा प्रीप्रोसेसिंग को कवर करता है?

पुस्तक को केवल उस पर विशेष रूप से ध्यान केंद्रित करने की आवश्यकता नहीं है, लेकिन इसे पूर्वोक्त विषयों से पूरी तरह से निपटना चाहिए - मैं किसी ऐसी चीज से खुश नहीं होगा जो एक शुरुआती बिंदु है और कागजात की एक सूची को उद्धृत करता है, विभिन्न तकनीकों के स्पष्टीकरण में प्रकट होना चाहिए किताब ही।

अनुपलब्ध डेटा से निपटने के लिए तकनीक, लेकिन आवश्यक नहीं ...


क्या आप हमें बता सकते हैं कि आप किस तरह का डेटा (वैज्ञानिक क्षेत्र या माप तकनीक) देख रहे हैं?
15

वेब उपयोगकर्ताओं से एकत्र किया गया डेटा (अधिक विशिष्ट नहीं हो सकता)। शामिल टाइमस्टैम्प हैं (हालांकि डेटा कड़ाई से समय से संबंधित नहीं है, कम से कम सहज ज्ञान युक्त), स्पष्ट गुण और निरंतर विशेषताओं। बाहरी कारण अनगिनत कारणों से हो सकते हैं। वेब रोबोट, दुर्भावनापूर्ण उपयोगकर्ता और कई अन्य स्रोत। डेटा भी काफी बड़ा है (CSV प्रारूप में
GBs

मेरे लिए यह पर्याप्त रूप से विशिष्ट है: आपको रासायनिक या स्पेक्ट्रोस्कोपिक डेटा सेट के लिए प्रीप्रोसेसिंग के साथ बोर होने की आवश्यकता नहीं है ...
SX

जवाबों:


3

हालांकि स्टैटा के लिए विशिष्ट, मैंने स्कॉट लॉन्ग की पुस्तक, द वर्कफ़्लो ऑफ़ डेटा एनालिसिस स्टैट्टा का उपयोग करके डेटा प्रबंधन और तैयारी के क्षेत्र में अमूल्य पाया है। लेखक डेटा प्रबंधन में अच्छी प्रथाओं के बारे में बहुत सारी सहायक सलाह देता है, जैसे कि सफाई और डेटा संग्रह करना, आउटलेर के लिए जाँच करना और लापता डेटा से निपटना।


2
मुझे यह पुस्तक बहुत पसंद है, लेकिन जहां तक ​​डेटा प्रबंधन का सवाल है, तो मैं वॉट-इन-द-वेट स्टैट उपयोगकर्ता हूं। जबकि मैं असहमत हूं, इस सूची में अन्य लोगों ने तर्क दिया है कि यह उपयोगी होने के लिए स्टैटा विशिष्ट है, इसलिए कैवेट एम्प्टर या लेक्टर है।
दिमित्री वी। मास्टरोव

मैं क्या इकट्ठा, और मैं न STATA से परिचित हूँ, और न ही होगा से बहुत STATA-इश यह यह बहुत ही परियोजना अगर मैं थे (डेटा बहुत बड़ा, विभिन्न तकनीकों का उपयोग कर रहा है) के लिए सहायता
em70

पुस्तक वास्तव में बहुत ही मूर्खतापूर्ण है। विशेष डेटा (और विशेष रूप से मेटा-डेटा) हैंडलिंग तकनीक स्टैटा-विशिष्ट हैं, लेकिन सामान्य विचार प्लेटफार्मों के बीच हस्तांतरणीय हैं। मुझे आश्चर्य है कि बाजार पर लगभग 20 स्टाटा पुस्तकों / 100 आर पुस्तकों के अनुपात के साथ, आर में वर्कफ़्लो के आयोजन पर कोई तुलनीय किताबें नहीं हैं - क्या यह बाद की असंभव है? स्टैटा को आवंटित की गई सबसे बड़ी मात्रा में मुझे याद है कि 64Gb मशीन पर 48Gb था - जो कि आकार मायने रखता है। यदि आपको बेतहाशा अलग संरचना की वस्तुओं में हेरफेर करने की आवश्यकता है, तो आप इसे R में करना चाहेंगे, स्टाटा में नहीं।
StasK

0

एसएएस के लिए, रॉन कोड़ी का डेटा क्लीनिंग तकनीक एसएएस सॉफ्टवेयर का उपयोग कर रहा है । एसएएस-एल पर एक कहावत है: "रॉन कोडी की किताब से आप कभी गलत नहीं हो सकते"


मुझे डर है कि एसएएस मेरी सेटिंग में पसंद का उपकरण नहीं है और न ही मेरे पास इसकी परिचितता है। इसके अलावा, मैं कुकबुक के बजाय कुछ दृष्टिकोण की तलाश कर रहा हूं। मान लीजिए कि मैं कुछ चीजों के गणितीय और मॉडलिंग पक्ष पर अधिक हूं।
em70

0

यदि आपके पास विषय के आधार पर मूल बातें (आउटलेर्स की पहचान, गुम मान, भार, कोडिंग) है तो सादे शैक्षणिक साहित्य में बहुत कुछ पाया जा सकता है। उदाहरण के लिए सर्वेक्षण अनुसंधान (जो एक ऐसा विषय है जहाँ कई चीजें गलत हो सकती हैं, और पूर्वाग्रह के कई स्रोतों से ग्रस्त हो सकती हैं) बहुत सारे अच्छे लेख हैं।

नियमित रूप से पारगमन के प्रतिगमन की तैयारी करते समय, चीजें कम जटिल हो सकती हैं। उदाहरण के लिए समस्या यह हो सकती है कि आप बहुत से 'आउटलेर्स' हटा दें और इस तरह अपने मॉडल को अच्छी तरह से फिट कर लें।

मैं इस प्रकार आपको अच्छी तकनीकों को सीखने के अलावा, सामान्य ज्ञान को भी ध्यान में रखने की सलाह देता हूं। सुनिश्चित करें कि आप तकनीकों को सही तरीके से लागू करते हैं और नेत्रहीन रूप से नहीं। अन्य उत्तर में सॉफ्टवेयर चर्चा के लिए के रूप में। मुझे लगता है कि SPSS डेटा तैयार करने के लिए बुरा नहीं है (मैंने एसएएस के बारे में अच्छी बातें भी सुनी हैं) आपके डेटासेट के आकार के आधार पर। ड्रॉप डाउन मेनू बहुत सहज हैं।

लेकिन आपके प्रश्न के सीधे उत्तर के रूप में, शैक्षणिक साहित्य विषय और विश्लेषण के आधार पर आपकी डेटा तैयारी के लिए एक बहुत अच्छा स्रोत हो सकता है या नहीं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.