टकी द्वारा अन्वेषणात्मक डेटा विश्लेषण के लिए आधुनिक उत्तराधिकारी?


52

मैं Tukey की पुस्तक "Exploratory Data Analysis" पढ़ रहा हूं। 1977 में लिखे जाने के कारण, पुस्तक कागज / पेंसिल के तरीकों पर जोर देती है। क्या एक और 'आधुनिक' उत्तराधिकारी है जो इस बात को ध्यान में रखता है कि हम अब बड़े डेटा सेट को तुरंत तैयार कर सकते हैं?


क्या यह सामुदायिक विकि होना चाहिए?
richiemorrisroe

यह मेरे लिए स्पष्ट नहीं है कि क्या यह सीडब्ल्यू होना चाहिए। कोई अच्छा जवाब नहीं हो सकता है; एक स्पष्ट बकाया जवाब हो सकता है; हम प्रभावी उत्तरों की एक लंबी सूची तैयार कर सकते हैं। चलिए देखते हैं क्या होता है।
whuber

4
यह एक अच्छा प्रश्न है, बायोफ्रीजर। मैं सिर्फ यह बताना चाहता था कि काम के अन्य तरीकों के करीब समानताएं हैं। मेरा पसंदीदा है, कलम और कागज EDA आधुनिक आँकड़े के रूप में हाथ उपकरण आधुनिक woodworking के लिए कर रहे हैं। ("आधुनिक" वुडवर्किंग तालिकाओं और राउटर जैसे कई बिजली उपकरणों को रोजगार देता है जो शुरुआती लोगों को बहुत कम समय में स्वीकार्य परिणाम देने में सक्षम बनाते हैं। हालांकि, ये उपकरण हर साल हजारों लापता अंकों और अंगों का भी हिसाब रखते हैं। जो लोग उन उपकरणों का उपयोग करना सीखते हैं। आम तौर पर बेहतर और अधिक कुशलता से भी जब वे बिजली उपकरण को रोजगार काम करना सीखना)।
whuber

4
हां, वुडवर्किंग एक अच्छा सादृश्य (लापता अंक, लापता अंक) है। सॉफ्टवेयर- carpentry.org भी देखें ।
डेसीस

जवाबों:


19

निकटतम चीज़ क्लीवलैंड का विज़ुअलाइज़िंग डेटा है । यह खोजपूर्ण डेटा विश्लेषण के बारे में है, यह कंप्यूटर-जनित विज़ुअलाइज़ेशन के बारे में है, यह गहरा है, यह एक क्लासिक है।


2
यही बात पुस्तक के तत्वों पर भी लागू होती है । दोनों को खरीदो; वे दोनों उत्कृष्ट हैं।
कार्ल ओवे हफथममर

9

ठीक है, इसकी एक सटीक प्रतिकृति नहीं है, लेकिन मुझे जेलमैन और हिल के डेटा विश्लेषण में प्रतिगमन और बहुस्तरीय / पदानुक्रमित मॉडल का उपयोग करके उपयोगी प्लॉटिंग सलाह (और आर कोड) के टन मिले।

इसके अलावा, उनका ब्लॉग अक्सर उपयोगी ग्राफिक्स सलाह से भरा होता है।


7

डेटा विश्लेषण के लिए इंटरएक्टिव ग्राफिक्स: सिद्धांत और उदाहरण एक मुझे पसंद है; पुस्तक विवरण में कहा गया है, "यह खोजपूर्ण डेटा विश्लेषण (ईडीए) पर चर्चा करता है और कैसे इंटरएक्टिव ग्राफिकल तरीके अंतर्दृष्टि प्राप्त करने में मदद कर सकते हैं और साथ ही डेटासेट से नए प्रश्न और परिकल्पना उत्पन्न कर सकते हैं।"



4

इंजीनियरिंग, विज्ञान और चिकित्सा में रोनाल्ड पियर्सन का अन्वेषण डेटा यहां ध्यान देने योग्य है। इसका मुख्य लक्ष्य पाठकों को लगता है कि वैज्ञानिक थोड़ा गणित से डरते नहीं हैं जो चाहते हैं कि वे अधिक आंकड़े जानते हों। यह काफी बड़ा समूह है, और एक अच्छी तरह से यहाँ का प्रतिनिधित्व करता है। यह थोड़ा विचित्र और अपमानजनक है, लेकिन इसमें बहुत सारी जमीन शामिल है और इसमें बहुत समझदार सलाह शामिल है। यह इस अर्थ में परिलक्षित नहीं है कि यह कई नए विचारों को प्रस्तुत करता है, लेकिन यह अध्ययन के लिए फायदेमंद हो सकता है, तब भी जब आप सोचते हैं कि यह थोड़ा गलत है।

ऐसा लगता है कि इस पुस्तक ने बहुत कम नोटिस आकर्षित किया है, संभवतः इसलिए क्योंकि यह बहुत महंगा है, ज़ाहिर है कि पाठ्यक्रम पाठ के रूप में उपयुक्त नहीं है, और अभी तक केवल हार्डबैक में उपलब्ध है। लेकिन यह बुद्धिमान और पठनीय और आधुनिक परिचयात्मक पाठ्यपुस्तकों के कचरे से मुक्त है (प्रारंभिक अभ्यास के पृष्ठ और पृष्ठ, मूर्खतापूर्ण प्रतीक, खुशहाल युवाओं की कृतज्ञ फोटो, बक्से के साथ उधम मचाते लेआउट, जो भी हो, आदि)।


3

इसके अलावा डेटा विश्लेषण के लिए इंटरएक्टिव और गतिशील ग्राफिक्स: के साथ उदाहरण का उपयोग करते हुए आर और GGobi, कुक और Swayne

यह वेब पर सार्वजनिक रूप से दो अध्याय उपलब्ध हैं जो डेटा विश्लेषण की प्रक्रिया का वर्णन करते हैं, और लापता मानों को संभालते हैं। एंटनी अनविन द्वारा जल्द ही एक नई पुस्तक सामने आ रही है।


0

पढ़ने के लिए अच्छी पुस्तकों के एक और जोड़े सुंदर दृश्य और सुंदर डेटा हैं। ये संपादित पुस्तकें हैं, भूखंडों के साथ डेटा की खोज करने के आश्चर्यजनक अच्छे उदाहरण हैं, और कुछ बिल्कुल दिलचस्प अध्याय हैं।

एक और किताब जिसमें ggplot2 का उपयोग करने के कुछ अच्छे उदाहरण हैं, विंस्टन चांग द्वारा एक नया है


1
मैं सिर्फ सूक्ष्म-टाइपो क्रेप के मामले में, डबल-चेक करना चाहता हूं: क्या आपका मतलब "तुष्टिकरण" के बजाय "अपील" लिखना है? यद्यपि दोनों इस संदर्भ में समझ में आते हैं, बाद की उपस्थिति - बिना किसी और स्पष्टीकरण के - बल्कि आश्चर्यचकित है!
whuber

2
भयावह सही था - यह एक मिश्रित बैग है - संपादित वॉल्यूम अक्सर हैं
डायने कुक

मैं इन सिफारिशों पर हैरान हूं। मैंने दोनों किताबें ज्यादातर निराशाजनक (ग्राफिक्स पर लंबी, शॉर्ट ऑन ग्राफिक्स) पाईं। दुर्भाग्य से ओ 'रेली, जिसे मैंने पहली बार शानदार अच्छी यूनिक्स पुस्तकों के प्रकाशक के रूप में सामना किया, लगता है कि दूर से सांख्यिकीय कुछ भी किताबों के लिए बहुत असमान गुणवत्ता नियंत्रण है।
निक कॉक्स

मुझे दोनों पुस्तकें पसंद हैं, और वास्तव में महसूस होता है कि उनका पर्याप्त योगदान है। विंस्टन चांग की ggplot2 के साथ साजिश रचने पर बहुत सारे मूल विवरण हैं। यह एक अच्छा शुरुआती संदर्भ है। यह आपको इस बारे में अधिक नहीं बताता है कि आप इन भूखंडों को क्यों बनाएंगे, लेकिन अधिकांश उन उद्देश्यों के लिए अच्छी समझ रखते हैं, जो मैंने पढ़े हैं। द ब्यूटीफुल विज़ुअलाइज़ेशन में कुछ बहुत प्रभावशाली अध्याय हैं, विकिपीडिया, बड़े पैमाने पर डेटा, कई जटिलताओं की कल्पना करने जैसी कठिन समस्याओं से निपटते हैं, और यह भूखंड बनाने के लिए की गई सोच प्रक्रिया / निर्णयों से गुजरती है।
डायने कुक

बस मेरी टिप्पणी अस्पष्ट है: मैं "सुंदर" पुस्तकों का उल्लेख कर रहा था। विंस्टन चांग की पुस्तक अच्छी और मददगार है।
निक कॉक्स

0

मुझे लगता है कि होआग्लिन, मोस्टेलर और तुकी द्वारा मजबूत और खोजपूर्ण विश्लेषण को समझना, डेटा टेबल्स और आकृतियों को ईडीए को तकनीकी अनुवर्ती बनाने पर एक साथी की मात्रा। मैं डेटा विश्लेषण और प्रतिगमन को भी देखता हूं, जो कि Eeller के अनुवर्ती के रूप में Mosteller और Tukey द्वारा आंकड़ों में एक दूसरा कोर्स है। ऊपर वर्णित विभिन्न क्लीवलैंड पुस्तकें खजाने हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.