सांख्यिकीय विश्लेषण के विशेष पहलुओं को स्पष्ट करने के लिए अच्छे डेटासेट क्या हैं?


16

मुझे लगता है कि यह व्यक्तिपरक है, लेकिन मुझे लगा कि हमारे पसंदीदा डेटासेट के बारे में बात करना अच्छा होगा और हम जो सोचते हैं, वह उन्हें दिलचस्प बनाता है। वहाँ डेटा का खजाना है, और क्या सभी APIs (उदाहरण के लिए, Datamob ) के साथ क्लासिक डेटासेट (जैसे, आर डेटा ) के साथ, मुझे लगता है कि यह कुछ बहुत ही दिलचस्प प्रतिक्रियाएं हो सकती हैं।

उदाहरण के लिए, मैंने हमेशा "बोस्टन हाउसिंग" डेटासेट्स (दुर्भाग्यपूर्ण निहितार्थों के बावजूद) और उनकी बहुमुखी प्रतिभा के लिए "mtcars" जैसे डेटासेट को पसंद किया है। एक शैक्षणिक दृष्टिकोण से, कोई भी उनका उपयोग करके विभिन्न प्रकार की सांख्यिकीय तकनीकों का गुण दिखा सकता है; और एंडरसन / फिशर के आईरिस डेटासेट में हमेशा मेरे दिल में जगह होगी।

विचार?


2
मेरे शोध प्रबंध के लिए इस्तेमाल किया जा रहा है, क्योंकि अगर मैं इसे सही तरीके से विश्लेषण करता हूं तो यह मुझे डॉक्टरेट की भूमि देगा।>
फोमाइट

3
वेलिडेट पार करने के लिए आपका स्वागत है! यह प्रश्नोत्तर के लिए प्रश्नोत्तर स्थल के रूप में बनाया गया है, चर्चा मंच नहीं। इस प्रकार, मुझे विश्वास नहीं है कि यह इस प्रकार का प्रश्न है जो हम इस साइट पर चाहते हैं। कृपया सामान्य प्रश्न देखें ।
माइकल मैकगोवन

4
मुझे पता है कि यह क्यू एंड ए के रूप में डिज़ाइन किया गया है, लेकिन "आपके पसंदीदा सांख्यिकी कार्टून क्या है?" जैसे सवालों के साथ। अत्यधिक मतदान किया जा रहा है, मुझे लगा कि यह बहुत अनुचित नहीं होगा। विशेष रूप से शैक्षणिक रूप से, यदि कोई व्यक्ति डेटा विश्लेषण और खोज तकनीकों के बारे में जानने की कोशिश कर रहा है, तो सार्वजनिक डेटासेट पर कुछ प्रतिक्रिया प्राप्त करना उपयोगी हो सकता है जो एक समृद्ध संरचना प्रदान करते हैं और उनके पीछे बड़ी मात्रा में इतिहास और शोध होते हैं।
DA

4
मैं समुदाय को यह तय करने देने के लिए इच्छुक हूं कि क्या इसे बंद किया जाना है (जैसा कि रचनात्मक नहीं) या नहीं, हालांकि मैं यह जोड़ना चाहता हूं कि डेटा विश्लेषण के विशेष पहलुओं पर भविष्य के सवालों के समर्थन के रूप में अच्छी तरह से और तर्कपूर्ण उत्तर दिए जा सकते हैं। मैं सीडब्ल्यू को इस बीच में परिवर्तित कर रहा हूं क्योंकि, जाहिर है, इसका कोई सबसे अच्छा जवाब नहीं है।
chl

2
यह प्रश्न और उनके उत्तर मेरे लिए बहुत उपयोगी हैं। कृपया न निकालें।
dsign

जवाबों:


12

कम जन्म के वजन का अध्ययन

यह एप्लाइड लॉजिस्टिक रिग्रेशन (2000, विले, 2 डी एड।) पर होसमेर और लेमेशो की पाठ्यपुस्तक में एक डेटासेट में से एक है । इस संभावित अध्ययन का लक्ष्य कम जन्म के वजन वाले बच्चे को जन्म देने से जुड़े जोखिम कारकों की पहचान करना था (2,500 ग्राम से कम वजन)। 189 महिलाओं पर डेटा एकत्र किया गया था, जिनमें से 59 का वजन कम शिशुओं में था और जिनमें से 130 का वजन सामान्य शिशुओं में था। चार चर जो महत्व के माने जाते थे, वे थे, उसकी अंतिम माहवारी, दौड़, और गर्भावस्था की पहली तिमाही के दौरान चिकित्सकों की संख्या में विषय का वजन।

यह R के रूप में data(birthwt, package="MASS")या Stata के साथ उपलब्ध है webuse lbw। एक पाठ संस्करण यहां दिखाई देता है: lowbwt.dat ( विवरण )। ध्यान से, इस डेटासेट के कई संस्करण हैं क्योंकि इसे ALR अध्याय 7 में होस्मेर और लेमेशो द्वारा सचित्र केस-कंट्रोल स्टडी (1-1 या 1-3, आयु पर मिलान किया गया) तक बढ़ाया गया था।

मैं निम्नलिखित कारणों से इस डेटासेट पर आधारित परिचयात्मक पाठ्यक्रम पढ़ाता था:

  • यह एक ऐतिहासिक और महामारी विज्ञान के दृष्टिकोण से दिलचस्प है (1986 में डेटा एकत्र किया गया था); मुख्य विचारों को समझने के लिए चिकित्सा या सांख्यिकी में कोई पूर्व पृष्ठभूमि की आवश्यकता नहीं है और उस अध्ययन से क्या प्रश्न पूछे जा सकते हैं।
  • χ2
  • यह विभिन्न मॉडलिंग दृष्टिकोण (व्याख्यात्मक या भविष्य कहनेवाला दृष्टिकोण), और विकासशील मॉडल (स्तरीकरण / मिलान मामलों) के दौरान नमूना योजना के निहितार्थ पर चर्चा करने की अनुमति देता है।

अन्य बिंदुओं पर बल दिया जा सकता है, जो सांख्यिकीय सॉफ्टवेयर या सामान्य रूप से सांख्यिकी के साथ दर्शकों और विशेषज्ञता के स्तर पर निर्भर करता है।

  1. आर में उपलब्ध डेटासेट के लिए, श्रेणीबद्ध भविष्यवक्ताओं को पूर्णांक के रूप में स्कोर किया जाता है (उदाहरण के लिए, माँ की जातीयता के लिए हमारे पास '1' = सफेद, '2' = काला, '3' = अन्य), इस तथ्य के बावजूद कि कुछ भविष्यवक्ताओं के लिए प्राकृतिक आदेश। (जैसे, पिछले समय से पहले के मजदूरों की संख्या या चिकित्सक के दौरे की संख्या) या स्पष्ट लेबल का उपयोग (बाइनरी चर के लिए 1/0 के बजाय 'हां' / 'नहीं' का उपयोग करना हमेशा एक अच्छा विचार है, भले ही वह न हो) टी डिजाइन मैट्रिक्स में कुछ भी परिवर्तन!) बस अनुपस्थित हैं। इस प्रकार, यह चर्चा करना आसान है कि डेटा विश्लेषण में स्तरों या माप की इकाइयों की अनदेखी करके क्या मुद्दे उठाए जा सकते हैं।

  2. मिश्रित प्रकार के चर तब दिलचस्प होते हैं जब यह कुछ खोजपूर्ण विश्लेषण करने के लिए आता है और चर्चा करता है कि अविभाजित, द्विभाजित या रिश्वत संबंधों को संक्षेप में प्रस्तुत करने के लिए किस प्रकार के चित्रमय प्रदर्शन उपयुक्त हैं। इसी तरह, अच्छा सारांश तालिकाओं का निर्माण, और अधिक सामान्यतः रिपोर्टिंग, इस डेटासेट का एक और दिलचस्प पहलू है (लेकिन Hmisc::summary.formulaकमांड आर के तहत इसे इतना आसान बनाता है)।

  3. होसमेर और लेमेशो ने बताया कि वास्तविक डेटा को विषय गोपनीयता (पृष्ठ 25) की रक्षा के लिए संशोधित किया गया था। डेटा गोपनीयता मुद्दों पर चर्चा करना दिलचस्प हो सकता है, जैसा कि हमारे पहले के जर्नल क्लब में किया गया था , लेकिन इसकी प्रतिलेख देखें । (मुझे स्वीकार करना चाहिए कि मैं कभी भी इसके बारे में ज्यादा जानकारी नहीं ले सकता हूं।)

  4. कुछ लापता मूल्यों या गलत मूल्यों (जो एक सांख्यिकीविद् के वास्तविक जीवन में आम मुद्दे हैं) को पेश करना आसान है, जिससे कोडबुक ( Hmisc::describeया स्टाटा codebook) या खोजपरक ग्राफिक्स (हमेशा अपना डेटा पहले साजिश!) के माध्यम से उनकी पहचान पर चर्चा होती है । , और (बी) संभव उपचारात्मक (डेटा प्रतिरूपण, सूचीबद्ध विलोपन या एसोसिएशन के जोड़ीदार उपाय, आदि)।


+1 आपको एक अनुकरणीय उत्तर प्रदान करने के लिए धन्यवाद जो दिखाता है कि यह धागा उपयोगी हो सकता है और यह एक मानक मानक प्रदान करता है जो अन्य उत्तरों के लिए कर सकते हैं (और चाहिए)।
whuber

यह शानदार है और वास्तव में मैं सवाल पूछने के साथ क्या देख रहा था। मैं आप के लिए धन्यवाद अंतर्दृष्टि।
DA

5

बेशक, Anscombe 4 डेटासेट शिक्षण के लिए बहुत अच्छे हैं - वे बहुत अलग दिखते हैं, फिर भी समान सरल सांख्यिकीय गुण हैं।

मैं केडीडी कप डेटासेट http://www.kdd.org/kddcup/ भी सुझाता हूं क्योंकि उनका अच्छी तरह से अध्ययन किया गया है और कई समाधान हैं, इसलिए छात्र अपने परिणामों की तुलना कर सकते हैं और देखें कि वे कैसे रैंक करते हैं।

अपने डेटा माइनिंग कोर्स में मैंने एक माइक्रोएरे डेटासेट प्रतियोगिता प्रदान की जिसका उपयोग प्रोफेसरों http://www.kdnuggets.com/data_mining_course/ द्वारा किया जा सकता है


अन्य डेटा सेटों के लिए जो इसी तरह से Anscombe चौकड़ी के लिए एक शैक्षणिक उद्देश्य के लिए डिज़ाइन किए गए हैं, इस प्रश्न को देखें ।
सिल्वरफिश

3

कैल पॉली में मेरे बहुत से सांख्यिकीय विश्लेषण पाठ्यक्रमों में "आइरिस" डेटासेट का उपयोग किया गया है जो पहले से ही आर में है। इसमें श्रेणीबद्ध चर और अत्यधिक सहसंबद्ध चर हैं।


क्या आप अपने अंतिम बिंदुओं का विस्तार करना पसंद करेंगे: यह डेटासेट शिक्षण आँकड़े कैसे मदद करते हैं? (AFAICT, iris डेटासेट में केवल एक श्रेणीगत चर होता है, जिसका नाम iris वर्ग होता है।)
chl

यहां शिक्षण में आईरिस डेटासेट के उपयोग के साथ पूरी तरह से संबंधित एक धागा है ।
सिल्वरफिश

3

"रिग्रेशन मॉडलिंग स्ट्रेटेजीज़" में हार्इल द्वारा प्रयुक्त टाइटैनिक डेटासेट। जब मैं लॉजिस्टिक रिग्रेशन को समझाता हूं, तो सेक्स, क्लास और उम्र का उपयोग करते हुए उत्तरजीविता की व्याख्या करते हुए उनके विश्लेषण के सरलीकृत संस्करण का उपयोग करता हूं।

Loyn डाटासेट "प्रायोगिक डिजाइन और जीव के लिए डेटा विश्लेषण" गेरी क्विन और मिक Keough द्वारा में चर्चा की कई रेखीय प्रतीपगमन के लिए परिवर्तन की आवश्यकता होती है अच्छा समस्याओं में शामिल है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.