स्वतंत्र रूप से उपलब्ध डेटा नमूनों का पता लगाना


98

मैं किसी भी उपसमूह की विशेषताओं के foreknowledge बिना आबादी के उपसमूहों को पहचानने और अलग करने के लिए डेटासेट का विश्लेषण और पार्स करने के लिए एक नई विधि पर काम कर रहा हूं। जबकि विधि कृत्रिम डेटा नमूनों (यानी विशेष रूप से जनसंख्या के सबसेट को पहचानने और अलग करने के उद्देश्य से बनाए गए डेटा) के साथ पर्याप्त रूप से काम करती है, मैं इसे लाइव डेटा के साथ परीक्षण करना चाहूंगा।

मैं जो देख रहा हूं वह स्वतंत्र रूप से उपलब्ध है (यानी गैर-गोपनीय, गैर-स्वामित्व) डेटा स्रोत। अधिमानतः बिमोडल या मल्टीमॉडल वितरण वाले या स्पष्ट रूप से कई उपसमुच्चय शामिल हैं जिन्हें पारंपरिक साधनों के माध्यम से आसानी से अलग नहीं किया जा सकता है। मैं ऐसी जानकारी खोजने के लिए कहां जाऊंगा?



4
आप getthedata.org को डेटा सेट खोजने के लिए समर्पित एक प्रश्न और उत्तर साइट पसंद कर सकते हैं
जेरोमी एंग्लिम

जवाबों:



46

निम्न सूची में आपकी रुचि के कई डेटा सेट शामिल हैं:



17

विश्व बैंक काफी दिलचस्प डेटा प्रदान करता है और हाल ही मेंइसके लिएअच्छा एपीआई विकसित करने में बहुत सक्रिय रहाहै।

इसके अलावा, कम्यूटेट प्रोजेक्ट के पास एक दिलचस्प सूची उपलब्ध है।

स्वास्थ्य संकेतक वेयरहाउस के लिए अमेरिकी स्वास्थ्य संबंधी डेटा हेड के लिए ।

डैनियल लेमायर का ब्लॉग कनाडाई जनगणना 1880 और सिनॉप्टिक क्लाउड रिपोर्ट सहित कुछ दिलचस्प उदाहरणों (ज्यादातर डीबी अनुसंधान के अनुरूप) को इंगित करता है

और आज (03/04/2012) तक यूएस 1940 की जनगणना रिकॉर्ड भी डाउनलोड करने के लिए उपलब्ध हैं।


2
विश्व बैंक स्टाटा और आर
। फ्र


11

MLComp में कुछ दिलचस्प डेटासेट हैं, और एक बोनस के रूप में यदि आप इसे अपलोड करते हैं तो आपका एल्गोरिथ्म क्रमबद्ध हो जाएगा।


10

देखने के लिए एक अच्छी जगह कार्नेगी मेलन यूनिवर्सिटी की डेटा और स्टोरी लाइब्रेरी या डीएएसएल है , जिसमें डेटा फाइलें हैं जो "बुनियादी सांख्यिकी विधियों के उपयोग को स्पष्ट करती हैं ... एक अच्छा उदाहरण एक विशेष सांख्यिकी पद्धति पर एक पाठ को ज्वलंत और प्रासंगिक बना सकता है। DASL है। शिक्षकों को शिक्षण के लिए डेटाफाइल्स का पता लगाने और उनकी पहचान करने में मदद करने के लिए डिज़ाइन किया गया है। हम आशा करते हैं कि DASL सांख्यिकी ज्ञान से डेटासेट के लिए एक संग्रह के रूप में भी काम करेगा। "


9

आर शुरू करें और टाइप करें data()। यह सर्च पथ में सभी डेटासेट दिखाएगा। कई अतिरिक्त डेटासेट ऐड-ऑन पैकेज में उपलब्ध हैं। उदाहरण के लिए, AERपैकेज में कुछ दिलचस्प वास्तविक-विश्व सामाजिक विज्ञान डेटासेट हैं ।




5

स्टैक एक्सचेंज नेटवर्क में अब एक नई साइट है, ओपन डेटा (5 मार्च, 2015 तक बीटा में), डेटा के लिए समर्पित है। यह खुद का वर्णन करता है:

ओपन डेटा स्टैक एक्सचेंज , खुले डेटा में रुचि रखने वाले डेवलपर्स और शोधकर्ताओं के लिए एक प्रश्न और उत्तर साइट है। यह Q & A साइट्स के स्टैक एक्सचेंज नेटवर्क के हिस्से के रूप में आपके द्वारा बनाया और चलाया गया है। आपकी मदद से, हम खुले डेटा के बारे में हर प्रश्न के विस्तृत उत्तरों की एक लाइब्रेरी बनाने के लिए मिलकर काम कर रहे हैं।

"ओपन डेटा" ( "कॉपीराइट, पेटेंट या नियंत्रण के अन्य तंत्र से प्रतिबंध के बिना, स्वतंत्र रूप से इस्तेमाल करते हैं और पुनः प्रकाशित के रूप में वे चाहते हैं सभी के लिए उपलब्ध" डेटासेट कि कर रहे हैं को संदर्भित करता है विकिपीडिया )। हालांकि, साइट बंद डेटासेट के अनुरोधों के लिए उत्तरदायी लगती है ।



3

सूची में कुछ जोड़ना:

  • सार्वजनिक रूप से कारोबार करने वाली कंपनियों पर बहुत से वित्तीय वित्तीय डेटा, कई दशकों से वापस जा रहे हैं: http://www.mergent.com/servius

  • अमेरिका में 16+ मिलियन व्यवसायों पर समृद्ध जानकारी: http://compass.webservius.com

दोनों एक REST एपीआई के माध्यम से उपलब्ध हैं और नि: शुल्क परीक्षण योजनाएं हैं।






2

अपनी आवश्यकताओं के लिए एक उपयुक्त डेटा सेट की खोज करने से मैं सिर्फ दो साइटों पर ठोकर खाई है जो इस चर्चा के अनुकूल हैं।

Datacite.org जो खुद का वर्णन करता है ...

हम एक अंतरराष्ट्रीय संगठन हैं जिसका उद्देश्य है:

  • अनुसंधान डेटा तक आसान पहुंच स्थापित करना
  • विद्वानों के रिकॉर्ड में वैध योगदान के रूप में अनुसंधान डेटा की स्वीकृति में वृद्धि, और
  • भविष्य के अध्ययन के लिए परिणामों को सत्यापित करने और पुन: शुद्ध करने के लिए डेटा संग्रहण का समर्थन करें।

DataBib.org जो खुद का वर्णन करता है ...

डाटाबिब लोगों को अनुसंधान डेटा के ऑनलाइन रिपॉजिटरी की पहचान करने और खोजने में मदद करने के लिए एक उपकरण है। उपयोगकर्ता और ग्रंथ सूची उन रिकॉर्ड्स को बनाते और क्यूरेट करते हैं जो उपयोगकर्ताओं द्वारा खोजे जाने वाले डेटा रिपॉजिटरी का वर्णन करते हैं।

सोचा कि इसे दूसरों के लिए यहां सूची में शामिल करने लायक होगा।

अब इसके लिंक के भीतर कुछ खोजने के लिए जो मेरी जरूरतों को पूरा करता है!


2

मैं अत्यधिक quandl.com की जाँच करने की सलाह देता हूँ । यह एक डेटा प्रोग्रामर का सपना है। यह 10 मिलियन से अधिक विभिन्न डेटा सिट्स में से किसी एक का उपयोग करने के लिए एक बहुत ही आसान एपीआई प्रदान करता है। आप द्वि-मामूली या बहु-चर डेटा की तलाश कर रहे हैं, इसलिए मैं जनसंख्या डेटा के विभिन्न सेटों की जांच करने का सुझाव दूंगा। उदाहरण के लिए, इस विश्व जनसंख्या चार्ट में उप घटक देश और क्षेत्र शामिल हैं जो कुल में जाते हैं।


1
कुछ quandl डेटा मुफ़्त है, कुछ "प्रीमियम" यानी $ $ खर्च होते हैं। इसके अलावा मेरे एपीआई सपने में समय-श्रृंखला के nrows, ncol, और ऑनलाइन प्लॉट (मुझे एक टट्टू चाहिए) शामिल हैं।
डेनिस


1

समय के साथ उपयोग

एक बहुत बड़ी एक्सेल स्प्रेडशीट समय के साथ, उपयोगकर्ता जनसांख्यिकी के साथ सभी ऑनलाइन गतिविधियों के लिए डेटा पॉइंट्स डाउनलोड करने के लिए उपलब्ध है। इस स्प्रैडशीट को डाउनलोड करने या उपयोग करने से पहले कृपया टिप शीट (नीचे) पढ़ें।

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx





हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.