स्वतंत्र रूप से उपलब्ध डेटा नमूनों का पता लगाना

98

मैं किसी भी उपसमूह की विशेषताओं के foreknowledge बिना आबादी के उपसमूहों को पहचानने और अलग करने के लिए डेटासेट का विश्लेषण और पार्स करने के लिए एक नई विधि पर काम कर रहा हूं। जबकि विधि कृत्रिम डेटा नमूनों (यानी विशेष रूप से जनसंख्या के सबसेट को पहचानने और अलग करने के उद्देश्य से बनाए गए डेटा) के साथ पर्याप्त रूप से काम करती है, मैं इसे लाइव डेटा के साथ परीक्षण करना चाहूंगा।

मैं जो देख रहा हूं वह स्वतंत्र रूप से उपलब्ध है (यानी गैर-गोपनीय, गैर-स्वामित्व) डेटा स्रोत। अधिमानतः बिमोडल या मल्टीमॉडल वितरण वाले या स्पष्ट रूप से कई उपसमुच्चय शामिल हैं जिन्हें पारंपरिक साधनों के माध्यम से आसानी से अलग नहीं किया जा सकता है। मैं ऐसी जानकारी खोजने के लिए कहां जाऊंगा?

— ईएएमएएनएन
स्रोत

web.archive.org/web/20100822160653/http://mathforum.org/…

— Ami

4

आप getthedata.org को डेटा सेट खोजने के लिए समर्पित एक प्रश्न और उत्तर साइट पसंद कर सकते हैं

— जेरोमी एंग्लिम

40

यूसीआई मशीन लर्निंग डेटा रिपॉजिटरी भी देखें।

http://archive.ics.uci.edu/ml/

— स्टीफन टर्नर
स्रोत

1

अमेरिका की जनगणना के आंकड़े भी जनगणना .gov

— स्टीफन टर्नर

46

निम्न सूची में आपकी रुचि के कई डेटा सेट शामिल हैं:

— मेहपर सी। पलुवज़लर
स्रोत

22

R में डेटासेट के संदर्भ में " डेटा विश्लेषण चलाने के लिए डेटासेट" पर मेरी प्रतिक्रिया देखें ।

— किया
स्रोत

आप इसे हटाए जाने से पहले यहां कॉपी करें ...

— naught101

17

विश्व बैंक काफी दिलचस्प डेटा प्रदान करता है और हाल ही मेंइसके लिएअच्छा एपीआई विकसित करने में बहुत सक्रिय रहाहै।

इसके अलावा, कम्यूटेट प्रोजेक्ट के पास एक दिलचस्प सूची उपलब्ध है।

स्वास्थ्य संकेतक वेयरहाउस के लिए अमेरिकी स्वास्थ्य संबंधी डेटा हेड के लिए ।

डैनियल लेमायर का ब्लॉग कनाडाई जनगणना 1880 और सिनॉप्टिक क्लाउड रिपोर्ट सहित कुछ दिलचस्प उदाहरणों (ज्यादातर डीबी अनुसंधान के अनुरूप) को इंगित करता है ।

और आज (03/04/2012) तक यूएस 1940 की जनगणना रिकॉर्ड भी डाउनलोड करने के लिए उपलब्ध हैं।

— radek
स्रोत

2

विश्व बैंक स्टाटा और आर

— । फ्र

13

Gapminder के पास डेटासेट का एक नंबर (430 अंतिम नज़र में) होता है, जो आपके लिए उपयोगी हो सकता है या नहीं भी हो सकता है।

— अमोस
स्रोत

11

MLComp में कुछ दिलचस्प डेटासेट हैं, और एक बोनस के रूप में यदि आप इसे अपलोड करते हैं तो आपका एल्गोरिथ्म क्रमबद्ध हो जाएगा।

— jilles de wit
स्रोत

10

देखने के लिए एक अच्छी जगह कार्नेगी मेलन यूनिवर्सिटी की डेटा और स्टोरी लाइब्रेरी या डीएएसएल है , जिसमें डेटा फाइलें हैं जो "बुनियादी सांख्यिकी विधियों के उपयोग को स्पष्ट करती हैं ... एक अच्छा उदाहरण एक विशेष सांख्यिकी पद्धति पर एक पाठ को ज्वलंत और प्रासंगिक बना सकता है। DASL है। शिक्षकों को शिक्षण के लिए डेटाफाइल्स का पता लगाने और उनकी पहचान करने में मदद करने के लिए डिज़ाइन किया गया है। हम आशा करते हैं कि DASL सांख्यिकी ज्ञान से डेटासेट के लिए एक संग्रह के रूप में भी काम करेगा। "

— user211
स्रोत

9

आर शुरू करें और टाइप करें data()। यह सर्च पथ में सभी डेटासेट दिखाएगा। कई अतिरिक्त डेटासेट ऐड-ऑन पैकेज में उपलब्ध हैं। उदाहरण के लिए, AERपैकेज में कुछ दिलचस्प वास्तविक-विश्व सामाजिक विज्ञान डेटासेट हैं ।

— जेरोमी एंग्लिम
स्रोत

9

NIST एक संदर्भ डेटासेट संग्रह प्रदान करता है ।

— JM एक सांख्यिकीविद् नहीं है
स्रोत

7

http://www.reddit.com/r/datasets और इसके अलावा, http://www.reddit.com/r/opendata दोनों में विभिन्न डेटासेट के लिए लगातार बढ़ती हुई सूची होती है।

— mindcrime
स्रोत

5

स्टैक एक्सचेंज नेटवर्क में अब एक नई साइट है, ओपन डेटा (5 मार्च, 2015 तक बीटा में), डेटा के लिए समर्पित है। यह खुद का वर्णन करता है:

ओपन डेटा स्टैक एक्सचेंज , खुले डेटा में रुचि रखने वाले डेवलपर्स और शोधकर्ताओं के लिए एक प्रश्न और उत्तर साइट है। यह Q & A साइट्स के स्टैक एक्सचेंज नेटवर्क के हिस्से के रूप में आपके द्वारा बनाया और चलाया गया है। आपकी मदद से, हम खुले डेटा के बारे में हर प्रश्न के विस्तृत उत्तरों की एक लाइब्रेरी बनाने के लिए मिलकर काम कर रहे हैं।

"ओपन डेटा" ( "कॉपीराइट, पेटेंट या नियंत्रण के अन्य तंत्र से प्रतिबंध के बिना, स्वतंत्र रूप से इस्तेमाल करते हैं और पुनः प्रकाशित के रूप में वे चाहते हैं सभी के लिए उपलब्ध" डेटासेट कि कर रहे हैं को संदर्भित करता है विकिपीडिया )। हालांकि, साइट बंद डेटासेट के अनुरोधों के लिए उत्तरदायी लगती है ।

— गंग
स्रोत

4

टिमेट्रिक डेटा को एक वेब इंटरफ़ेस प्रदान करता है और सार्वजनिक रूप से उपलब्ध डेटा सेटों की एक सूची प्रदान करता है जो वे उपयोग करते हैं

— slashnick
स्रोत

3

सूची में कुछ जोड़ना:

सार्वजनिक रूप से कारोबार करने वाली कंपनियों पर बहुत से वित्तीय वित्तीय डेटा, कई दशकों से वापस जा रहे हैं: http://www.mergent.com/servius
अमेरिका में 16+ मिलियन व्यवसायों पर समृद्ध जानकारी: http://compass.webservius.com

दोनों एक REST एपीआई के माध्यम से उपलब्ध हैं और नि: शुल्क परीक्षण योजनाएं हैं।

— यूजीन ओसेवेत्स्की
स्रोत

2

यहाँ एक और सूची है ।

— lmsasu
स्रोत

2

यह संभवतः आपको मिलने वाली सबसे पूर्ण सूची होगी: कुछ डेटासेट वेब पर उपलब्ध हैं

— पेड्रो ओलिवेरा
स्रोत

2

पीटर स्कोमोरोच http://www.datawrangling.com/some-datasets-available-on-the-web पर डेटासेट की एक सूची रखता है । लिंक के कई स्थानों के रूप में प्रदान की है कि डेटासेट सूची।

— zaxtax
स्रोत

2

सेमिनल बुक के डेटा सेट यहांA handbook of small data sets उपलब्ध हैं ।

— MYaseen208
स्रोत

2

अपनी आवश्यकताओं के लिए एक उपयुक्त डेटा सेट की खोज करने से मैं सिर्फ दो साइटों पर ठोकर खाई है जो इस चर्चा के अनुकूल हैं।

Datacite.org जो खुद का वर्णन करता है ...

हम एक अंतरराष्ट्रीय संगठन हैं जिसका उद्देश्य है:

अनुसंधान डेटा तक आसान पहुंच स्थापित करना

विद्वानों के रिकॉर्ड में वैध योगदान के रूप में अनुसंधान डेटा की स्वीकृति में वृद्धि, और

भविष्य के अध्ययन के लिए परिणामों को सत्यापित करने और पुन: शुद्ध करने के लिए डेटा संग्रहण का समर्थन करें।

DataBib.org जो खुद का वर्णन करता है ...

डाटाबिब लोगों को अनुसंधान डेटा के ऑनलाइन रिपॉजिटरी की पहचान करने और खोजने में मदद करने के लिए एक उपकरण है। उपयोगकर्ता और ग्रंथ सूची उन रिकॉर्ड्स को बनाते और क्यूरेट करते हैं जो उपयोगकर्ताओं द्वारा खोजे जाने वाले डेटा रिपॉजिटरी का वर्णन करते हैं।

सोचा कि इसे दूसरों के लिए यहां सूची में शामिल करने लायक होगा।

अब इसके लिंक के भीतर कुछ खोजने के लिए जो मेरी जरूरतों को पूरा करता है!

— रेवले स्लैकलाइन
स्रोत

2

मैं अत्यधिक quandl.com की जाँच करने की सलाह देता हूँ । यह एक डेटा प्रोग्रामर का सपना है। यह 10 मिलियन से अधिक विभिन्न डेटा सिट्स में से किसी एक का उपयोग करने के लिए एक बहुत ही आसान एपीआई प्रदान करता है। आप द्वि-मामूली या बहु-चर डेटा की तलाश कर रहे हैं, इसलिए मैं जनसंख्या डेटा के विभिन्न सेटों की जांच करने का सुझाव दूंगा। उदाहरण के लिए, इस विश्व जनसंख्या चार्ट में उप घटक देश और क्षेत्र शामिल हैं जो कुल में जाते हैं।

— ब्रायन जोखिम
स्रोत

1

कुछ quandl डेटा मुफ़्त है, कुछ "प्रीमियम" यानी $ $ खर्च होते हैं। इसके अलावा मेरे एपीआई सपने में समय-श्रृंखला के nrows, ncol, और ऑनलाइन प्लॉट (मुझे एक टट्टू चाहिए) शामिल हैं।

— डेनिस

1

http://www.freebase.com/

— mankoff
स्रोत

1

समय के साथ उपयोग

एक बहुत बड़ी एक्सेल स्प्रेडशीट समय के साथ, उपयोगकर्ता जनसांख्यिकी के साथ सभी ऑनलाइन गतिविधियों के लिए डेटा पॉइंट्स डाउनलोड करने के लिए उपलब्ध है। इस स्प्रैडशीट को डाउनलोड करने या उपयोग करने से पहले कृपया टिप शीट (नीचे) पढ़ें।

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx

— ताल गलिली
स्रोत

1

http://www.ckan.net के पास बहुत सारे डेटासेट भी हैं।

http://www.biotorrents.net/browse.php पर भी BIG डेटासेट की काफी बड़ी मात्रा शुरू हो रही है।

— मोर्टिमर
स्रोत

1

पेन स्टेट में सोडा पीओपी;

http://sodapop.pop.psu.edu/

सरल ऑनलाइन डेटा पुरालेख पढ़ाई के लिए।

— सांख्यिकीडोक परामर्श
स्रोत

0

मैं आगे जा रहा हूं और एक पुराने विषय पर टकरा रहा हूं क्योंकि मुझे सिर्फ यह मां मिली है:

http://vincentarelbundock.github.io/Rdatasets/

— readyready15728
स्रोत

0

सिंगापुर ने ओपन डाटा पहल की घोषणा की । यूएस में data.gov के समान data.gov.sg देखें ।

— dwstu
स्रोत