सार्वजनिक रूप से उपलब्ध डेटासेट


167

डेटा विज्ञान में आम समस्याओं में से एक उच्च स्तरीय विश्लेषण करने के लिए विभिन्न स्रोतों से डेटा को किसी तरह से साफ (अर्ध-संरचित) प्रारूप में इकट्ठा करना और विभिन्न स्रोतों से मैट्रिक्स का संयोजन करना है। इस साइट पर अन्य लोगों के प्रयास, विशेष रूप से अन्य प्रश्नों को देखते हुए, ऐसा प्रतीत होता है कि इस क्षेत्र के कई लोग कुछ दोहराव वाले काम कर रहे हैं। उदाहरण के लिए ट्वीट, फेसबुक पोस्ट, विकिपीडिया लेख आदि का विश्लेषण बहुत बड़ी डेटा समस्याओं का एक हिस्सा है।

प्रदाता साइट द्वारा प्रदान किए गए सार्वजनिक एपीआई का उपयोग करके इनमें से कुछ डेटा सेट सुलभ हैं, लेकिन आमतौर पर, इन एपीआई से कुछ मूल्यवान जानकारी या मैट्रिक्स गायब हैं और सभी को बार-बार एक ही विश्लेषण करना पड़ता है। उदाहरण के लिए, हालांकि क्लस्टरिंग उपयोगकर्ता अलग-अलग उपयोग के मामलों और सुविधाओं के चयन पर निर्भर हो सकते हैं, लेकिन ट्विटर / फेसबुक उपयोगकर्ताओं का आधार क्लस्टरिंग कई बिग डेटा एप्लिकेशन में उपयोगी हो सकता है, जो कि न तो एपीआई द्वारा प्रदान किया जाता है और न ही सार्वजनिक रूप से स्वतंत्र डेटा सेट में उपलब्ध है। ।

क्या कोई ऐसा सूचकांक या सार्वजनिक रूप से उपलब्ध डेटा सेट होस्टिंग साइट है जिसमें मूल्यवान डेटा सेट होते हैं जिनका उपयोग अन्य बड़ी डेटा समस्याओं को हल करने में किया जा सकता है? मेरा मतलब है कि डेटा साइंस के लिए GitHub (या साइटों / सार्वजनिक डेटासेट का एक समूह या कम से कम एक व्यापक सूची)। यदि नहीं, तो डेटा विज्ञान के लिए इस तरह के एक मंच न होने के क्या कारण हैं? डेटा का व्यावसायिक मूल्य, डेटा सेट को बार-बार अपडेट करने की आवश्यकता है, ...? क्या हमारे पास डेटा वैज्ञानिकों के लिए तैयार डेटा सेट साझा करने के लिए एक ओपन-सोर्स मॉडल नहीं हो सकता है?


18
यह सवाल समर्पित opendata.SE पर अधिक उपयुक्त हो सकता है । उस ने कहा, मैं अपनी उंगलियों को डाट के लिए पार करता हूं , जो "डेटा के लिए गिट" बनने की इच्छा रखता है।
ओजडो

2
@ लाडो थैंक्स, मैंने कभी भी ओपेंडेटा के बारे में नहीं सुना था। इससे पहले, मुझे भी यह दिलचस्प (और बहुत समान) सवाल मिला था।
अमीर अली अकबरी


मुझे विशिष्ट व्यवसाय इंटेलिजेंस अनुप्रयोगों के लिए कोई अच्छा मुफ्त व्यापक डेटासेट नहीं मिला है। आधिकारिक Microsoft से खुदरा उद्योग के लिए माइक्रोसॉफ्ट कॉन्टोसो बीआई डेमो डेटासेट डाउनलोड केंद्र डाउनलोड कुछ Microsoft उत्पादों (देखें के साथ काम करता SharePoint और अन्य बिजनेस सॉफ्टवेयर पर AndyGett ), लेकिन मैं किसी भी सादा एसक्यूएल या इसके सीएसवी डंप, और न ही किसी भी लाइसेंस की जानकारी नहीं दिख रहा है ।
nealmcb

1
क्या आप ओपन डेटा स्टैक एक्सचेंज में शामिल हो गए हैं? opendata.stackexchange.com
sss4r

जवाबों:


87

वास्तव में, सार्वजनिक रूप से उपलब्ध डेटासेट की एक बहुत ही उचित सूची है, जो विभिन्न उद्यमों / स्रोतों द्वारा समर्थित है।

उनमें से कुछ नीचे हैं:

अब, आपके प्रश्न पर दो विचार। सबसे पहले, डेटाबेस साझाकरण की नीतियों के बारे में। व्यक्तिगत अनुभव से, कुछ डेटाबेस हैं जो सार्वजनिक रूप से उपलब्ध नहीं कराए जा सकते हैं, या तो गोपनीयता प्रतिबंध (कुछ सामाजिक नेटवर्क जानकारी के लिए) या सरकारी जानकारी (जैसे स्वास्थ्य प्रणाली डेटाबेस) के लिए।

एक अन्य बिंदु डेटासेट के उपयोग / अनुप्रयोग की चिंता करता है। यद्यपि कुछ आधारों को एप्लिकेशन की आवश्यकताओं के अनुरूप बनाया जा सकता है, लेकिन उद्देश्य के लिए डेटासेट के कुछ अच्छे संगठन का होना बहुत अच्छा होगावर्गीकरण सामाजिक ग्राफ विश्लेषण, itemset खनन, वर्गीकरण, और अन्य अनुसंधान क्षेत्रों हो सकता है की बहुत सारी शामिल करना चाहिए।


64

37

कई खुले रूप से उपलब्ध डेटा सेट हैं, एक कई लोग अक्सर अनदेखी करते हैं data.gov । जैसा कि पहले उल्लेख किया गया है कि फ्रीबेस महान है, इसलिए @Rubens द्वारा पोस्ट किए गए सभी उदाहरण हैं


35

फ़्रीबेस एक स्वतंत्र समुदाय संचालित डेटाबेस है जो कई दिलचस्प विषयों को फैलाता है और इसमें मशीन पठनीय प्रारूप में लगभग 2,5 बिलियन तथ्य शामिल हैं। डेटा प्रश्नों को करने के लिए भी अच्छा एपीआई है।

यहाँ खुले डेटा सेटों की एक और संकलित सूची दी गई है: http://www.datapure.co/open-data-sets


फ्रीबेस बंद हो रहा है और इसका डेटाबेस जल्द ही विकीडाटा में चला जाएगा।
साइबरडाल


25

विशेष रूप से टाइम सीरीज़ डेटा के लिए, क्वैंडल एक उत्कृष्ट संसाधन है - (ज्यादातर) स्वच्छ समय श्रृंखला का एक आसानी से ब्राउज़ करने योग्य निर्देशिका।

उनकी सबसे अच्छी विशेषताओं में से एक ओपन-डेटा स्टॉक की कीमतें हैं - यानी वित्तीय डेटा जिसे विकी-शैली को संपादित किया जा सकता है, और लाइसेंस के लिए संलग्न नहीं है।


20

Enigma सार्वजनिक उपलब्ध डेटासेट का भंडार है। इसकी मुफ्त योजना प्रति माह 10k एपीआई कॉल के साथ सार्वजनिक डेटा खोज प्रदान करती है। सभी सार्वजनिक डेटाबेस सूचीबद्ध नहीं हैं, लेकिन सूची आम मामलों के लिए पर्याप्त है।

मैंने इसे अकादमिक शोध के लिए इस्तेमाल किया और इसने मुझे बहुत समय बचाया।


डेटा का एक और दिलचस्प स्रोत @unitedstates परियोजना है , जिसमें उन्हें एकत्र करने के लिए डेटा और उपकरण हैं, संयुक्त राज्य अमेरिका के बारे में (कांग्रेस के सदस्य, भौगोलिक आकार ...)।


18

मैं ओपन डेटा जनगणना की ओर इशारा करना चाहूंगा । यह ओपन नॉलेज फाउंडेशन की एक पहल है जो दुनिया भर के खुले डेटा अधिवक्ताओं और विशेषज्ञों के योगदान पर आधारित है।

खुले डेटा की जनगणना का मूल्य खुला है, समुदाय संचालित है, और देश और दुनिया के कुछ मामलों में, यूएस स्तर की तरह, शहर स्तर पर खुले डेटासेट के डेटाबेस को इकट्ठा करने और अद्यतन करने का व्यवस्थित प्रयास है

इसके अलावा, यह विभिन्न देशों और शहरों की रुचि के चुनिंदा क्षेत्रों में तुलना करने का अवसर प्रस्तुत करता है।


18

उनकी वेबसाइट पर द गार्जियन, द ब्रिटिश डेली द्वारा प्रदान किया गया एक अन्य संसाधन भी है। गार्जियन डेटाब्लॉग द्वारा प्रकाशित डेटासेट सभी होस्ट हैं। फुटबॉल प्रीमियर लीग क्लब के खातों, यूके की मुद्रास्फीति और जीडीपी विवरण, ग्रैमी पुरस्कार डेटा आदि से संबंधित डेटासेट उपलब्ध हैं।

कुछ और संसाधन। कुछ डेटासेट आर फॉर्मेट में हैं या आर कमोड्स आर को सीधे डेटा आयात करने के लिए मौजूद हैं।


17

कस्टम Google खोज

आप डेटासेट के लिए कस्टम Google खोज का उपयोग कर सकते हैं:

Google कस्टम खोज: डेटासेट

इसमें 230 स्रोतों और डेटासेट के मेटा-स्रोत शामिल हैं, जिसमें इस प्रश्न का उल्लेख किया गया है। कृपया, खोज लाइन में "-.gov" या "-site.com" जोड़कर .gov और अन्य वेबसाइटों को बाहर करने के लिए स्वतंत्र महसूस करें। अन्य Google खोज ऑपरेटर काम करते हैं।

यदि आपके पास कोई वेबसाइट जोड़ने के लिए विचार हैं, तो मुझसे संपर्क करने में संकोच न करें।

IOGDS

निम्नलिखित सेवा 1,000,000 से अधिक सार्वजनिक डेटासेट को वर्गीकृत करती है:

IOGDS: इंटरनेशनल ओपन गवर्नमेंट डेटसेट सर्च


आपके द्वारा प्रदत्त कस्टम खोज लिंक के पैरामीटर क्या हैं? क्या यह वेबसाइटों, खोजशब्दों आदि की सूची में खोज करता है?
अमीर अली अकबरी

@AmirAliAkbari यह Data.gov, Quandl, और अन्य प्रमुख डेटा वेयरहाउस जैसे स्रोतों के माध्यम से खोज करता है।
एंटोन तारासेंको

16

देर से जवाब, लेकिन यहाँ 100 + दिलचस्प डेटा सेट की एक उदार सूची है

ब्लॉग पोस्ट मजेदार है और आसानी से पढ़ी जा सकती है (मेरा कोई संबंध नहीं है)। यह स्कैन के माध्यम से और ऊपर से कुछ को परिमार्जन करने के लिए लायक है:

  • 1984 के बाद से निष्पादित प्रत्येक टेक्सास कैदी के अंतिम शब्द

  • बिल्लियों की 10,000 एनोटेट छवियां

  • 2.2 मिलियन शतरंज मैच



15

क्या आपको PUMA बेंचमार्क और डेटासेट डाउनलोड के बारे में पता था? https://sites.google.com/site/farazahmad/pumadatasets

इसमें निम्नलिखित शामिल हैं:

  1. TeraSort
  2. विकिपीडिया
  3. सामग्री सूचीबद्ध करें
  4. स्व शामिल हों
  5. निकटता-सूची
  6. सिनेमा-डेटाबेस
  7. वें स्थान पर-उल्टा-सूचकांक

15

यूके सरकार पूरे सरकारी विभागों में एकत्र गैर-व्यक्तिगत डेटा का एक उत्कृष्ट स्रोत प्रदान करती है: http://data.gov.uk


14

यह फोरम मेरे लिए नया है। इस सवाल पर देर से चिंघाड़ते हुए। मैं सार्वजनिक रूप से उपलब्ध डेटा पोर्टल्स की सूची का रखरखाव कर रहा हूं। दुनिया भर में अंतरराष्ट्रीय, संघीय, राज्य, नगरपालिका और शैक्षणिक स्तरों पर अब 1000 से अधिक सूचीबद्ध और कवर पोर्टल्स हैं।

http://www.opengeocode.org/opendata/


14

मुझे आश्चर्य है कि किसी ने इसका उल्लेख नहीं किया है, क्योंकि यह काफी स्पष्ट लगता है: http://www.kaggle.com में लगातार नए और बहुत दिलचस्प डेटासेट हैं। सूचना को एक परिसंपत्ति माना जाता है, इसलिए अक्सर कंपनियां उस डेटा (प्लस गोपनीयता चिंताओं) को जारी नहीं करना चाहती हैं। केगल आपको डेटा देता है और वे उम्मीद करते हैं कि आप इसके साथ व्यापार की समस्याओं को हल करेंगे।


14

डेटा सेट

भयानक-डेटाविज़न से डेटा सेट


1
क्या आप हमें दोनों डेटासेट / लिंक पर कुछ जानकारी प्रदान कर सकते हैं? यह वास्तव में विशिष्ट प्रकार के डेटा सेट की तलाश करने वालों के बोझ को कम करेगा। अन्य पोस्ट पर एक नज़र डालें कि आपके संदर्भ किस प्रकार की जानकारी गायब है।
रूबेंस

11

जैसा कि आपने उल्लेख किया है, एपीआई डेटा नहीं बल्कि कठिन हिस्सा है। Quandl एक आसान, RESTful एपीआई के तहत 10 मिलियन से अधिक सार्वजनिक रूप से उपलब्ध डेटा सेट प्रदान करके इस समस्या को हल करने के लिए लगता है। यदि प्रोग्रामिंग आपका मजबूत सूट नहीं है, तो एक्सेल में डेटा लोड करने के लिए एक आसान उपकरण है। साथ ही, यदि आप कर प्रोग्रामिंग का आनंद लें, वहाँ में कई देशी पुस्तकालयों रहे हैं आर, अजगर, जावा और अधिक


11

संभवतः कभी समाप्त न होने वाली सूची में जोड़ने के लिए:

के रूप में cyndd से उल्लेख किया है, वहाँ है Wikidata ,

और घुमावदार संरचित ज्ञान के लिए, वुल्फराम अल्फा


11

मैं गितुब पर इस संग्रह में आया था। संग्रह को भी वर्गीकृत किया गया है।

https://github.com/caesar0301/awesome-public-datasets

और संबंधित भाग के लिए

क्या डेटा वैज्ञानिकों के लिए तैयार डेटा सेट साझा करने के लिए एक ओपन-सोर्स मॉडल नहीं हो सकता है?

आप डेटा साझा करने के लिए लीक समूह गाइड का उल्लेख कर सकते हैं



9

एक अन्य डेटा स्रोत जिसे मैंने सूचीबद्ध नहीं किया है, वह है GDELT प्रोजेक्ट । साइट से:

जीडीईएलटी परियोजना 100 से अधिक भाषाओं में हर देश के हर कोने से दुनिया के प्रसारण, प्रिंट, और वेब समाचारों की निगरानी करती है और हमारे वैश्विक समाज को चलाने वाले लोगों, स्थानों, संगठनों, गणनाओं, विषयों, स्रोतों और घटनाओं की पहचान करती है। पूरे विश्व में कंप्यूटिंग के लिए एक मुफ्त खुला मंच बनाना।



6

मैंने इसके लिए जीथब रेपो बनाया। डेटासेट बड़े नहीं होते हैं, लेकिन प्रेडिक्टिव-मॉडलिंग तकनीकों का अभ्यास और अन्वेषण करने के लिए न्यूनतम उदाहरण होते हैं जिन्हें बाद में बड़े डेटासेट तक बढ़ाया जा सकता है।

मशीन लर्निंग समस्या बाइबिल (MLPB)

इस रेपो के बारे में अच्छी / अनोखी बात यह है कि हर समस्या को [मल्टी-क्लास], [असंतुलित-डेटा], [प्रतिगमन] आदि जैसे टैग के साथ टैग किया जाता है, जिससे कुछ प्रकार की समस्याओं / डेटासेट को ढूंढना आसान हो जाता है।



6

इन सभी डेटासेट के अलावा, यदि आप भारत से संबंधित डेटा में रुचि रखते हैं। भारत सरकार का सार्वजनिक रूप से आधिकारिक साइट है

यह भारत सरकार के विभिन्न विभागों से डेटासेट प्रदान करता है जिसका उपयोग बिग डेटा विश्लेषण और मशीन लर्निंग के लिए किया जा सकता है।



4

बस हम R में MASS पैकेज लोड करते हैं हम कई डेटाफ्रेम या डेटा सेट तक पहुंचते हैं।

install.packages ("MASS") की आवश्यकता है ("MASS")


3

Https://www.jc-bingo.com/about से 3 डेटासेट

  • 1 सप्ताह के वेब एक्सेस लॉग के आधार पर संकलित विज़िटर-इंट्रेस्ट। एससीवी एग्रीगेटेड विज़िटर रुचियां। इसमें विज़िटर आईपी एड्रेस, यूजर-एजेंट स्ट्रिंग, विजिटर कंट्री, एक्सेस की गई पेज लैंग्वेजेज और टॉपिक्स शामिल हैं। 19,926 रिकॉर्ड, 2.9 एमबी।
  • user-agent.csv लोकप्रियता के आधार पर वास्तविक आगंतुक उपयोगकर्ता एजेंट। 4,826 रिकॉर्ड, 716 Kb।
  • bots.csv रोबोट IP पते और उपयोगकर्ता-एजेंट तार वेब एक्सेस लॉग से निकाले गए। 1,293 रिकॉर्ड, 122 Kb।

3

जाहिर है, सार्वजनिक डेटाबेस का एक बड़ा समूह मौजूद है।

अभी तक उल्लेख नहीं किया गया है, एफएओ (संयुक्त राष्ट्र के खाद्य और कृषि संगठन) से सुलभ है:

http://www.fao.org/faostat/

इसमें दुनिया भर के देशों के लिए खाद्य उत्पादन के बारे में आंकड़े हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.