डेटा विज्ञान में आम समस्याओं में से एक उच्च स्तरीय विश्लेषण करने के लिए विभिन्न स्रोतों से डेटा को किसी तरह से साफ (अर्ध-संरचित) प्रारूप में इकट्ठा करना और विभिन्न स्रोतों से मैट्रिक्स का संयोजन करना है। इस साइट पर अन्य लोगों के प्रयास, विशेष रूप से अन्य प्रश्नों को देखते हुए, ऐसा प्रतीत होता है कि इस क्षेत्र के कई लोग कुछ दोहराव वाले काम कर रहे हैं। उदाहरण के लिए ट्वीट, फेसबुक पोस्ट, विकिपीडिया लेख आदि का विश्लेषण बहुत बड़ी डेटा समस्याओं का एक हिस्सा है।
प्रदाता साइट द्वारा प्रदान किए गए सार्वजनिक एपीआई का उपयोग करके इनमें से कुछ डेटा सेट सुलभ हैं, लेकिन आमतौर पर, इन एपीआई से कुछ मूल्यवान जानकारी या मैट्रिक्स गायब हैं और सभी को बार-बार एक ही विश्लेषण करना पड़ता है। उदाहरण के लिए, हालांकि क्लस्टरिंग उपयोगकर्ता अलग-अलग उपयोग के मामलों और सुविधाओं के चयन पर निर्भर हो सकते हैं, लेकिन ट्विटर / फेसबुक उपयोगकर्ताओं का आधार क्लस्टरिंग कई बिग डेटा एप्लिकेशन में उपयोगी हो सकता है, जो कि न तो एपीआई द्वारा प्रदान किया जाता है और न ही सार्वजनिक रूप से स्वतंत्र डेटा सेट में उपलब्ध है। ।
क्या कोई ऐसा सूचकांक या सार्वजनिक रूप से उपलब्ध डेटा सेट होस्टिंग साइट है जिसमें मूल्यवान डेटा सेट होते हैं जिनका उपयोग अन्य बड़ी डेटा समस्याओं को हल करने में किया जा सकता है? मेरा मतलब है कि डेटा साइंस के लिए GitHub (या साइटों / सार्वजनिक डेटासेट का एक समूह या कम से कम एक व्यापक सूची)। यदि नहीं, तो डेटा विज्ञान के लिए इस तरह के एक मंच न होने के क्या कारण हैं? डेटा का व्यावसायिक मूल्य, डेटा सेट को बार-बार अपडेट करने की आवश्यकता है, ...? क्या हमारे पास डेटा वैज्ञानिकों के लिए तैयार डेटा सेट साझा करने के लिए एक ओपन-सोर्स मॉडल नहीं हो सकता है?