सांख्यिकी एमएससी थीसिस के लिए डेटा विज्ञान उन्मुख डेटासेट / शोध प्रश्न


11

मैं 'डेटा साइंस' की खोज करना चाहता हूँ। यह शब्द मुझे थोड़ा अस्पष्ट लगता है, लेकिन मुझे इसकी आवश्यकता है:

  1. मशीन लर्निंग (पारंपरिक आँकड़ों के बजाय);
  2. एक बड़ा पर्याप्त डेटासेट जिसे आपको क्लस्टर पर विश्लेषण चलाना है।

कुछ अच्छे डेटासेट और समस्याएं, कुछ प्रोग्रामिंग पृष्ठभूमि के साथ एक सांख्यिकीविद् के लिए सुलभ हैं, जो मैं डेटा विज्ञान के क्षेत्र का पता लगाने के लिए उपयोग कर सकता हूं?

इसे यथासंभव संकीर्ण रखने के लिए, मैं आदर्श रूप से लिंक को अच्छी तरह से उपयोग किए गए डेटासेट और उदाहरण की समस्याओं के लिए पसंद करूंगा।

जवाबों:



5

सूरज की रोशनी फाउंडेशन एक संगठन है कि खोलने और सरकारी आंकड़ों के गैर-दलीय विश्लेषण को प्रोत्साहित करने पर ध्यान केंद्रित कर रहा है।

वहाँ जंगल में विश्लेषण का एक टन है कि तुलना के लिए इस्तेमाल किया जा सकता है, और विषयों की एक विस्तृत विविधता।

वे डेटा तक पहुँचने के लिए उपकरण और एपिस प्रदान करते हैं , और डेटा.गोवि जैसी जगहों पर डेटा उपलब्ध कराने के लिए धक्का देने में मदद की है ।

एक दिलचस्प परियोजना इन्फ्लूएंस एक्सप्लोरर है । आप यहां स्रोत डेटा प्राप्त कर सकते हैं और साथ ही वास्तविक समय डेटा तक पहुंच प्राप्त कर सकते हैं ।

आप हमारे एक और लोकप्रिय प्रश्न पर भी विचार कर सकते हैं:

सार्वजनिक रूप से उपलब्ध डेटासेट


5

क्या आपका मास्टर्स कंप्यूटर साइंस में है? सांख्यिकी?

क्या 'डेटा साइंस' आपकी थीसिस के केंद्र में है? या एक पक्ष विषय?

मैं आपके आंकड़े में मान लूंगा और आप अपनी थीसिस को 'डेटा साइंस' की समस्या पर केंद्रित करना चाहते हैं। यदि ऐसा है, तो मैं अनाज के खिलाफ जा रहा हूं और सुझाव दूंगा कि आपको डेटा सेट या एमएल विधि से शुरू नहीं करना चाहिए । इसके बजाय, आपको एक दिलचस्प शोध समस्या की तलाश करनी चाहिए जिसे खराब तरीके से समझा जाता है या जहां एमएल विधियां अभी तक सफल साबित नहीं हुई हैं, या जहां कई प्रतिस्पर्धी एमएल विधियां हैं, लेकिन कोई भी अन्य की तुलना में बेहतर नहीं है।

इस डेटा स्रोत पर विचार करें: स्टैनफोर्ड लार्ज नेटवर्क डेटासेट कलेक्शन । जब आप इन डेटा सेटों में से एक को चुन सकते हैं , एक समस्या बयान कर सकते हैं, और फिर कुछ एमएल विधियों की सूची चला सकते हैं, जो कि दृष्टिकोण वास्तव में आपको बहुत ज्यादा नहीं बताता है कि डेटा विज्ञान के बारे में क्या है, और मेरी राय में नहीं है एक बहुत अच्छा मास्टर्स थीसिस के लिए नेतृत्व।

इसके बजाय, आप ऐसा कर सकते हैं: उन सभी शोध पत्रों की तलाश करें जो एमएल का उपयोग किसी विशिष्ट श्रेणी में करते हैं - जैसे सहयोग नेटवर्क (उर्फ सह-लेखन)। आप प्रत्येक पेपर पढ़ा, कि वे क्या पता लगाने के लिए कोशिश कर रहे थे प्रत्येक एमएल विधि और वे क्या पता करने के लिए सक्षम नहीं थे के साथ पूरा करने के लिए सक्षम। विशेष रूप से "भविष्य के अनुसंधान" के लिए उनके सुझावों की तलाश करें।

हो सकता है कि वे सभी एक ही विधि का उपयोग करते हों, लेकिन कभी भी प्रतिस्पर्धा करने वाले एमएल तरीकों की कोशिश नहीं की। या शायद वे अपने परिणामों को पर्याप्त रूप से मान्य नहीं करते हैं, या हो सकता है कि डेटा सेट छोटे हों, या शायद उनके शोध प्रश्न और परिकल्पना सरल या सीमित थे।

सबसे महत्वपूर्ण: यह पता लगाने की कोशिश करें कि अनुसंधान की यह रेखा कहाँ जा रही है। वे ऐसा करने के लिए क्यों परेशान हो रहे हैं? इसके बारे में क्या महत्वपूर्ण है? वे कहाँ और क्यों कठिनाइयों का सामना कर रहे हैं?


यह एक बहुत अच्छा विचार है। मास्टर्स सांख्यिकी में है।
user3279453
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.