क्या आपका मास्टर्स कंप्यूटर साइंस में है? सांख्यिकी?
क्या 'डेटा साइंस' आपकी थीसिस के केंद्र में है? या एक पक्ष विषय?
मैं आपके आंकड़े में मान लूंगा और आप अपनी थीसिस को 'डेटा साइंस' की समस्या पर केंद्रित करना चाहते हैं। यदि ऐसा है, तो मैं अनाज के खिलाफ जा रहा हूं और सुझाव दूंगा कि आपको डेटा सेट या एमएल विधि से शुरू नहीं करना चाहिए । इसके बजाय, आपको एक दिलचस्प शोध समस्या की तलाश करनी चाहिए जिसे खराब तरीके से समझा जाता है या जहां एमएल विधियां अभी तक सफल साबित नहीं हुई हैं, या जहां कई प्रतिस्पर्धी एमएल विधियां हैं, लेकिन कोई भी अन्य की तुलना में बेहतर नहीं है।
इस डेटा स्रोत पर विचार करें: स्टैनफोर्ड लार्ज नेटवर्क डेटासेट कलेक्शन । जब आप इन डेटा सेटों में से एक को चुन सकते हैं , एक समस्या बयान कर सकते हैं, और फिर कुछ एमएल विधियों की सूची चला सकते हैं, जो कि दृष्टिकोण वास्तव में आपको बहुत ज्यादा नहीं बताता है कि डेटा विज्ञान के बारे में क्या है, और मेरी राय में नहीं है एक बहुत अच्छा मास्टर्स थीसिस के लिए नेतृत्व।
इसके बजाय, आप ऐसा कर सकते हैं: उन सभी शोध पत्रों की तलाश करें जो एमएल का उपयोग किसी विशिष्ट श्रेणी में करते हैं - जैसे सहयोग नेटवर्क (उर्फ सह-लेखन)। आप प्रत्येक पेपर पढ़ा, कि वे क्या पता लगाने के लिए कोशिश कर रहे थे प्रत्येक एमएल विधि और वे क्या पता करने के लिए सक्षम नहीं थे के साथ पूरा करने के लिए सक्षम। विशेष रूप से "भविष्य के अनुसंधान" के लिए उनके सुझावों की तलाश करें।
हो सकता है कि वे सभी एक ही विधि का उपयोग करते हों, लेकिन कभी भी प्रतिस्पर्धा करने वाले एमएल तरीकों की कोशिश नहीं की। या शायद वे अपने परिणामों को पर्याप्त रूप से मान्य नहीं करते हैं, या हो सकता है कि डेटा सेट छोटे हों, या शायद उनके शोध प्रश्न और परिकल्पना सरल या सीमित थे।
सबसे महत्वपूर्ण: यह पता लगाने की कोशिश करें कि अनुसंधान की यह रेखा कहाँ जा रही है। वे ऐसा करने के लिए क्यों परेशान हो रहे हैं? इसके बारे में क्या महत्वपूर्ण है? वे कहाँ और क्यों कठिनाइयों का सामना कर रहे हैं?