मैं वर्तमान में एक खुदरा कंपनी में डेटा वैज्ञानिक के रूप में काम कर रहा हूं (डीएस के रूप में मेरी पहली नौकरी है, इसलिए यह प्रश्न मेरे अनुभव की कमी का परिणाम हो सकता है)। उनके पास वास्तव में महत्वपूर्ण डेटा विज्ञान परियोजनाओं का एक बड़ा बैकलॉग है जिसे लागू करने पर एक महान सकारात्मक प्रभाव पड़ेगा। परंतु।
डेटा पाइपलाइन कंपनी के भीतर मौजूद नहीं हैं, जब भी मुझे किसी भी जानकारी की आवश्यकता होती है , तो मानक प्रक्रिया उनके लिए मुझे TXT फाइलों की गीगाबाइट्स सौंपने के लिए होती है। इन फ़ाइलों को आर्कन नोटेशन और संरचना में संग्रहीत लेनदेन के सारणीबद्ध लॉग के रूप में सोचें। जानकारी का कोई भी पूरा टुकड़ा एक एकल डेटा स्रोत में निहित नहीं है, और वे मुझे "सुरक्षा कारणों" के लिए अपने ईआरपी डेटाबेस तक पहुंच प्रदान नहीं कर सकते हैं।
सरलतम परियोजना के लिए प्रारंभिक डेटा विश्लेषण के लिए क्रूर, डेटा को कम करने की आवश्यकता होती है। एक परियोजना के समय का 80% से अधिक समय मुझे व्यर्थ डेटासेट बनाने के लिए इन फ़ाइलों को पार करने और डेटा स्रोतों को पार करने की कोशिश कर रहा है । यह केवल लापता डेटा को संभालने या इसे प्रीप्रोसेस करने की समस्या नहीं है, यह उस डेटा के निर्माण में लगने वाले काम के बारे में है जिसे पहली बार में नियंत्रित किया जा सकता है ( dba या डेटा इंजीनियरिंग द्वारा हल किया जा सकता है , डेटा विज्ञान नहीं? )।
1) ऐसा लगता है कि अधिकांश कार्य डेटा विज्ञान से संबंधित नहीं हैं। क्या यह सही है?
2) मुझे पता है कि यह एक उच्च-स्तरीय डेटा इंजीनियरिंग विभाग के साथ डेटा-संचालित कंपनी नहीं है, लेकिन यह मेरी राय है कि डेटा विज्ञान परियोजनाओं के स्थायी भविष्य के लिए निर्माण करने के लिए, न्यूनतम स्तर के डेटा एक्सेसिबिलिटी की आवश्यकता होती है । क्या मै गलत हु?
3) क्या इस प्रकार का सेटअप गंभीर डेटा विज्ञान की आवश्यकता वाली कंपनी के लिए सामान्य है?