डेटा साइंटिस्ट का काम कितना डाटा कम करना है?


44

मैं वर्तमान में एक खुदरा कंपनी में डेटा वैज्ञानिक के रूप में काम कर रहा हूं (डीएस के रूप में मेरी पहली नौकरी है, इसलिए यह प्रश्न मेरे अनुभव की कमी का परिणाम हो सकता है)। उनके पास वास्तव में महत्वपूर्ण डेटा विज्ञान परियोजनाओं का एक बड़ा बैकलॉग है जिसे लागू करने पर एक महान सकारात्मक प्रभाव पड़ेगा। परंतु।

डेटा पाइपलाइन कंपनी के भीतर मौजूद नहीं हैं, जब भी मुझे किसी भी जानकारी की आवश्यकता होती है , तो मानक प्रक्रिया उनके लिए मुझे TXT फाइलों की गीगाबाइट्स सौंपने के लिए होती है। इन फ़ाइलों को आर्कन नोटेशन और संरचना में संग्रहीत लेनदेन के सारणीबद्ध लॉग के रूप में सोचें। जानकारी का कोई भी पूरा टुकड़ा एक एकल डेटा स्रोत में निहित नहीं है, और वे मुझे "सुरक्षा कारणों" के लिए अपने ईआरपी डेटाबेस तक पहुंच प्रदान नहीं कर सकते हैं।

सरलतम परियोजना के लिए प्रारंभिक डेटा विश्लेषण के लिए क्रूर, डेटा को कम करने की आवश्यकता होती है। एक परियोजना के समय का 80% से अधिक समय मुझे व्यर्थ डेटासेट बनाने के लिए इन फ़ाइलों को पार करने और डेटा स्रोतों को पार करने की कोशिश कर रहा है । यह केवल लापता डेटा को संभालने या इसे प्रीप्रोसेस करने की समस्या नहीं है, यह उस डेटा के निर्माण में लगने वाले काम के बारे में है जिसे पहली बार में नियंत्रित किया जा सकता है ( dba या डेटा इंजीनियरिंग द्वारा हल किया जा सकता है , डेटा विज्ञान नहीं? )।


1) ऐसा लगता है कि अधिकांश कार्य डेटा विज्ञान से संबंधित नहीं हैं। क्या यह सही है?

2) मुझे पता है कि यह एक उच्च-स्तरीय डेटा इंजीनियरिंग विभाग के साथ डेटा-संचालित कंपनी नहीं है, लेकिन यह मेरी राय है कि डेटा विज्ञान परियोजनाओं के स्थायी भविष्य के लिए निर्माण करने के लिए, न्यूनतम स्तर के डेटा एक्सेसिबिलिटी की आवश्यकता होती है । क्या मै गलत हु?

3) क्या इस प्रकार का सेटअप गंभीर डेटा विज्ञान की आवश्यकता वाली कंपनी के लिए सामान्य है?


क्या आपने निर्दिष्ट किया कि आप किस प्रारूप पर जानकारी चाहते हैं? और उन्हें निर्देश दें कि वे अपने ईआरपी के साथ ऐसा कैसे कर सकते हैं?
19

@ जोनल ऑफ कोर्स। मैं अब लगभग दो साल से यहां काम कर रहा हूं, और पहले दिन से मैंने समझाया कि हम डेटा एक्सेसिबिलिटी के लिए बेहतर प्लेटफॉर्म कैसे बना सकते हैं। 30 वर्षों से कंपनी जो कर रही है उसे बदलने के लिए मजबूत प्रतिरोध है।
विक्टर वैलेंटाइन

13
अपने घंटों को ट्रैक करना शुरू करें और इसे एक लागत पर परिवर्तित करें कि वे आपका समय बर्बाद कर रहे हैं और TXT को एक उपयोगी प्रारूप में वापस ला रहे हैं। एक बार उनके पास $ फिगर होने पर मैं आपसे शर्त लगा सकता हूँ, वे इसे करवा सकते हैं।
नेल्सन

यदि यह आपके समय का बोझ है तो आप इसे आउटसोर्स कर सकते हैं।
सारकोमा

मुझे यह भ्रम हो रहा है कि एक कंपनी डेटा साइंटिस्ट को काम पर रखेगी और अभी भी बदलने के लिए प्रतिरोधी होगी। आपको उन्हें बर्बाद समय और खतरे की मात्रा को वास्तविक सुरक्षा के बिना लंबे TXT फ़ाइलों में डेटा रखने के आस-पास दिखाना चाहिए
पेड्रो हेनरिक मोनफोर्ट

जवाबों:


27
  1. ऐसा लगता है कि अधिकांश कार्य डेटा विज्ञान से संबंधित नहीं हैं। क्या यह सही है?

    हाँ

  2. मुझे पता है कि यह एक उच्च-स्तरीय डेटा इंजीनियरिंग विभाग के साथ डेटा-संचालित कंपनी नहीं है, लेकिन यह मेरी राय है कि डेटा विज्ञान को न्यूनतम स्तर की डेटा पहुंच की आवश्यकता होती है। क्या मै गलत हु?

    आप गलत नहीं हैं, लेकिन ऐसे वास्तविक जीवन की वास्तविकताएं हैं।

  3. क्या इस प्रकार का सेटअप गंभीर डेटा विज्ञान की आवश्यकता वाली कंपनी के लिए सामान्य है?

    हाँ

तकनीकी दृष्टिकोण से, आपको ईटीएल समाधानों पर ध्यान देने की आवश्यकता है जो आपके जीवन को आसान बना सकते हैं। कभी-कभी एक उपकरण कुछ डेटा को पढ़ने के लिए दूसरे की तुलना में बहुत तेज हो सकता है। ईजी आर के रीडक्सल xlsx फ़ाइलों को पढ़ने में अजगर के पांडा की तुलना में तेजी से मैंगनीज के आदेश हैं; आप फ़ाइलों को आयात करने के लिए R का उपयोग कर सकते हैं, फिर उन्हें पायथन-फ्रेंडली प्रारूप (लकड़ी की छत, SQL, आदि) में सहेजें। मुझे पता है कि आप xlsx फ़ाइलों पर काम नहीं कर रहे हैं और मुझे पता नहीं है कि क्या आप पायथन का उपयोग करते हैं - यह सिर्फ एक उदाहरण था।

एक व्यावहारिक दृष्टिकोण से, दो बातें:

  • सबसे पहले, समझें कि तकनीकी रूप से क्या संभव है। कई मामलों में, जो लोग आपको जानते हैं, वे आईटी-अनपढ़ लोग हैं, जो व्यवसाय या अनुपालन संबंधी विचारों की चिंता करते हैं, लेकिन आईटी के दृष्टिकोण से संभव नहीं है और न ही इसकी कोई अवधारणा है। डीबीए से बात करने की कोशिश करें या जो भी डेटा इंफ्रास्ट्रक्चर का प्रबंधन करे। समझें कि तकनीकी रूप से क्या संभव है। तब, केवल एक समझौता खोजने की कोशिश करें। उदाहरण के लिए, वे आपको उनके सिस्टम तक पहुँच नहीं देंगे, लेकिन मुझे लगता है कि इसके पीछे एक डेटाबेस है? शायद वे डेटा को कुछ अन्य प्रारूपों में निकाल सकते हैं? हो सकता है कि वे डेटा प्रकार आदि को परिभाषित करने वाले SQL कथनों को निकाल सकें?

  • व्यवसायी लोग आपकी मदद करने की अधिक संभावना रखते हैं यदि आप ऐसा मामला बना सकते हैं जो ऐसा करना उनके हित में है। यदि वे भी विश्वास नहीं करते कि आप क्या कर रहे हैं, कठिन भाग्य ...


2
ETL समाधान खोजने / बुझाने के बारे में उत्कृष्ट बिंदु। बस जोड़ने की जरूरत है: एक सेटअप चुनें जिसके साथ आप सहज हैं और आसानी से पढ़ सकते हैं / डिबग कर सकते हैं। स्वचालित कार्यों के शुरुआती चरण में, यह सबसे तेज़ डेटा-स्लरप टूल खोजने से भी अधिक महत्वपूर्ण है। यदि यह पाठ के gigs है, तो यह अक्सर रात भर चलने की संभावना है, और एक उपकरण / रूपरेखा / भाषा के साथ आपका प्रवाह अच्छा डेटा जागने या आप फिर से शुरू करने के लिए कुछ के बीच अंतर कर सकते हैं। बस एक ही काम किसी भी दक्षता लाभ मिटा सकते हैं। तेजी से जाने और ठोकर खाने की तुलना में कम बग के साथ स्थिर होना बेहतर है।
जेसन

2
सच। लेकिन, यह भी, नहीं overoptimise। बुद्धिमानी से अपनी प्राथमिकताएं चुनें। यदि डेटा आयात करना एक-विकल्प है, तो आयात समय को 2 घंटे से 30 मिनट तक कम करने की तलाश में दिन व्यतीत न करें। आदि
पायथनगूस्ट

39

यह एक स्थिति है कि कई ब्लॉग, कंपनियां और कागजात कई मामलों में वास्तविक के रूप में स्वीकार करते हैं।

इस पेपर में बिग डेटा फॉर चैलेंजिंग: चैलेंजेस एंड अपॉर्चुनिटीज़ , इसके बारे में एक उद्धरण है

डेटा वैज्ञानिक अपने समय का 50 प्रतिशत से 80 प्रतिशत तक खर्च करते हैं

अनियंत्रित डिजिटल डेटा एकत्र करना और तैयार करना।

इसके अलावा, आप द न्यू यॉर्क टाइम्स, फॉर बिग-डेटा साइंटिस्ट्स के इस लेख में उस उद्धरण के स्रोत को पढ़ सकते हैं , 'जनिटर वर्क' इनसाइट्स टू इनसाइट्स इनसाइट्स

दुर्भाग्य से, वास्तविक दुनिया कैगल की तरह नहीं है। आपको एक CSV या एक्सेल फ़ाइल नहीं मिलती है जिसे आप बस थोड़ी सी सफाई के साथ डेटा एक्सप्लोरेशन शुरू कर सकते हैं। आपको एक प्रारूप में डेटा ढूंढना होगा जो आपकी आवश्यकताओं के लिए उपयुक्त नहीं है।

आप जो कर सकते हैं वह पुराने डेटा का उतना ही उपयोग कर सकते हैं जितना आप कर सकते हैं और एक प्रक्रिया में नए डेटा के भंडारण को अनुकूलित करने की कोशिश कर सकते हैं जो आपके लिए (या भविष्य के सहकर्मी) के साथ काम करना आसान होगा।



4
फोर्ब्स को "डेटा साइंस" शब्दों के साथ कहीं भी उल्लेख नहीं किया जाना चाहिए।
22

50-80% (उद्धरण) "साक्षात्कार और विशेषज्ञ अनुमान" के आधार पर
oW_

3
एक राय आधारित प्रश्न पर एक राय आधारित लेख में एक राय आधारित सर्वेक्षण के बारे में राय आधारित सर्वेक्षण के बारे में @gented राय। किसने सोचा होगा कि आपको "डेटा साइंस" एसई में यह मिलेगा?
कीता

25

ऐसा लगता है कि अधिकांश कार्य डेटा विज्ञान से संबंधित नहीं हैं। क्या यह सही है?

यह किसी भी डेटा विज्ञान परियोजना की वास्तविकता है। Google ने वास्तव में इसे मापा और एक पेपर "हिडन टेक्निकल डेब्ट इन मशीन लर्निंग सिस्टम" https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-system-pdf पर प्रकाशित किया।

यहाँ छवि विवरण दर्ज करें

पेपर का परिणाम मेरे अनुभव को भी दर्शाता है। समय का अधिकांश भाग डेटा प्राप्त करने, सफाई और प्रसंस्करण में खर्च होता है।


7
  1. ऐसा लगता है कि अधिकांश कार्य डेटा विज्ञान से संबंधित नहीं हैं। क्या यह सही है?

    डेटा साइंटिस्ट जॉब डिस्क्रिप्शन में डेटा का आदान-प्रदान सबसे निश्चित रूप से होता है। कुछ स्तर पर आपको डेटा जनरेट करने की प्रक्रिया को समझना होगा ताकि इसका उपयोग समाधानों को चलाने के लिए किया जा सके। निश्चित रूप से, ईटीएल में विशिष्ट कोई व्यक्ति इसे अधिक तेज़ / अधिक कुशल बना सकता है, लेकिन वास्तविक दुनिया में डेटा डंप असामान्य नहीं है। यदि आप डेटा विज्ञान के इस पहलू को पसंद नहीं करते हैं, तो आपके पास जिस गोदाम तक पहुंच है, उस डेटा को ठीक से प्राप्त करने के लिए आईटी संसाधनों के साथ अधिक निकटता से काम करने का अवसर हो सकता है। वैकल्पिक रूप से, आप एक ऐसी नौकरी पा सकते हैं जिसमें पहले से ही बेहतर क्रम में डेटा है।

  2. मुझे पता है कि यह एक उच्च-स्तरीय डेटा इंजीनियरिंग विभाग के साथ डेटा-संचालित कंपनी नहीं है, लेकिन यह मेरी राय है कि डेटा विज्ञान को न्यूनतम स्तर की डेटा पहुंच की आवश्यकता होती है। क्या मै गलत हु?

    मुझे लगता है कि न्यूनतम स्तर txt फ़ाइलें है। यदि आपके पास पाठ फ़ाइलों के माध्यम से डेटा तक पहुंच है, तो आपको डेटाबेस में डेटा तक पहुंच होनी चाहिए (वरिष्ठों के साथ इस पर वापस धक्का दें)।

  3. क्या इस प्रकार का सेटअप गंभीर डेटा विज्ञान की आवश्यकता वाली कंपनी के लिए सामान्य है?

    हाँ। आप डेटा SCIENTIST हैं; आप विशेषज्ञ हैं। वर्तमान डेटा संरचना की अक्षमताओं और आप कैसे मदद कर सकते हैं, यह दूसरों को शिक्षित करना आपकी नौकरी का हिस्सा है। प्रयोग करने योग्य डेटा किसी की मदद नहीं कर रहा है। आपके पास चीजों को बेहतर बनाने और कंपनी के भविष्य को आकार देने का अवसर है।


6

डेटा साइंस में एक और हालिया स्टार्टर के रूप में, मैं केवल यह जोड़ सकता हूं कि मुझे नहीं लगता कि आप अनुभव अद्वितीय हैं, लगभग 10 की मेरी टीम ने जाहिरा तौर पर एक साल में कोई भी डीएस नहीं किया है (एक छोटी सी परियोजना जिसमें 2 का कब्जा है टीम)। यह एक प्रभावी पाइपलाइन के वादे के कारण है जिस पर टीम काम कर रही है, लेकिन अभी भी सिर्फ डेटा वितरित नहीं कर रही है। जाहिरा तौर पर प्रतिधारण अतीत में काफी खराब रहा है और भविष्य के डीएस परियोजनाओं के लिए एक पवित्र-कब्र एमएस एज़्योर वातावरण का निरंतर वादा है।

तो जवाब देने के लिए:

1) हाँ बिलकुल सटीक

2) नहीं, आप सही हैं, लेकिन आपके द्वारा इच्छित डेटा तक पहुंच प्राप्त करना एक कठिन लड़ाई है (यदि यह मौजूद भी है)।

3) मुझे यकीन है कि वहाँ कंपनियां हैं जो दूसरों की तुलना में बेहतर हैं। यदि आप इसे अपनी वर्तमान कंपनी में नहीं खड़ा कर सकते हैं, तो 2 साल का लंबा समय है, उज्जवल चीजों की तलाश शुरू करें (सावधान रहें कि आप अपनी वर्तमान नौकरी छोड़ने की इच्छा कैसे रखते हैं, कुछ और "जैसे एक और अधिक गतिशील के साथ काम करना" टीम "मेरी पुरानी कंपनी मुझे डेटा नहीं देगी" की तुलना में बेहतर लगेगी)।


5

यदि आप इसे "यह मेरा काम नहीं है, तो मैं इसे क्यों करूं" के परिप्रेक्ष्य से देखें, तो यह एक काफी सामान्य, सामान्य समस्या है जो डेटा विज्ञान के लिए विशिष्ट नहीं है। अंतत: आपका काम यह करना है कि बॉस आपको जो कुछ भी करने के लिए कहता है, लेकिन व्यवहार में बॉस के इस बारे में तानाशाही होने के बहुत कम कारण हैं और आमतौर पर उन्हें राजी किया जा सकता है। या कम से कम वे आपको इस बात का ईमानदार विवरण देंगे कि ऐसा क्यों होना चाहिए। लेकिन जहां तक ​​अधिकार की अपील की जाती है, "डेटा साइंस" की कोई आधिकारिक परिभाषा नहीं है, जो कहती है कि आप केवल अधिकतम X% डेटा की सफाई कर सकते हैं। प्राधिकरण जो कोई भी आपको भुगतान कर रहा है, जब तक कि आपके पास आपको भुगतान करने से रोकने का कानूनी अधिकार नहीं है।

आप इसे दूसरे दृष्टिकोण से भी देख सकते हैं: क्या यह आपके समय का अच्छा उपयोग है? ऐसा लगता है कि आपने कुछ कार्यों को करने के लिए एक नौकरी ली है (जिसका अर्थ है "डेटा साइंस") लेकिन आप एक और काम कर रहे हैं (जिसे आप "डेटा क्रंदन" कहते हैं)। नौकरी का विवरण और व्यक्तिगत भावनाएं यहां बिंदु के बगल में थोड़ी सी हैं क्योंकि कुछ अधिक प्रासंगिक है: कंपनी संभवतः कुछ करने के लिए आपको अच्छी रकम का भुगतान करती है जो केवल आप कर सकते हैं (डेटा विज्ञान)। लेकिन यह आपके बजाय अन्य चीजें कर रहा है, जो अन्य लोगों द्वारा किया जा सकता है जो अधिक सक्षम, अधिक प्रेरित या कम खर्चीले के कुछ संयोजन हैं। अगर डेटा की कमी किसी को आपकी आधी सैलरी देने से हो सकती है, तो इसका कोई मतलब नहीं है कि आप दो बार उतना ही भुगतान करें। यदि यह तेजी से किया जा सकता हैकिसी ने समान वेतन का भुगतान किया, वही तर्क लागू होता है। इसलिए कंपनी को यह काम सौंपना आपके लिए संसाधनों (विशेष रूप से धन) की बर्बादी है। इस दृष्टिकोण से आने पर, आपको अपने वरिष्ठों को अपनी चीजों को देखने में आसानी होगी।

बेशक, दिन के अंत में, किसी को डेटा को कम करना पड़ता है। यह हो सकता है कि यह करने का सबसे सस्ता, सबसे तेज़, सबसे आसान तरीका है - नौकरी के लिए सबसे अच्छा व्यक्ति, आप हैं। उस स्थिति में, आप भाग्य से बाहर हैं। आप यह दावा करने की कोशिश कर सकते हैं कि यह आपके अनुबंध का हिस्सा नहीं है, लेकिन वे कौन-सी बाधाएं हैं जो अनुबंध में कुछ विशिष्ट करने के लिए पर्याप्त अनुभवहीन थीं?


3

शायद इसे सीधे शब्दों में कहें:

  • वैरिएबल और बिनिंग न्यूमेरिक्स बनाते समय, क्या आप आँख बंद करके या अपने डेटा का विश्लेषण करने के बाद ऐसा करेंगे?
  • जब सहकर्मी आपके निष्कर्षों की समीक्षा करते हैं, यदि उनके पास डेटा के विशेष बिट्स के बारे में प्रश्न थे, तो क्या यह आपको उन्हें नहीं जानने के लिए शर्मिंदा करेगा?

आपको अपने डेटा के साथ काम करने और समझने की आवश्यकता है - जिसमें विसंगतियों (NULLs, खाली तारों, "-") को ठीक करने से सरल सामान शामिल है, यह समझने के लिए कि डेटा का एक टुकड़ा एकत्र होने से कैसे प्रदर्शित होता है। इसे संसाधित करना जानकारी के समान टुकड़ों को जानना शामिल है, इसलिए यह आंशिक रूप से काम है जो आपको वैसे भी करना होगा।

अब, ऐसा लगता है कि यह कंपनी आपके डेटा को रखने के लिए किसी प्रकार की मुफ्त MySQL (या इसी तरह) की स्थापना से लाभ उठा सकती है। लचीला होने की कोशिश करते हुए जब आप अपने wrangling कोड को डिज़ाइन कर रहे हैं, तो यह भी एक अच्छा विचार है - संसाधित डेटा का एक मध्यवर्ती डेटासेट होना जो मुझे लगता है कि यदि आपके लिए अनुमति है (और MySQL में ऐसा नहीं कर सकते) उपयोगी होगा।

लेकिन बेशक आप अभी भी खरोंच से चीजों को स्थापित कर रहे हैं। यह एक आसान प्रक्रिया नहीं है, लेकिन यह "सीखने का अनुभव" आपके सीवी में डालने के लिए कम से कम अच्छा है।


3

1) ऐसा लगता है कि अधिकांश कार्य डेटा विज्ञान से संबंधित नहीं हैं। क्या यह सही है? मेरी राय में, डेटा साइंस डेटा की विकृति से बाहर नहीं निकाल सकता है। लेकिन, जैसा कि आपने कहा, यह सवाल आएगा कि डेटा साइंटलिंग का कितना प्रतिशत डेटा साइंटिस्ट को करना आवश्यक है। यह ऑर्गनाइजेशन बैंडविड्थ और इस तरह के काम को करने में रुचि रखने वाले व्यक्ति पर निर्भर करता है। डीएस के रूप में 15 से 16 वर्षों के मेरे अनुभव में, मैंने हमेशा लगभग 60% से 70% डेटा की गतिविधि में खर्च किया और वास्तविक विश्लेषण में अधिकतम 15% समय बिताया। तो अपना फोन ले लो।

2) मुझे पता है कि यह एक उच्च-स्तरीय डेटा इंजीनियरिंग विभाग के साथ डेटा-संचालित कंपनी नहीं है, लेकिन यह मेरा विचार है कि डेटा विज्ञान को न्यूनतम स्तर की डेटा पहुंच की आवश्यकता होती है। क्या मै गलत हु? फिर से यह संगठन की सुरक्षा नीतियों पर निर्भर करता है। वे आपके लिए सब कुछ नहीं छोड़ सकते हैं और उनके पास ऐसे व्यक्ति को डेटा प्रकट करने के लिए अपने स्वयं के सुरक्षा मुद्दे हैं जो अस्थायी कर्मचारी हैं (इस शब्द का उपयोग करने के लिए खेद है :()

3) क्या इस प्रकार का सेटअप गंभीर डेटा विज्ञान की आवश्यकता वाली कंपनी के लिए सामान्य है? मुझे लगता है कि इस तरह की कंपनियों को डेटा वैज्ञानिकों से सबसे अधिक ध्यान देने की आवश्यकता है ताकि यह महसूस किया जा सके कि डेटा संचालित मॉडलिंग उनके व्यवसाय को बनाए रखने के लिए भविष्य है। :-)

मैंने तकनीकी स्टैंड पॉइंट के बजाय व्यवसायों के बारे में सोचने के लिए अपने इनपुट दिए हैं। :-) आशा है कि मैं अपनी पसंद के शब्दों में स्पष्ट हूँ।


3

अपनी बात में "बिग डेटा चार अलग-अलग समस्याएं हैं", ट्यूरिंग पुरस्कार विजेता माइकल स्टोनब्रोकर ने इस विशेष मुद्दे को एक बड़ी समस्या ( वीडियो , स्लाइड ) के रूप में उल्लेख किया है

वह कहते हैं कि इस क्षेत्र में कई खुली समस्याएं हैं: इनस्टेस्ट, ट्रांसफॉर्म (जैसे यूरो / डॉलर), क्लीन (उदाहरण के लिए -99 / नल), स्कीमा मैपिंग (जैसे मजदूरी / वेतन), इकाई समेकन (जैसे माइक स्टोनब्रोकर / माइकल) Stonebreaker)

इस समस्या को हल करने के लिए कई कंपनियों / उत्पादों की कोशिश की जा रही है जैसे कि टैम, एलर्टेक्स, ट्रिक्टा, पक्साटा, गूगल रिफाइन इस समस्या को हल करने के लिए काम कर रहे हैं।

जब तक यह क्षेत्र परिपक्व नहीं हो जाता है, तब तक डेटा साइंटिस्ट की बहुत सारी नौकरी वास्तव में डेटा की विकृति होगी।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.