यह किसके बारे में है
बस तकनीकों के बारे में जानना जानवरों को एक चिड़ियाघर में जानने के लिए समान है - आप उन्हें नाम दे सकते हैं, उनके गुणों का वर्णन कर सकते हैं, शायद उन्हें जंगली में पहचान सकते हैं।
समझ जब उन्हें उपयोग करने के लिए, तैयार करने, निर्माण, परीक्षण, और एक आवेदन क्षेत्र के भीतर काम कर रहे गणितीय मॉडल की तैनाती करते समय नुकसान से बचने --- ये कौशल हैं जो भेद करते हैं, मेरी राय में।
जोर विज्ञान पर होना चाहिए , व्यापार, औद्योगिक और व्यावसायिक समस्याओं के लिए एक व्यवस्थित, वैज्ञानिक दृष्टिकोण को लागू करना। लेकिन इसके लिए डेटा माइनिंग एंड मशीन लर्निंग की तुलना में कौशलों की व्यापक आवश्यकता होती है, क्योंकि रॉबिन ब्लोर "ए डेटा साइंस रैंट" में लगातार तर्क देते हैं ।
तो कोई क्या कर सकता है?
आवेदन क्षेत्र : विभिन्न एप्लिकेशन क्षेत्रों के बारे में जानें जो आपकी रुचि के करीब हों, या आपके नियोक्ता के। क्षेत्र अक्सर यह समझने से कम महत्वपूर्ण नहीं है कि मॉडल का निर्माण कैसे किया गया था और उस क्षेत्र में मूल्य जोड़ने के लिए इसका उपयोग कैसे किया गया था। एक क्षेत्र में सफल होने वाले मॉडल को अक्सर अलग-अलग क्षेत्रों में प्रत्यारोपित और लागू किया जा सकता है जो समान तरीकों से काम करते हैं।
प्रतियोगिताएं : डेटा माइनिंग प्रतियोगिता साइट कागल को आज़माएं , अधिमानतः दूसरों की टीम में शामिल होना। (कागल: भविष्य कहनेवाला मॉडलिंग प्रतियोगिताओं के लिए एक मंच। कंपनियां, सरकारें और शोधकर्ता डेटासेट और समस्याएं पेश करते हैं और दुनिया के सर्वश्रेष्ठ डेटा वैज्ञानिक सर्वश्रेष्ठ समाधान का उत्पादन करने के लिए प्रतिस्पर्धा करते हैं।)
बुनियादी बातें : आंकड़ों में चार: (1) ठोस आधार हैं, (2) यथोचित प्रोग्रामिंग कौशल, (3) यह समझना कि जटिल डेटा प्रश्नों को कैसे तैयार किया जाए, (4) डेटा मॉडल का निर्माण। यदि कोई कमजोर है, तो शुरू करने के लिए यह एक महत्वपूर्ण स्थान है।
इस संबंध में कुछ उद्धरण :
`` मैंने किसी चीज़ का नाम जानने और कुछ जानने के बीच का अंतर बहुत पहले से जान लिया था। आप दुनिया की सभी भाषाओं में एक पक्षी का नाम जान सकते हैं, लेकिन जब आप समाप्त कर लेंगे, तो आपको पक्षी के बारे में कुछ भी नहीं पता होगा ... तो आइए पक्षी को देखें और देखें कि यह क्या कर रहा है - यह क्या मायने रखता है। '' - रिचर्ड फेनमैन, "द मेकिंग ऑफ अ साइंटिस्ट", पी 14 इन व्हाट डू यू केयर यू अदर पीपल थिंक, 1988
याद रखो:
`` इन व्यावसायिक विज्ञान [डेटा साइंस] परियोजनाओं को पूरा करने के लिए आवश्यक कौशल का संयोजन शायद ही कभी एक व्यक्ति में रहता है। (I) व्यवसाय क्या करता है, (ii) आँकड़ों का उपयोग कैसे करना है, और (iii) डेटा और डेटा प्रवाह का प्रबंधन कैसे करें ( कोई) वास्तव में ट्रिपल क्षेत्रों में किसी को व्यापक ज्ञान प्राप्त हो सकता है। यदि ऐसा है, तो वह वास्तव में एक निश्चित क्षेत्र में एक व्यावसायिक वैज्ञानिक (उर्फ, "डेटा वैज्ञानिक") होने का दावा कर सकता है। लेकिन ऐसे व्यक्ति मुर्गी के दांतों की तरह लगभग दुर्लभ होते हैं। '' - रॉबिन ब्लोर, ए डेटा साइंस रैंट , अगस्त 2013, सुरक्षित विश्लेषण
और अंत में:
`` नक्शा नहीं क्षेत्र है। '' - अल्फ्रेड कोरज़ीबस्की, 1933, विज्ञान और पवित्रता।
अधिकांश वास्तविक, लागू की गई समस्याएं केवल `` मानचित्र 'से ही सुलभ नहीं हैं। गणितीय मॉडलिंग के साथ व्यावहारिक चीजें करने के लिए विवरण, सूक्ष्मता और अपवादों के साथ ग्रब लेने के लिए तैयार होना चाहिए। क्षेत्र को पहले हाथ से जानने के लिए कुछ भी नहीं बदल सकता है।