मशीन सीखने वालों में खोजने के लिए कौशल कठिन?


71

ऐसा लगता है कि डेटा माइनिंग और मशीन लर्निंग इतनी लोकप्रिय हो गई है कि अब लगभग हर सीएस छात्र को क्लासिफायर, क्लस्टरिंग, स्टेटिस्टिकल एनएलपी ... आदि के बारे में पता है, इसलिए ऐसा लगता है कि आजकल डेटा माइनर्स ढूंढना कोई मुश्किल बात नहीं है।

मेरा सवाल है: क्या कौशल है कि एक डेटा खान में काम करनेवाला है कि उसे दूसरों की तुलना में अलग कर सकता है सीख सकते हैं? उसे किसी व्यक्ति की तरह आसानी से नहीं मिलने वाला व्यक्ति बनाने के लिए।


6
हालांकि यह एक अलग सवाल का जवाब है, मेरा एक पुराने उत्तर में कई बिंदुओं को यहां ले जाया जा सकता है। असद नीचे अपने बहुत अच्छे जवाब में कुछ इसी तरह की टिप्पणी करता है।
कार्डिनल

जवाबों:


62

मैंने कई बार देखा है कि डेवलपर्स एमएल तकनीकों का उपयोग करते हैं। यह सामान्य पैटर्न है:

  1. फैंसी नाम के साथ पुस्तकालय डाउनलोड करें;
  2. 10 मिनट पढ़ने के लिए इसे कैसे उपयोग करें (किसी भी आँकड़े, गणित, आदि को छोड़ना);
  3. इसे डेटा के साथ खिलाएं (कोई प्रीप्रोसेसिंग नहीं);
  4. माप प्रदर्शन (जैसे कि कक्षाएं पूरी तरह से असंतुलित होने पर भी सटीकता) और हर किसी को बताएं कि यह 99% सटीकता के साथ कितना भयानक है;
  5. महाकाव्य असफल परिणामों के साथ उत्पादन में तैनात;
  6. कोई है जो समझ में आ रहा है कि उन्हें मदद करने के लिए क्या हो रहा है क्योंकि निर्देश मैनुअल बिल्कुल भी समझ में नहीं आता है।

सरल उत्तर यह है कि (अधिकांश) सॉफ्टवेयर इंजीनियर सांख्यिकी और गणित में बहुत कमजोर हैं । यह किसी का भी फायदा है जो उनसे मुकाबला करना चाहता है। बेशक लोग प्रोडक्शन कोड लिखने की जरूरत पड़ने पर लोग अपने कम्फर्ट जोन से बाहर हो जाते हैं। जिस तरह की भूमिका वास्तव में दुर्लभ हो जाती है, वह डेटा साइंटिस्ट की है। यह कोई है जो पहुँच सकते हैं और डेटा की भारी मात्रा के साथ खेलने के लिए कोड लिख सकते हैं और उन में मूल्य पाते हैं।


14
LOL पर "सबको बताएं कि इसकी 99% सटीकता के साथ यह कितना भयानक है"
जैक ट्वेन

2
+1 मैं हर चीज से सहमत हूं। "[...] डेटा साइंटिस्ट। यह कोई है जो डेटा की भारी मात्रा के साथ उपयोग करने और खेलने के लिए कोड लिख सकता है और उनमें समान खोज कर सकता है।" जो मुझे पता चलता है कि यह स्वाभाविक रूप से दुर्लभ रहना चाहिए, क्योंकि यह जटिल सांख्यिकीय और मूलभूत मुद्दों से निपटने के साथ-साथ कुछ को उत्पादन कोड में बदलने के लिए सबसे अधिक नश्वर प्रतीत होता है। यह यह भी बताता है कि हमारे पास हृदय सर्जन, एनेस्थेसियोलॉजिस्ट, न्यूरोलॉजिस्ट, नर्स, अस्पताल प्रशासक आदि या नागरिक, वैमानिकी, खनन, रसायन, यांत्रिक इंजीनियर आदि क्यों हैं
थॉमस स्पेलिड

2
मेरे लिए, यह वास्तव में इस बात का वर्णन नहीं है कि किसी को एमएल आउट होने के लिए क्या चाहिए - एमएल बैश के अधिक। लगता है कि आप किसी ऐसे व्यक्ति का वर्णन कर रहे हैं, जो "उत्तर" प्राप्त करने पर बहुत अधिक ध्यान केंद्रित कर रहा है, इससे पहले कि वे यह भी सुनिश्चित करें कि प्रश्न क्या है। मूल रूप से, आपका "विशिष्ट एमएल" व्यक्ति वह होता है जिसके पास खराब नियोजन कौशल होता है, और कोई व्यक्ति जो चर्चा नहीं करता है कि वे आगे बढ़ने से पहले "ग्राहक" के साथ क्या करना चाहते हैं, और "उत्तर" के साथ वापस आ रहे हैं। यह कुछ ऐसा नहीं है जो अच्छे गणित / आँकड़े होने से मदद करता है - यह कुछ ऐसा है जिसमें अच्छे संचार कौशल की आवश्यकता होती है।
संभावना

61

यह किसके बारे में है

बस तकनीकों के बारे में जानना जानवरों को एक चिड़ियाघर में जानने के लिए समान है - आप उन्हें नाम दे सकते हैं, उनके गुणों का वर्णन कर सकते हैं, शायद उन्हें जंगली में पहचान सकते हैं।

समझ जब उन्हें उपयोग करने के लिए, तैयार करने, निर्माण, परीक्षण, और एक आवेदन क्षेत्र के भीतर काम कर रहे गणितीय मॉडल की तैनाती करते समय नुकसान से बचने --- ये कौशल हैं जो भेद करते हैं, मेरी राय में।

जोर विज्ञान पर होना चाहिए , व्यापार, औद्योगिक और व्यावसायिक समस्याओं के लिए एक व्यवस्थित, वैज्ञानिक दृष्टिकोण को लागू करना। लेकिन इसके लिए डेटा माइनिंग एंड मशीन लर्निंग की तुलना में कौशलों की व्यापक आवश्यकता होती है, क्योंकि रॉबिन ब्लोर "ए डेटा साइंस रैंट" में लगातार तर्क देते हैं ।

तो कोई क्या कर सकता है?

आवेदन क्षेत्र : विभिन्न एप्लिकेशन क्षेत्रों के बारे में जानें जो आपकी रुचि के करीब हों, या आपके नियोक्ता के। क्षेत्र अक्सर यह समझने से कम महत्वपूर्ण नहीं है कि मॉडल का निर्माण कैसे किया गया था और उस क्षेत्र में मूल्य जोड़ने के लिए इसका उपयोग कैसे किया गया था। एक क्षेत्र में सफल होने वाले मॉडल को अक्सर अलग-अलग क्षेत्रों में प्रत्यारोपित और लागू किया जा सकता है जो समान तरीकों से काम करते हैं।

प्रतियोगिताएं : डेटा माइनिंग प्रतियोगिता साइट कागल को आज़माएं , अधिमानतः दूसरों की टीम में शामिल होना। (कागल: भविष्य कहनेवाला मॉडलिंग प्रतियोगिताओं के लिए एक मंच। कंपनियां, सरकारें और शोधकर्ता डेटासेट और समस्याएं पेश करते हैं और दुनिया के सर्वश्रेष्ठ डेटा वैज्ञानिक सर्वश्रेष्ठ समाधान का उत्पादन करने के लिए प्रतिस्पर्धा करते हैं।)

बुनियादी बातें : आंकड़ों में चार: (1) ठोस आधार हैं, (2) यथोचित प्रोग्रामिंग कौशल, (3) यह समझना कि जटिल डेटा प्रश्नों को कैसे तैयार किया जाए, (4) डेटा मॉडल का निर्माण। यदि कोई कमजोर है, तो शुरू करने के लिए यह एक महत्वपूर्ण स्थान है।


इस संबंध में कुछ उद्धरण :

`` मैंने किसी चीज़ का नाम जानने और कुछ जानने के बीच का अंतर बहुत पहले से जान लिया था। आप दुनिया की सभी भाषाओं में एक पक्षी का नाम जान सकते हैं, लेकिन जब आप समाप्त कर लेंगे, तो आपको पक्षी के बारे में कुछ भी नहीं पता होगा ... तो आइए पक्षी को देखें और देखें कि यह क्या कर रहा है - यह क्या मायने रखता है। '' - रिचर्ड फेनमैन, "द मेकिंग ऑफ अ साइंटिस्ट", पी 14 इन व्हाट डू यू केयर यू अदर पीपल थिंक, 1988

याद रखो:

`` इन व्यावसायिक विज्ञान [डेटा साइंस] परियोजनाओं को पूरा करने के लिए आवश्यक कौशल का संयोजन शायद ही कभी एक व्यक्ति में रहता है। (I) व्यवसाय क्या करता है, (ii) आँकड़ों का उपयोग कैसे करना है, और (iii) डेटा और डेटा प्रवाह का प्रबंधन कैसे करें ( कोई) वास्तव में ट्रिपल क्षेत्रों में किसी को व्यापक ज्ञान प्राप्त हो सकता है। यदि ऐसा है, तो वह वास्तव में एक निश्चित क्षेत्र में एक व्यावसायिक वैज्ञानिक (उर्फ, "डेटा वैज्ञानिक") होने का दावा कर सकता है। लेकिन ऐसे व्यक्ति मुर्गी के दांतों की तरह लगभग दुर्लभ होते हैं। '' - रॉबिन ब्लोर, ए डेटा साइंस रैंट , अगस्त 2013, सुरक्षित विश्लेषण

और अंत में:

`` नक्शा नहीं क्षेत्र है। '' - अल्फ्रेड कोरज़ीबस्की, 1933, विज्ञान और पवित्रता।

अधिकांश वास्तविक, लागू की गई समस्याएं केवल `` मानचित्र 'से ही सुलभ नहीं हैं। गणितीय मॉडलिंग के साथ व्यावहारिक चीजें करने के लिए विवरण, सूक्ष्मता और अपवादों के साथ ग्रब लेने के लिए तैयार होना चाहिए। क्षेत्र को पहले हाथ से जानने के लिए कुछ भी नहीं बदल सकता है।



6
+1। आपके संगठन की विशिष्ट व्यावसायिक समस्या के लिए बॉक्स समाधानों में से शायद ही कोई काम करता हो। आपको दर्जी और सुधार करने की आवश्यकता है, और इसके लिए आपको यह समझने की आवश्यकता है कि हुड के नीचे क्या है।
ज़ुबर्ब

4
@Zhubarb - मुझे लगता है कि यह केवल आंशिक रूप से सच है। "आउट ऑफ द बॉक्स" समाधान का उपयोग बहुत प्रभाव के लिए किया जा सकता है, बस हर समय नहीं, और आमतौर पर एक कार्य को शुरू से अंत तक पूरा करने के लिए भी नहीं। चाल यह जान रही है कि आप "आउट ऑफ द बॉक्स सॉल्यूशंस" का उपयोग करके कब दूर हो सकते हैं, और जब अधिक अनुरूप दृष्टिकोण की आवश्यकता होती है।
संभाव्यता

41

मैं कही गई हर बात से सहमत हूं। मेरे लिए क्या है:

  1. कुछ मशीन सीखने वाले "विशेषज्ञ" वास्तव में उस विषय में रुचि रखते हैं जिसमें वे एमएल लागू करना चाहते हैं
  2. भविष्यवाणियां सटीकता और उचित स्कोरिंग नियमों को कितने सही मायने में समझती हैं
  3. सत्यापन के सिद्धांतों को कितने कम लोग समझते हैं
  4. एक पारंपरिक प्रतिगमन मॉडल बनाम एक ब्लैक बॉक्स का उपयोग करने के लिए कब कुछ पता है
  5. "विशेषज्ञों" में से कोई भी कभी भी बेज़ इष्टतम निर्णय या हानि / उपयोगिता / लागत कार्यों का अध्ययन नहीं करता है [यह समझ की कमी लगभग किसी भी समय प्रदर्शित होती है जब कोई व्यक्ति अनुमानित जोखिम के बजाय वर्गीकरण का उपयोग करता है]

3
क्या आप 4 पर विस्तार से विचार करेंगे? मुझे समझ में नहीं आ रहा है कि आपका क्या मतलब है

17
मैंने सोचा होगा कि उस आइटम को समझना सबसे आसान था। यहाँ एक उदाहरण है: अध्ययन के एक विशेष क्षेत्र में मान लीजिए कि हमारे पास पिछले अनुभव था कि अधिकांश चर additively संचालित होते हैं। एक एडिटिव रिग्रेशन मॉडल तैयार करना जो कि भविष्यवाणियों को रैखिक रूप से संचालित करने के लिए नहीं मानता है (जैसे, प्रतिगमन स्पाइन का उपयोग करके) एक व्याख्यात्मक और उपयोगी सांख्यिकीय मॉडल प्रदान करेगा। दूसरी तरफ svm या यादृच्छिक जंगलों का उपयोग करना व्याख्या करना बहुत कठिन होगा, कोई अलग करने योग्य प्रभाव नहीं होगा, और नॉनलाइनर एडिटिव मॉडल की तुलना में बेहतर भविष्यवाणी नहीं करेगा।
फ्रैंक हरेल

7
विषय की उथल-पुथल के लिए वास्तव में हाँ। एमएल की दुनिया में भी नहीं, मैं अक्सर इस प्रवृत्ति को कच्चे डेटा को एक जादू बॉक्स में खोलना चाहता हूं और अद्भुत अंतर्दृष्टि प्राप्त करता हूं। ये लोग जो देख रहे हैं वह कृत्रिम मस्तिष्क है।
डैरनव

3
आइटम 1 के लिए विशेष रूप से +1। डोमेन में रुचि की कमी का प्रमाण यह है कि डोमेन ज्ञान को लागू करने के लिए ब्लैक बॉक्स को 'खोलना' और संशोधित करना जानना होगा। ब्लैक बॉक्स द्वारा, मेरा मतलब है कि एंट्री लेवल एमएल के लिए भी बुनियादी सांख्यिकीय मॉडलिंग तकनीकें उस ब्लैक बॉक्स में हैं। यदि रुचि / क्षमता नहीं है, तो डोमेन ज्ञान लागू करना बहुत कठिन है।
मेदोवलकर ब्रैडशर

7
@DarenW: प्रवृत्ति भी नाम में परिलक्षित होती है: "मशीन लर्निंग" इस अर्थ के साथ कि मशीन सीखती है ... अपने आप से ... बस कच्चे डेटा को फावड़ा। Hastie, टिब्शिरानी, ​​et.al द्वारा चुने गए कम ग्लैमरस नाम (लेकिन अधिक सटीक IMO) के विपरीत: "सांख्यिकीय लर्निंग"। अलग-अलग अर्थ, अलग-अलग स्पष्टीकरण, सभी सांख्यिकीय सिद्धांतों पर वापस आते हैं।
असद अब्राहिम

11

यहाँ आपको भीड़ से बाहर निकालने के लिए कुछ चीजें हैं:

  • एप्लिकेशन डोमेन या डोमेन को समझें। वह है, कारोबारी माहौल या अन्य संदर्भ।
  • बड़ी तस्वीर को समझें। यह बहुत महत्वपूर्ण है! मशीन लर्निंग का अध्ययन करने वाले लोग अक्सर विवरणों में खो जाते हैं। समग्र चित्र के बारे में सोचें जो आपके एमएल मॉडल में फिट होंगे। अक्सर एमएल भाग एक बहुत बड़ी प्रणाली का एक छोटा सा खंड है। पूरी प्रणाली को समझें।
  • अध्ययन उपयोगिता और निर्णय सिद्धांत और बायेसियन निष्कर्ष, न कि जो कुछ भी अब "सामान्य" एमएल मॉडल माना जाता है। Bayesian inference एक समस्या पर सहन करने के लिए सभी प्रासंगिक जानकारी लाने की धारणा को औपचारिक बनाने का एक तरीका है। उपयोगिता और निर्णय सिद्धांत चित्र में मूल्यों को लाने के बारे में है।

समग्र संदेश जो सभी तीन बिंदुओं पर लागू होता है: बड़ी तस्वीर देखें, विवरण में खो न जाएं।


4

कौशल जो एक डेटा की खान को दूसरों से अलग करता है, वह मशीन लर्निंग मॉडल की व्याख्या करने की क्षमता है। अधिकांश एक मशीन का निर्माण करते हैं, त्रुटि की रिपोर्ट करते हैं और फिर बंद हो जाते हैं। सुविधाओं के बीच गणितीय संबंध क्या हैं? क्या प्रभाव योगात्मक या गैर-योजक या दोनों हैं? क्या कोई भी सुविधा अप्रासंगिक है? क्या मशीन अशक्त परिकल्पना के तहत अपेक्षित है कि डेटा में केवल संभावना पैटर्न हैं? क्या मॉडल स्वतंत्र डेटा का सामान्यीकरण करता है? समस्या के अध्ययन के लिए इन पैटर्नों का क्या मतलब है? क्या अनुमान हैं? अंतर्दृष्टि क्या हैं? एक डोमेन विशेषज्ञ को उत्साहित क्यों होना चाहिए? क्या मशीन नए सवाल पूछने और नए प्रयोगों को डिजाइन करने के लिए डोमेन विशेषज्ञ का नेतृत्व करेगी? क्या डेटा माइनर प्रभावी रूप से दुनिया के लिए मॉडल और इसके निहितार्थों का संचार कर सकता है?


8
+1 सहमत - हालांकि आप जो वर्णन करते हैं, उसे सांख्यिकी कहा जाता है।
थॉमस स्पीडेल

4

मैं वहाँ "सॉफ्ट स्किल्स" की धारणा रखूँगा।

  • पहचान करना कि कौन "विशेषज्ञ" विधि एक्स के लिए है, और उनके ज्ञान में टैप करने में सक्षम है (आपको एरिथिंग के बारे में सब कुछ जानने में सक्षम या उम्मीद नहीं करनी चाहिए)। दूसरों के साथ सहयोग करने की क्षमता और इच्छा।

  • एमएल में प्रयुक्त गणित के साथ "वास्तविक दुनिया" का अनुवाद या प्रतिनिधित्व करने की क्षमता।

  • अलग-अलग दर्शकों के लिए अलग-अलग तरीकों से अपने तरीकों को समझाने की क्षमता - यह जानना कि कब विवरण पर ध्यान केंद्रित करना है और कब वापस कदम रखना है और व्यापक संदर्भ को देखना है।

  • सिस्टम सोच रहा है, यह देखने में सक्षम है कि आपकी भूमिका व्यवसाय के अन्य क्षेत्रों में कैसे खिलाती है, और ये क्षेत्र आपके काम में कैसे वापस आते हैं।

  • अनिश्चितता की प्रशंसा और समझ, और इससे निपटने के लिए कुछ संरचित तरीके हैं। स्पष्ट रूप से यह बताने में सक्षम होना कि आपकी धारणाएँ क्या हैं।


4

अच्छी तरह से सामान्यीकरण करने में सक्षम होने के नाते

यह एक अच्छे मॉडल का सार है। और यह उस चीज का सार है जो मशीन सीखने की कला के सर्वश्रेष्ठ चिकित्सकों को भीड़ से बाहर खड़ा करता है।

यह समझना कि लक्ष्य अनदेखी डेटा पर प्रदर्शन का अनुकूलन करना है, न कि प्रशिक्षण हानि को कम करना। ओवर-फिटिंग और अंडर-फिटिंग दोनों से बचने का तरीका जानना। उन मॉडलों के साथ आना जो बहुत जटिल नहीं हैं फिर भी समस्या का वर्णन करने में बहुत सरल नहीं हैं। अधिकतम संभव के बजाय, प्रशिक्षण-सेट का सार निकालना।

यह आश्चर्यजनक है कि कितनी बार, यहां तक ​​कि अनुभवी मशीन सीखने वाले चिकित्सक, इस सिद्धांत का पालन करने में विफल रहते हैं। एक कारण यह है कि मनुष्य दो विशाल सिद्धांत-बनाम-अभ्यास परिमाण मतभेदों की सराहना करने में विफल रहते हैं :

  • प्रशिक्षण डेटा बहुत बड़ा होने पर भी, हाथ में प्रशिक्षण-डेटा की तुलना में सभी संभावित उदाहरणों का स्थान कितना बड़ा है ।
  • पूर्ण "परिकल्पना स्थान" कितना बड़ा है : व्यावहारिक "समाधान स्थान" की तुलना में किसी समस्या के लिए संभावित मॉडल की संख्या: आप जो कुछ भी सोच सकते हैं, और वह सब कुछ जो आपके सॉफ़्टवेयर / उपकरण प्रतिनिधित्व करने में सक्षम हैं।

दूसरा विशेष रूप से समझ से बाहर है क्योंकि इनपुट और एक द्विआधारी परिणाम के साथ सबसे सरल समस्या के लिए भी संभव मॉडल के संभव इनपुट-उदाहरण और एक घातीय बड़ी संख्या 2 ^ हैं।2 एन 2 एनN2N2N

यह भी है कि ऊपर दिए गए अधिकांश उत्तर ने अधिक विशिष्ट और ठोस तरीकों से क्या कहा। अच्छी तरह से सामान्य करने के लिए सबसे छोटा तरीका है, जिसके बारे में मैं सोच सकता था।


2

मैं देखता हूं कि अभ्यास में मशीन सीखने से निपटने के दो भाग हैं

  1. इंजीनियरिंग (जिसमें सभी एल्गोरिदम शामिल हैं, विभिन्न पैकेजों को सीखना, प्रोग्रामिंग करना)।

  2. जिज्ञासा / तर्क (डेटा को बेहतर प्रश्न पूछने की क्षमता)।

मुझे लगता है कि 'जिज्ञासा / तर्क' वह कौशल है जो एक को दूसरे से अलग करता है। उदाहरण के लिए, यदि आप केगल पूर्णताओं के लीडर बोर्ड को देखते हैं, तो कई लोगों ने सामान्य (समान) एल्गोरिदम का उपयोग किया हो सकता है, इससे क्या फर्क पड़ता है, कि कोई कैसे तार्किक रूप से डेटा पर सवाल उठाता है और उसे तैयार करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.