मशीन लर्निंग एल्गोरिदम का अध्ययन: समझ की गहराई बनाम एल्गोरिदम की संख्या


13

हाल ही में मुझे डेटा साइंस (इसके 6 महीने लगभग हो गए हैं) के क्षेत्र में पेश किया गया था, और Ii ने एंड्रयू एनजी द्वारा मशीन लर्निंग कोर्स और जेएचयू द्वारा डेटा साइंस स्पेशलाइजेशन पर काम करना शुरू कर दिया था।

व्यावहारिक अनुप्रयोग के मोर्चे पर, मैं एक भविष्य कहनेवाला मॉडल बनाने पर काम कर रहा हूं जो कि भविष्यवाणी की भविष्यवाणी करेगा। अब तक मैंने इन विधियों को सीखने और लागू करने के प्रयास में glm, besglm, rf का उपयोग किया है, लेकिन मुझे इन एल्गोरिदम की मेरी समझ में बहुत अंतर है।

मेरी मूल दुविधा है:

क्या मुझे कुछ एल्गोरिदम की पेचीदगियों को सीखने पर अधिक ध्यान केंद्रित करना चाहिए या क्या मुझे आवश्यकता होने पर उनमें से बहुत से जानने के दृष्टिकोण का उपयोग करना चाहिए?

कृपया सही दिशा में मेरा मार्गदर्शन करें, हो सकता है कि किताबें या लेख या ऐसा कुछ भी सुझाएं जो आपको लगता है कि मदद करेगा।

मैं आभारी रहूंगा यदि आप किसी ऐसे व्यक्ति का मार्गदर्शन करने के विचार के साथ जवाब देंगे, जिसने अभी डेटा साइंस के क्षेत्र में अपना करियर शुरू किया है, और वह ऐसा व्यक्ति बनना चाहता है जो व्यवसाय की दुनिया के लिए व्यावहारिक मुद्दों को हल करता है।

मैं इस पोस्ट में सुझाए गए (जितने संभव हो) संसाधन (किताबें, लेख) पढ़ूंगा और उसी के पेशेवरों और विपक्षों को एक व्यक्तिगत फ़ीड प्रदान करूंगा ताकि यह एक समान प्रश्न के लिए आने वाले लोगों के लिए एक उपयोगी पोस्ट बना सके। भविष्य में, और मुझे लगता है कि यह बहुत अच्छा होगा यदि लोग इन पुस्तकों का सुझाव दें तो ऐसा ही कर सकते हैं।

जवाबों:


9

मैं अपने आप को कुछ आजमाए हुए और विश्वसनीय एल्गोरिदम तक सीमित रखने की सलाह दूंगा। मैं सांख्यिकीय शिक्षा के तत्वों (पहली पुस्तक के रूप में) की सिफारिश नहीं करूंगा। यह बहुत ही सैद्धांतिक है, स्नातक छात्रों के उद्देश्य से, एक्स या वाई को साबित करने के लिए अभ्यास के साथ ... मुझे लगता है कि आईएसएल अधिक उपयुक्त है, अधिक व्यावहारिक सलाह के साथ (किसी भी स्थिति में दोनों पुस्तकें पीडीएफ डाउनलोड के रूप में मुफ्त हैं)।

आँकड़ों के अलावा, मैं यह सुनिश्चित करूँगा कि आप प्रायोगिक डिज़ाइन / एबी परीक्षणों के साथ और बिजनेस इंटेलिजेंस / विज़ुअलाइज़ेशन के साथ सहज हों।


सराहना करेंगे यदि आप कुछ एल्गोरिदम सुझा सकते हैं कि किसी को भी MISS ON नहीं करना चाहिए, या यह कहना बेहतर होगा कि व्यावहारिक व्यावसायिक मुद्दों को हल करने के लिए सबसे उपयोगी हैं। यदि संभव हो तो उन्हें सीखने के सर्वोत्तम तरीकों का उल्लेख करें (विशेष किताबें, स्वयं सहायता लेख या परीक्षण और त्रुटि हो सकती है)

2
मैं आईएसएल में बहुत सारे अल्गोस कहूंगा: रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन, पेड़ आधारित विधियां, एसवीएम; क्लस्टरिंग और आयाम में कमी जैसे पीसीए। पुस्तक के माध्यम से जाओ और इसी ऑनलाइन पाठ्यक्रम ( online.stanford.edu/course/statutic-learning-winter-2014 - शायद youtube पर?) को देखें।
seanv507

महान संसाधन, स्वयं लेखक द्वारा उसी पर एक पुस्तक और वीडियो रखना अच्छा है। लिंक के लिए बहुत कुछ, इसके बारे में पता नहीं था।
विनय तिवारी

मुझे खेद है, लेकिन यह बहुत अच्छी सलाह है। एक डेटा वैज्ञानिक को कुछ एल्गोरिदम पर भरोसा नहीं करना चाहिए। आपको डेटा और विश्लेषण के अपने स्वयं के कौशल पर भरोसा करने की आवश्यकता है और कोई भी दो डेटा समस्याएं समान नहीं हैं। कुछ को एक्स के साथ हल किया जाएगा, दूसरे को वाई के साथ। यह डेटा ब्रह्मांड से आपके कुछ एल्गोरिदम के लिए उम्मीद करने के लिए उचित नहीं है। जिज्ञासु बनो, लचीला बनो, ज्ञानवान बनो और नौकरी के लिए सही उपकरण का उपयोग करो, न कि केवल उन लोगों के बारे में जो आप जानते हैं।
I_Play_With_Data 19

5

संभवतः कोई व्यक्ति जो स्वयं को डेटा वैज्ञानिक कह रहा है, उसे अपने द्वारा उपयोग किए जाने वाले एल्गोरिदम की जटिलताओं के बारे में अधिक जानना चाहिए - जैसे कि जीएलएम में फिशर स्कोरिंग एल्गोरिथ्म के अभिसरण दर को प्रभावित करता है - एक आम या बगीचे के सांख्यिकीविद् की तुलना में - जो केवल यह जानने के लिए संतुष्ट हो सकते हैं कि अधिकतम संभावना समाधान मिल जाएगा (शायद वे एक कप कॉफी बनाने के बाद)। किसी भी मामले में आंकड़ों और मशीन सीखने की सामान्य अवधारणाओं को समझने के लिए आपके द्वारा उपयोग किए जाने वाले तरीकों के साथ-साथ सिद्धांत के अलावा महत्वपूर्ण है - उनके पीछे का सिद्धांत, वे जो धारणाएं बनाते हैं, आपको क्या निदान करना चाहिए, परिणामों की व्याख्या कैसे करें। इस पैरोडी से बचें ।

आप शायद हस्ती एट अल को पढ़ने का आनंद लेंगे (2009), द एलिमेंट्स ऑफ़ स्टैटिस्टिकल लर्निंग


जरूर पढ़िएगा! वास्तव में अंतिम पंक्ति पसंद है ... मुझे लगता है कि आग्रह और कभी-कभी एएसएपी परिणाम प्राप्त करने का दबाव ऐसे पैरोडी की ओर जाता है। और इसके विपरीत से बचने के लिए समान रूप से महत्वपूर्ण है जिसमें एक सीखने में इतना गहरा जाता है कि यह वास्तविक दुनिया के मुद्दों के लिए बेकार हो जाता है। बढ़ते / सीखते समय कभी-कभी यह जानना अधिक महत्वपूर्ण होता है कि क्या नहीं करना है, मार्गदर्शन के लिए बहुत बहुत धन्यवाद ऐसी अंतर्दृष्टि देखने के लिए जो मुझे और दूसरों को एक समान यात्रा पर बताएगी।

"GLM में फिशर स्कोरिंग एल्गोरिदम की अभिसरण दर को क्या प्रभावित करता है" - मुझे लगता है कि आपने यहां डेटा वैज्ञानिकों का 99% खो दिया है।

@ मैमो: ठीक है, "डेटा वैज्ञानिक" उन बीमार-तारांकित शब्दों में से एक है, जिन्हें विचलन शुरू करने से पहले मुश्किल से मुद्रा प्राप्त हुई है।
स्कॉर्टी -

2

खैर, मैं कहूंगा कि 1 या 2 एल्गोरिदम की जटिलताओं को विस्तार से जानना (जैसे उनके मापदंडों के आंतरिक कामकाज) निश्चित रूप से यह जानना बेहतर है कि उनमें से एक गुच्छा कैसे चलाया जाए।

मैं लगभग 11 साल से एनालिटिक्स क्षेत्र में हूं और 2.5 साल के लिए डेटा साइंटिस्ट हूं और अनुभव से बोल रहा हूं। दूसरी ओर, आपको निश्चित रूप से अन्य चीजों के बारे में पता होना चाहिए (अधिक हाल के एल्गोरिदम जैसे गहरी शिक्षा, एसवीएम, एक्सग्बोस्ट आदि) जो हाथ में आपकी समस्या के लिए अधिक लागू हो सकते हैं।

मुझे लगता है कि डॉ। एंड्रयू एनजी का पाठ्यक्रम कुछ एल्गोरिदम के काफी विवरण में चला गया है और यह एक अच्छी शुरुआत है। जैसा कि अन्य ने बताया है, http://statweb.stanford.edu/~tibs/ElemStatLearn/ एक अच्छी किताब है और इसमें इसके साथ जाने के लिए वीडियो हैं।

यह मेरी निजी राय है, जिन एल्गोरिदम को आपको याद नहीं करना चाहिए, वे हैं: (इन्हें विस्तार से जानें):

1) मल्टीपल लीनियर रिग्रेशन 2) लॉजिस्टिक रिग्रेशन 3) पीसीए 4 की तरह डायमेंशनलिटी रिडक्शन की कॉमन तकनीक 4) के-मीन्स क्लस्टरिंग 5) नॉन-लीनियर रिग्रेशन 6) ऑप्टिमाइजेशन मेथड्स: ग्रेडिएंट बेस्ड सर्च मेथड्स, लीनियर प्रोग्रामिंग एंड डिसक्रीट ऑप्टिमाइजेशन 7: कॉन्सेप्ट्स एंड एल्गोरिदम इंजीनियरिंग में 8) सरल समय-श्रृंखला पूर्वानुमान के तरीके

अधिक गूढ़ एल्गोरिदम:

1) रैंडम फ़ॉरेस्ट 2) एसवीएम 3) गहन शिक्षण 4) एलडीए 5 की तरह आयामीता में कमी के अन्य तरीके 5) अन्य कर्नेल आधारित विधियाँ 6) जेनेटिक एल्गोरिदम 7) एक्सगबोस्ट 8) डायनेमिक प्रतिगमन 9) गार्च / एआरसीएच 10) संरचनात्मक समीकरण मॉडलिंग 11) बॉक्स जेंकिंस मेथड्स इन टाइम-सीरीज फोरकास्टिंग 12) सूचना सिद्धांत: सूचना लाभ, पारस्परिक लाभ आदि।


0

मैं ऐसी ही स्थिति में था। मैंने यहां और प्रत्येक एल्गोरिथ्म के साथ शुरुआत की (और बहुत विस्तार से)।

यहाँ छवि विवरण दर्ज करें

हालाँकि, मुझे जल्द ही पता चला कि मशीन / डीप लर्निंग में शिक्षा वास्तविक तेजी से आगे बढ़ रही है, और हमेशा तेज / अत्याधुनिक एल्गोरिदम के साथ आ रही है जो कई वास्तविक दुनिया के अनुप्रयोगों में पारंपरिक एल्गोरिदम को आगे बढ़ाने के लिए एक लंबा रास्ता तय करती है । इसलिए, नवीनतम रुझानों के साथ अपडेट किया जाना हमेशा बेहतर होता है। मेरा सुझाव है (जैसा कि मैं आमतौर पर खुद करता हूं) एक अच्छे न्यूज़फ़ीड (जैसे मध्यम) या एक अद्भुत, अत्याधुनिक शोध पत्रिका की सदस्यता हड़पने के लिए और इसका पालन करता हूं। कई बार अद्भुत एल्गोरिदम एक विशेष समस्या (शायद आपके समान) से निपटने वाले शोध पत्रों से आते हैं।

मुद्दा यह है कि एक अच्छा डेटा-वैज्ञानिक (या एक एमएल इंजीनियर) होने के लिए, आपको गहराई और चौड़ाई दोनों का मिश्रण चाहिए। मुझे व्यक्तिगत रूप से उनकी सतह पर बहुत सारे एल्गोरिदम जानने के लिए उपयोगी लगता है (बस वे क्या करते हैं, जब उनका उपयोग किया जाता है, पेशेवरों और विपक्ष)। मैं उनके पास लौटता हूं जब मुझे लगता है ( केवल लगता है ) वे मुझे एक विशेष समस्या को हल करने में मदद कर सकते हैं। मैंने उन्हें विस्तार से पढ़ा और देखा कि क्या वे एक अच्छे फिट हैं। वे, या वे नहीं हो सकता है। लेकिन विवरणों के बारे में सोचना यह सुनिश्चित करने के लिए आवश्यक है कि आप उस दृष्टिकोण में अंतर्दृष्टि की कमी के कारण आपकी समस्या के लिए एक अद्भुत दृष्टिकोण से चूक न जाएं। उदाहरण के लिए, एक बार जब मैं किसी ऐसी चीज पर काम कर रहा था जिसके लिए ऑब्जेक्ट डिटेक्शन (हालांकि बहुत सरल) आवश्यक था। मैंने आर-सीएनएन, फास्ट-सीएनएन, योलो के बारे में कहीं पढ़ा। मैंने तुरंत उन्हें देखने के लिए कहा कि क्या वे अच्छी तरह से फिट होते हैं उस दिन मैं उन्हें अधिक विस्तार से जानता था।

क्या मुझे कुछ एल्गोरिदम की पेचीदगियों को सीखने पर अधिक ध्यान केंद्रित करना चाहिए या क्या मुझे आवश्यकता होने पर उनमें से बहुत से जानने के दृष्टिकोण का उपयोग करना चाहिए?

पेचीदगियों को सीखना अद्भुत है। हालांकि, दुनिया वास्तविक तेज गति से चलती है। एक नया एल्गोरिथ्म हो सकता है, जिसे आप बड़े विस्तार के साथ सीखते हैं। यह समय है, इसलिए, उस उपयोग को बाहर निकालने के लिए और देखें कि क्या नया आपको अधिक अच्छा करता है।

जरूरत पड़ने पर चीजें सीखें। और जरूरत पड़ने पर उन्हें विस्तार से जानें। आपको चीजों को लागू करने में सक्षम होना चाहिए यदि आपको लगता है कि वे शायद काम कर सकते हैं। और यह अंतर्दृष्टि ज्ञान से आती है।

सौभाग्य।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.