मशीन सीखने के लिए "हॉट एल्गोरिदम" क्या हैं?


14

यह मशीन सीखने की शुरुआत करने वाले किसी व्यक्ति से एक भोला सवाल है। मैं इन दिनों मार्सलैंड की पुस्तक "मशीन लर्निंग: एन अल्गोरिथमिक परिप्रेक्ष्य" पढ़ रहा हूं। मुझे यह एक परिचयात्मक पुस्तक के रूप में उपयोगी लगता है, लेकिन अब मैं उन्नत एल्गोरिदम में जाना चाहूंगा, जो वर्तमान में सर्वोत्तम परिणाम दे रहे हैं। मैं ज्यादातर जैव सूचना विज्ञान में रुचि रखता हूं: जैविक नेटवर्क की क्लस्टरिंग और जैविक अनुक्रमों में पैटर्न ढूंढना, विशेष रूप से एकल न्यूक्लियोटाइड बहुरूपता (एसएनपी) विश्लेषण पर लागू होता है। क्या आप मुझे पढ़ने के लिए कुछ समीक्षा या किताबें सुझा सकते हैं?

जवाबों:


15

2006 से डीप लर्निंग को बहुत फोकस मिला। यह मूल रूप से गहरे तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए एक दृष्टिकोण है और यह बहुत ही कठिन डेटासेट (जैसे दस्तावेज़ क्लस्टरिंग या ऑब्जेक्ट मान्यता) पर वास्तव में प्रभावशाली परिणामों के लिए अग्रणी है। कुछ लोग दूसरे तंत्रिका नेटवर्क पुनर्जागरण के बारे में बात कर रहे हैं (उदाहरण के लिए श्मिटुबेर द्वारा इस Google में बात )।

यदि आप प्रभावित होना चाहते हैं, तो आपको इस विज्ञान पत्र को देखना चाहिए जिसमें तंत्रिका नेटवर्क, हिंटन और सलाखुद्दीनोव के साथ डेटा की आयाम को कम करना है

(उस क्षेत्र में अभी बहुत काम चल रहा है, केवल दो आगामी पुस्तकें हैं जिनके बारे में मुझे पता है कि वे इसका इलाज करेंगे: बड़े पैमाने पर मशीन सीखने , लैंगफोर्ड एट अल और मशीन लर्निंग: केविन मर्फी द्वारा एक संभाव्य परिप्रेक्ष्य ।)

यदि आप अधिक जानना चाहते हैं, तो जांच लें कि मुख्य गहन शिक्षण समूह क्या कर रहे हैं: स्टैनफोर्ड , मॉन्ट्रियल और सबसे महत्वपूर्ण टोरंटो # 1 और टोरंटो 2


8

अब तक दिए गए अधिकांश उत्तर "सुपरवाइज्ड लर्निंग" (यानी जहां आपके डेटासेट के एक हिस्से के लिए आपके पास लेबल हैं, जिसे आप एल्गोरिदम को प्रशिक्षित करने के लिए उपयोग कर सकते हैं) को देखें। प्रश्न का उल्लेख विशेष रूप से क्लस्टरिंग के रूप में किया गया है, जो एक "अनसुप्रोविज्ड" दृष्टिकोण है (अर्थात कोई लेबल पहले से ज्ञात नहीं हैं)। इस परिदृश्य में मैं सुझाव देना चाहूंगा:

  • k- साधन और कर्नेल k- साधन
  • एग्लोमेरेटिव क्लस्टरिंग
  • गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन
  • अव्यक्त डिरिचलेट आवंटन
  • डिरिचलेट प्रक्रियाएं और पदानुक्रमित डिरिचलेट प्रक्रियाएं

लेकिन वास्तव में आप शायद पाएंगे कि आपकी समानता / दूरी माप आपके द्वारा उपयोग किए जाने वाले विशिष्ट एल्गोरिदम से अधिक महत्वपूर्ण है।

यदि आपके पास कुछ लेबल किए गए डेटा हैं, तो "सेमी-सुपरवाइज्ड लर्निंग" दृष्टिकोण लोकप्रियता प्राप्त कर रहा है और बहुत शक्तिशाली हो सकता है। SSL के लिए एक अच्छा प्रारंभिक बिंदु लैप्सवीएम (लाप्लासियन सपोर्ट वेक्टर मशीन) है।


7

ये ऐसी पुस्तकें हैं जो सहायक हो सकती हैं:

  • पैंग-निंग टैन, माइकल स्टीनबैक, विपिन कुमार द्वारा डेटा खनन का परिचय । यह विश्वविद्यालय में मेरे डेटा खनन वर्गों के दौरान सुझाई गई पुस्तक थी। मुझे इसका लेआउट और सैद्धांतिक दृष्टिकोण पसंद है;
  • डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स बाय इयान एच। विटन, आइब फ्रैंक, मार्क ए हॉल। एक बहुत ही दिलचस्प किताब। इस पुस्तक में डेटा माइनिंग फ्रेमवर्क WEKA के साथ कई कार्यान्वित तकनीकें भी शामिल हैं ;
  • थॉमस मिशेल द्वारा मशीन लर्निंग । यह थोड़ी पुरानी किताब है लेकिन यह उपयोगी हो सकती है।

फिर याद रखें कि आप स्टैनफोर्ड में मशीन सीखने की मुफ्त कक्षाएं अभी शुरू कर सकते हैं: www.ml-class.com

और आपकी विशेष समस्या के लिए, यह है कि एसएनपी विश्लेषण, मैं सुझाव देगा कि डि कैम्बिलो के ग्रुप ऑफ़ पडोवा में एक नज़र डालें ।


5

यहाँ एक महान लेख और पुस्तक है जो सबसे लोकप्रिय तरीकों के औचित्य, सिद्धांत और अनुप्रयोग की व्याख्या करती है:

डेटा खनन में शीर्ष 10 एल्गोरिदम

यह विशेष रूप से साफ-सुथरा है क्योंकि यह क्षेत्र में मतदान विशेषज्ञों द्वारा चुना गया "शीर्ष 10" है।

इसके अलावा, सामान्य रूप से जीन डेटा के लिए, कई विशेषताओं के कारण फीचर का चयन बेहद महत्वपूर्ण है। उदाहरण के लिए, SVM पुनरावर्ती सुविधा उन्मूलन (SVM-RFE) और संबंधित विधियां बहुत लोकप्रिय हैं और जीन डेटा के संदर्भ में सक्रिय रूप से विकसित और लागू की जा रही हैं।


4

बूस्टेड पेड़ और svm के कुछ रूप बहुत सारी प्रतियोगिताओं को जीतते हैं, लेकिन यह हमेशा संदर्भ में आता है। कई गुना नियमितीकरण के साथ ही कटाव भी है।


4

मैं "द एलिमेंट्स ऑफ़ स्टैटिस्टिकल लर्निंग", हस्ति, तिब्शीरानी और फ्रीडमैन द्वारा सुझाता हूँ। बस इसे न पढ़ें, उनके द्वारा वर्णित कुछ एल्गोरिदम के साथ खेलें (उनमें से अधिकांश आर में कार्यान्वित किए जाते हैं, या आप कुछ खुद को भी लागू कर सकते हैं), और उनके कमजोर और मजबूत बिंदुओं को सीख सकते हैं।



3

रासमुसेन और विलियम्स (MIT प्रेस) द्वारा मशीन लर्निंग के लिए गॉसियन प्रोसेस एक आवश्यक है। गॉसियन प्रक्रिया मशीन लर्निंग के लिए हॉट एल्गोरिदम में से एक है जो अब एक्सपेक्टेशन प्रोपेगैशन और वैरिएबल इंट्रेंस एल्गोरिदम उपलब्ध हैं। पुस्तक बहुत अच्छी तरह से लिखी गई है, एक मुफ्त MATLAB टूलबॉक्स (किट का अच्छा सा) है, और पुस्तक मुफ्त में डाउनलोड की जा सकती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.