कब क्या उपयोग करना है - मशीन लर्निंग [बंद]


39

हाल ही में UPC / बार्सिलोना में प्रोफेसर ओरियोल पुजोल से मशीन लर्निंग क्लास में उन्होंने मशीन लर्निंग संबंधित कार्य की एक विस्तृत श्रृंखला के लिए उपयोग करने के लिए सबसे सामान्य एल्गोरिदम, सिद्धांतों और अवधारणाओं का वर्णन किया। यहाँ मैं उन्हें आपके साथ साझा करता हूं और आपसे पूछता हूं:

  • क्या विभिन्न प्रकार की मशीन सीखने से संबंधित समस्याओं के लिए दृष्टिकोण या विधियों के साथ कोई व्यापक रूपरेखा मिलान कार्य है?

मैं एक साधारण गाऊसी कैसे सीख सकता हूं? संभाव्यता, यादृच्छिक चर, वितरण; आकलन, अभिसरण और स्पर्शोन्मुखता, आत्मविश्वास अंतराल।

मैं गॉसियंस (MoG) का मिश्रण कैसे सीखूं? संभावना, उम्मीद-अधिकतमकरण (ईएम); सामान्यीकरण, मॉडल चयन, क्रॉस-सत्यापन; k- साधन, छिपे हुए मार्कोव मॉडल (HMM)

मैं कोई घनत्व कैसे सीखूं? पैरामीट्रिक बनाम गैर-पैरामीट्रिक अनुमान, सोबोलेव और अन्य कार्यात्मक रिक्त स्थान; l error 2 त्रुटि; कर्नेल घनत्व अनुमान (केडीई), इष्टतम कर्नेल, केडीई सिद्धांत

मैं एक निरंतर चर (प्रतिगमन) की भविष्यवाणी कैसे करूं? रैखिक प्रतिगमन, नियमितीकरण, रिज प्रतिगमन, और LASSO; स्थानीय रैखिक प्रतिगमन; सशर्त घनत्व का अनुमान।

मैं असतत चर (वर्गीकरण) की भविष्यवाणी कैसे करूं? बेयस क्लासिफायरियर, भोला बेयस, जेनेरिक बनाम भेदभावपूर्ण; अवधारणात्मक, भार क्षय, रैखिक समर्थन वेक्टर मशीन; निकटतम पड़ोसी वर्गीकरण और सिद्धांत

मुझे किस हानि कार्य का उपयोग करना चाहिए? अधिकतम संभावना अनुमान सिद्धांत; एल -2 अनुमान; बाइसियन अनुमान; न्यूनतम और निर्णय सिद्धांत, बायसिअनिज्म बनाम अक्सरवाद

मुझे किस मॉडल का उपयोग करना चाहिए? एआईसी और बीआईसी; वाप्निक-चेरवोनेंकिस सिद्धांत; क्रॉस-सत्यापन सिद्धांत; बूटस्ट्रैपिंग; संभवतः लगभग सही (PAC) सिद्धांत; घृणित-व्युत्पन्न सीमा

मैं प्रशंसक (संयुक्त) मॉडल कैसे सीख सकता हूं? सीखने के सिद्धांत को इकट्ठा करना; बढ़ाने; जीतना; स्टैकिंग

मैं प्रशंसक (नॉनलाइनर) मॉडल कैसे सीख सकता हूं? सामान्यीकृत रैखिक मॉडल, लॉजिस्टिक प्रतिगमन; कोलमोगोरोव प्रमेय, सामान्यीकृत योजक मॉडल; कर्नेलीकरण, कर्नेल हिल्बर्ट रिक्त स्थान, गैर-रेखीय SVM, गाऊसी प्रक्रिया प्रतिगमन को पुन: उत्पन्न करता है

मैं प्रशंसक (रचनाकार) मॉडल कैसे सीख सकता हूं? पुनरावर्ती मॉडल, निर्णय पेड़, श्रेणीबद्ध क्लस्टरिंग; तंत्रिका नेटवर्क, वापस प्रसार, गहरी विश्वास नेटवर्क; ग्राफिकल मॉडल, एचएमएम का मिश्रण, सशर्त यादृच्छिक क्षेत्र, अधिकतम-मार्जिन मार्कोव नेटवर्क; लॉग-रैखिक मॉडल; व्याकरण

मैं सुविधाओं को कैसे कम या संबंधित करूं? सुविधा चयन बनाम आयामीता में कमी, सुविधा चयन के लिए आवरण विधियां; सहसंबंध बनाम सहसंबंध, आंशिक सहसंबंध, बेयर्स नेट संरचना सीखने

मैं नई सुविधाएँ कैसे बनाऊँ? प्रमुख घटक विश्लेषण (पीसीए), स्वतंत्र घटक विश्लेषण (आईसीए), बहुआयामी स्केलिंग, कई गुना सीखने, पर्यवेक्षित आयामीता में कमी, मीट्रिक सीखने

मैं डेटा को कैसे कम या संबंधित करूं? क्लस्टरिंग, द्वि-क्लस्टरिंग, विवश क्लस्टरिंग; एसोसिएशन के नियम और मार्केट बास्केट विश्लेषण; रैंकिंग / क्रमिक प्रतिगमन; लिंक विश्लेषण; संबंधपरक डेटा

मैं समय श्रृंखला का इलाज कैसे करूं? ARMA; कलमन फ़िल्टर और स्टेट-स्पेस मॉडल, कण फिल्टर; कार्यात्मक डेटा विश्लेषण; परिवर्तन-बिंदु का पता लगाने; समय श्रृंखला के लिए क्रॉस-मान्यता

मैं गैर-आदर्श डेटा का इलाज कैसे करूँ? कोवरिएट शिफ्ट; वर्ग असंतुलन; लापता डेटा, अनियमित रूप से नमूना डेटा, माप त्रुटियां; विसंगति का पता लगाने, मजबूती

मैं मापदंडों को कैसे अनुकूलित करूं? असंबंधित बनाम विवश / उत्तल अनुकूलन, व्युत्पन्न-मुक्त विधियाँ, प्रथम- और द्वितीय-क्रम विधियाँ, पीछे हटना; प्राकृतिक ढाल; बाध्य अनुकूलन और ईएम

मैं रैखिक कार्यों को कैसे अनुकूलित करूं? कम्प्यूटेशनल रैखिक बीजगणित, प्रतिगमन के लिए मैट्रिक्स व्युत्क्रम, आयामी कमी के लिए एकवचन मूल्य अपघटन (SVD)

मैं बाधाओं के साथ अनुकूलन कैसे करूं? उत्तलता, लैगेंज गुणक, करुश-कुह्न-टकर की स्थिति, आंतरिक बिंदु विधियाँ, एमएमएम के लिए एसएमओ एल्गोरिथ्म

मैं गहराई से नेस्टेड योगों का मूल्यांकन कैसे करूँ? सटीक चित्रमय मॉडल निष्कर्ष, रकम पर वैचारिक सीमा, अनुमानित ग्राफिकल मॉडल अनुमान, अपेक्षा प्रसार

मैं बड़ी रकम और खोजों का मूल्यांकन कैसे करूँ? सामान्यीकृत एन-बॉडी समस्याएं (जीएनपी), पदानुक्रमित डेटा संरचनाएं, निकटतम पड़ोसी खोज, तेज एकाधिक विधि; मोंटे कार्लो एकीकरण, मार्कोव चेन मोंटे कार्लो, मोंटे कार्लो एसवीडी

मैं और भी बड़ी समस्याओं का इलाज कैसे करूँ? समानांतर / वितरित EM, समानांतर / वितरित GNP; स्टोचैस्टिक अवशिष्ट विधियाँ, ऑनलाइन शिक्षण

मैं वास्तविक दुनिया में यह सब कैसे लागू करूं? एमएल के हिस्सों का अवलोकन, प्रत्येक कार्य के लिए उपयोग करने के तरीकों के बीच चयन, पूर्व ज्ञान और मान्यताओं; अन्वेषणात्मक डेटा विश्लेषण और सूचना दृश्य; मूल्यांकन और व्याख्या, आत्मविश्वास अंतराल और परिकल्पना परीक्षण, आरओसी घटता का उपयोग करना; जहां एमएल में अनुसंधान की समस्याएं हैं


वास्तव में व्यापक। मुझे लगता है कि सार्थक उत्तर के लिए प्रत्येक उप-प्रश्न का एक अलग प्रश्न होना चाहिए।
अमीर अली अकबरी

2
यह प्रश्न बहुत व्यापक या बहुत व्यापक नहीं हो सकता है, यह इस बात पर निर्भर करता है कि आप इसे कैसे देखते हैं। यदि प्रश्न कार्यों और विधियों का विस्तृत विवरण देगा, तो यह निश्चित रूप से न केवल एक प्रश्न के लिए, बल्कि एक पुस्तक के लिए भी व्यापक होगा। हालाँकि, मुझे नहीं लगता कि यह प्रश्न उस व्याख्या का अर्थ है । मेरा मानना ​​है कि यह प्रश्न एक ढाँचा या एक वर्गीकरण चाहता है , दृष्टिकोण या विधियों के साथ मिलान कार्यों ( एल्गोरिदम और अवधारणाओं को ग्रैन्युलैरिटी मुद्दों के कारण अनदेखा किया जाना चाहिए)। उस दृष्टिकोण से, यह उत्तर बहुत व्यापक नहीं है और इस प्रकार, IMHO मान्य है।
अलेक्सांद्र ब्लेक

@AleksandrBlekh आपके द्वारा उल्लेखित प्रकार का एक ढांचा प्रश्न का आशय है। मैं इसे स्पष्ट करने के लिए संपादन कर रहा हूं। धन्यवाद
जेवियरफ्रेड

@ जेवियरफ्रेड: आपका स्वागत है।
Aleksandr Blekh

@ सीनियन मैंने मुख्य प्रश्न को संशोधित किया। कृपया मुझे बताएं कि क्या अभी भी व्यापक है और मुझे इसे तेज करने की आवश्यकता है। धन्यवाद!
जेवियरफ्रेड

जवाबों:


6

मैं @geogaffer से सहमत हूं। यह वास्तव में एक बहुत अच्छी सूची है। हालाँकि, मैं इस सूची के साथ कुछ मुद्दों को देखता हूं क्योंकि यह वर्तमान में तैयार किया गया है। उदाहरण के लिए, एक मुद्दा यह है कि सुझाव दिया समाधान अलग से कर रहे हैं के विवरण का स्तर स्तरों - उनमें से कुछ का प्रतिनिधित्व दृष्टिकोण -, कुछ तरीकों , कुछ - एल्गोरिदम बस -, और कुछ अन्य अवधारणाओं (दूसरे शब्दों में, शब्दों के एक विषय के डोमेन शब्दावली के भीतर)। इसके अलावा, - और मेरा मानना ​​है कि यह ऊपर की तुलना में बहुत अधिक महत्वपूर्ण है - मुझे लगता है कि यह बहुत मूल्यवान होगा, अगर सूची में उन सभी समाधानों को एक एकीकृत विषयगत सांख्यिकीय ढांचे के भीतर व्यवस्थित किया गया था। यह विचार लिसा हार्लो द्वारा लिखित एक उत्कृष्ट पुस्तक "मल्टीवेरेट थिंकिंग का सार" से प्रेरित था। इसलिए, हाल ही में मैंने एक संबंधित पहल की है, यद्यपि वर्तमान में कुछ सीमित है, StackExchange के क्रॉस मान्य साइट पर चर्चा । शीर्षक को आप भ्रमित न होने दें - मेरा निहित इरादा और आशा एक एकीकृत ढांचे के निर्माण के लिए है , जैसा कि ऊपर बताया गया है।


आपके द्वारा उल्लिखित वह रूपरेखा एक बहुत अच्छी बात होगी! क्या ऐसा ही कुछ लिखा जा रहा है?
जेवियरफ्रेड

@Javierfdr: ऐसा कुछ भी नहीं जिससे मैं वाकिफ हूं। हालाँकि, मैं देखता रहता हूँ।
असेम्बली बेलेख

@AleksandrBlekh जितना अधिक मैं इसके बारे में सोचता हूं उतना ही अधिक मुझे लगता है कि एक सांख्यिकीय ढांचे की खोज पथभ्रष्ट है। अपने सवाल पर फ्रैंक हरेल का जवाब और इस एक के लिए मेरा जवाब देखें। लेकिन हार्लो की पुस्तक वास्तव में दिलचस्प लग रही है और मैं इसे इस सप्ताह पुस्तकालय से लेने वाला हूं।
छायाकार

1
@ssdecontrol: मैं सम्मानपूर्वक असहमत हूं। यह मानते हुए कि ऐसा ढांचा मौजूद नहीं है (जो वर्तमान समय में सबसे अधिक संभावना है) और यह महसूस करते हुए कि इसे बनाना आसान काम नहीं है, मैं दृढ़ता से मानता हूं कि यह बहुत संभव है, फिर भी। आपके द्वारा बताए गए उत्तरों के अनुसार (मैं हमेशा उन सभी को पढ़ता हूं), मैंने दोनों को पढ़ा, लेकिन वे यह साबित नहीं करते कि इस तरह की रूपरेखा बनाना असंभव है - बस मुश्किल है, जैसा कि मैंने उल्लेख किया है। यह कुछ ऐसा नहीं है जो लोगों को इसके बारे में सोचने और यहां तक ​​कि काम करने से रोकना चाहिए। हरलो की किताब का आनंद लें।
१०:२

3

यह एक अच्छी सूची है जिसमें बहुत कुछ शामिल है। मैंने कुछ सीखने से पहले कुछ तरीकों का इस्तेमाल किया है, और मुझे लगता है कि आप कुछ तरीकों को देखेंगे जिन्हें आप समय के साथ उपयोग में ला रहे हैं। यदि कोई विधि बहुत अधिक समय से अनुकूल है, तो यह फिर से आने का समय हो सकता है। अध्ययन के विभिन्न क्षेत्रों से उत्पन्न विभिन्न नामों के पीछे कुछ विधियां बाधा बन सकती हैं।

जिन मुख्य क्षेत्रों में मैंने इन विधियों का उपयोग किया है उनमें से एक खनिज संभावित मॉडलिंग में है, जो कि भू-स्थानिक है और यह समर्थन करने के लिए कि आप स्थानिक और उन्मुख डेटा विधियों से संबंधित कुछ अतिरिक्त श्रेणियां जोड़ सकते हैं।

अपने विस्तृत प्रश्न को विशिष्ट क्षेत्रों में ले जाना संभवत: वह होगा जहां आप अपनी व्यापक सूची में नहीं तरीकों के अधिक उदाहरण पाएंगे। उदाहरण के लिए, खनिज क्षमता में मैंने जो दो तरीके देखे हैं, उनमें बैकवर्ड स्टेपवाइज रिग्रेशन और सबूत मॉडलिंग के वज़न शामिल हैं। मैं सांख्यिकीविद् नहीं हूँ; शायद इन्हें सूची में रैखिक प्रतिगमन और बायेसियन विधियों के तहत कवर किया जाएगा।


1

मुझे लगता है कि आपका दृष्टिकोण थोड़ा पीछे है।

"गॉसियन डिस्ट्रीब्यूशन का क्या मतलब है जो इस डेटा के लिए फिट है?" कभी भी समस्या का बयान नहीं होता है, इसलिए "मैं गॉसियन कैसे फिट करूं?" वह समस्या नहीं है जिसे आप वास्तव में हल करना चाहते हैं।

अंतर शब्दार्थ से अधिक है। "मैं नई सुविधाओं का निर्माण कैसे करूं" के प्रश्न पर विचार करें? यदि आपका लक्ष्य एक सूचकांक विकसित करना है, तो आप कुछ प्रकार के कारक विश्लेषण का उपयोग कर सकते हैं। यदि आपका लक्ष्य एक रेखीय मॉडल को फिट करने से पहले बस सुविधा को कम करना है, तो आप पूरी तरह से कदम को छोड़ सकते हैं और इसके बजाय लोचदार शुद्ध प्रतिगमन का उपयोग कर सकते हैं।

एक बेहतर तरीका यह होगा कि आप वास्तविक डेटा विश्लेषण कार्यों की एक सूची तैयार करें जिससे आप निपट सकें । जैसे सवाल:

मैं कैसे अनुमान लगाता हूं कि ग्राहक मेरी शॉपिंग वेबसाइट पर लौटेंगे या नहीं?

मैं कैसे सीखता हूं कि कितने "प्रमुख" उपभोक्ता खरीदारी पैटर्न हैं, और वे क्या हैं?

मैं अपने ऑनलाइन स्टोर में विभिन्न मदों के लिए "अस्थिरता" का सूचकांक कैसे बना सकता हूं?

इसके अलावा आपकी सूची में अभी भारी मात्रा में सामग्री शामिल है; बहुत अधिक "समीक्षा" करने के लिए और सतह-स्तर की समझ से अधिक प्राप्त करें। मन में एक वास्तविक उद्देश्य होने से आप अपनी प्राथमिकताओं को सुलझाने में मदद कर सकते हैं।


मैं समझता हूं कि आप जो कहते हैं @ssdecontrol, वास्तव में विशिष्ट समस्याओं के समाधान की एक व्यापक सूची है जैसा कि आप उल्लेख करते हैं कि यह बहुत उपयोगी हो सकता है। अब, दो दृष्टिकोणों के बीच मुख्य अंतर यह है कि मैं जो प्रस्ताव कर रहा हूं वह सीधे उन तकनीकी प्रश्नों से जुड़ा हुआ है जो आप स्वयं से पूछ सकते हैं जब आप पहले से ही विकल्प की कोशिश कर रहे हैं, और उस बिंदु में आपने पहले से ही कुछ धारणाएं बना रखी हैं। यदि आपने मान लिया है आपकी विशेषताएं गौसियन नहीं हैं, क्या मुझे आयामीता में कमी के लिए पीसीए का उपयोग करना चाहिए? नहीं। आपका दृष्टिकोण व्यापक है: मंद के लिए क्या उपयोग करें। कमी -> पीसीए, लेकिन गौसियन सुविधाओं को मानें। Thx
जेवियरफ्रेड

@Javierfdr मेरी बात यह है कि तकनीकी प्रश्न एक व्याकुलता है, अगर आपके मन में कोई ठोस सवाल नहीं है।
छायाकार
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.