अस्वीकरण: यह निश्चित रूप से सवाल का एक पूर्ण उत्तर होने से बहुत दूर है!
मुझे लगता है कि ऐसे सभी तरीकों के बीच अंतर स्थापित करने से पहले विचार करने के लिए कम से कम दो स्तर हैं:
- चाहे एक मॉडल फिट है : या नहीं यह रसद प्रतिगमन तरह का विरोध करने के तरीकों में मदद करता है बनाम आरएफ या ढाल बढ़ाने (या अधिक आम तौर पर एनसेंबल तरीकों ), और भी बनाम वर्गीकरण या (संबद्ध asymptotic या बूटस्ट्रैप विश्वास के अंतराल के साथ) पैरामीटर आकलन पर जोर दिया भविष्यवाणी सटीकता संगणना;
- चाहे सभी चर पर विचार कर रहे हैं या नहीं: इस अर्थ में, सुविधा चयन का आधार है कि दण्डनीय ठहराए जाने या नियमितीकरण "अनियमित" डेटा सेट (उदाहरण के लिए, बड़े से निपटने के लिए अनुमति देता है और / या छोटे ) और निष्कर्षों के generalizability में सुधार होगा।पीn
यहाँ कुछ अन्य बिंदु हैं जो मुझे लगता है कि प्रश्न के लिए प्रासंगिक हैं।
यदि हम कई मॉडलों पर विचार करते हैं - एक ही मॉडल उपलब्ध डेटा के अलग-अलग सबसेट (व्यक्तियों और / या चर) पर फिट किया जाता है, या अलग-अलग प्रतिस्पर्धी मॉडल एक ही डेटा सेट पर फिट किए जाते हैं - , बचने के लिए क्रॉस-सत्यापन का उपयोग किया जा सकता है ओवरफिटिंग और प्रदर्शन या मॉडल का चयन, हालांकि सीवी इस विशेष मामलों तक सीमित नहीं है (इसका उपयोग जीएएम के साथ किया जा सकता है या उदाहरण के लिए जीएलएम को दंडित किया जा सकता है )। इसके अलावा, पारंपरिक व्याख्या मुद्दा है: अधिक जटिल मॉडल अक्सर अधिक जटिल व्याख्या (अधिक मापदंडों, अधिक कठोर मान्यताओं, आदि) का अर्थ है।
ढाल बढ़ाने और RFS एक भी निर्णय वृक्ष की सीमाओं को पार, करने के लिए धन्यवाद बढ़ाने जिसका मुख्य विचार के लिए एक और अधिक सटीक और स्थिर फैसले के नियम बनाने के लिए कई कमजोर सीखने वाले एल्गोरिदम के उत्पादन में गठबंधन करने के लिए है, और जीतना है जहाँ हम "औसत" परिणामों पर डेटा सेट को फिर से जारी किया। कुल मिलाकर, वे अक्सर अधिक "शास्त्रीय" मॉडल जहां मॉडल प्रदान की जाती हैं के लिए स्पष्ट विनिर्देशों की तुलना में ब्लैक बॉक्स के कुछ प्रकार के रूप में देखा जाता (मैं मॉडल के तीन वर्गों के बारे में सोच सकते हैं: parameteric , अर्द्ध पैरामीट्रिक , गैर पैरामीट्रिक ), लेकिन मुझे लगता है कि इस अन्य सूत्र द टू कल्चर: सांख्यिकी बनाम मशीन लर्निंग के तहत आयोजित चर्चा ? दिलचस्प दृष्टिकोण प्रदान करते हैं।
फ़ीचर चयन और कुछ एमएल तकनीकों के बारे में कुछ कागजात यहां दिए गए हैं:
- Saeys, Y, Inza, I और Larrañaga, P. Bioinformatics, Bioinformatics (2007) 23 (19): 2507-2517 में फ़ीचर चयन तकनीकों की समीक्षा करते हैं।
- डफ़र्टी, ईआर, हुआ जे और सिमा, सी। फ़ीचर सिलेक्शन मेथड्स का प्रदर्शन , करंट जीनोमिक्स (2009) 10 (6): 365-374।
- Boulesteix, AL और Strobl, C. Optimal वर्गीकारक चयन और त्रुटि दर अनुमान में नकारात्मक पूर्वाग्रह: उच्च आयामी भविष्यवाणी , BMC चिकित्सा अनुसंधान पद्धति (2009) 9:85 पर एक अनुभवजन्य अध्ययन ।
- कारुआना, आर और निकुलेस्कु-मिज़िल, ए । सुपरवाइज्ड लर्निंग एल्गोरिदम की एक अनुभवजन्य तुलना । मशीन लर्निंग पर 23 वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही (2006)।
- फ्रीडमैन, जे, हस्ती, टी, और टिब्शीरानी, आर। एडिटिव लॉजिस्टिक रिग्रेशन: एन स्टैटिस्टिक्स ऑफ़ बूस्टिंगिंग एन,। सांख्यिकीविद। (2000) 28 (2): 337-407। (चर्चा के साथ)
- ओल्डन, जेडी, लॉलर, जेजे, और पोफ, एनएल। आँसू के बिना मशीन सीखने के तरीके: पारिस्थितिकीविदों के लिए एक प्राइमर , क्यू रेव बायोल। (2008) 83 (2): 171-93
और हां, द एलीमेंट ऑफ स्टैटिस्टिकल लर्निंग , हेस्टी एंड कोल द्वारा।, चित्र और संदर्भों से भरा है। एंड्रयू मूर से सांख्यिकीय डेटा खनन ट्यूटोरियल की जांच करना सुनिश्चित करें ।