मुझे लगता है कि यह रैंडम फ़ॉरेस्ट ( randomForest ) को एक कोशिश देने के लायक होगा ; संबंधित प्रश्नों के जवाब में कुछ संदर्भ प्रदान किए गए थे: मशीन लर्निंग में क्रॉस-सत्यापन करते समय "अंतिम" मॉडल के लिए फ़ीचर चयन ; क्या CART मॉडल को मजबूत बनाया जा सकता है? । बूस्टिंग / बैगिंग उन्हें एकल कार्ट की तुलना में अधिक स्थिर प्रदान करता है जिसे छोटे गड़बड़ी के लिए बहुत संवेदनशील माना जाता है। कुछ लेखकों ने तर्क दिया कि इसने एसवीएम या ग्रैडिएंट बूस्टिंग मशीन (देखें, उदाहरण के लिए कटलर एट अल।, 2009) को दंडित किया । मुझे लगता है कि वे निश्चित रूप से एनएन से बेहतर प्रदर्शन करते हैं।
बोलेस्टिक्स और स्ट्रोब ने ऑप्टिमल क्लासिफायर सिलेक्शन में कई क्लासिफायर का एक अच्छा ओवरव्यू और एरर रेट एस्टीमेशन में नेगेटिव पूर्वाग्रह प्रदान करता है : हाई-डायमेंशनल प्रेडिक्शन (बीएमसी एमआरएम 2009 9: 85) पर एक अनुभवजन्य अध्ययन । मैंने IV EAM की बैठक में एक और अच्छे अध्ययन के बारे में सुना है , जो कि चिकित्सा में सांख्यिकी की समीक्षा के तहत होना चाहिए ,
जोआ मरोको , दीना सिल्वा, मैनुएला गुएरेरो , अलेक्जेंड्रे डी मेंडोंका। क्या रैंडम फ़ॉरेस्ट्स आउटपरफॉर्म न्यूरल नेटवर्क्स, सपोर्ट वेक्टर मशीनें और डिस्क्रिमिनेंट एनालिसिस क्लासिफायरर्स? संज्ञानात्मक शिकायतों के साथ बुजुर्ग रोगियों में मनोभ्रंश के विकास में एक मामला अध्ययन
मुझे कैरट पैकेज भी पसंद है : यह अच्छी तरह से प्रलेखित है और एक ही डेटा सेट पर विभिन्न क्लासिफायर की भविष्यवाणी सटीकता की तुलना करने की अनुमति देता है। यह कुछ उपयोगकर्ता के अनुकूल कार्यों में प्रशिक्षण / परीक्षण नमूने, कंप्यूटिंग सटीकता, आदि के प्रबंधन का ख्याल रखता है।
Glmnet पैकेज, फ्राइडमैन और coll से।, औजार दंडित GLM (में समीक्षा देखें सांख्यिकीय सॉफ्टवेयर के जर्नल ) है, तो आप एक प्रसिद्ध मॉडलिंग ढांचे में रहते हैं।
अन्यथा, आप एसोसिएशन नियमों पर आधारित क्लासिफायर के लिए भी देख सकते हैं ( उनमें से कुछ के लिए सौम्य परिचय के लिए डेटा माइनिंग में सीआरएएन टास्क व्यू या मशीन लर्निंग में शीर्ष 10 एल्गोरिदम देखें )।
मैं एक और दिलचस्प दृष्टिकोण का उल्लेख करना चाहता हूं जिसे मैं आर में फिर से लागू करने की योजना बना रहा हूं (वास्तव में, यह मैटलैब कोड है) जो कि हर्वे आब्दी से भेदभावपूर्ण पत्राचार विश्लेषण है। हालाँकि शुरुआत में बहुत सारे व्याख्यात्मक चरों के साथ छोटे-नमूना अध्ययनों का सामना करने के लिए विकसित किया गया था (अंततः सुसंगत ब्लॉकों में समूहित), यह कुशलतापूर्वक डेटा कटौती तकनीकों के साथ शास्त्रीय डीए को संयोजित करने के लिए लगता है।
संदर्भ
- कटलर, ए।, कटलर, डीआर, और स्टीवंस, जेआर (2009)। ट्री-बेस्ड मेथड्स , इन हाई-डायमेंशनल डेटा एनालिसिस इन कैंसर रिसर्च , ली, एक्स। एंड जू, आर। (एड।), पीपी। 83-101, स्प्रिंगर।
- सैयस, वाई।, इंज़ा, आई।, और लारनागा, पी। (2007)। जैव सूचना विज्ञान में सुविधा चयन तकनीकों की समीक्षा । जैव सूचना विज्ञान, 23 (19): 2507-2517।