बेहतर भविष्य कहे जाने वाले (उदाहरण: CV) प्रदर्शन के साथ पेड़ों के वर्गीकरण के विकल्प?


23

मैं वर्गीकरण पेड़ों के लिए एक विकल्प की तलाश कर रहा हूं जो बेहतर भविष्य कहनेवाला शक्ति प्राप्त कर सकता है।

मैं जिस डेटा के साथ काम कर रहा हूं, उसमें व्याख्यात्मक और व्याख्या किए गए चर दोनों के कारक हैं।

मुझे याद है कि इस संदर्भ में यादृच्छिक जंगलों और तंत्रिका नेटवर्क में आना, हालांकि पहले कभी भी उन्हें आज़माया नहीं गया था, क्या ऐसे मॉडलिंग कार्य के लिए एक और अच्छा उम्मीदवार है (आर में, जाहिर है)?


5
तंत्रिका नेटवर्क के साथ परेशान मत करो, यह एक अप्रचलित तकनीक है।

1
@mbq क्या आप अभी भी इस कथन से खड़े हैं?
rhombidodecahedron

@rhombidodecahedron ज़रूर, 2010 से NN के साथ खेलते हैं और आप सहमत होंगे। इसके अलावा, मुझे संदेह है कि कोई भी डीएल मॉडल ऐसे छोटे आकार के (संभवत:) डेटा के साथ एक तालिका में कुछ भी लाएगा।

जवाबों:


25

मुझे लगता है कि यह रैंडम फ़ॉरेस्ट ( randomForest ) को एक कोशिश देने के लायक होगा ; संबंधित प्रश्नों के जवाब में कुछ संदर्भ प्रदान किए गए थे: मशीन लर्निंग में क्रॉस-सत्यापन करते समय "अंतिम" मॉडल के लिए फ़ीचर चयन ; क्या CART मॉडल को मजबूत बनाया जा सकता है? । बूस्टिंग / बैगिंग उन्हें एकल कार्ट की तुलना में अधिक स्थिर प्रदान करता है जिसे छोटे गड़बड़ी के लिए बहुत संवेदनशील माना जाता है। कुछ लेखकों ने तर्क दिया कि इसने एसवीएम या ग्रैडिएंट बूस्टिंग मशीन (देखें, उदाहरण के लिए कटलर एट अल।, 2009) को दंडित किया । मुझे लगता है कि वे निश्चित रूप से एनएन से बेहतर प्रदर्शन करते हैं।

बोलेस्टिक्स और स्ट्रोब ने ऑप्टिमल क्लासिफायर सिलेक्शन में कई क्लासिफायर का एक अच्छा ओवरव्यू और एरर रेट एस्टीमेशन में नेगेटिव पूर्वाग्रह प्रदान करता है : हाई-डायमेंशनल प्रेडिक्शन (बीएमसी एमआरएम 2009 9: 85) पर एक अनुभवजन्य अध्ययन । मैंने IV EAM की बैठक में एक और अच्छे अध्ययन के बारे में सुना है , जो कि चिकित्सा में सांख्यिकी की समीक्षा के तहत होना चाहिए ,

जोआ मरोको , दीना सिल्वा, मैनुएला गुएरेरो , अलेक्जेंड्रे डी मेंडोंका। क्या रैंडम फ़ॉरेस्ट्स आउटपरफॉर्म न्यूरल नेटवर्क्स, सपोर्ट वेक्टर मशीनें और डिस्क्रिमिनेंट एनालिसिस क्लासिफायरर्स? संज्ञानात्मक शिकायतों के साथ बुजुर्ग रोगियों में मनोभ्रंश के विकास में एक मामला अध्ययन

मुझे कैरट पैकेज भी पसंद है : यह अच्छी तरह से प्रलेखित है और एक ही डेटा सेट पर विभिन्न क्लासिफायर की भविष्यवाणी सटीकता की तुलना करने की अनुमति देता है। यह कुछ उपयोगकर्ता के अनुकूल कार्यों में प्रशिक्षण / परीक्षण नमूने, कंप्यूटिंग सटीकता, आदि के प्रबंधन का ख्याल रखता है।

Glmnet पैकेज, फ्राइडमैन और coll से।, औजार दंडित GLM (में समीक्षा देखें सांख्यिकीय सॉफ्टवेयर के जर्नल ) है, तो आप एक प्रसिद्ध मॉडलिंग ढांचे में रहते हैं।

अन्यथा, आप एसोसिएशन नियमों पर आधारित क्लासिफायर के लिए भी देख सकते हैं ( उनमें से कुछ के लिए सौम्य परिचय के लिए डेटा माइनिंग में सीआरएएन टास्क व्यू या मशीन लर्निंग में शीर्ष 10 एल्गोरिदम देखें )।

मैं एक और दिलचस्प दृष्टिकोण का उल्लेख करना चाहता हूं जिसे मैं आर में फिर से लागू करने की योजना बना रहा हूं (वास्तव में, यह मैटलैब कोड है) जो कि हर्वे आब्दी से भेदभावपूर्ण पत्राचार विश्लेषण है। हालाँकि शुरुआत में बहुत सारे व्याख्यात्मक चरों के साथ छोटे-नमूना अध्ययनों का सामना करने के लिए विकसित किया गया था (अंततः सुसंगत ब्लॉकों में समूहित), यह कुशलतापूर्वक डेटा कटौती तकनीकों के साथ शास्त्रीय डीए को संयोजित करने के लिए लगता है।

संदर्भ

  1. कटलर, ए।, कटलर, डीआर, और स्टीवंस, जेआर (2009)। ट्री-बेस्ड मेथड्स , इन हाई-डायमेंशनल डेटा एनालिसिस इन कैंसर रिसर्च , ली, एक्स। एंड जू, आर। (एड।), पीपी। 83-101, स्प्रिंगर।
  2. सैयस, वाई।, इंज़ा, आई।, और लारनागा, पी। (2007)। जैव सूचना विज्ञान में सुविधा चयन तकनीकों की समीक्षा । जैव सूचना विज्ञान, 23 (19): 2507-2517।

2
+1 महान जवाब। मैं कार्यवाहक अनुशंसा से भी सहमत हूं।
शेन

12

यह ध्यान रखना महत्वपूर्ण है कि कोई भी एल्गोरिथ्म नहीं है जो हमेशा दूसरों से बेहतर हो। जैसा कि वोल्परट और मैक्डरे ने कहा था, "जब कोई भी संभावित सभी समस्याओं का प्रदर्शन होता है, तो दो एल्गोरिथम बराबर होते हैं।" ( विवरण के लिए विकिपीडिया देखें।)

किसी दिए गए एप्लिकेशन के लिए, "सर्वश्रेष्ठ" एक आम तौर पर एक होता है जो आपके एप्लिकेशन को उन मान्यताओं के संदर्भ में सबसे अधिक निकटता से जोड़ता है, जो इसे बनाए जाने वाले डेटा के प्रकार को संभाल सकता है, परिकल्पना यह प्रतिनिधित्व कर सकता है, और इसी तरह।

इसलिए मापदंड के अनुसार अपने डेटा को चिह्नित करना एक अच्छा विचार है:

  • क्या मेरे पास एक बहुत बड़ा डेटा सेट या एक मामूली है?
  • क्या आयामीता अधिक है?
  • क्या चर संख्यात्मक (निरंतर / असतत) या प्रतीकात्मक, या एक मिश्रण हैं, और / या यदि आवश्यक हो तो उन्हें रूपांतरित किया जा सकता है?
  • क्या चर काफी हद तक स्वतंत्र या काफी निर्भर होने की संभावना है?
  • क्या अतिरेक, शोर या अप्रासंगिक चर होने की संभावना है?
  • क्या मैं उत्पन्न मॉडल का निरीक्षण करने में सक्षम होना चाहता हूं और इसे समझने की कोशिश करना चाहता हूं?

इनका उत्तर देकर, आप कुछ एल्गोरिदम को समाप्त कर सकते हैं और दूसरों को संभावित रूप से प्रासंगिक के रूप में पहचान सकते हैं, और फिर शायद उम्मीदवार विधियों के एक छोटे से सेट के साथ समाप्त होते हैं जिन्हें आपने समझदारी से उपयोगी होने की संभावना के रूप में चुना है।

क्षमा करें, आपको एक सरल उत्तर नहीं दिया गया है, लेकिन मुझे आशा है कि यह फिर भी मदद करता है!


2
+ 1 बोली से प्यार करो। ("कोई भी दो एल्गोरिदम बराबर हैं जब उनका प्रदर्शन सभी संभावित समस्याओं के औसत के बराबर होता है।")
असद अब्राहिम

8

बहु-श्रेणी वर्गीकरण के लिए, समर्थन वेक्टर मशीनें भी एक अच्छा विकल्प हैं। मैं आमतौर पर इसके लिए R kernlab पैकेज का उपयोग करता हूं।

अच्छी चर्चा के लिए निम्नलिखित JSS पेपर देखें: http://www.jstatsoft.org/v15/i09/


@ ताल यहाँ एक मेला है (या मुझे ऐसा लगता है) एसवीएम बनाम आरएफ की समीक्षा : यादृच्छिक जंगलों की एक व्यापक तुलना और माइक्रोएरे-आधारित कैंसर वर्गीकरण के लिए वेक्टर मशीनों का समर्थन, j.mp/ab7U8V । मुझे भी पसंद kernlabहै e1071
CHL

2
@ मुझे यह पेपर पसंद नहीं है, जबकि यह एसवीएम सीखने के नजरिए से बनाया गया है - स्टोचस्टिक एल्गोरिथ्म (आरएफ) का एक पुनरावृत्ति सिर्फ एक कबाड़ है; परिशिष्ट 2 यह भी दर्शाता है कि RFM में SVM वर्कफ़्लो को लागू करना कितना बुरा हो सकता है। फिर भी मैं मानता हूं कि कर्नेल ट्रिक के कारण लगभग हमेशा SVM को आउटपरफॉर्म RF के लिए ट्यून किया जा सकता है (जो कि प्लेन RF के पास नहीं है, जबकि इसका मतलब यह नहीं है कि यह सामान्य रूप से नहीं हो सकता है), लेकिन घातीय रूप से बढ़ते अनुकूलन प्रयास के साथ।

@mbq वास्तव में, यह एक अच्छा बिंदु है।
CHL

3

जैसा कि पहले ही उल्लेख किया गया है कि रैंडम वन एक प्राकृतिक "अपग्रेड" हैं और, इन दिनों, एसवीएम आमतौर पर उपयोग करने के लिए अनुशंसित तकनीक है।

मैं जोड़ना चाहता हूं कि एसवीएम पर स्विच करने की तुलना में अधिक बार बहुत निराशाजनक परिणाम मिलते हैं। बात यह है, जबकि रैंडम पेड़ जैसी तकनीकें उपयोग करने के लिए लगभग तुच्छ हैं, एसवीएम थोड़ा पेचीदा है।

जब मैंने पहली बार SVM का उपयोग किया था तो मुझे यह पेपर अमूल्य वापस मिल गया था (A प्रैक्टिकल गाइड टू सपोर्ट वेक्टर वर्गीकरण) http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf

R में आप SVM के लिए e1071 पैकेज का उपयोग कर सकते हैं, यह de facto standard (फ्री सॉफ्टवेयर में कम से कम!) LibSVM लाइब्रेरी के खिलाफ लिंक करता है।


2
kernlab भी अनुकूलन के लिए libsvm का उपयोग करता है, इसलिए उस अर्थ में एक बड़ा अंतर नहीं है (हालांकि यह बहुत अधिक लचीला है)।
शेन

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.