क्या CART मॉडल को मजबूत बनाया जा सकता है?


14

मेरे कार्यालय के एक सहकर्मी ने आज मुझसे कहा "ट्री मॉडल अच्छे नहीं हैं क्योंकि वे अत्यधिक टिप्पणियों द्वारा पकड़े जाते हैं"।

यहां एक खोज के परिणामस्वरूप इस धागे का निर्माण हुआ जो मूल रूप से दावे का समर्थन करता है।

जो मुझे इस सवाल की ओर ले जाता है - CART मॉडल किस स्थिति में मजबूत हो सकता है, और यह कैसे दिखाया जाता है?

जवाबों:


15

नहीं, उनके वर्तमान रूपों में नहीं। समस्या यह है कि उत्तल हानि कार्यों को आउटलेर्स द्वारा संदूषण के लिए मजबूत नहीं बनाया जा सकता है (यह 70 के बाद से एक अच्छी तरह से ज्ञात तथ्य है लेकिन समय-समय पर फिर से खोजा जा रहा है, उदाहरण के लिए इस पेपर को हाल ही में ऐसी खोज के लिए देखें):

http://www.cs.columbia.edu/~rocco/Public/mlj9.pdf

अब, प्रतिगमन पेड़ों के मामले में, तथ्य यह है कि CART मार्जिन का उपयोग करता है (या वैकल्पिक रूप से अविभाज्य अनुमानों) का उपयोग किया जा सकता है: कोई CART के संस्करण के बारे में सोच सकता है जहां एसडी मानदंड को अधिक मजबूत समकक्ष (एमएडी या बेहतर अभी तक, द्वारा प्रतिस्थापित किया जाता है) Qn आकलनकर्ता)।

संपादित करें:

मैं हाल ही में ऊपर दिए गए दृष्टिकोण को लागू करने वाले एक पुराने पेपर पर आया था (एमएडी के बजाय पैमाने के मजबूत एम अनुमानक का उपयोग करके)। यह CART / RF के आउटलेयर को "y" के लिए मजबूती प्रदान करेगा (लेकिन डिज़ाइन स्थान पर स्थित आउटलेर के लिए नहीं , जो मॉडल के हाइपर-मापदंडों के अनुमान को प्रभावित करेगा) देखें:

गैलिमबर्टी, जी।, पिलती, एम।, और सोफ्रीति, जी। (2007)। एम-आकलनकर्ताओं के आधार पर मजबूत प्रतिगमन पेड़। स्टैटिस्टिका, LXVII, 173-190।


धन्यवाद kwak यह लेख बूस्टिंग तरीकों के बारे में बात कर रहा है। क्या वे परिणाम CART मॉडल के साधारण क्लासिफायरियर केस के लिए रखते हैं? (सतह पर यह ऐसा लगता है, लेकिन मैं वास्तव में जानने के लिए पर्याप्त लेख के माध्यम से नहीं गया था)
ताल गैलीली

वे जो परिणाम पेश करते हैं, वह किसी भी उत्तल हानि समारोह के लिए होता है, और शुरू में तुक्के द्वारा चर्चा की गई थी। चीजों को योग करने के लिए, नोड की गुणवत्ता को निर्धारित करने के लिए उपयोग किए जाने वाले प्रसार (गिन्नी या एन्ट्रॉपी) का माप आउटलेर्स (यानी प्रेसीडेंस में मिस-लेबल होते हैं) द्वारा संदूषण के प्रति संवेदनशील है। यह समस्या इमारत और तेजस्वी मंच दोनों को प्रभावित करती है। गलत तरीके से लगाए गए लेबल के साथ अवलोकन द्वारा किसी डेटासेट का संदूषण आमतौर पर परिणामस्वरूप पेड़ को बहुत अधिक जटिल बना देगा (आप इसे आसानी से जांच सकते हैं)।
15:60 बजे user603

धन्यवाद क्वाक! और क्या कोई नुकसान कार्य नहीं है जो मजबूत है?
ताल गलिली

1
कोई उत्तल हानि समारोह। गैर-उत्तल हानि कार्यों के साथ क्या किया जा सकता है (हालांकि वर्गीकरण से संबंधित नहीं है, इस लेख के उदाहरण के लिए "न्यूनतम सहसंयोजक निर्धारक अनुमानक के लिए एक तेज़ एल्गोरिथ्म" यह आलेख देखें)।
user603

2
@ ताल कार्ट "पिवट क्लासिफायर" (प्रत्येक ट्री नोड में बैठने वाली कसौटी, जैसे कुछ विशेषता ग्रेटर की तुलना में बैठता है या कुछ सेट में कुछ विशेषता मूल्य की तरह होता है) को बढ़ाने के बराबर है।

6

आप ब्रिमन के बैगिंग या यादृच्छिक जंगलों का उपयोग करने पर विचार कर सकते हैं । एक अच्छा संदर्भ है ब्रेमेन "बैजिंग प्रेडिक्टर्स" (1996)। इसके अलावा सांख्यिकी की हैंडबुक में क्लिफ्टन सटन के "वर्गीकरण और प्रतिगमन पेड़, बैजिंग और बूस्टिंग" को संक्षेप में प्रस्तुत किया गया है ।

आप बेतरतीब पैकेज के एंडी लियाव और मैथ्यू वीनर आर न्यूज की चर्चा भी देख सकते हैं ।


2
पार्टी को खराब करने के लिए नहीं, लेकिन यादृच्छिक वन को माना जाता है कि बाहरी लोगों द्वारा संदूषण को मजबूती प्रदान करना एक रहस्य है।
15:60 बजे user603

3
@kwak फिर भी, यह एक अच्छा जवाब है; आरएफ में पेड़ पूरे सेट को नहीं देखते हैं, इसलिए उनमें से कई दूषित नहीं होंगे। इससे भी बेहतर - ट्रैकिंग जिसमें लीफ्स ओओबी मामलों में भूमि का उपयोग गलत वस्तुओं को खोजने और उन्हें खत्म करने के लिए किया जा सकता है। (जैसा कि मैं अब याद करता हूं, यह आरएफ के बारे में ब्रेमेन के पेपर में उल्लिखित है)।

4
समस्या यह है कि आउटलेरर्स कुछ 'खराब' (यानी दूषित) पेड़ को अच्छे (बिना पढ़े हुए) लोगों की तुलना में बेहतर बनाएंगे। यह कहा जाता है, प्रभाव मास्किंग और नकली डेटा के साथ दोहराने के लिए आसान है। समस्या इसलिए आती है क्योंकि पेड़ों का मूल्यांकन करने के लिए आप जो मानदंड इस्तेमाल करते हैं, वह आउटलेर्स के लिए अपने आप में मजबूत नहीं है। मुझे पता है कि मैं एक कट्टरपंथी मुल्ला की तरह आवाज़ करना शुरू कर रहा हूं, लेकिन जब तक कि आपके द्वारा उपयोग किए जाने वाले प्रत्येक उपकरण को मजबूत नहीं किया जाता, आपकी प्रक्रिया को आउटलेर्स (और इसलिए मजबूत नहीं) के प्रति संवेदनशील (एक स्तर या किसी अन्य) में दिखाया जा सकता है।
user603

3

यदि आप आर (सामान्यीकृत ग्रेडिंग बूस्टिंग) में 'जीबीएम' पैकेज की जांच करते हैं, तो 'बूस्टिंग' नुकसान कार्यों का उपयोग करता है जो जरूरी नहीं कि चुकता त्रुटि हो। यह 'वितरण' तर्क को 'gbm ()' कार्य करने के लिए दिखाता है। इस प्रकार बूस्टिंग के माध्यम से पेड़ का विस्तार एम-एसेटर के काम करने के समान, आउटलेर्स के लिए प्रतिरोधी होगा।

आप यहां शुरू कर सकते हैं

एक और तरीका यह होगा कि पेड़ को सामान्य तरीके से बनाया जाए (एसएसई पर आधारित विभाजन), लेकिन फिट के मजबूत माप के साथ क्रॉस सत्यापन का उपयोग करते हुए पेड़ को prune करें। मुझे लगता है कि बदले में xpred क्रॉस वैरिडेड प्रेडिक्टर्स (विभिन्न पेड़ की जटिलताओं के लिए) देगा, जो कि आप तब त्रुटि के अपने माप को लागू कर सकते हैं, जैसे कि निरपेक्ष मान।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.