यादृच्छिक वन पर LASSO का उपयोग करना


14

मैं निम्नलिखित प्रक्रिया का उपयोग करके एक यादृच्छिक वन बनाना चाहूंगा:

  • विभाजन को निर्धारित करने के लिए सूचना के लाभ का उपयोग करके डेटा और सुविधाओं के यादृच्छिक नमूनों पर एक पेड़ बनाएं
  • एक पत्ती नोड को समाप्त करें यदि यह पूर्व-परिभाषित गहराई से अधिक है या किसी भी विभाजन के परिणामस्वरूप एक पूर्व-निर्धारित न्यूनतम से कम पत्ती की गिनती होगी
  • प्रत्येक पेड़ के लिए एक क्लास लेबल असाइन करने के बजाय, पत्ती नोड में कक्षाओं के अनुपात को असाइन करें
  • पूर्व-निर्धारित संख्या के निर्माण के बाद पेड़ों का निर्माण रोकें

यह पारंपरिक यादृच्छिक वन प्रक्रिया को दो तरीकों से पूरा करता है। एक, यह कांटेदार पेड़ों का उपयोग करता है जो वर्ग लेबल के बजाय अनुपात प्रदान करते हैं। और दो, स्टॉप मानदंड कुछ आउट-ऑफ-बैग त्रुटि अनुमान के बजाय पेड़ों की पूर्व-निर्धारित संख्या है।

मेरा सवाल यह है:

उपरोक्त प्रक्रिया के लिए जो एन पेड़ों का उत्पादन करती है, क्या मैं फिर LASSO चयन के साथ लॉजिस्टिक प्रतिगमन का उपयोग कर एक मॉडल फिट कर सकता हूं ? क्या किसी को लॉजिस्टिक LASSO के साथ रैंडम फ़ॉरेस्ट क्लासिफ़ायर और पोस्ट-प्रोसेसिंग की फिटिंग का अनुभव है?

ISLE फ्रेमवर्क में LASSO का उपयोग प्रतिगमन समस्याओं के लिए पोस्ट-प्रोसेसिंग कदम के रूप में किया गया है, लेकिन वर्गीकरण समस्याओं का नहीं। इसके अलावा, जब "रैंडम फ़ॉरेस्ट लास्सो" को गुगली किया जाता है, तो मुझे कोई सहायक परिणाम नहीं मिलते हैं।


कई अलग-अलग गुणवत्ता वाले होने पर उपयोगी सुविधाओं को खोजने / भारित करने में लासो अच्छा है। आपके जंगल में व्यक्तिगत पेड़ अन्य पेड़ों की तुलना में बहुत बेहतर या खराब होने की संभावना नहीं है, इसलिए मुझे नहीं लगता कि लासो आपकी बहुत मदद करने वाला है।
रेनॉड

पेड़ की गहराई को बदलने और सीमित किए बिना एक छोटे से अंश का नमूना लेने से, अधिक विविधता को पेश किया जाता है, इसलिए मुझे लगता है कि नियमितीकरण के कुछ रूप वारंटेड हैं।
ज़ेलज़नी

क्या आप लॉजिस्टिक मॉडल को फिट करने की योजना के बारे में अधिक विशिष्ट हो सकते हैं? वास्तव में भविष्यवक्ता चर क्या हैं? इसके अलावा - पोस्ट-प्रोसेसिंग के लिए आपकी प्रेरणा क्या है? यदि आप चर चयन करने की कोशिश कर रहे हैं, तो विचार करने के लिए अन्य तरीके हैं।
एलेक्स विलियम्स

प्रत्येक पेड़ की भविष्यवाणियों को आउटपुट करके, भविष्यवक्ताओं का एक नया डेटासेट बनाया जाता है। इस डेटासेट का उपयोग LASSO प्रतिगमन में पेड़ की भविष्यवाणियों के विरल संयोजन में आने के लिए किया जा सकता है। प्रेरणा ऐसे मॉडल का निर्माण कर रही है जो अधिक संक्षिप्त हैं और उत्पादन में अधिक तेज़ी से चलते हैं।
ज़ेलाज़ी 7

मुझे हाल ही में इसी तरह की समस्याओं का सामना करना पड़ा, और मैंने फ्रीडमैन के मूल पेपर में पाया कि उन्होंने विशेष रूप से द्विआधारी वर्गीकरण समस्याओं के लिए एक हानि फ़ंक्शन डिजाइन किया था। आशा है कि सहायक होगा। इसके अलावा, क्या आपके पास इस पर कोई विचार है कि इसे बहु-स्तरीय वर्गीकरण समस्याओं में कैसे बढ़ाया जाए? या बहु-वर्ग वर्गीकरण समस्याओं के लिए आपका दृष्टिकोण क्या है?
क्वान

जवाबों:


5

यह कुछ हद तक ढाल पेड़ को बढ़ाने जैसा लगता है। बढ़ाने का विचार मॉडल के एक वर्ग का सबसे अच्छा रैखिक संयोजन खोजने के लिए है। यदि हम डेटा के लिए एक पेड़ फिट करते हैं, तो हम उस पेड़ को खोजने की कोशिश कर रहे हैं जो परिणाम चर को सबसे अच्छा समझाता है। यदि हम इसके बजाय बूस्टिंग का उपयोग करते हैं, तो हम पेड़ों का सबसे अच्छा रैखिक संयोजन खोजने की कोशिश कर रहे हैं।

हालाँकि, बूस्टिंग का उपयोग करके हम कुछ अधिक कुशल हैं क्योंकि हमारे पास यादृच्छिक पेड़ों का संग्रह नहीं है, लेकिन हम नए पेड़ बनाने की कोशिश करते हैं जो उन उदाहरणों पर काम करते हैं जो हम अभी तक अच्छी तरह से भविष्यवाणी नहीं कर सकते हैं।

इस बारे में अधिक जानकारी के लिए, मैं सुझाव दूंगा कि सांख्यिकीय शिक्षा के तत्वों के अध्याय 10: http://statweb.stanford.edu/~tibs/ElemStatLearn/

हालांकि यह आपके प्रश्न का पूर्ण उत्तर नहीं है, मुझे आशा है कि यह मदद करता है।


3
धन्यवाद। जब से मैंने शुरू में इस प्रश्न को पोस्ट किया है मैं आर के जीबीएम पैकेज से बहुत परिचित हो गया हूं। मेरी प्रक्रिया में अब 10,000 पेड़ कहने का GBM मॉडल बनाना और फिर GLMnet के माध्यम से सभी 10,000 पेड़ों को चलाना, पेड़ों पर LASSO प्रतिगमन करना है। यह एक संकुचित GBM मॉडल के साथ प्रदर्शन में कोई नुकसान नहीं है (और कभी-कभी एक बढ़ावा)।
ज़ेलाज़ी 7

@ ज़ेलज़नी 7 के बारे में क्या है?
josh

हां, मेरा सारा परीक्षण किसी ऐसे तरीके से किया गया है जो किसी भी तरह से विकास को सूचित नहीं करता है। ज्यादातर मामलों में प्रदर्शन नीचा नहीं होता है। कभी-कभी यह थोड़ा बुरा होता है, कभी-कभी इसमें सुधार भी होता है।
ज़ेलज़नी 7

1
@ ज़ेलज़नी 7 मैं उसी प्रक्रिया पर (मेरे आखिरी काम पर), उसी अनुभवों के साथ मारा।
मैथ्यू ड्र्यू

आपको कुछ पर होना चाहिए ... हस्ती खुद यादृच्छिक वन से पेड़ों को संसाधित करने या LASSO के उपयोग को बढ़ावा देने का सुझाव देते हैं। उन्होंने इस वीडियो में 30:10 पर बताया है ।
जोनाथन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.