यादृच्छिक वन और रैखिक प्रतिगमन के माध्यम से सुविधा का महत्व अलग है


9

सुविधाओं को रैंक करने के लिए लैस्सो को लागू किया और निम्नलिखित परिणाम प्राप्त किए:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

ध्यान दें कि डेटा सेट में 3 लेबल हैं। विभिन्न लेबलों के लिए सुविधाओं की रैंकिंग समान है।

फिर एक ही डेटा सेट पर यादृच्छिक वन लागू किया गया:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

ध्यान दें कि लास्सो द्वारा निर्मित रैंकिंग से रैंकिंग बहुत अलग है।

अंतर की व्याख्या कैसे करें? क्या इसका मतलब यह है कि अंतर्निहित मॉडल स्वाभाविक रूप से अरेखीय है?


एक फीचर की रैंक वास्तव में विभिन्न क्लासिफायरियर के बीच अनुवाद नहीं करती है। यह जाँचने के लिए कि क्या मॉडल अशुभ है
.

1
फ़ीचर इम्पोर्टेंस केवल "सुझाव" पर आधारित सुझाव है। वे कई बार अविश्वसनीय हो सकते हैं। मैं आमतौर पर लासो से अधिक यादृच्छिक वन पर भरोसा करता हूं।
गेरनुक

जवाबों:


6

तो आपकी क्वेरी रैखिक प्रतिगमन बनाम यादृच्छिक वन के मॉडल-व्युत्पन्न महत्व के चर की तुलना है।

लैस्सो नियमितीकरण लागू करके रैखिक प्रतिगमन मॉडल गुणांक पाता है। रैखिक प्रतिगमन मॉडल में एक चर के महत्व को रैंक करने के लिए एक लोकप्रिय दृष्टिकोण को विघटित करना हैR2प्रत्येक चर के लिए जिम्मेदार योगदान में। लेकिन चर के बीच संबंध के कारण रेखीय प्रतिगमन में चर महत्व सीधा नहीं है। नीचे के संदर्भों में पीएमडी विधि (फेल्डमैन, 2005) का वर्णन करने वाले दस्तावेज़ का संदर्भ लें।

एक और लोकप्रिय दृष्टिकोण ऑर्डरिंग (एलएमजी, 1980) से अधिक है। LMG इस तरह काम करता है:

  • मॉडल में प्रत्येक पूर्वसूचक का अर्ध-आंशिक सहसंबंध खोजें, जैसे कि हमारे पास चर के लिए: SSa/SStotal। इसका मतलब है कि कितना होगाR2 परिवर्तनशील है a मॉडल में जोड़े गए।
  • प्रत्येक चर के लिए प्रत्येक चर के लिए इस मान की गणना करें जिसमें चर को मॉडल में पेश किया जाता है, अर्थात {a,b,c}; {b,a,c}; {b,c,a}
  • इनमें से प्रत्येक आदेश के लिए अर्ध-आंशिक सहसंबंधों का औसत ज्ञात करें। यह आदेशों पर औसत है।

यादृच्छिक वन एल्गोरिथ्म कई पेड़ों को फिट करता है, जंगल में प्रत्येक पेड़ को डेटासेट से अलग-अलग सुविधाओं का चयन करके यादृच्छिक रूप से बनाया जाता है। प्रत्येक पेड़ के नोड्स अधिकतम विचरण कमी प्राप्त करने के लिए चुनने और विभाजित करने से निर्मित होते हैं। परीक्षण डेटासेट पर भविष्यवाणी करते समय, अंतिम उत्पादन प्राप्त करने के लिए व्यक्तिगत पेड़ों का उत्पादन औसत होता है। प्रत्येक चर की अनुमति सभी पेड़ों के बीच में है और क्रमपरिवर्तन के पहले और बाद के नमूने की त्रुटि में अंतर की गणना की जाती है। उच्चतम अंतर वाले चर सबसे महत्वपूर्ण माने जाते हैं, और कम मूल्यों वाले लोग कम महत्वपूर्ण हैं।

जिस विधि द्वारा प्रशिक्षण डेटा पर मॉडल फिट किया जाता है वह यादृच्छिक वन मॉडल की तुलना में एक रैखिक प्रतिगमन मॉडल के लिए बहुत अलग है। लेकिन दोनों मॉडल चर के बीच कोई संरचनात्मक संबंध नहीं रखते हैं।

आश्रित चर के गैर-रैखिकता के बारे में आपकी क्वेरी के बारे में: लैस्सो अनिवार्य रूप से एक रैखिक मॉडल है जो पेड़ आधारित मॉडल की तुलना में अंतर्निहित गैर-रैखिक प्रक्रियाओं के लिए अच्छी भविष्यवाणियां करने में सक्षम नहीं होगा। यदि रैंडम फ़ॉरेस्ट बेहतर प्रदर्शन करता है, तो अंतर्निहित प्रक्रिया गैर-रेखीय हो सकती है, सेट-अलग परीक्षण सेट पर मॉडल के प्रदर्शन को सत्यापित करके आपको यह जांचने में सक्षम होना चाहिए। वैकल्पिक रूप से, आप लास्यो मॉडल में एक, बी, और सी का उपयोग करके बनाए गए चर इंटरैक्शन प्रभाव और उच्च क्रम चर शामिल कर सकते हैं और सत्यापित कर सकते हैं कि क्या यह मॉडल केवल एक, बी और सी के रैखिक संयोजन के साथ एक लासो की तुलना में बेहतर प्रदर्शन करता है। यदि ऐसा होता है, तो अंतर्निहित प्रक्रिया गैर-रैखिक हो सकती है।

संदर्भ:

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.