लघु संस्करण: मैं एक आर पैकेज की तलाश कर रहा हूं जो निर्णय पेड़ों का निर्माण कर सकता है जबकि निर्णय पेड़ में प्रत्येक पत्ती एक पूर्ण रैखिक प्रतिगमन मॉडल है। AFAIK, पुस्तकालय rpart
निर्णय वृक्ष बनाता है जहाँ प्रत्येक पत्ती में आश्रित चर स्थिर होता है। क्या एक और पुस्तकालय (या एक rpart
सेटिंग मुझे पता नहीं है) जो ऐसे पेड़ों का निर्माण कर सकता है?
लंबा संस्करण: मैं एक एल्गोरिथ्म की तलाश कर रहा हूं जो एक प्रशिक्षण डेटा सेट के आधार पर निर्णय ट्री बनाता है। पेड़ में प्रत्येक निर्णय स्वतंत्र चर में से एक पर शर्त के अनुसार, प्रशिक्षण डेटा को दो भागों में विभाजित करता है। पेड़ की जड़ में पूरा डेटा सेट होता है, और डेटा सेट में प्रत्येक आइटम बिल्कुल एक पत्ती के नोड में निहित होता है।
एल्गोरिथ्म कुछ इस तरह है:
- पूर्ण डेटासेट के साथ शुरू करें, जो कि पेड़ का मूल नोड है। इस नोड को चुनें और इसे कहें ।
- में डेटा पर एक रैखिक प्रतिगमन मॉडल बनाएं ।
- तो के एन के रेखीय मॉडल कुछ सीमा से अधिक है θ आर 2 , तो हम पूरे कर चुके हैं एन , इसलिए निशान एन एक पत्ता के रूप में और चरण 5 के लिए कूद।
- यादृच्छिक निर्णय लेने का प्रयास करें , और जो सब रीनोड्स में सर्वश्रेष्ठ R 2 देता है उसे चुनें:
- एक यादृच्छिक स्वतंत्र चर उठाओ , साथ ही एक यादृच्छिक सीमा θ मैं ।
- निर्णय के डेटा सेट विभाजन एन दो नए नोड्स, में एन और ~ एन ।
- दोनों पर रैखिक प्रतिगमन मॉडल बनाएं एन और ~ एन , और उनके गणना आर 2 (कॉल उन्हें r और ~ r )।
- उन सभी से tuples ( वी मैं , θ मैं , आर , ~ r ) , अधिक से अधिक के साथ एक को चुनें मीटर मैं n ( आर , ~ r ) । इस पेड़ में एक नया निर्णय पैदावार, और एन के दो नए subnodes है एन और ~ एन ।
- हमने प्रोसेस किया है । एक नया नोड एन चुनें जिसे अभी तक संसाधित नहीं किया गया है और चरण 2 पर वापस जाएं। यदि सभी नोड्स संसाधित किए गए हैं, तो एल्गोरिथ्म समाप्त हो जाता है।
यह पुनरावर्ती एक निर्णय ट्री का निर्माण करेगा जो डेटा को छोटे भागों में विभाजित करता है, और उन भागों में से प्रत्येक पर एक रैखिक मॉडल की गणना करता है।
चरण 3 बाहर निकलने की स्थिति है, जो एल्गोरिथ्म को ओवरफिटिंग से बचाता है। बेशक, अन्य संभावित निकास स्थितियां हैं:
- बाहर निकलें, तो पेड़ में की गहराई से ऊपर है θ घ ई पी टी ज
- बाहर निकलें, तो में डेटा सेट से छोटी है θ घ एक टी एक रों ई टी
क्या आर पैकेज में ऐसा एल्गोरिथ्म है?