वृक्ष का पेड़ ढाल का आकार बढ़ाने वाला


10

फ्रेडमैन द्वारा प्रस्तावित ग्रेडिएंट ट्री Jको आधार शिक्षार्थियों के रूप में टर्मिनल नोड्स (= पत्तियों) के साथ निर्णय पेड़ों का उपयोग किया जाता है । Jउदाहरण के लिए बिल्कुल नोड्स के साथ एक पेड़ उगाने के कई तरीके हैं, एक पेड़ को पहली गहराई में या एक चौड़ाई वाले पहले फैशन में पेड़ उगा सकते हैं, ...

वहाँ एक स्थापित तरीका है कि कैसे Jढाल पेड़ बढ़ाने के लिए बिल्कुल टर्मिनल नोड्स के साथ पेड़ों को उगाने के लिए है?

मैंने आर gbmपैकेज के पेड़ की बढ़ती प्रक्रिया की जांच की और ऐसा लगता है कि यह पेड़ को गहराई से पहले फैशन में फैलता है और त्रुटि सुधार के आधार पर एक हेयूरिस्टिक का उपयोग करता है कि क्या वह बाएं या दाएं बच्चे के नोड का विस्तार कर सकता है - क्या यह सही है?


2
gbm CART का उपयोग पेड़ बनाने के लिए करता है, जो 80 के दशक का एक प्रसिद्ध एल्गोरिदम है। हेयोरिस्टिक को गिन्नी अशुद्धता कहा जाता है, द्विघात नुकसान के साथ प्रतिगमन के लिए एक सुंदर मानक विकल्प।

2
Afaik gini अशुद्धता का उपयोग वर्गीकरण समस्याओं के लिए किया जाता है। फिर भी, सवाल पेड़ों के आकार को संदर्भित करता है।
पीटर प्रेटनहोफर 13

यह एक समय में एक शाखा जोड़ता है। मुझे आश्चर्य होगा कि यदि प्रत्येक अगला विभाजन केवल शाखा ही नहीं, बल्कि पेड़ में बचे हुए विभाजित उम्मीदवारों में से सबसे अच्छा हो। ऐसे समय होते हैं जब डेटा एक सटीक संख्या का समर्थन नहीं करता है - जैसे कि जब डेटा 'जे' के लिए बहुत छोटा होता है।
EngrStudent

जैसा कि @EngrStudent ने कहा, आप सटीक संख्या में नोड्स को बाध्य नहीं कर सकते। हालाँकि, नोड्स की संख्या पर ऊपरी सीमा पर आपका कुछ नियंत्रण होता है। gbmएक पैरामीटर है n.minobsinnodeजो प्रति नोड की न्यूनतम संख्या को नियंत्रित करता है। बेशक, तब नोड्स की संख्या NumberOfPoints / n.minobsinnode से कम या बराबर है
G5W

अगर मुझे 'जे' पत्तों की तलाश थी, तो मैं पूरी तरह से पेड़ का निर्माण करूँगा और फिर, यह मानकर कि वहाँ जे पत्तों से अधिक थे, मैं जे को प्रणाम करूँगा और यह मुझे 'जे' नोड्स देगा, और वे सबसे अधिक होंगे सूचनात्मक विभाजन - यह सबसे स्वस्थ कार्ट मॉडल हो सकता है। यदि पर्याप्त विभाजन नहीं हैं, तो मैं 'जे' प्राप्त करने के लिए डोमेन के भीतर केवल यादृच्छिक रूप से विभाजित कर सकता हूं, लेकिन वे सहज और कुछ हद तक मामूली होंगे। मैं पत्ते के भीतर मूल्य वितरण को देख सकता हूं, और सीडीएफ-चालित aproximation का उपयोग कर सकता हूं, लेकिन यह माध्य-प्रति-पत्ती मॉडल से प्रस्थान करेगा।
EngrStudent

जवाबों:


2

R का समाधान gbmविशिष्ट नहीं है।

अन्य संकुल, की तरह scikit-learnया LightGBMउपयोग तथाकथित (scikit सीखने में) BestFirstTreeBuilder, जब पत्ते की संख्या सीमित है। यह सभी पत्तियों की एक प्राथमिकता कतार का समर्थन करता है और प्रत्येक पुनरावृत्ति में उस पत्ती को विभाजित करता है जो सबसे अच्छी अशुद्धता घटाती है। तो यह न तो गहराई-पहले और न ही चौड़ाई-पहले है, लेकिन पत्तियों में गणना के आधार पर एक तीसरा एल्गोरिथ्म है।

ii

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.