R: पार्टी बनाम रप्टर में विभाजन वाले पेड़


15

पेड़ों को बांटते हुए मुझे कुछ समय हो गया है। पिछली बार मैंने इस तरह की बात की थी, मुझे आर (होथोर्न द्वारा बनाई गई) में पार्टी पसंद है। नमूना के माध्यम से सशर्त निष्कर्ष का विचार मेरे लिए समझ में आता है। लेकिन समकक्षों की भी अपील थी।

वर्तमान एप्लिकेशन में (मैं विवरण नहीं दे सकता हूं, लेकिन इसमें यह निर्धारित करने की कोशिश करना शामिल है कि गिरफ़्तारियों के एक बड़े नमूने के बीच कौन जेल जाएगा) मैं यादृच्छिक जंगलों, बैगिंग, बूस्टिंग आदि जैसे उन्नत तरीकों का उपयोग नहीं कर सकता हूं - मुझे आसानी से खोज करने की आवश्यकता है राज करते हैं।

मैं कुछ मैनुअल कंट्रोल भी करना चाहूंगा, जिस पर नोड्स अलग हो जाएं, जैसा कि झांग एंड सिंगर (2010) रिकर्सिव पार्टिशनिंग एंड एप्लीकेशन में सुझाया गया है । उस पुस्तक के साथ आने वाला फ्रीवेयर इसे अनुमति देता है, लेकिन अन्यथा इसके उपयोगकर्ता इनपुट में आदिम है।

कोई सिफारिश या सुझाव?

जवाबों:


8

मैं @ इटरेटर से सहमत हूं कि रप के लिए समझाने के लिए कार्यप्रणाली आसान है। हालाँकि, यदि आप आसानी से समझाने योग्य नियमों की तलाश में हैं, तो पार्टी (बगैर पेड़ों के) भविष्यवाणी को समझाने के संबंध में कुछ भी नहीं खोती है - आपके पास अभी भी एक ही पेड़ है। यदि आप भी परिणाम चर के ड्राइवरों को देखने में रुचि रखते हैं (न केवल शुद्ध भविष्य कहनेवाला शक्ति) तो मैं अभी भी सोचूंगा कि पार्टी जाने का तरीका है - यह समझाते हुए कि निर्णय वृक्ष (जैसे रपटर) यह कैसे चयन करता है में काफी पक्षपाती हो सकता है चर महत्वपूर्ण हैं और यह कैसे विभाजन बनाता है। पार्टी क्रमपरिवर्तन परीक्षणों का उपयोग करती है और सांख्यिकीय रूप से यह निर्धारित करती है कि कौन से चर सबसे महत्वपूर्ण हैं और कैसे विभाजन किए जाते हैं। इसलिए, उदाहरण के लिए समकक्ष की तरह, कई स्तरों के साथ श्रेणीबद्ध चर की ओर झुकाव वाले पक्षपाती के बजाय, पार्टी सबसे अच्छे ढांचे को खोजने के लिए सांख्यिकीय परीक्षणों का उपयोग करती है।


1
अच्छा उत्तर। मुझे लगता है कि आपने एक बहुत अच्छा कारण मारा है कि पार्टी एक उन्नत दर्शकों के लिए बेहतर क्यों है , और पार्टी के उपयोग को स्वीकार करने में मदद करने के लिए दर्शकों को शिक्षित करने के लिए एक अच्छा विचार क्यों है।
०ator

4

[एनबी: अद्यतन 1 नीचे देखें।] मुझे लगता है कि इसके लिए कार्यप्रणाली की rpartतुलना में समझाना बहुत आसान है party। हालांकि, बाद वाला, अधिक परिष्कृत है और बेहतर मॉडल देने की संभावना है। जिस तरह से मैं कभी-कभी समझाता partyहूं वह स्थानीय रैखिक (या जीएलएम) मॉडल के उत्पादन के आधार के रूप में बात करना है। मैं यह इंगित करने के लिए इसका निर्माण करता हूं कि परिणाम rpartसभी तत्वों के लिए स्थिर हैं जो पत्ती के नोड में गिरते हैं, अर्थात बॉक्स / क्षेत्र विभाजन से विभाजित होते हैं। यहां तक ​​कि अगर स्थानीय मॉडलों के माध्यम से सुधार हो सकता है, तो आपको कुछ भी नहीं मिलता है, लेकिन एक निरंतर भविष्यवाणी।

इसके विपरीत, partyक्षेत्रों के लिए मॉडल को संभावित रूप से अनुकूलित करने के लिए विभाजन विकसित करता है। यह वास्तव में मॉडल इष्टतमता की तुलना में एक अलग मानदंड का उपयोग कर रहा है, लेकिन आपको यह निर्धारित करने के लिए अंतर की व्याख्या करने के लिए अपनी स्वयं की क्षमता को निर्धारित करने की आवश्यकता है कि क्या आप इसे अच्छी तरह से समझा सकते हैं। एक शोधकर्ता के लिए इसके लिए कागजात बहुत ही सुलभ हैं, लेकिन किसी के लिए यह बहुत चुनौतीपूर्ण हो सकता है कि partyवह यादृच्छिक जंगलों, बूस्टिंग आदि जैसे सरल तरीकों पर विचार करने को तैयार न हो। गणितीय रूप से, मुझे लगता है कि यह अधिक परिष्कृत है ... फिर भी, CART मॉडल आसान हैं कार्यप्रणाली और परिणामों के संदर्भ में, दोनों को समझाएं, और ये अधिक परिष्कृत वृक्ष-आधारित मॉडल पेश करने के लिए एक सभ्य कदम पत्थर प्रदान करते हैं।

संक्षेप में, मैं कहूंगा कि आपको rpartस्पष्टता के लिए क्या करना है, और आप partyसटीकता / partyसुधार के लिए उपयोग कर सकते हैं , लेकिन मैं परिचय के साथ परिचय नहीं करूंगा rpart


अद्यतन 1. मैंने अपनी समझ के आधार पर अपना उत्तर दिया partyक्योंकि यह एक या दो साल पहले था। यह काफी बढ़ गया है, लेकिन मैं यह कहने के लिए अपने जवाब को संशोधित करूंगा कि मैं अभी भी rpartइसकी संक्षिप्तता और विरासत के लिए सिफारिश करूंगा , "गैर-फैंसी" आपके ग्राहक / सहयोगी के लिए एक महत्वपूर्ण मानदंड होना चाहिए। फिर भी, मैं partyकिसी को पेश करने के बाद, अधिक कार्यक्षमता का उपयोग करने के लिए माइग्रेट करने का प्रयास करूंगा rpart। छोटे से शुरू करना बेहतर है, नुकसान कार्यों, बंटवारे के मानदंड, आदि, एक सरल संदर्भ में, एक पैकेज और कार्यप्रणाली को शुरू करने से पहले, जिसमें कहीं अधिक शामिल अवधारणाएं शामिल हैं।


2
मुझे लगता है कि आप थोड़ा सा भ्रमित कर रहे हैं कि partyपैकेज क्या कर सकता है। शुद्ध partyकार्य rpartपत्तियों में बहुसंख्यक मतदान के साथ सिर्फ एक साधारण पेड़ बनाता है । इस mobकार्य में partyपत्तों में और अधिक जटिल मॉडल के साथ पेड़ों का निर्माण होता है (और पैरामीटर अस्थिरता के आधार पर विभाजन को चुनता है।)
शीआ पार्क्स

1
@SheaParkes तुम सही हो। यह थोड़ी देर के लिए है, और मुझे यकीन नहीं है कि अगर मैंने केवल उपयोग किया है mobया यदि बाकी पैकेज काफी बढ़ गया है - तो मुझे याद नहीं है कि पहले यादृच्छिक जंगलों को देखा जा सकता था, उदाहरण के लिए। मैं अपने उत्तर को संशोधित करूंगा ...
Iterator

2
और वास्तव में, मैं भी थोड़ा भूल गया था। यह ctreeएक एकल पेड़ cforestबनाने के लिए, एक यादृच्छिक जंगल mobबनाने के लिए और मॉडल आधारित पत्तियां बनाने के लिए है। और fyi, cforest मजेदार है, लेकिन साथ भविष्यवाणी करने के लिए बहुत धीमी गति से।
शिया पार्क्स

मैं भीड़ में देखूंगा , मुझे नहीं लगता कि पिछली बार मैंने पार्टी का इस्तेमाल किया था । वन अनुप्रयोग मेरे लिए नहीं हैं, इस बार।
पीटर Flom - को पुनः स्थापित मोनिका

@PeterFlom मुझे लगता है कि mobशुरुआत के बाद से हो सकता है, या कम से कम के बाद आया ctree, मुझे लगता है। यह लगभग 2009 या उससे पहले का है। वैसे भी, बस यह दिखाने के लिए जाता है कि हम सभी एसई पर कुछ नया सीख सकते हैं। :)
Iterator
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.