रैंडम फॉरेस्ट से कब बचें?


25

यादृच्छिक जंगलों को विभिन्न प्रकार के कार्यों में काफी अच्छा प्रदर्शन करने के लिए जाना जाता है और उन्हें सीखने के तरीकों के व्याख्याता के रूप में जाना जाता है । क्या किसी भी प्रकार की समस्याएं या विशिष्ट परिस्थितियां हैं जिनमें किसी को यादृच्छिक जंगल का उपयोग करने से बचना चाहिए?


8
नमस्ते। "PLS ... का लीथरमैन है ...", "बूटस्ट्रैप इज द लीथरमैन ऑफ़ ...", "रैंडम फ़ॉरेस्ट का लीथरमैन है ..." <- मैं आपको ऐसे दावों के बारे में संदेह करने की सलाह देता हूं। यह सिर्फ एक टिप्पणी थी :)
स्टीफन लॉरेंट

जवाबों:


24

उद्धरण की विशिष्ट भाषा के बारे में सोचते हुए, एक लीथरमैन एक बहु-उपकरण है: हार्डवेयर का एक टुकड़ा जिसमें बहुत कम गिज़्मोज़ होते हैं, जिसमें टक होता है। यह सरौता, और एक चाकू, और एक पेचकश और अधिक की एक जोड़ी है! इन उपकरणों में से प्रत्येक को व्यक्तिगत रूप से ले जाने के बजाय, लीथरमैन एक एकल आइटम है जिसे आप अपने पतलून पर क्लिप कर सकते हैं ताकि यह हमेशा हाथ में हो। यह सुविधाजनक है , लेकिन व्यापार-बंद यह है कि घटक उपकरण में से प्रत्येक अपने काम में सबसे अच्छा नहीं है । ओपनर का उपयोग करना मुश्किल है, पेचकश बिट आमतौर पर गलत आकार के होते हैं, और चाकू सीटी बजाए थोड़ा अधिक पूरा कर सकते हैं। यदि इनमें से कोई भी कार्य करना महत्वपूर्ण है, तो आपको एक विशेष उपकरण के साथ बेहतर सेवा दी जाएगी: एक वास्तविक चाकू, एक वास्तविक पेचकश, या सरौता की एक वास्तविक जोड़ी।

एक यादृच्छिक जंगल को उसी संदर्भ में सोचा जा सकता है। रैंडम फ़ॉरेस्ट विभिन्न डेटा सेट पर मजबूत परिणाम देता है, और ट्यूनिंग मापदंडों के लिए अविश्वसनीय रूप से संवेदनशील नहीं है। लेकिन यह सही नहीं है। जितना अधिक आप समस्या के बारे में जानते हैं, उतना आसान है कि आप अपनी विशेष समस्या को समायोजित करने के लिए विशेष मॉडल का निर्माण करें।

कुछ ऐसे स्पष्ट मामले हैं जहां यादृच्छिक जंगलों में संघर्ष होगा:

  • स्पार्सिटी - जब डेटा बहुत विरल होता है, तो यह बहुत ही प्रशंसनीय होता है कि कुछ नोड के लिए, बूटस्ट्रैप्ड नमूना और सुविधाओं का यादृच्छिक सबसेट एक अनियंत्रित सुविधा स्थान का उत्पादन करने के लिए सहयोग करेगा। कोई उत्पादक विभाजन नहीं होना चाहिए, इसलिए यह संभावना नहीं है कि इस नोड के बच्चे सभी सहायक होंगे। XGBoost इस संदर्भ में बेहतर कर सकता है।

  • डेटा अक्ष-संरेखित नहीं हैं - मान लीजिए कि दो विशेषताओं, और के स्थान में एक विकर्ण निर्णय सीमा है । यहां तक ​​कि अगर यह आपके डेटा का एकमात्र प्रासंगिक आयाम है, तो उस विकर्ण सीमा का वर्णन करने के लिए यह एक साधारण यादृच्छिक वन मॉडल ले जाएगा। इसका कारण यह है प्रत्येक विभाजन या तो की धुरी को सीधा उन्मुख है या । (यह सहज होना चाहिए क्योंकि एक साधारण यादृच्छिक वन मॉडल विभाजन को बना रहा हैएक्स1एक्स2एक्स1एक्स2एक्स1>4।) रोटेशन वन, जो प्रत्येक विभाजन के लिए चयनित सुविधाओं के सबसेट पर एक पीसीए प्रोजेक्शन करता है, इसे दूर करने के लिए इस्तेमाल किया जा सकता है: एक ऑर्थोगोनल आधार में अनुमान, सिद्धांत रूप में, अक्ष-संरेखित संपत्ति के प्रभाव को कम करेगा क्योंकि विभाजन अब मूल आधार में अक्ष-संरेखित नहीं किया जाएगा।

    यह छवि एक और उदाहरण प्रदान करती है कि अक्ष-संरेखित विभाजन यादृच्छिक वन निर्णयों को कैसे प्रभावित करते हैं। निर्णय सीमा मूल में एक चक्र है, लेकिन ध्यान दें कि यह विशेष यादृच्छिक वन मॉडल सर्कल को अनुमानित करने के लिए एक बॉक्स खींचता है। इस सीमा को सुधारने के लिए कई चीजें की जा सकती हैं; सबसे सरल में अधिक डेटा एकत्र करना और अधिक पेड़ बनाना शामिल है। यहाँ छवि विवरण दर्ज करें

  • रैंडम वन मूल रूप से केवल सारणीबद्ध डेटा पर काम करते हैं,यानी डेटा के अर्थ में सुविधाओं के बीच एक मजबूत, गुणात्मक रूप से महत्वपूर्ण संबंध नहीं है, या एक ग्राफ पर एक साथ देखे जा रहे अवलोकन। इन संरचनाओं को आम तौर पर कई आयताकार विभाजनों द्वारा अच्छी तरह से अनुमानित नहीं किया जाता है। यदि आपका डेटा एक समय श्रृंखला में रहता है, या छवियों की एक श्रृंखला है, या एक ग्राफ पर रहते हैं, या कुछ अन्य स्पष्ट संरचना है, तो यादृच्छिक वन को पहचानने में बहुत कठिन समय होगा। मुझे इसमें कोई संदेह नहीं है कि शोधकर्ताओं ने इन स्थितियों को समायोजित करने का प्रयास करने के लिए विधि पर भिन्नताएं विकसित की हैं, लेकिन एक वेनिला यादृच्छिक वन आवश्यक रूप से इन संरचनाओं को एक सहायक तरीके से नहीं उठाएगा। अच्छी खबर यह है कि आप आमतौर पर जानते हैं कि यह मामला कब है, यानी आप जानते हैं कि आपके पास काम करने के लिए चित्र, एक समय-श्रृंखला या एक ग्राफ है

मुझे लगता है कि वनीला यादृच्छिक जंगलों में गैर आयताकार विभाजन को पहचानने की क्षमता है। उदाहरण के लिए हमारे पास द्विघात विशेषताएं हो सकती हैं और x ^ 2 <c जैसी सीमाओं को पहचान सकते हैं।
अनिरुद्ध आचार्य

2
@ अनिरुद्ध आचार्य मैंने कहा "संघर्ष," असफल नहीं। यहाँ मेरा जवाब यह स्पष्ट करता है कि द्विघात सुविधाएँ एक समस्या नहीं हैं। लेकिन विकर्ण या चतुष्कोण या अन्य गैर-संरेखित प्रकार के विभाजन को पेड़ों को उन विशेषताओं पर बार-बार विभाजित करने की आवश्यकता होगी जो एक आयताकार फैशन में एक विकर्ण / वक्र को अनुमानित करते हैं। आप इस पोस्ट के लिए प्लॉट में उस प्रभाव को देख सकते हैं: तेज कोनों को देखें। RF एक वृत्त को अनुमानित करने के लिए एक वर्ग का उपयोग कर रहा है।
साइकोरैक्स का कहना है कि मोनिका

मेरा मतलब था आरएफ को द्विघात (और अन्य उच्चतर) फीचर्स खिलाना गैर-आयताकार विभाजन में मॉडलिंग में संघर्ष को कम करेगा। उदाहरण के लिए, RF एक वर्ग का उपयोग करने के बजाय वृत्त को अनुमानित करने के लिए 2 क्वाड्रैटिक्स का उपयोग कर सकते हैं। हालाँकि, मैं मानता हूँ कि इसके मॉडल उतने आसान नहीं हैं, जो चर के बीच बातचीत को शामिल करते हैं, मुझे लगता है कि यह मुश्किल नहीं है क्योंकि कच्चे फीचर्स पर थ्रेसहोल्ड का उपयोग करने के लिए आरएफ प्रतिबंधित नहीं हैं।
अनिरुद्ध आचार्य

1
@ अनिरुद्ध आचार्य यदि आप जानते हैं कि वर्ग शब्द सही मॉडल हैं, तो आपको यादृच्छिक वन की आवश्यकता नहीं है: बस एक रैखिक मॉडल में वर्ग शब्द जोड़ें। आरएफ मनमाने कार्यों के लिए एक अच्छा तरीका है, खासकर जब उनके पास अक्ष-संरेखित निर्णय फ़ंक्शन होते हैं।
साइकोरैक्स का कहना है कि

@AiriruddhaAcharya द्वारा सुझाई गई विशेषता इंजीनियरिंग (द्विघात नियम) को RF के संयोजन के साथ उपयोग करने के लिए उपयोगी कदम क्यों नहीं है? हाँ उन सुविधाओं को एक रेखीय मॉडल में जोड़ा जा सकता है: लेकिन उत्तरार्द्ध कई परिणामों के योगदान के संयोजन का व्यवहार प्रदान नहीं करता है जो कि व्यक्तिगत रूप से सुविधाओं के अलग-अलग सबसेट के लिए अनुकूलित होते हैं।
जावदबा

22

धारदार कोना। सटीकता।

वे प्रसार विधियों का उपयोग करते हैं। वे ढेलेदार चीजों को अच्छी तरह से फिट करते हैं। नमूना आकार कम होने पर वे अच्छी तरह से विस्तृत और अत्यधिक विस्तृत चीजों को फिट नहीं करते हैं। मुझे लगता है कि वे मल्टीवेरिएट टाइम-सीरीज़ डेटा पर अच्छा नहीं करते हैं - जब यहाँ पर कुछ होता है तो उस एक चीज़ पर निर्भर करता है।

धीरे-धीरे बूस्टेड फॉरेस्ट फिट या ओवर-फिट हो सकते हैं, लेकिन एक ही डेटा के लिए काफी कम त्रुटि मिल सकती है।

" लिटरेचर " मौजूद नहीं है। कोई "चांदी की गोलियां" नहीं हैं। टूलबॉक्स हैं। अपने औजारों को जानें, और उनकी अच्छी देखभाल करें ताकि वे आपकी देखभाल कर सकें। "जब आप एक हथौड़ा कर रहे हैं, तब सावधान रहें, तो हर समस्या एक नाखून की तरह दिखती है" विशेष रूप से जब आपके पास अपने टूलबॉक्स में एक घने पुस्तकालय नहीं होता है।

जब तक आप समस्या को अच्छी तरह से जानते हैं, तब तक यह कल्पना करना आसान है कि कुछ भी इसे हल कर सकता है, या आपका पसंदीदा उपकरण इसे हल कर सकता है। बुद्धि सुझाव देती है कि समस्या को समझने में, और अपने औजारों से बहुत परिचित होने में गहराई हो।

जोड़ा गया: यदि आपके पास कुछ और उपयोग करने के लिए पर्याप्त गणना संसाधन या समय मार्जिन है। आरएफ न केवल प्रशिक्षित करने के लिए तेज़ है, बल्कि निष्पादित करने के लिए तेज़ है। बहुत गहरी वर्धित संरचना कम है। उस का समर्थन करने के लिए आपके पास ओवरहेड होना चाहिए।


2
शैतान के वकील होने के लिए: कुछ भी नहीं " नमूना आकार कम होने पर अच्छी तरह से विस्तृत और अत्यधिक विस्तृत चीजों को फिट करेगा "
us .r11852

5

यह पहली बार है जब मैं वास्तव में एक प्रश्न का उत्तर देता हूं, इसलिए मुझे इस पर पिन न करें .. लेकिन मुझे लगता है कि मैं आपके प्रश्न का उत्तर दे सकता हूं:

यदि आप वास्तव में केवल मॉडल प्रदर्शन में रुचि रखते हैं और व्याख्यात्मकता वन जैसी चीज में नहीं हैं, तो वास्तव में अक्सर एक बहुत अच्छा शिक्षण एल्गोरिथ्म होता है, लेकिन निम्नलिखित मामलों में थोड़ा खराब प्रदर्शन करते हैं:

1.) जब प्रशिक्षण नमूनों की संख्या के संबंध में आयाम (सुविधाओं की संख्या) बहुत अधिक है, तो उन मामलों में एक नियमित रैखिक प्रतिगमन या एसवीएम बेहतर होगा।

2.) मामले में डेटा में उच्च आदेश अभ्यावेदन / विचारात्मक संरचनाएं हैं, जैसे कंप्यूटर दृष्टि समस्याओं में। उन कंप्यूटर विज़न के मामलों में एक संवेगात्मक तंत्रिका नेटवर्क एक यादृच्छिक वन को नष्ट कर देगा (सामान्य तौर पर अगर ज्ञान है तो उसे सीखने में शामिल किया जा सकता है जो एक बेहतर चीज है)।

कहा जा रहा है कि रैंडम फॉरेस्ट एक बहुत अच्छा शुरुआती बिंदु है। मैं अपने मशीन लर्निंग कौशल के लिए जिस व्यक्ति की प्रशंसा करता हूं, उनमें से एक हमेशा एक यादृच्छिक जंगल और एक नियमित रूप से रैखिक रेजिस्टर सीखने के साथ शुरू होता है।

हालांकि, अगर आप सबसे अच्छा संभव प्रदर्शन चाहते हैं, तो मेरा मानना ​​है कि आजकल के तंत्रिका नेटवर्क उर्फ। डीप लर्निंग एक बहुत ही आकर्षक दृष्टिकोण की तरह लग रहा है। डेटा-चैलेंज वेबसाइटों पर अधिक से अधिक विजेता, जैसे कागल प्रतियोगिता के लिए डीप लर्निंग मॉडल का उपयोग करते हैं। तंत्रिका नेटवर्क का एक अन्य समर्थक यह है कि वे बहुत बड़ी संख्या में नमूनों को संभाल सकते हैं (> 10 ^ 6 एक बार स्टोकेस्टिक ग्रेडिएंट अवरोही का उपयोग करके उन्हें प्रशिक्षित कर सकते हैं, एक समय में डेटा के बिट्स खिलाते हैं)। व्यक्तिगत रूप से मुझे यह डीप लर्निंग के लिए एक बहुत ही आकर्षक प्रो लगता है।


2
अच्छा उत्तर, लेकिन आपका अंतिम बिंदु सही नहीं है: मिनी-बैच प्रशिक्षण सभी सामान्य मशीन लर्निंग एल्गोरिदम के लिए लागू किया जा सकता है, उदाहरण के लिए h2o देखें
जुबां

ओके, दिलचस्प है, मुझे यह नहीं पता था। क्या आप यह कह रहे हैं कि इन विधियों का उपयोग करके कोई एक (निर्णय) पेड़ को मिनी-बैच / SGD सीखने का उपयोग कर प्रशिक्षित कर सकता है और इस प्रकार प्रशिक्षण के कुल आंकड़ों (65%) के बहुमत के विभाजन के आधार पर एकल पेड़ का निर्माण कर सकता है?
MJW

1
मुझे लगता है कि यादृच्छिक वन अभी भी अच्छे होने चाहिए जब सुविधाओं की संख्या अधिक हो - बस एक ही पेड़ का निर्माण करते समय एक बार में बहुत सारी सुविधाओं का उपयोग न करें, और अंत में आपके पास स्वतंत्र क्लासिफायरियर का एक जंगल होगा जो सामूहिक रूप से होना चाहिए ( उम्मीद है) अच्छा करते हैं।
एलेक्सी ग्रिगोरोव

जहाँ तक मैं समझता हूँ, h2o लघु-प्रति-प्रशिक्षण के लिए मानचित्र-कम प्रतिमान का उपयोग करता है। सिंगल (CART) पेड़ों को h2o में लागू नहीं किया जाता है (लेकिन मुझे लगता है कि एक अप्रकाशित पेड़ सिर्फ एक पेड़ और भविष्यवक्ताओं की अधिकतम पसंद के साथ यादृच्छिक वन का एक विशेष मामला है?)।
18

2
(1) का औचित्य क्या है? आप दावा करते हैं, लेकिन कोई सहायक तर्क नहीं देते हैं।
साइकोरैक्स का कहना है कि मोनिका

0

सबसे पहले, रैंडम फ़ॉरेस्ट को निम्न डेटा प्रकारों पर लागू नहीं किया जा सकता है:

  • इमेजिस
  • ऑडियो
  • पाठ (प्रीप्रोसेसिंग डेटा के बाद विरल हो जाएगा और आरएफ विरल डेटा के साथ अच्छी तरह से काम नहीं करता है)

सारणीबद्ध डेटा प्रकार के लिए, रैंडम फ़ॉरेस्ट की जाँच करना हमेशा अच्छा होता है क्योंकि:

  • इसमें न्यूरल नेटवर्क्स या SVM की तुलना में कम डेटा तैयारी और प्रीप्रोसेसिंग की आवश्यकता होती है। उदाहरण के लिए, आपको फीचर स्केलिंग करने की आवश्यकता नहीं है।
  • रैंडम फ़ॉरेस्ट ट्रेनिंग के लिए आप बस डिफ़ॉल्ट मापदंडों का उपयोग कर सकते हैं और पेड़ों की संख्या ( आरएफ में अधिक पेड़ बेहतर ) सेट कर सकते हैं। जब आप रैंडम फ़ॉरेस्ट की तुलना न्यूरल नेटवर्क्स से करते हैं , तो प्रशिक्षण बहुत आसान होता है (आर्किटेक्चर, या ट्यून ट्रेनिंग एल्गोरिथ्म को परिभाषित करने की आवश्यकता नहीं है)। न्यूरल नेटवर्क्स की तुलना में रैंडम फॉरेस्ट को प्रशिक्षित करना आसान है।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.