कई आउटपुट के साथ एक यादृच्छिक वन संभव / व्यावहारिक होगा?


17
  1. रैंडम वन (RFs) एक प्रतिस्पर्धी डेटा मॉडलिंग / खनन विधि है।

  2. एक RF मॉडल में एक आउटपुट होता है - आउटपुट / पूर्वानुमान चर।

  3. आरएफ के साथ कई आउटपुट मॉडलिंग के लिए भोली दृष्टिकोण प्रत्येक आउटपुट चर के लिए एक आरएफ का निर्माण होगा। इसलिए हमारे पास एन स्वतंत्र मॉडल हैं, और जहां आउटपुट चर के बीच सहसंबंध है, हमारे पास निरर्थक / डुप्लिकेट मॉडल संरचना होगी। यह वास्तव में बहुत बेकार हो सकता है। एक सामान्य नियम के रूप में अधिक मॉडल चर एक अधिक ओवरफिट मॉडल (कम सामान्यीकरण) का अर्थ है। यकीन नहीं है कि अगर यह यहाँ लागू होता है, लेकिन यह संभव है।

सिद्धांत रूप में हम कई आउटपुट के साथ एक आरएफ हो सकता है। भविष्यवाणी चर अब एक वेक्टर (n-tuple) है। प्रत्येक निर्णय ट्री में निर्णय नोड्स अब थ्रेशोल्ड वेक्टर के आधार पर लक्ष्य / भविष्यवाणी वैक्टर के सेट को विभाजित कर रहे हैं, मुझे लगता है कि इस सीमा को एन-डायमेंशनल स्पेस में एक प्लेन माना जाता है और इसलिए हम यह निर्धारित कर सकते हैं कि थ्रेशोल्ड के किस तरफ वेक्टर प्रत्येक लक्ष्य वैक्टर पर है।

निर्णय विभाजन के प्रत्येक पक्ष के लिए इष्टतम भविष्यवाणी मूल्य प्रत्येक पक्ष पर वैक्टर के लिए गणना (सेंटीरोइड) है।

एकल चरों के साथ काम करते समय इष्टतम विभाजन बिंदु ढूँढना तुच्छ और कम्प्यूटेशनल रूप से तेज़ / कुशल है। एक n-tuple के लिए हम इष्टतम विभाजन नहीं पा सकते हैं (या कम से कम यह N के रूप में बढ़ जाता है)। ग्रेडिएंट ट्रैवर्सल)।

क्या यह वास्तव में काम करेगा? यही है, क्या यह बिना सामान्यीकरण के प्रशिक्षण जोड़े को मैप करेगा? क्या यह तकनीक पहले से ही एक अलग नाम के तहत मौजूद है?

आप यह भी विचार कर सकते हैं कि यह कैसे प्रतिबंधित नेट्ट्ज मशीनों (आरबीएम) और डीप बिलीफ नेटवर्क्स जैसे तंत्रिका जाल से संबंधित है।


Googling "मल्टीलेबेल रैंडम फ़ॉरेस्ट" से पता चलता है कि यह कुछ अलग तरीकों से भी किया गया है; वैसे भी, मैं संगीत जानकारी पुनर्प्राप्ति में इस कई बाइनरी-रफ़ दृष्टिकोण के साथ खेल रहा हूं और यह बहुत अच्छा कर रहा था।

1
मैं आपको इस लेख का सुझाव दूंगा । उन्होंने जो कुछ भी वर्णित किया है, उसके बहुत करीब हैं।
दिमित्री लाप्टेव

2
यह पहले से ही पार्टी पैकेज और कुछ अन्य पैकेज (आर भाषा) में मौजूद है।
जस

जवाबों:


8

एकाधिक उत्पादन निर्णय पेड़ (और इसलिए, यादृच्छिक वन) विकसित और प्रकाशित किए गए हैं। पियरे गुएर्ट्ज़ इसके लिए एक पैकेज वितरित करता है ( डाउनलोड करें)। सेगल और ज़ियाओ, मल्टीवेरिएट रैंडम फॉरेस्ट्स, वाइरस डेटा माइनिंग नॉवेल डिस्कोव 2011 1 80-87, डीओआई: 10.1002 / widm.12 भी देखें। मेरा मानना ​​है कि स्किटिट-लर्न का नवीनतम संस्करण भी इसका समर्थन करता है। कला की स्थिति की एक अच्छी समीक्षा हेनरिक लिनसन द्वारा "MULTI-OUTPUT RANDOM FORESTS" शीर्षक से की जा सकती है। प्रत्येक नोड पर विभाजन के विकल्प बनाने के लिए सबसे सरल विधि है कि उत्पादन चर में से एक को बेतरतीब ढंग से चुनें और फिर विभाजन चुनने के लिए सामान्य यादृच्छिक वन दृष्टिकोण का पालन करें। प्रत्येक इनपुट सुविधा और आउटपुट चर के संबंध में पारस्परिक सूचना स्कोर के भारित योग पर आधारित अन्य तरीके विकसित किए गए हैं, लेकिन वे यादृच्छिक दृष्टिकोण की तुलना में काफी महंगे हैं।


-1

जैसा कि यहाँ कहा गया है :

स्किटिट-लर्न के सभी क्लासीफायर मल्टीस्केल्स वर्गीकरण आउट-ऑफ-द-बॉक्स करते हैं।

और जिसमें रैंडम फॉरेस्ट शामिल है।

इसके अलावा पेज: http://scikit-learn.org/stable/modules/tree.html#tree-multioutput में उस विषय पर बहुत सारे संदर्भ हैं।


8
स्पष्ट होना; सवाल बहु- उत्पादन प्रतिगमन से संबंधित है ।
Redcalx

मेरे उत्तर में देरी के लिए क्षमा करें, लेकिन ऐसा लगता है कि scikit-learn प्रस्ताव के साथ-साथ मल्टीप्यूट रिग्रेशन प्रदान करता है: उदाहरण के लिए: scikit-learn.org/stable/auto_examples/tree/… और किसी भी मामले में, एक रणनीति है जिसमें फिटिंग एक शामिल है प्रति लक्ष्य regressor। यह उन विस्तारकों के लिए एक सरल रणनीति है जो मूल रूप से बहु-लक्ष्य प्रतिगमन का समर्थन नहीं करते हैं: scikit-learn.org/stable/modules/generated/… HTH
0asa
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.