छोटे एन, बड़े पी समस्याओं में पेड़-आधारित पहनावा विधियों तक सीमित है?


10

वृक्ष आधारित पहनावा पद्धति जैसे कि रैंडम फ़ॉरेस्ट, और बाद के डेरिवेटिव (जैसे, सशर्त वन), सभी चर तथाकथित तथाकथित "छोटे n , बड़े पी " समस्याओं के लिए उपयोगी होते हैं , रिश्तेदार चर महत्व की पहचान के लिए। दरअसल, यह मामला प्रतीत होता है, लेकिन मेरा सवाल यह है कि इस क्षमता को कितनी दूर ले जाया जा सकता है? क्या कोई 30 टिप्पणियों और 100 चर कह सकता है? इस तरह के दृष्टिकोण के लिए ब्रेकिंग पॉइंट क्या है, और क्या अंगूठे के कोई सभ्य नियम मौजूद हैं? मैं पसंद करूंगा और नकली या वास्तविक डेटा सेट का उपयोग करके वास्तविक साक्ष्य (अनुमान नहीं) के लिंक द्वारा समर्थित उत्तर स्वीकार करूंगा । मुझे उत्तरार्द्ध ( यहाँ और यहाँ) पर ज्यादा नहीं मिला है), इसलिए आपके विचार / सलाह / (विषय पर) संदर्भ सुझावों का सबसे अधिक स्वागत है!

जवाबों:


3

मुझे संदेह है कि इस सवाल का कोई निश्चित जवाब नहीं होगा जब तक कि कुछ सिमुलेशन अध्ययन नहीं किए जाते हैं। इस बीच, मुझे जेनर एट अल के रैंडम फ़ॉरेस्ट मिले: कुछ पद्धतिगत अंतर्दृष्टि ने इस सवाल पर कुछ परिप्रेक्ष्य डालने में मदद की, कम से कम "कम एन, उच्च पी" डेटासेट की एक किस्म के खिलाफ आरएफ परीक्षण के संदर्भ में। इनमें से कई डेटासेट में> 5000 भविष्यवक्ता और <100 अवलोकन हैं !!


3

विफलता मोड जिसका आप सामना करेंगे, पर्याप्त यादृच्छिक विशेषताओं के साथ, ऐसी सुविधाएँ मौजूद होंगी जो प्रत्येक पेड़ के लिए इस्तेमाल किए गए बैग के नमूनों के भीतर लक्ष्य से संबंधित हैं, लेकिन बड़े डेटासेट के भीतर नहीं। इसी तरह का एक मुद्दा कई परीक्षण में देखा गया।

इसके लिए अंगूठे के नियम सटीक बिंदु के बाद से विकसित करना मुश्किल है, जिस पर ऐसा होता है, यह डेटा में सिग्नल की शोर और ताकत की मात्रा पर निर्भर करता है। ऐसी विधियाँ भी मौजूद हैं, जो बंटवारे मानदंड के रूप में कई परीक्षण सही पी-मानों का उपयोग करके इसे संबोधित करती हैं, चर महत्व के आधार पर एक फीचर चयन चरण और / या वास्तविक सुविधा को बेतरतीब ढंग से उपयोग करके कृत्रिम विपरीत सुविधाओं द्वारा उत्पादित फीचर आयात की तुलना करना, बाहर का उपयोग करना बैग मामलों के विभाजन के चयन और अन्य तरीकों को मान्य करने के लिए। ये बेहद प्रभावी हो सकते हैं।

मैंने ~ 1000 मामलों और 30,000-1,000,000 सुविधाओं के साथ डेटा सेट पर यादृच्छिक जंगलों (उपरोक्त पद्धति में से कुछ सहित) का उपयोग किया है। (डेटा चयन या इंजीनियरिंग के अलग-अलग स्तर के साथ मानव आनुवंशिकी में डेटा सेट)। वे निश्चित रूप से इस तरह के डेटा में एक मजबूत सिग्नल (या बैच प्रभाव) को ठीक करने में प्रभावी हो सकते हैं, लेकिन एक साथ कुछ भी अच्छी तरह से piecing नहीं करते हैं जैसे कि विषम रोग के साथ एक बीमारी होती है क्योंकि राशि यादृच्छिक भिन्नता प्रत्येक संकेत से अधिक हो जाती है।


0

यह आपके डेटा में सिग्नल और शोर पर भी निर्भर करेगा। यदि आपके आश्रित चर को आपके मॉडल में चर के संयोजन से बहुत अच्छी तरह से समझाया गया है तो मुझे लगता है कि आप कम n / p अनुपात के साथ दूर हो सकते हैं।

मुझे संदेह है कि केवल अनुपात से अलग एक सभ्य मॉडल प्राप्त करने के लिए एन की एक न्यूनतम न्यूनतम संख्या भी आवश्यक होगी।

इसे देखने का एक तरीका यह है कि प्रत्येक पेड़ SQRT (पी) चर के बारे में उपयोग करके बनाया गया है और यदि यह संख्या बड़ी है और अंकों की संख्या छोटे पेड़ हैं तो वास्तव में वहां एक वास्तविक मॉडल होने के बिना फिट किया जा सकता है। इसलिए इस तरह के बहुत सारे सज्जित पेड़ झूठे परिवर्तनशील महत्व देंगे।

आमतौर पर अगर वेरिएबल महत्व चार्ट में, मैं शीर्ष स्तर के बहुत सारे वेरिएबल देखता हूं, जिसमें लगभग समान स्तर का निष्कर्ष निकलता है, तो मुझे लगता है कि यह मुझे केवल शोर कर रहा है।


SQRT (p) कहाँ से आता है?
लॉरीके

रैंडम फ़ॉरेस्ट में प्रत्येक पेड़ को चर के नमूने का उपयोग करके बनाया गया है। डिफ़ॉल्ट रूप से (आर रैंडमफॉरेस्ट पैकेज में कम से कम) मान जो लेता है वह SQRT (p) के बराबर या उससे कम निकटतम संख्या है जहां p स्तंभों की संख्या है।
दीपकमल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.