यादृच्छिक जंगलों में निकटता से क्या मतलब है?


13

मैं यादृच्छिक जंगलों में शब्द निकटता भर में आया था। लेकिन मुझे यह समझ में नहीं आया कि यादृच्छिक जंगलों में क्या होता है। यह वर्गीकरण उद्देश्यों के लिए कैसे मदद करता है?

जवाबों:


13

"निकटता" शब्द का अर्थ है "घनिष्ठता" या मामलों की जोड़ी के बीच "निकटता"।

मामलों की प्रत्येक जोड़ी / प्रेक्षण / नमूना बिंदुओं के लिए अनुमानों की गणना की जाती है। यदि दो मामले एक ही पेड़ के माध्यम से एक ही टर्मिनल नोड पर कब्जा कर लेते हैं, तो उनकी निकटता एक से बढ़ जाती है। सभी पेड़ों के रन के अंत में, पेड़ों की संख्या से विभाजित करके अनुमानितताओं को सामान्य किया जाता है। मिसिंग डेटा की जगह, आउटलेयर का पता लगाने और डेटा के कम-आयामी विचारों को रोशन करने के लिए प्रक्रियाओं का उपयोग किया जाता है।

समीपवर्ती स्थान

मूल रूप से एक NxN मैट्रिक्स का गठन किया। एक पेड़ उगाए जाने के बाद, पेड़ के नीचे, प्रशिक्षण और ओब, दोनों के सभी डेटा डालें। यदि केस k और n एक ही टर्मिनल नोड में हैं, तो उनकी निकटता एक से बढ़ जाती है। अंत में, पेड़ों की संख्या से विभाजित करके अनुमानों को सामान्य करें।

उपयोगकर्ताओं ने ध्यान दिया कि बड़े डेटा सेट के साथ, वे NxN मैट्रिक्स को तेज मेमोरी में फिट नहीं कर सकते हैं। एक संशोधन ने आवश्यक स्मृति आकार को NxT तक कम कर दिया जहां T जंगल में पेड़ों की संख्या है। कम्प्यूटेशनल-गहन स्केलिंग और पुनरावृत्ति लापता मूल्य प्रतिस्थापन को गति देने के लिए, उपयोगकर्ता को प्रत्येक मामले में केवल एनआरएनएन सबसे बड़ी प्राथमिकताओं को बनाए रखने का विकल्प दिया जाता है।

जब एक परीक्षण सेट मौजूद होता है, तो प्रशिक्षण सेट में प्रत्येक मामले के साथ परीक्षण सेट में प्रत्येक मामले की प्रायोगिक गणना भी की जा सकती है। अतिरिक्त कंप्यूटिंग की मात्रा मध्यम है।

उद्धरण: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm


"Nnnn" के लिए क्या खड़ा है? मैं एडेल कटलर पढ़ रहा था (या संभवत: ब्रेमेन के रूप में मैं यह नहीं बता सकता कि आरएफ पर कौन यहाँ क्या लिख ​​रहा है) पृष्ठ, और मैं नहीं ढूँढ सकता कि वे एनआरएन को कहां परिभाषित करते हैं। (यह बहुत अच्छी तरह से एक रेखीय बीजगणित शब्द हो सकता है जिसके साथ मैं अपरिचित हूं।
टान्नर स्ट्रंक

nnnn = निकटतम पड़ोसियों की संख्या जिसके लिए समानताओं की गणना करना। स्रोत: math.usu.edu/adele/RandomForests/ENAR.pdf पेज 161
19 को klumbard

0

ध्यान दें कि सांख्यिकीय लर्निंग के तत्वों के लेखक कहते हैं कि "यादृच्छिक जंगलों के लिए निकटता वाले भूखंड अक्सर समान होते हैं, डेटा के बावजूद, जो उनकी उपयोगिता पर संदेह करता है। उनके पास स्टार आकार, प्रति वर्ग एक हाथ, जो अधिक है बेहतर वर्गीकरण प्रदर्शन का उच्चारण किया। ” (पृष्ठ ५ ९ ५)

हालांकि, मुझे लगता है कि ये लेखक उन तरीकों का उल्लेख नहीं करते हैं जो यादृच्छिक जंगलों में लापता डेटा से बहुत अधिक व्यवहार करते हैं (भले ही वे किताब में पेड़ों के साथ लापता डेटा का उल्लेख करते हैं); शायद लेखकों बस जितना RFS के इस पहलू है, जो बनाता है भावना पुस्तक पर विचार है पर प्रकाश डाला नहीं था विशाल और के बारे में जानकारी का एक बहुत कुछ है एक बहुत मशीन सीखने विषयों / तकनीकों का। हालाँकि, मुझे नहीं लगता कि किसी भी RF के लिए प्लॉट समान आकार देते हैं और डेटा सेट का मतलब सामान्य तौर पर RF के बारे में कुछ भी नकारात्मक होता है। उदाहरण के लिए, रैखिक प्रतिगमन मूल रूप से हमेशा एक जैसा दिखता है, लेकिन यह जानना सार्थक है कि कौन से बिंदु रेखा के करीब स्थित हैं और जो रैखिक प्रतिगमन के दृष्टिकोण से आउटलेर प्रतीत होते हैं। इसलिए ... निकटता भूखंडों की उपयोगिता के बारे में उनकी टिप्पणी से मुझे कोई मतलब नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.