मैं यादृच्छिक जंगलों में शब्द निकटता भर में आया था। लेकिन मुझे यह समझ में नहीं आया कि यादृच्छिक जंगलों में क्या होता है। यह वर्गीकरण उद्देश्यों के लिए कैसे मदद करता है?
मैं यादृच्छिक जंगलों में शब्द निकटता भर में आया था। लेकिन मुझे यह समझ में नहीं आया कि यादृच्छिक जंगलों में क्या होता है। यह वर्गीकरण उद्देश्यों के लिए कैसे मदद करता है?
जवाबों:
"निकटता" शब्द का अर्थ है "घनिष्ठता" या मामलों की जोड़ी के बीच "निकटता"।
मामलों की प्रत्येक जोड़ी / प्रेक्षण / नमूना बिंदुओं के लिए अनुमानों की गणना की जाती है। यदि दो मामले एक ही पेड़ के माध्यम से एक ही टर्मिनल नोड पर कब्जा कर लेते हैं, तो उनकी निकटता एक से बढ़ जाती है। सभी पेड़ों के रन के अंत में, पेड़ों की संख्या से विभाजित करके अनुमानितताओं को सामान्य किया जाता है। मिसिंग डेटा की जगह, आउटलेयर का पता लगाने और डेटा के कम-आयामी विचारों को रोशन करने के लिए प्रक्रियाओं का उपयोग किया जाता है।
समीपवर्ती स्थान
मूल रूप से एक NxN मैट्रिक्स का गठन किया। एक पेड़ उगाए जाने के बाद, पेड़ के नीचे, प्रशिक्षण और ओब, दोनों के सभी डेटा डालें। यदि केस k और n एक ही टर्मिनल नोड में हैं, तो उनकी निकटता एक से बढ़ जाती है। अंत में, पेड़ों की संख्या से विभाजित करके अनुमानों को सामान्य करें।
उपयोगकर्ताओं ने ध्यान दिया कि बड़े डेटा सेट के साथ, वे NxN मैट्रिक्स को तेज मेमोरी में फिट नहीं कर सकते हैं। एक संशोधन ने आवश्यक स्मृति आकार को NxT तक कम कर दिया जहां T जंगल में पेड़ों की संख्या है। कम्प्यूटेशनल-गहन स्केलिंग और पुनरावृत्ति लापता मूल्य प्रतिस्थापन को गति देने के लिए, उपयोगकर्ता को प्रत्येक मामले में केवल एनआरएनएन सबसे बड़ी प्राथमिकताओं को बनाए रखने का विकल्प दिया जाता है।
जब एक परीक्षण सेट मौजूद होता है, तो प्रशिक्षण सेट में प्रत्येक मामले के साथ परीक्षण सेट में प्रत्येक मामले की प्रायोगिक गणना भी की जा सकती है। अतिरिक्त कंप्यूटिंग की मात्रा मध्यम है।
उद्धरण: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
ध्यान दें कि सांख्यिकीय लर्निंग के तत्वों के लेखक कहते हैं कि "यादृच्छिक जंगलों के लिए निकटता वाले भूखंड अक्सर समान होते हैं, डेटा के बावजूद, जो उनकी उपयोगिता पर संदेह करता है। उनके पास स्टार आकार, प्रति वर्ग एक हाथ, जो अधिक है बेहतर वर्गीकरण प्रदर्शन का उच्चारण किया। ” (पृष्ठ ५ ९ ५)
हालांकि, मुझे लगता है कि ये लेखक उन तरीकों का उल्लेख नहीं करते हैं जो यादृच्छिक जंगलों में लापता डेटा से बहुत अधिक व्यवहार करते हैं (भले ही वे किताब में पेड़ों के साथ लापता डेटा का उल्लेख करते हैं); शायद लेखकों बस जितना RFS के इस पहलू है, जो बनाता है भावना पुस्तक पर विचार है पर प्रकाश डाला नहीं था विशाल और के बारे में जानकारी का एक बहुत कुछ है एक बहुत मशीन सीखने विषयों / तकनीकों का। हालाँकि, मुझे नहीं लगता कि किसी भी RF के लिए प्लॉट समान आकार देते हैं और डेटा सेट का मतलब सामान्य तौर पर RF के बारे में कुछ भी नकारात्मक होता है। उदाहरण के लिए, रैखिक प्रतिगमन मूल रूप से हमेशा एक जैसा दिखता है, लेकिन यह जानना सार्थक है कि कौन से बिंदु रेखा के करीब स्थित हैं और जो रैखिक प्रतिगमन के दृष्टिकोण से आउटलेर प्रतीत होते हैं। इसलिए ... निकटता भूखंडों की उपयोगिता के बारे में उनकी टिप्पणी से मुझे कोई मतलब नहीं है।