यादृच्छिक वन और बूस्टिंग पैरामीट्रिक या गैर पैरामीट्रिक हैं?


13

उत्कृष्ट सांख्यिकीय मॉडलिंग को पढ़ने से : दो संस्कृतियों (ब्रेमेन 2001) , हम पारंपरिक सांख्यिकीय मॉडल (जैसे, रैखिक प्रतिगमन) और मशीन लर्निंग एल्गोरिदम (जैसे, बगिंग, रैंडम फ़ॉरेस्ट, बूस्टेड पेड़ ...) के बीच सभी अंतर को जब्त कर सकते हैं।

ब्रेमेन डेटा मॉडल (पैरामीट्रिक) की आलोचना करता है क्योंकि वे इस धारणा पर आधारित हैं कि टिप्पणियों को सांख्यिकीविद् द्वारा निर्धारित एक ज्ञात, औपचारिक मॉडल द्वारा उत्पन्न किया जाता है, जो प्रकृति का खराब अनुकरण कर सकता है। दूसरी ओर, एमएल एल्गो किसी भी औपचारिक मॉडल को नहीं मानते हैं और सीधे डेटा से इनपुट और आउटपुट चर के बीच संघों को सीखते हैं।

मैंने महसूस किया कि बैगिंग / आरएफ और बूस्टिंग, भी पैरामीट्रिक की तरह हैं: उदाहरण के लिए, एनटीआरआई , आरएफ में एमटीआरई , सीखने की दर , बैग अंश , स्टोचस्टिक ग्रेडिएंट बूस्टेड पेड़ों में पेड़ की जटिलता सभी ट्यूनिंग पैरामीटर हैं । हम इन मापदंडों का इष्टतम मान ज्ञात करने के लिए डेटा का उपयोग करने के बाद से डेटा से इन मापदंडों का आकलन करने के लिए भी तैयार हैं।

तो क्या अंतर है? क्या आरएफ और बूस्टेड पेड़ पैरामीट्रिक मॉडल हैं?

जवाबों:


12

पैरामीट्रिक मॉडल में डेटा वितरण के संबंध में पैरामीटर (उन्हें अनुमान लगाते हैं) या धारणाएं होती हैं, जबकि आरएफ, न्यूरल नेट या बूस्टिंग ट्री में एल्गोरिदम से संबंधित पैरामीटर होते हैं, लेकिन उन्हें आपके डेटा वितरण के बारे में मान्यताओं की आवश्यकता नहीं होती है या आपके डेटा को सैद्धांतिक वितरण में वर्गीकृत करते हैं। । वास्तव में लगभग सभी एल्गोरिदम में अनुकूलन से संबंधित पुनरावृत्तियों या मार्जिन मान जैसे पैरामीटर हैं।


5
इसलिए, संक्षेप में: 1) एमएल और पैरामीट्रिक मॉडल दोनों मापदंडों को एमएल में डेटा, बीयूटी 2) के आधार पर ट्यून / अनुमानित किया जाता है, पैरामीटर नियंत्रित करते हैं कि एल्गोरिदम डेटा से कैसे सीखते हैं (डेटा के बारे में कोई धारणा बनाए बिना, और नीचे की ओर। डेटा पीढ़ी), जबकि पैरामीट्रिक मॉडल (एक प्राथमिकता मानने वाले मॉडल) के पैरामीटर उस तंत्र को नियंत्रित करते हैं जो माना जाता है कि उन्होंने डेटा का उत्पादन किया है (बहुत अधिक अवास्तविक मान्यताओं के साथ जो शायद ही कभी व्यवहार में आते हैं)। क्या आपको लगता है कि यह एक पर्याप्त सारांश है? क्या आप कुछ भी जोड़ / बदल सकते हैं?
एंटोनी

4
मुझे लगता है कि ब्रेमेन के पेपर से एक वाक्य जो सब कुछ संक्षेप में बताता है "एल्गोरिदम मॉडलिंग बदलाव डेटा मॉडल से एल्गोरिदम के गुणों पर केंद्रित है"।
एंटोनी

1
आप इसे इस तरह संक्षेप में प्रस्तुत कर सकते हैं लेकिन .. पैरामीट्रिक मॉडल को कम मत समझो। ऐसी परिस्थितियां हैं जहां वे बहुत सारी समस्याओं को हल करने के लिए आवश्यक और इष्टतम हैं। साथ ही उनकी धारणाएँ भी अवास्तविक नहीं हैं। कई सैद्धांतिक वितरण बहुत सी चीजों को समझाने के लिए मान्य होते हैं, सामान्य से द्विपद, तार्किक, ज्यामितीय आदि। यह एक या दूसरे के बारे में नहीं है, यह एक समस्या को हल करने के लिए सही तरीके को चुनने के बारे में है।
D.Castro

4
मैं सहमत हूँ। जब अंतर्निहित शारीरिक प्रक्रिया अच्छी तरह से जानी जाती है, तो पैरामीट्रिक मॉडल उपयुक्त होते हैं। ब्रिमन ज्ञान की खोज और भविष्यवाणी के लिए पैरामीट्रिक मॉडल के उपयोग की आलोचना कर रहे हैं जब अंतर्निहित प्रक्रिया अज्ञात है
एंटोनी

1

मुझे लगता है कि पैरामीट्रिक और गैर-पैरामीट्रिक के लिए मानदंड यह है: क्या मापदंडों की संख्या प्रशिक्षण नमूनों की संख्या के साथ बढ़ती है। लॉजिस्टिक रिग्रेशन और svm के लिए, जब आप सुविधाओं का चयन करते हैं, तो आपको अधिक प्रशिक्षण डेटा जोड़कर अधिक पैरामीटर नहीं मिलेंगे। लेकिन आरएफ और इतने पर, मॉडल का विवरण बदल जाएगा (जैसे पेड़ की गहराई) भले ही पेड़ों की संख्या नहीं बदलती है।


लेकिन RF या बूस्टिंग में, पेड़ की गहराई बढ़ाने से पैरामीटर नहीं जुड़ते हैं। आपके पास अभी भी अपना tree.complexityपैरामीटर है, आप बस इसके मूल्य को बदलते हैं। इसके अलावा, आरएफ और वन / अनुक्रम में पेड़ों की संख्या को बढ़ाने से आपके नमूना आकार के आधार पर परिवर्तन होता है
एंटोनी

मेरे विकल्पों में, जब पेड़ की गहराई बदलती है, तो पेड़ में कुछ अधिक विभाजन होते हैं, इसलिए आपके पास अधिक पैरामीटर हैं। जब डेटा में परिवर्तन के रूप में आरएफ और बूस्टिंग में पेड़ की संख्या में परिवर्तन होता है, लेकिन जब मॉडल रैखिक मॉडल होता है तो ऐसा नहीं होगा।
यू झांग

1

सांख्यिकीय अर्थों में, मॉडल पैरामीट्रिक है, यदि मापदंडों को सीखा जाता है या डेटा के आधार पर अनुमान लगाया जाता है। इस अर्थ में एक वृक्ष अधपका है। बेशक पेड़ की गहराई एल्गोरिदम का एक पैरामीटर है, लेकिन यह स्वाभाविक रूप से डेटा से प्राप्त नहीं होता है, बल्कि एक इनपुट पैरामीटर है जो उपयोगकर्ता द्वारा प्रदान किया जाना है।


तो, मान लें कि आपको OLS और ट्री बेस्ड मॉडल को एक गैर तकनीकी दर्शकों के सामने पेश करना है, तो क्या आप कह सकते हैं कि पूर्व पैरामीट्रिक हैं जबकि बाद वाले गैर पैरामीट्रिक हैं?
टांगी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.