यादृच्छिक वन और बूस्टिंग पैरामीट्रिक या गैर पैरामीट्रिक हैं?

13

उत्कृष्ट सांख्यिकीय मॉडलिंग को पढ़ने से : दो संस्कृतियों (ब्रेमेन 2001) , हम पारंपरिक सांख्यिकीय मॉडल (जैसे, रैखिक प्रतिगमन) और मशीन लर्निंग एल्गोरिदम (जैसे, बगिंग, रैंडम फ़ॉरेस्ट, बूस्टेड पेड़ ...) के बीच सभी अंतर को जब्त कर सकते हैं।

ब्रेमेन डेटा मॉडल (पैरामीट्रिक) की आलोचना करता है क्योंकि वे इस धारणा पर आधारित हैं कि टिप्पणियों को सांख्यिकीविद् द्वारा निर्धारित एक ज्ञात, औपचारिक मॉडल द्वारा उत्पन्न किया जाता है, जो प्रकृति का खराब अनुकरण कर सकता है। दूसरी ओर, एमएल एल्गो किसी भी औपचारिक मॉडल को नहीं मानते हैं और सीधे डेटा से इनपुट और आउटपुट चर के बीच संघों को सीखते हैं।

मैंने महसूस किया कि बैगिंग / आरएफ और बूस्टिंग, भी पैरामीट्रिक की तरह हैं: उदाहरण के लिए, एनटीआरआई , आरएफ में एमटीआरई , सीखने की दर , बैग अंश , स्टोचस्टिक ग्रेडिएंट बूस्टेड पेड़ों में पेड़ की जटिलता सभी ट्यूनिंग पैरामीटर हैं । हम इन मापदंडों का इष्टतम मान ज्ञात करने के लिए डेटा का उपयोग करने के बाद से डेटा से इन मापदंडों का आकलन करने के लिए भी तैयार हैं।

तो क्या अंतर है? क्या आरएफ और बूस्टेड पेड़ पैरामीट्रिक मॉडल हैं?

— एंटोनी
स्रोत

12

पैरामीट्रिक मॉडल में डेटा वितरण के संबंध में पैरामीटर (उन्हें अनुमान लगाते हैं) या धारणाएं होती हैं, जबकि आरएफ, न्यूरल नेट या बूस्टिंग ट्री में एल्गोरिदम से संबंधित पैरामीटर होते हैं, लेकिन उन्हें आपके डेटा वितरण के बारे में मान्यताओं की आवश्यकता नहीं होती है या आपके डेटा को सैद्धांतिक वितरण में वर्गीकृत करते हैं। । वास्तव में लगभग सभी एल्गोरिदम में अनुकूलन से संबंधित पुनरावृत्तियों या मार्जिन मान जैसे पैरामीटर हैं।

— D.Castro
स्रोत

5

इसलिए, संक्षेप में: 1) एमएल और पैरामीट्रिक मॉडल दोनों मापदंडों को एमएल में डेटा, बीयूटी 2) के आधार पर ट्यून / अनुमानित किया जाता है, पैरामीटर नियंत्रित करते हैं कि एल्गोरिदम डेटा से कैसे सीखते हैं (डेटा के बारे में कोई धारणा बनाए बिना, और नीचे की ओर। डेटा पीढ़ी), जबकि पैरामीट्रिक मॉडल (एक प्राथमिकता मानने वाले मॉडल) के पैरामीटर उस तंत्र को नियंत्रित करते हैं जो माना जाता है कि उन्होंने डेटा का उत्पादन किया है (बहुत अधिक अवास्तविक मान्यताओं के साथ जो शायद ही कभी व्यवहार में आते हैं)। क्या आपको लगता है कि यह एक पर्याप्त सारांश है? क्या आप कुछ भी जोड़ / बदल सकते हैं?

— एंटोनी

4

मुझे लगता है कि ब्रेमेन के पेपर से एक वाक्य जो सब कुछ संक्षेप में बताता है "एल्गोरिदम मॉडलिंग बदलाव डेटा मॉडल से एल्गोरिदम के गुणों पर केंद्रित है"।

— एंटोनी

1

आप इसे इस तरह संक्षेप में प्रस्तुत कर सकते हैं लेकिन .. पैरामीट्रिक मॉडल को कम मत समझो। ऐसी परिस्थितियां हैं जहां वे बहुत सारी समस्याओं को हल करने के लिए आवश्यक और इष्टतम हैं। साथ ही उनकी धारणाएँ भी अवास्तविक नहीं हैं। कई सैद्धांतिक वितरण बहुत सी चीजों को समझाने के लिए मान्य होते हैं, सामान्य से द्विपद, तार्किक, ज्यामितीय आदि। यह एक या दूसरे के बारे में नहीं है, यह एक समस्या को हल करने के लिए सही तरीके को चुनने के बारे में है।

— D.Castro

4

मैं सहमत हूँ। जब अंतर्निहित शारीरिक प्रक्रिया अच्छी तरह से जानी जाती है, तो पैरामीट्रिक मॉडल उपयुक्त होते हैं। ब्रिमन ज्ञान की खोज और भविष्यवाणी के लिए पैरामीट्रिक मॉडल के उपयोग की आलोचना कर रहे हैं जब अंतर्निहित प्रक्रिया अज्ञात है

— एंटोनी

1

मुझे लगता है कि पैरामीट्रिक और गैर-पैरामीट्रिक के लिए मानदंड यह है: क्या मापदंडों की संख्या प्रशिक्षण नमूनों की संख्या के साथ बढ़ती है। लॉजिस्टिक रिग्रेशन और svm के लिए, जब आप सुविधाओं का चयन करते हैं, तो आपको अधिक प्रशिक्षण डेटा जोड़कर अधिक पैरामीटर नहीं मिलेंगे। लेकिन आरएफ और इतने पर, मॉडल का विवरण बदल जाएगा (जैसे पेड़ की गहराई) भले ही पेड़ों की संख्या नहीं बदलती है।

— यू झांग
स्रोत

लेकिन RF या बूस्टिंग में, पेड़ की गहराई बढ़ाने से पैरामीटर नहीं जुड़ते हैं। आपके पास अभी भी अपना tree.complexityपैरामीटर है, आप बस इसके मूल्य को बदलते हैं। इसके अलावा, आरएफ और वन / अनुक्रम में पेड़ों की संख्या को बढ़ाने से आपके नमूना आकार के आधार पर परिवर्तन होता है

— एंटोनी

मेरे विकल्पों में, जब पेड़ की गहराई बदलती है, तो पेड़ में कुछ अधिक विभाजन होते हैं, इसलिए आपके पास अधिक पैरामीटर हैं। जब डेटा में परिवर्तन के रूप में आरएफ और बूस्टिंग में पेड़ की संख्या में परिवर्तन होता है, लेकिन जब मॉडल रैखिक मॉडल होता है तो ऐसा नहीं होगा।

— यू झांग

1

सांख्यिकीय अर्थों में, मॉडल पैरामीट्रिक है, यदि मापदंडों को सीखा जाता है या डेटा के आधार पर अनुमान लगाया जाता है। इस अर्थ में एक वृक्ष अधपका है। बेशक पेड़ की गहराई एल्गोरिदम का एक पैरामीटर है, लेकिन यह स्वाभाविक रूप से डेटा से प्राप्त नहीं होता है, बल्कि एक इनपुट पैरामीटर है जो उपयोगकर्ता द्वारा प्रदान किया जाना है।

— PeterPancake
स्रोत

तो, मान लें कि आपको OLS और ट्री बेस्ड मॉडल को एक गैर तकनीकी दर्शकों के सामने पेश करना है, तो क्या आप कह सकते हैं कि पूर्व पैरामीट्रिक हैं जबकि बाद वाले गैर पैरामीट्रिक हैं?

— टांगी