उत्कृष्ट सांख्यिकीय मॉडलिंग को पढ़ने से : दो संस्कृतियों (ब्रेमेन 2001) , हम पारंपरिक सांख्यिकीय मॉडल (जैसे, रैखिक प्रतिगमन) और मशीन लर्निंग एल्गोरिदम (जैसे, बगिंग, रैंडम फ़ॉरेस्ट, बूस्टेड पेड़ ...) के बीच सभी अंतर को जब्त कर सकते हैं।
ब्रेमेन डेटा मॉडल (पैरामीट्रिक) की आलोचना करता है क्योंकि वे इस धारणा पर आधारित हैं कि टिप्पणियों को सांख्यिकीविद् द्वारा निर्धारित एक ज्ञात, औपचारिक मॉडल द्वारा उत्पन्न किया जाता है, जो प्रकृति का खराब अनुकरण कर सकता है। दूसरी ओर, एमएल एल्गो किसी भी औपचारिक मॉडल को नहीं मानते हैं और सीधे डेटा से इनपुट और आउटपुट चर के बीच संघों को सीखते हैं।
मैंने महसूस किया कि बैगिंग / आरएफ और बूस्टिंग, भी पैरामीट्रिक की तरह हैं: उदाहरण के लिए, एनटीआरआई , आरएफ में एमटीआरई , सीखने की दर , बैग अंश , स्टोचस्टिक ग्रेडिएंट बूस्टेड पेड़ों में पेड़ की जटिलता सभी ट्यूनिंग पैरामीटर हैं । हम इन मापदंडों का इष्टतम मान ज्ञात करने के लिए डेटा का उपयोग करने के बाद से डेटा से इन मापदंडों का आकलन करने के लिए भी तैयार हैं।
तो क्या अंतर है? क्या आरएफ और बूस्टेड पेड़ पैरामीट्रिक मॉडल हैं?