लॉजिस्टिक रिग्रेशन और रैंडम फॉरेस्ट के परिणामों को कैसे मिलाएं?


12

मैं मशीन लर्निंग के लिए नया हूं। मैंने एक ही डेटासेट पर लॉजिस्टिक रिग्रेशन और रैंडम फ़ॉरेस्ट लागू किया। इसलिए मुझे परिवर्तनीय महत्व मिलता है (लॉजिस्टिक रिग्रेशन के लिए पूर्ण गुणांक और यादृच्छिक वन के लिए चर महत्व)। मैं अंतिम परिवर्तनीय महत्व प्राप्त करने के लिए दोनों को मिलाने के बारे में सोच रहा हूं। क्या कोई अपना अनुभव साझा कर सकता है? मैंने बैगिंग, बूस्टिंग, मॉडलिंग को इकट्ठा किया है, लेकिन वे नहीं हैं जो मुझे चाहिए। वे प्रतिकृति भर में एक ही मॉडल के लिए जानकारी के संयोजन के अधिक हैं। मैं जो देख रहा हूं वह कई मॉडलों के परिणाम को संयोजित करना है।


5
पहनावा मॉडलिंग मॉडल को भी जोड़ सकता है। उदाहरण के लिए बहुसंख्यक मतदान देखें। स्टैकिंग भी देखें।
पैट

4
दरअसल, गुणांक के आकार का उपयोग करना लॉजिस्टिक रिग्रेशन में "वैरिएबल महत्व" को निर्धारित करने का एक अच्छा तरीका नहीं है। यहां तक ​​कि अगर आप मानकीकृत गुणांक को देखते हैं, तो यह एक अच्छा तरीका नहीं है। क्यों? याद रखें कि गुणांक केवल अनुमान हैं और उनसे जुड़ी एक त्रुटि है। आकार के आधार पर गुणांक लेने का मतलब है कि आप उन लोगों को चुनते हैं जिनके लिए आपने गुणांक आकार का अनुमान लगाया है और उन लोगों को छोड़ दिया है जिनके लिए आपने गुणांक आकार का अनुमान लगाया है।
user765195

जवाबों:


12

यह संभवत: इस बात पर निर्भर करता है कि आप चर आयात का उपयोग किस लिए करना चाहते हैं। क्या इसे तीसरे वर्गीकरण मॉडल के लिए फीचर चयन के लिए एक मानदंड के रूप में उपयोग किया जाना है? उस मामले में आप विभिन्न मूल्यों और औसत वजन के लिए एक भारित औसत चर आयात की गणना करने की कोशिश कर सकते हैं (शायद प्रत्येक व्यक्तिगत चर महत्व वेक्टर को इकाई की लंबाई के बाद सामान्य कर सकते हैं) और फिर अंतिम के लिए सबसे अच्छा क्रॉस-वैलिड स्कोर प्राप्त करने वाले मान को पिक करें। नमूना।

लॉजिस्टिक रिग्रेशन मॉडल और रैंडम फॉरेस्ट मॉडल (वैरिएबल इंपोर्ट्स पर विचार किए बिना) के परिणाम के संयोजन के लिए, निम्न ब्लॉग पोस्ट बहुत जानकारीपूर्ण है और प्रदर्शित करता है कि आउटपुट का एक एकल औसत रिग्रेशन मॉडल के लिए एक सरल अभी तक बहुत प्रभावी पहनावा तरीका है।


1
आपके जवाब के लिए धन्यवाद। आपके द्वारा उल्लिखित ब्लॉग वास्तव में दिलचस्प अध्ययन है। मुझे लगता है कि मुझे यह विचार मिला। केवल चिंता ही उसका क्रॉस एन्ट्रापी फॉर्मूला है। यह ऑनलाइन मुझे मिला के साथ अलग लगता है। उनका उपयोग करना: cross.entropy <- function (target, predicted) {प्रेडिक्टेड = pmax (1e-10, pmin (1-1e-10, प्रेडिक्टेड)) - sum (टारगेट * लॉग (प्रेडिक्टेड) ​​+ (1) - target * log (1 - भविष्यवाणी))}
user1946504

2
और जब मैंने अपने स्वयं के डेटासेट में एक ही विचार लागू किया, तो मैंने मानदंड त्रुटि को मापदंड के रूप में उपयोग किया, साजिश कुछ भी समान नहीं है। रैंडम फॉरेस्ट लॉजिस्टिक रिग्रेशन की तुलना में काफी बेहतर है। LR की 0.4 के लिए misclassification त्रुटि 0.2 है। इसी समय, आरएफ के लिए एयूसी 0.8 है, एलआर के लिए 0.73 है।
user1946504

5

(उपरोक्त प्रतिक्रिया और प्रतिक्रिया पर टिप्पणी)

ब्लॉग को पढ़ने के लिए धन्यवाद!

क्रॉस-एन्ट्रापी त्रुटि फ़ंक्शन में थोड़ा धोखा होता है, लॉग कार्यों में त्रुटियों को रोकने के लिए एक सस्ता और आसान तरीका के रूप में [1e-10, 1-1e-10] के लिए अनुमानित मूल्यों को काट दिया जाता है। अन्यथा, यह मानक सूत्र है।

डेटासेट के लिए, डेटासेट होना बहुत संभव है जहां एक यादृच्छिक वन लॉग से कहीं बेहतर है। reg। और लॉग। reg। पहनावा में कुछ भी नहीं जोड़ता है। सुनिश्चित करें, निश्चित रूप से, कि आप होल्ड-आउट डेटा का उपयोग कर रहे हैं - एक यादृच्छिक जंगल लगभग हमेशा अधिक प्रभावी पैरामीटर होने के कारण प्रशिक्षण डेटा पर बेहतर परिणाम होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.