मैंने एक xgboost मॉडल चलाया। मैं बिल्कुल नहीं जानता कि कैसे आउटपुट की व्याख्या करना है xgb.importance
।
लाभ, आच्छादन और आवृत्ति का अर्थ क्या है और हम उनकी व्याख्या कैसे करते हैं?
इसके अलावा, स्प्लिट, RealCover और RealCover% का क्या मतलब है? मेरे पास यहां कुछ अतिरिक्त पैरामीटर हैं
क्या कोई अन्य पैरामीटर है जो मुझे फीचर आयात के बारे में अधिक बता सकता है?
R दस्तावेज़ीकरण से, मुझे कुछ समझ है कि लाभ सूचना लाभ के समान है और आवृत्ति सभी पेड़ों में एक विशेषता का उपयोग करने की संख्या है। मुझे पता नहीं है कि कवर क्या है।
मैंने लिंक में दिए गए उदाहरण कोड को चलाया (और इस समस्या पर भी वही करने की कोशिश की, जिस पर मैं काम कर रहा हूं), लेकिन वहां दी गई विभाजन की परिभाषा उन संख्याओं से मेल नहीं खाती जिन्हें मैंने गणना की थी।
importance_matrix
आउटपुट:
Feature Gain Cover Frequence
1: xxx 2.276101e-01 0.0618490331 1.913283e-02
2: xxxx 2.047495e-01 0.1337406946 1.373710e-01
3: xxxx 1.239551e-01 0.1032614896 1.319798e-01
4: xxxx 6.269780e-02 0.0431682707 1.098646e-01
5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216: xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218: xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05