डमी चर के साथ फ़ीचर महत्व


18

मैं यह समझने की कोशिश कर रहा हूं कि कैसे मैं एक श्रेणीबद्ध चर के फीचर महत्व को प्राप्त कर सकता हूं जिसे डमी चर में तोड़ दिया गया है। मैं scikit-learn का उपयोग कर रहा हूं, जो आपके लिए R या h2o करने के लिए श्रेणीबद्ध चर को नहीं संभालता है।

अगर मैं एक वैरिएबल वैरिएबल को डमी वैरिएबल में तोड़ता हूं, तो मुझे उस वैरिएबल में प्रति वर्ग अलग फीचर इंपोर्टेंस मिलता है।

मेरा प्रश्न यह है कि क्या उन डमी वैरिएबल इंपोर्टेंस को एक महत्वपूर्ण मूल्य में वर्गीकृत करने के लिए एक महत्वपूर्ण मूल्य में फिर से जोड़ने के लिए समझ में आता है?

सांख्यिकीय सीखने के तत्वों के पृष्ठ 368 से:

चर का चुकता सापेक्ष महत्व एक्स सभी आंतरिक नोड पर इस तरह के वर्ग सुधार जिसके लिए वह बंटवारे चर के रूप में चुना गया था का योग है

इससे मुझे लगता है कि चूँकि महत्वपूर्ण मान पहले से ही प्रत्येक नोड पर एक मेट्रिक को योग करके बनाया गया है, चर का चयन किया गया है, मुझे डेरे के महत्वपूर्ण चर मानों को श्रेणीबद्ध चर के महत्व को "पुनर्प्राप्त" करने में सक्षम होना चाहिए। बेशक, मैं यह बिल्कुल ठीक होने की उम्मीद नहीं करता, लेकिन ये मूल्य वास्तव में सटीक मूल्य हैं क्योंकि वे एक यादृच्छिक प्रक्रिया के माध्यम से पाए जाते हैं।

मैंने जांच के रूप में निम्नलिखित अजगर कोड (ज्यूपिटर में) लिखा है:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import animation, rc
from sklearn.datasets import load_diabetes
from sklearn.ensemble import RandomForestClassifier
import re

#%matplotlib inline
from IPython.display import HTML
from IPython.display import set_matplotlib_formats

plt.rcParams['figure.autolayout'] = False
plt.rcParams['figure.figsize'] = 10, 6
plt.rcParams['axes.labelsize'] = 18
plt.rcParams['axes.titlesize'] = 20
plt.rcParams['font.size'] = 14
plt.rcParams['lines.linewidth'] = 2.0
plt.rcParams['lines.markersize'] = 8
plt.rcParams['legend.fontsize'] = 14

# Get some data, I could not easily find a free data set with actual categorical variables, so I just created some from continuous variables
data = load_diabetes()
df = pd.DataFrame(data.data, columns=[data.feature_names])
df = df.assign(target=pd.Series(data.target))

# Functions to plot the variable importances
def autolabel(rects, ax):
    """
    Attach a text label above each bar displaying its height
    """
    for rect in rects:
        height = rect.get_height()
        ax.text(rect.get_x() + rect.get_width()/2.,
                1.05*height,
                f'{round(height,3)}',
                ha='center',
                va='bottom')

def plot_feature_importance(X,y,dummy_prefixes=None, ax=None, feats_to_highlight=None):

    # Find the feature importances by fitting a random forest
    forest = RandomForestClassifier(n_estimators=100)
    forest.fit(X,y)
    importances_dummy = forest.feature_importances_

    # If there are specified dummy variables, combing them into a single categorical 
    # variable by summing the importances. This code assumes the dummy variables were
    # created using pandas get_dummies() method names the dummy variables as
    # featurename_categoryvalue
    if dummy_prefixes is None:
        importances_categorical = importances_dummy
        labels = X.columns
    else:
        dummy_idx = np.repeat(False,len(X.columns))
        importances_categorical = []
        labels = []

        for feat in dummy_prefixes:
            feat_idx = np.array([re.match(f'^{feat}_', col) is not None for col in X.columns])
            importances_categorical = np.append(importances_categorical,
                                                sum(importances_dummy[feat_idx]))
            labels = np.append(labels,feat)
            dummy_idx = dummy_idx | feat_idx
        importances_categorical = np.concatenate((importances_dummy[~dummy_idx],
                                                  importances_categorical))
        labels = np.concatenate((X.columns[~dummy_idx], labels))

    importances_categorical /= max(importances_categorical)
    indices = np.argsort(importances_categorical)[::-1]

    # Plotting

    if ax is None:
        fig, ax = plt.subplots()

    plt.title("Feature importances")
    rects = ax.bar(range(len(importances_categorical)),
                   importances_categorical[indices],
                   tick_label=labels[indices],
                   align="center")
    autolabel(rects, ax)

    if feats_to_highlight is not None:
        highlight = [feat in feats_to_highlight for feat in labels[indices]]
        rects2 = ax.bar(range(len(importances_categorical)),
                       importances_categorical[indices]*highlight,
                       tick_label=labels[indices],
                       color='r',
                       align="center")
        rects = [rects,rects2]
    plt.xlim([-0.6, len(importances_categorical)-0.4])
    ax.set_ylim((0, 1.125))
    return rects

# Create importance plots leaving everything as categorical variables. I'm highlighting bmi and age as I will convert those into categorical variables later
X = df.drop('target',axis=1)
y = df['target'] > 140.5

plot_feature_importance(X,y, feats_to_highlight=['bmi', 'age'])
plt.title('Feature importance with bmi and age left as continuous variables')

#Create an animation of what happens to variable importance when I split bmi and age into n (n equals 2 - 25) different classes
# %%capture

fig, ax = plt.subplots()

def animate(i):
    ax.clear()

    # Split one of the continuous variables up into a categorical variable with i balanced classes
    X_test = X.copy()
    n_categories = i+2
    X_test['bmi'] = pd.cut(X_test['bmi'],
                           np.percentile(X['bmi'], np.linspace(0,100,n_categories+1)),
                           labels=[chr(num+65) for num in range(n_categories)])
    X_test['age'] = pd.cut(X_test['age'],
                           np.percentile(X['age'], np.linspace(0,100,n_categories+1)),
                           labels=[chr(num+65) for num in range(n_categories)])
    X_test = pd.get_dummies(X_test, drop_first=True)

    # Plot the feature importances
    rects = plot_feature_importance(X_test,y,dummy_prefixes=['bmi', 'age'],ax=ax, feats_to_highlight=['bmi', 'age'])
    plt.title(f'Feature importances for {n_categories} bmi and age categories')
    ax.spines['top'].set_visible(False)
    ax.spines['right'].set_visible(False)
    ax.spines['bottom'].set_visible(False)
    ax.spines['left'].set_visible(False)

    return [rects,]

anim = animation.FuncAnimation(fig, animate, frames=24, interval=1000)

HTML(anim.to_html5_video())

यहाँ कुछ परिणाम हैं:

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

हम यह देख सकते हैं कि परिवर्तनीय महत्व ज्यादातर श्रेणियों की संख्या पर निर्भर है, जो मुझे सामान्य रूप से इन चार्टों की उपयोगिता पर सवाल उठाता है। विशेषकर का महत्वage से इसके निरंतर समकक्ष की तुलना में बहुत अधिक मूल्यों तक पहुंचने ।

और अंत में, एक उदाहरण यदि मैं उन्हें डमी चर के रूप में छोड़ता हूं (केवल बीएमआई):

# Split one of the continuous variables up into a categorical variable with i balanced classes
X_test = X.copy()
n_categories = 5
X_test['bmi'] = pd.cut(X_test['bmi'],
                       np.percentile(X['bmi'], np.linspace(0,100,n_categories+1)),
                       labels=[chr(num+65) for num in range(n_categories)])
X_test = pd.get_dummies(X_test, drop_first=True)

# Plot the feature importances
rects = plot_feature_importance(X_test,y, feats_to_highlight=['bmi_B','bmi_C','bmi_D', 'bmi_E'])
plt.title(f"Feature importances for {n_categories} bmi categories")

यहाँ छवि विवरण दर्ज करें

जवाबों:


8

जब "फ़ीचर महत्व" पर काम किया जाता है, तो आम तौर पर यह याद रखना मददगार होता है कि ज्यादातर मामलों में नियमितीकरण का दृष्टिकोण अक्सर एक अच्छा विकल्प होता है। यह स्वचालित रूप से हाथ में समस्या के लिए "सबसे महत्वपूर्ण सुविधाओं का चयन करेगा"। अब, यदि हम नियमितीकरण के लिए धारणा का पालन नहीं करना चाहते हैं (आमतौर पर प्रतिगमन के संदर्भ में), यादृच्छिक वन क्लासिफायर और क्रमपरिवर्तन परीक्षणों की धारणा स्वाभाविक रूप से चर के समूह के महत्व को हल करने के लिए एक समाधान उधार देती है। यह वास्तव में यहां से पहले पूछा गया है: " कुछ साल पहले आर में यादृच्छिक जंगलों के वर्गीकरण में भविष्यवक्ताओं के एक सेट का सापेक्ष महत्व "। ग्रेगोरुटी एट अल जैसे अधिक कठोर दृष्टिकोण: " यादृच्छिक जंगलों और बहुभिन्नरूपी कार्यात्मक विश्लेषण विश्लेषण के साथ चर महत्व" एक कनेक्शनवादी ढांचे में सुविधाओं के चक्रवर्ती और पाल के उपयोगी समूहों का चयन करना एक मल्टी-लेयर पर्सेप्ट्रॉन के संदर्भ में इस कार्य को देखता है। ग्रेगोरुटी एट अल पेपर पर वापस जाना। उनकी कार्यप्रणाली सीधे किसी भी प्रकार के वर्गीकरण / प्रतिगमन एल्गोरिथ्म पर लागू होती है। संक्षेप में, हम प्रत्येक आउट-ऑफ-बैग नमूने में एक यादृच्छिक रूप से अनुमत संस्करण का उपयोग करते हैं जो प्रशिक्षण के दौरान उपयोग किया जाता है।

ऊपर कहा गया है, जबकि क्रमपरिवर्तन परीक्षण अंततः एक अनुमान है, जो अतीत में सटीक रूप से हल हो गया है, नियमित प्रतिगमन के संदर्भ में डमी चर का दंड है। इस प्रश्न का उत्तर है समूह-LASSO , समूह-लार्स और समूह-गला घोंटकर मार डालना । उस काम में सेमिनल पेपर्स युआन और लिन हैं: " ग्रुपेड वेरिएबल्स के साथ रिग्रेशन में मॉडल का चयन और अनुमान " (2006) और मीयर एट अल।: " लॉजिस्टिक रिग्रेशन के लिए ग्रुप लासो " (2008)। यह कार्यप्रणाली हमें उस स्थिति में काम करने की अनुमति देती है जहां: " प्रत्येक कारक के कई स्तर हो सकते हैं और डमी चर एक समूह के माध्यम से व्यक्त किया जा सकता है समूह " (Y & L 2006)। प्रभाव ऐसा है कि "एल1जेजे={1,...,जे}जेpyglmnetसमूहबद्ध लसो नियमितीकरण ।]

सभी सभी, व्यक्तिगत डमी चर से "महत्व" को जोड़ने के लिए समझ में नहीं आता है क्योंकि यह उनके बीच सहयोग पर कब्जा नहीं करेगा और साथ ही संभावित रूप से अर्थहीन परिणाम देगा। यह कहा, दोनों समूह-दंडित तरीकों के साथ-साथ क्रमचय चर महत्व के तरीके एक सुसंगत और (विशेष रूप से क्रमचय महत्व प्रक्रियाओं के मामले में) आम तौर पर ऐसा करने के लिए लागू रूपरेखा।

स्पष्ट रूप से बताने के लिए अंत में: निरंतर डेटा को बिन न करें । यह बुरी बात है, इस मामले पर एक उत्कृष्ट धागा है यहाँ (और यहाँ )। तथ्य यह है कि हम निरंतर चर के विवेक के बाद सहज परिणाम देखते हैं, जैसे age, आश्चर्य की बात नहीं है। फ्रैंक हेरेल ने निरंतर चर को वर्गीकृत करने के कारण होने वाली समस्याओं पर भी विस्तार से लिखा है ।


आप R के यादृच्छिक यादृच्छिक वर्गीकरण में भविष्यवक्ताओं के एक सेट के सापेक्ष महत्व को सीधे प्रश्न का उत्तर देते हैं। मुझे यह स्वीकार करते हुए खुशी होगी कि यदि आप उस लिंक के संदर्भ को शुरुआत में ले जाते हैं क्योंकि मुझे नहीं लगता कि बाकी सीधे प्रासंगिक हैं और लिंक आसानी से उत्तर में खो सकता है।
डैन

कोई दिक्कत नहीं है। मैंने कुछ प्रासंगिक संपादन किए। नियमित प्रतिगमन की अवधारणा को खारिज न करें, जैसा कि मैंने पाठ का उल्लेख किया है, नियमितीकरण दृष्टिकोण सुविधा / रैंकिंग के लिए पूरी तरह से वैध विकल्प प्रदान करता है।
us --r11852

नियमित रूप से प्रतिगमन इस सवाल का जवाब नहीं है, यह एक अलग सवाल का जवाब दे सकता है अर्थात् सुविधाओं के महत्व का विकल्प लेकिन यह सवाल एक विशेषता महत्व के भूखंड के भीतर एक एकल श्रेणी सुविधा में ohe सुविधाओं को एकत्रित करने के बारे में है। मुझे वास्तव में लगता है कि आपको उस लिंक को स्थानांतरित करना चाहिए जो वास्तव में प्रारंभ के प्रश्न का उत्तर देता है।
डैन

2

प्रश्न है:

क्या यह समझ में आता है कि उन डमी वैरिएबल इंपोर्टेंस को कम करके सिंपल वैरिएबल वैरिएबल के लिए एक अहम वैल्यू में बदल दें?

संक्षिप्त उत्तर:

मैंपीआरटीnसी(एक्सएल)=मैं
तथा
(मैं)2=Σटी=1जे-1मैं2मैं(v(टी)=)
इस प्रकार
मैं=Σटी=1जे-1मैं2मैं(v(टी)=)
निष्कर्ष में, आपको पहले वर्गमूल को लेना होगा।

अधिक लंबा, अधिक व्यावहारिक उत्तर ।।

आप डमी चरों के लिए अलग-अलग परिवर्तनीय महत्व के मूल्यों को एक साथ जोड़ नहीं सकते क्योंकि आप जोखिम लेते हैं

अन्य लोगों द्वारा महत्वपूर्ण चरों की मास्किंग जिसके साथ वे अत्यधिक सहसंबद्ध हैं। (पेज 368)

संभव बहुसांस्कृतिकता जैसे मुद्दे चर महत्व के मूल्यों और रैंकिंग को विकृत कर सकते हैं।

यह समझने के लिए वास्तव में एक बहुत ही दिलचस्प समस्या है कि मल्टीकोलिनरिटी जैसे मुद्दों से चर महत्व कैसे प्रभावित होता है। विभिन्न सहसंबंधों और वितरण संबंधी शर्तों के तहत कई प्रतिगमन में पूर्वनिर्धारित महत्व में पेपर का निर्धारण चर महत्व के कंप्यूटिंग के लिए विभिन्न तरीकों पर चर्चा करता है और डेटा के लिए प्रदर्शन की तुलना ठेठ सांख्यिकीय मान्यताओं का उल्लंघन करता है। लेखकों ने पाया कि

यद्यपि मल्टीकोलीनियरिटी ने रिश्तेदार महत्व के तरीकों के प्रदर्शन को प्रभावित किया, लेकिन बहुभिन्नरूपी गैर-असमानता नहीं थी। (WHITTAKER p366)


मुझे नहीं लगता कि आपका दूसरा उद्धरण प्रासंगिक है। ये अत्यधिक सहसंबंधित चर नहीं हैं, ये एक ही चर हैं और निर्णय वृक्ष के अच्छे कार्यान्वयन के लिए ओएचई की आवश्यकता नहीं होगी, लेकिन इन्हें एकल चर के रूप में माना जाएगा। यदि कुछ भी हो, तो ओएचई द्वारा बहुमूत्रता को कृत्रिम रूप से पेश किया जाता है।
डैन

अपने पहले बिंदु के बारे में, यह मेरे लिए घाव की तरह है कि ब्रेमन द्वारा प्रस्तावित रिश्तेदार महत्व संख्या चुकता मूल्य है। इसलिए मुझे विश्वास नहीं हो रहा है कि स्केलेर ने आपके सुझाव के अनुसार पहले वर्गमूल लिया है। इसके अलावा, अगर वे, तो मुझे पहले मानों को चुकता नहीं करना चाहिए, उन्हें जोड़ना और फिर योग को वर्गाकार करना चाहिए? मुझे यकीन नहीं है कि मैंने पहले वर्गमूल लेने के आपके सुझाव को समझा।
डैन

@ecedavis पाठ्यपुस्तक से आपका क्या तात्पर्य है? क्या आप कृपया एक लिंक या अधिक संपूर्ण उद्धरण प्रदान कर सकते हैं।
24

नमस्ते, आलोचकों के लिए और नए सदस्य के रूप में मेरे पहले उत्थान के लिए धन्यवाद। आपकी टिप्पणियां विशिष्ट विवरणों को इंगित करती हैं जिन्हें मैं अपने संशोधन में संबोधित करूंगा, लेकिन क्या मेरे जवाब की समग्र गुणवत्ता के बारे में आपकी राय भी हो सकती है? यह मेरी पहली पोस्ट है और मैं एक नियमित योगदानकर्ता बनने की योजना बना रहा हूं। कम से कम, मुझे आशा है कि मेरा उत्तर आम तौर पर सहायक और अच्छी शैली में है। आपके क्या विचार हैं?
इडेविस

आपके उत्तर की शैली अच्छी है, लेकिन कुछ जानकारी और सामग्री पूरी तरह से सही नहीं हैं। आप जिस पेपर से जुड़ते हैं वह कई रिग्रेशन में प्रेडिक्टर महत्व के बारे में है जबकि प्रश्न रैंडम फॉरेस्ट में महत्व के बारे में है। मुझे यह भी पता है कि पूर्ण वाक्य के बाद से उद्धरण का आपका निष्कर्षण समस्याग्रस्त है "इसके अलावा, संकोचन के कारण (धारा 10.12.1) अन्य लोगों द्वारा महत्वपूर्ण चर के मास्किंग, जिनके साथ वे अत्यधिक सहसंबद्ध हैं, एक समस्या से बहुत कम है।" जिसका बहुत अलग अर्थ है।
see24
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.