एक वैरिएबल को वर्गीकृत करना इसे महत्वहीन से महत्वपूर्ण में बदल देता है


17

मेरे पास एक संख्यात्मक चर है जो एक बहुभिन्नरूपी लॉजिस्टिक प्रतिगमन मॉडल में महत्वपूर्ण नहीं है। हालाँकि, जब मैं इसे समूहों में वर्गीकृत करता हूं, तो अचानक यह महत्वपूर्ण हो जाता है। यह मेरे लिए बहुत ही सहज ज्ञान युक्त है: एक चर को वर्गीकृत करते समय, हम कुछ जानकारी देते हैं।

यह कैसे हो सकता है?

जवाबों:


25

एक संभावित व्याख्या आपके परिणाम और भविष्यवक्ता के बीच संबंधों में गैर-समानताएं होगी।

यहाँ एक छोटा सा उदाहरण है। हम एक भविष्यवक्ता का उपयोग करते हैं जो [-1,1] पर समान है । परिणाम, तथापि, यह नहीं है कि रैखिक कारक पर निर्भर है, लेकिन पर वर्ग सही के लिए दोनों अधिक होने की संभावना है: भविष्यवक्ता की एक्स-1 और एक्स1 के लिए है, लेकिन कम संभावना एक्स0 । इस मामले में, एक रैखिक मॉडल महत्वहीन होगा, लेकिन भविष्यवक्ता को अंतराल में काटने से यह महत्वपूर्ण हो जाता है।

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

हालांकि, इसका मतलब यह नहीं है कि भविष्यवक्ता का विवेक सबसे अच्छा तरीका है। (यह लगभग कभी नहीं होता है।) बहुत बेहतर है कि बिना या समान का उपयोग करके का मॉडल बनाया जाए ।


क्या कुछ उदाहरण हैं जहां विवेक समझदार हो सकता है? उदाहरण के लिए, यदि आपके पास एक विशिष्ट सीमा (जैसे 18 वर्ष) है जिस पर परिणामों में एक बाइनरी स्विच होता है। 18+ सीमा में संख्यात्मक आयु महत्वपूर्ण नहीं हो सकती है, लेकिन बाइनरी आयु> 18 महत्वपूर्ण हो सकती है?
अजरवित

3
@ वज्राइट: यह क्षेत्र पर निर्भर करता है। कहीं भी थ्रेसहोल्ड कानून विवेक में संहिताबद्ध हैं समझ में आ सकता है। उदाहरण के लिए, यदि आप मतदान व्यवहार का मॉडल बनाते हैं, तो यह जांचने के लिए समझ में आता है कि क्या कोई वास्तव में 18 वर्ष की आयु में मतदान करने के योग्य है। इसी तरह, जर्मनी में, आपका वाहन कर आपके इंजन के विस्थापन और 1700, 1800, 1900 पर कूदता है ... ccm , तो बहुत ज्यादा सभी कारों में 1699, 1799, ... ccm (स्व-विवेक का प्रकार) के विस्थापन हैं। जीव विज्ञान, चिकित्सा, मनोविज्ञान आदि जैसे प्राकृतिक विज्ञानों में, मैं एक उदाहरण खोजने के लिए संघर्ष करता हूं, जहां विवेक समझ में आता है।
एस। कोलासा - मोनिका

7

एक संभावित तरीका यह है कि यदि संबंध स्पष्ट रूप से अशुभ है। यह बताना संभव नहीं है (विवरण की कमी को देखते हुए) क्या यह वास्तव में बताता है कि क्या चल रहा है।

आप अपने लिए जांच कर सकते हैं। सबसे पहले, आप स्वयं के रूप में चर के लिए एक जोड़ा चर साजिश कर सकते हैं, और आप मॉडल के कारक-संस्करण में फिट किए गए प्रभावों को भी साजिश कर सकते हैं। यदि स्पष्टीकरण सही है, तो दोनों को एक अलग तरह का नॉनलाइन पैटर्न देखना चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.