लॉजिटी की रैखिकता के उल्लंघन के खिलाफ लॉजिस्टिक प्रतिगमन की मजबूती की जांच


10

मैं एक द्विआधारी परिणाम (प्रारंभ और शुरू नहीं) के साथ एक लॉजिस्टिक प्रतिगमन आयोजित कर रहा हूं। भविष्यवक्ताओं का मेरा मिश्रण सभी या तो निरंतर या द्विगुणित चर हैं।

बॉक्स-टिडवेल दृष्टिकोण का उपयोग करना, मेरे निरंतर भविष्यवाणियों में से एक संभावित रूप से लॉगिट की रैखिकता की धारणा का उल्लंघन करता है। फिट होने वाले आंकड़ों से अच्छाई का कोई संकेत नहीं है कि फिट समस्याग्रस्त है।

मैंने बाद में प्रतिगमन मॉडल को फिर से चलाया, मूल सतत चर को प्रतिस्थापित करते हुए: सबसे पहले, एक वर्गमूल परिवर्तन और दूसरा, चर का एक द्विअर्थी संस्करण।

आउटपुट के निरीक्षण पर, ऐसा लगता है कि अच्छाई-के-फिट में मामूली सुधार होता है, लेकिन अवशिष्ट समस्याग्रस्त हो जाते हैं। पैरामीटर अनुमान, मानक त्रुटियों, और अपेक्षाकृत समान रहते हैं। डेटा की व्याख्या 3 मॉडल में मेरी परिकल्पना के संदर्भ में नहीं बदलती है।exp(β)

इसलिए, मेरे परिणामों की उपयोगिता और डेटा की व्याख्या की भावना के संदर्भ में, मूल निरंतर चर का उपयोग करके प्रतिगमन मॉडल की रिपोर्ट करना उचित लगता है।

मैं यह सोच रहा हूँ:

  1. लॉजिस्टिक अनुमान प्रतिगमन की रैखिकता के संभावित उल्लंघन के खिलाफ कब मजबूत होता है?
  2. मेरे उपरोक्त उदाहरण को देखते हुए, क्या यह मॉडल में मूल निरंतर चर को शामिल करने के लिए स्वीकार्य है?
  3. क्या सिफारिश करने के लिए कोई संदर्भ या मार्गदर्शिका है जब यह स्वीकार करना संतोषजनक है कि मॉडल लॉजिटी के रैखिकता के संभावित उल्लंघन के खिलाफ मजबूत है?

जवाबों:


16

रेखीयता धारणा आमतौर पर प्रतिगमन में इतनी उल्लंघन की जाती है कि इसे एक धारणा के बजाय एक आश्चर्य कहा जाना चाहिए। अन्य प्रतिगमन मॉडल की तरह, लॉजिस्टिक मॉडल जब आप असत्यता को गलत तरीके से ग्रहण करते हैं, तो गैर-शुद्धता के लिए मजबूत नहीं होता है। अवशिष्ट या फिट परीक्षणों की सर्वग्राही अच्छाई का उपयोग करके अस्वच्छता का पता लगाने के बजाय, प्रत्यक्ष परीक्षणों का उपयोग करना बेहतर है। उदाहरण के लिए, प्रतिगमन विभाजन का उपयोग करके निरंतर भविष्यवाणियों का विस्तार करें और सभी अरेखीय शब्दों का एक समग्र परीक्षण करें। बेहतर अभी भी शर्तों का परीक्षण नहीं करते हैं और सिर्फ अशुद्धता की उम्मीद करते हैं। यह दृष्टिकोण अलग-अलग एकल-ढलान विकल्पों जैसे वर्गमूल, लॉग, आदि की कोशिश करने से बेहतर है, क्योंकि इस तरह के विश्लेषण के बाद सांख्यिकीय निष्कर्ष गलत हो जाएगा, क्योंकि इसमें स्वतंत्रता के बड़े अंश नहीं हैं।

यहाँ R में एक उदाहरण दिया गया है।

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests

आपका जवाब शानदार समझ में आता है - धन्यवाद! क्या आप एसपीएएस में उपयोग किए जाने वाले वाक्यविन्यास का सुझाव दे सकते हैं? मैं दुर्भाग्य से आर। का उपयोग करने के लिए पहुँच (या कौशल) नहीं है
लघु एलिजाबेथ

1
यह निश्चित रूप से आर सीखने का समय है, और मेरे पास लॉजिस्टिक मॉडलिंग और आरएमएस पैकेज से संबंधित बहुत सारे हैंडआउट हैं। यह SPSS में करना मुश्किल होगा।
फ्रैंक हरेल

@FrankHarrell: f <- lrm(y ~ ...लाइन एक त्रुटि देती है object 'y' not found- क्या आप ठीक कर सकते हैं?
अरीफ

1
यह एक बहुत ही बुनियादी R त्रुटि है जो मेरे rmsपैकेज के लिए अद्वितीय नहीं है । R को जानने के लिए कुछ समय बिताएं, जो मूल प्रतिगमन lmसमारोह के लिए उपलब्ध व्यापक सामग्री से शुरू होता है।
फ्रैंक हरेल

1
सॉफ़्टवेयर के मदद पृष्ठों में अंतर्निहित उदाहरण ऐसे डेटा का अनुकरण करते हैं, इसलिए पूरे उदाहरण को संदर्भ में देखें। क्या require(rms)तब ?lrmतोexamples(lrm)
फ्रैंक Harrell
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.