मैं लॉजिस्टिक रिग्रेशन मॉडल को फिट करते हुए कोवरिएट के रूप में गिनती डेटा को रोजगार देना चाहूंगा। मेरा सवाल यह है कि:
- क्या मैं गिनती, गैर-नकारात्मक पूर्णांक चर को स्वतंत्र चर के रूप में नियोजित करके लॉजिस्टिक (और सामान्य तौर पर, सामान्यीकृत रैखिक के मॉडल में) की किसी भी धारणा का उल्लंघन करता हूं?
मुझे परिणाम के रूप में गिनती डेटा का उपयोग करने के लिए गर्म के संबंध में साहित्य में बहुत सारे संदर्भ मिले, लेकिन कोवरिएट्स के रूप में नहीं; उदाहरण के लिए बहुत स्पष्ट कागज देखें: "NE Breslow (1996) सामान्यीकृत रैखिक मॉडल: जाँच मान्यताओं और मजबूत करने के निष्कर्ष, कांग्रेसियो नाज़ियोनेल सोसाइटा इटालिया डि बायोमेट्रिया, कोर्टोना जून 1995", http://biostat.georgiahealth.edu/~dryu पर उपलब्ध है। /course/stat9110spring12/land16_ref.pdf ।
शिथिल रूप से बोलते हुए, ऐसा लगता है कि glm मान्यताओं को निम्नानुसार व्यक्त किया जा सकता है:
- iid अवशिष्ट;
- लिंक फ़ंक्शन को आश्रित और स्वतंत्र चर के बीच संबंध का सही प्रतिनिधित्व करना चाहिए;
- आउटलेयर की अनुपस्थिति
क्या हर कोई जानता है कि क्या कोई अन्य धारणा / तकनीकी समस्या मौजूद है जो गिनती कोविरेट से निपटने के लिए कुछ अन्य प्रकार के मॉडल का उपयोग करने का सुझाव दे सकती है?
अंत में, कृपया ध्यान दें कि मेरे डेटा में अपेक्षाकृत कुछ नमूने हैं (<100) और गिनती चर की रेंज परिमाण के 3-4 क्रम के भीतर भिन्न हो सकती है (अर्थात कुछ चर का मान 0-10 सीमा तक है, जबकि अन्य चर में मान हो सकते हैं 0-10,000)।
एक सरल R उदाहरण कोड इस प्रकार है:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################