क्या गणना डेटा को स्वतंत्र चर के रूप में उपयोग करने से कोई GLM मान्यताओं का उल्लंघन होता है?


14

मैं लॉजिस्टिक रिग्रेशन मॉडल को फिट करते हुए कोवरिएट के रूप में गिनती डेटा को रोजगार देना चाहूंगा। मेरा सवाल यह है कि:

  • क्या मैं गिनती, गैर-नकारात्मक पूर्णांक चर को स्वतंत्र चर के रूप में नियोजित करके लॉजिस्टिक (और सामान्य तौर पर, सामान्यीकृत रैखिक के मॉडल में) की किसी भी धारणा का उल्लंघन करता हूं?

मुझे परिणाम के रूप में गिनती डेटा का उपयोग करने के लिए गर्म के संबंध में साहित्य में बहुत सारे संदर्भ मिले, लेकिन कोवरिएट्स के रूप में नहीं; उदाहरण के लिए बहुत स्पष्ट कागज देखें: "NE Breslow (1996) सामान्यीकृत रैखिक मॉडल: जाँच मान्यताओं और मजबूत करने के निष्कर्ष, कांग्रेसियो नाज़ियोनेल सोसाइटा इटालिया डि बायोमेट्रिया, कोर्टोना जून 1995", http://biostat.georgiahealth.edu/~dryu पर उपलब्ध है। /course/stat9110spring12/land16_ref.pdf

शिथिल रूप से बोलते हुए, ऐसा लगता है कि glm मान्यताओं को निम्नानुसार व्यक्त किया जा सकता है:

  • iid अवशिष्ट;
  • लिंक फ़ंक्शन को आश्रित और स्वतंत्र चर के बीच संबंध का सही प्रतिनिधित्व करना चाहिए;
  • आउटलेयर की अनुपस्थिति

क्या हर कोई जानता है कि क्या कोई अन्य धारणा / तकनीकी समस्या मौजूद है जो गिनती कोविरेट से निपटने के लिए कुछ अन्य प्रकार के मॉडल का उपयोग करने का सुझाव दे सकती है?

अंत में, कृपया ध्यान दें कि मेरे डेटा में अपेक्षाकृत कुछ नमूने हैं (<100) और गिनती चर की रेंज परिमाण के 3-4 क्रम के भीतर भिन्न हो सकती है (अर्थात कुछ चर का मान 0-10 सीमा तक है, जबकि अन्य चर में मान हो सकते हैं 0-10,000)।

एक सरल R उदाहरण कोड इस प्रकार है:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################

साइट पर आपका स्वागत है! एक टिप्पणी: यदि आप अपनी पोस्ट पर हस्ताक्षर करना चाहते हैं, तो अपनी प्रोफ़ाइल (विशेष रूप से मेरे बारे में बॉक्स) का उपयोग करें।

11
आम तौर पर, जीएलएम मॉडल में, भविष्यवक्ता ("स्वतंत्र") चर को केवल कुछ ज्ञात स्थिरांक माना जाता है, उनके बारे में कोई वितरण धारणा नहीं है! इसलिए भविष्यवाणियों के रूप में गिनती डेटा का उपयोग करने में कुछ भी गलत नहीं है।
kjetil b halvorsen

1
kjetil यह सही है - और सवाल का एक अच्छा जवाब। फिर भी, यहां वर्णित IVs की चरम सीमाओं के साथ, किसी को डेटा के प्रभाव का मूल्यांकन करने, फिट की अच्छाई की जांच करने और विशेष रूप से एक नॉनलाइन रिलेशनशिप की क्षमता का आकलन करने में समझदारी होगी। यह इस उम्मीद में किया जाएगा कि संबंध वास्तव में अशुभ है और आईवीएस की एक पुन: अभिव्यक्ति, जैसे कि एक रूट या लॉग, इसे रैखिक करेगा, जिससे एक साथ कुछ प्रभाव समस्याओं से छुटकारा मिलेगा। यह संभवतः ऐसा है जो @ user14583 उनके उत्तर में इंगित करने का प्रयास कर रहा है।
whuber

@kjetilbhalvorsen - मैं "कोई वितरण मान्यताओं" पर सहमत हूं, लेकिन मुझे नहीं लगता कि आप "ज्ञात" या "स्थिरांक" कहने का मतलब है, न तो उन शब्दों में से कोई भी फिट बैठता है।
rolando2

4
वे इस अर्थ में "स्थिरांक" हैं कि वे यादृच्छिक नहीं हैं: कोई वितरण नहीं। वे इस अर्थ में "ज्ञात" हैं कि उन्हें त्रुटि के बिना मापा जाना माना जाता है, इसलिए मापा मूल्य वह है जो वास्तव में डेटा पीढ़ी तंत्र में काम कर रहा था। GLM मॉडल मानता है कि सभी यादृच्छिकता प्रतिक्रिया तंत्र में है, जो अक्सर संदिग्ध होती है!
kjetil b halvorsen

जवाबों:


5

यहां खेलने के लिए कुछ बारीकियां हैं, और वे कुछ भ्रम पैदा कर सकते हैं।

आप कहते हैं कि आप लॉजिस्टिक रिग्रेशन की धारणाओं को समझते हैं, " आईडिड रेसिड्यूल्स ..."। मैं तर्क दूंगा कि यह बिल्कुल सही नहीं है। हम आम तौर पर जनरल लीनियर मॉडल (यानी, प्रतिगमन) के बारे में कहते हैं, लेकिन उस मामले में इसका मतलब है कि अवशिष्ट एक दूसरे से स्वतंत्र हैं, समान वितरण (आमतौर पर सामान्य) के साथ समान मतलब (0), और विचरण ( अर्थात्, निरंतर विचरण: विचरण / समरूपता की समरूपता)। ध्यान दें कि बर्नौली वितरण और द्विपद वितरण के लिए, विचरण माध्य का एक कार्य है। इस प्रकार, विचरण स्थिर नहीं हो सकता, जब तक कि कोवरिएट प्रतिक्रिया के लिए पूरी तरह से असंबंधित न हो। यह एक ऐसा अनुमान होगा जो लॉजिस्टिक रिग्रेशन को बेकार करने के लिए प्रतिबंधित करेगा। मैं ध्यान देता हूं कि पीडीएफ के सार में आप उद्धृत करते हैं, यह "टिप्पणियों की सांख्यिकीय स्वतंत्रता" के साथ शुरू होने वाली मान्यताओं को सूचीबद्ध करता है, जिसे हम कह सकते हैं i-but-not-id(बिना अर्थ के इसके बारे में बहुत प्यारा होना)।

अगला, जैसा कि ऊपर टिप्पणी में @kjetilbhalvorsen नोट है, कोविरेट वैल्यू (यानी, आपके स्वतंत्र चर) को सामान्यीकृत रैखिक मॉडल में तय माना जाता है। यही है, कोई विशेष वितरण धारणाएं नहीं बनाई गई हैं। इस प्रकार, यह मायने नहीं रखता है कि वे मायने रखते हैं या नहीं और न ही यदि वे 0 से 10 तक, 1 से 10000 तक या -3.1415927 से -2.718281828 तक हैं।

एक बात पर विचार करना, हालाँकि, @whuber नोटों के रूप में , यदि आपके पास एक छोटी संख्या में डेटा है जो किसी कोवरिएट आयाम पर बहुत चरम पर है, तो आपके विश्लेषण के परिणामों पर उन बिंदुओं का बहुत अधिक प्रभाव हो सकता है । यही है, आप केवल उन बिंदुओं के कारण एक निश्चित परिणाम प्राप्त कर सकते हैं। इस बारे में सोचने का एक तरीका यह है कि अपने मॉडल को शामिल किए बिना और उन आंकड़ों को शामिल किए बिना एक प्रकार का संवेदनशीलता विश्लेषण करें। आप मान सकते हैं कि उन अवलोकनों को छोड़ना, अधिक मजबूत सांख्यिकीय विश्लेषण के किसी रूप का उपयोग करना या उन कोवरिएट्स को बदलना ताकि उन उत्तोलकों को कम से कम किया जा सके , जो कि अधिक से अधिक उपयुक्त हों । मैं इन धारणाओं को "मान्यताओं" के रूप में चित्रित नहीं करूंगा, लेकिन वे एक उपयुक्त मॉडल को विकसित करने में निश्चित रूप से महत्वपूर्ण विचार हैं।


1

एक बात मैं निश्चित रूप से जाँच करूँगा कि आपके स्वतंत्र चर के वितरण गुण हैं। गणना डेटा के साथ बहुत बार, आपको कुछ मध्यम से गंभीर राइट-तिरछा दिखाई देगा। उस स्थिति में, आप अपने डेटा को रूपांतरित करना चाहेंगे, क्योंकि आप लॉग-लीनियर संबंध खो देंगे। लेकिन नहीं, लॉजिस्टिक (या अन्य GLM) मॉडल का उपयोग करना ठीक है।


3
सही तिरछा 'लॉग-लीनियर रिलेशनशिप' कैसे खो जाता है?
Glen_b -Reinstate मोनिका

3
यह टिप्पणी मुझे गलत लगती है। @Glen_b की तरह, मैं यह नहीं देखता कि यह लॉग-लीनियर संबंध को कैसे खो देगा। किसी भी मामले में, सीधे रिश्ते की जांच करना बेहतर होगा (उदाहरण के लिए, साजिश रचने के माध्यम से)।
पीटर Flom - को पुनः स्थापित मोनिका

2
IV का एक गैर-रेखीय परिवर्तन निश्चित रूप से कुछ और @Peter के लिए लॉग-लीनियर संबंध को बदल देगा। यह उत्तर मूल रूप से मेरे लिए सही लगता है।
whuber

1
@ जब मैं सहमत हूं कि एक चर का एक गैर-रेखीय परिवर्तन इसके और दूसरे चर के बीच संबंध को बदल देगा। यह बहुत स्पष्ट लगता है। लेकिन किस तरह के रिश्ते से किस तरह? रिश्ते को यह मानने के बजाय सीधे जांच क्यों न करें कि इसे कैसे बदला जाएगा? साथ ही, उत्तर में कहा गया है कि व्यक्ति लॉग रैखिक संबंध खोना चाहता है।
पीटर Flom - को पुनः स्थापित मोनिका

2
यह एक अच्छा बिंदु है। फिर भी कुछ लोग हैं रिश्ते को बदलना चाहते हैं; जरूरी नहीं कि यह गलत धारणा हो। मैं मानता हूं कि एक प्रत्यक्ष परीक्षा सही प्रक्रिया है: यह सुझाव देगा कि रैखिक संबंधों को बनाने के लिए शामिल IV (s) को फिर से कैसे व्यक्त किया जाए।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.