एक पॉइसन मॉडल में, एक कोवरिएट या एक ऑफसेट के रूप में समय का उपयोग करने में क्या अंतर है?


18

मैंने हाल ही में एक पॉसन रिग्रेशन में ऑफसेट के रूप में (जैसे) समय का उपयोग करके समय के साथ मॉडल एक्सपोज़र करने का तरीका खोजा।

मैं समझता था कि ऑफसेट गुणांक 1 के साथ सहसंयोजक के रूप में समय के अनुरूप है।

मैं एक ऑफसेट के रूप में या एक सामान्य सहसंयोजक के रूप में समय का उपयोग करने के बीच के अंतर को बेहतर ढंग से समझना चाहता हूं (इसलिए गुणांक का आकलन करना)। किस स्थिति में मुझे एक विधि या दूसरे का उपयोग करना चाहिए?

UPGRADE: मुझे नहीं पता कि यह दिलचस्प है, लेकिन मैंने रैंडमली स्प्लिट डेटा का उपयोग करके दो तरीकों का सत्यापन 500 बार दोहराया और मैंने देखा कि ऑफ़सेट विधि का उपयोग करने से बड़ी परीक्षा में त्रुटि होती है।

जवाबों:


25

ऑफसेट का उपयोग किसी भी प्रतिगमन मॉडल में किया जा सकता है, लेकिन आपके प्रतिक्रिया चर के लिए गणना डेटा के साथ काम करते समय वे बहुत अधिक सामान्य होते हैं। एक ऑफसेट सिर्फ एक चर है जिसे मॉडल में गुणांक के लिए मजबूर किया जाता है । (यह उत्कृष्ट सीवी धागा भी देखें: पॉसन प्रतिगमन में ऑफसेट का उपयोग कब करें? ) 1

जब गणना डेटा के साथ सही तरीके से उपयोग किया जाता है, तो यह आपको गणनाओं के बजाय मॉडल दर देगा । यदि वह रुचि है, तो यह कुछ करना है। इस प्रकार, यह वह संदर्भ है जिसमें ऑफसेट का सबसे अधिक उपयोग किया जाता है। आइए एक लॉग लिंक (जो विहित लिंक है) के साथ एक पॉइसन GLiM पर विचार करें।

ln(λ)=β0+β1X(counts)ln(λtime)=β0+β1X(rates)ln(λ)ln(time)=β0+β1Xln(λ)=β0+β1X+1×ln(time)(still rates)ln(λ)=β0+β1X+β2×ln(time)when β21(counts again)

(आप देख सकते हैं, का उपयोग कर के लिए महत्वपूर्ण एक सही ढंग से ऑफसेट बनाना है ऑफसेट, नहीं टी मैं हूँ ।) ln(time)time

जब पर गुणांक 1 नहीं है , तो आप अब मॉडलिंग दर नहीं कर सकते हैं। लेकिन चूंकि β 2( - , 1 ) ( 1 , ) बहुत अधिक लचीलापन डेटा, मॉडल का उपयोग नहीं करते फिट करने के लिए प्रदान करता है ln ( टी मैं हूँ ) एक ऑफसेट आम तौर पर बेहतर फिट होगा के रूप में हालांकि वे हो सकता है ( ओवरफिट भी)। ln(time)1β2(,1)(1,)ln(time)


चाहे आपको मॉडल की गणना करनी चाहिए या दरें वास्तव में इस बात पर निर्भर करती हैं कि आपका मूल प्रश्न क्या है। आपको वह मॉडल तैयार करना चाहिए जो आप जानना चाहते हैं।

जहाँ तक क्या इसके लिए मतलब हो सकता है के रूप में नहीं होने के लिए 1 , एक उदाहरण है जहां समय प्रश्न में चर नहीं है पर विचार करें। विभिन्न अस्पतालों में सर्जिकल जटिलताओं की संख्या का अध्ययन करने की कल्पना करें। एक अस्पताल में कई और सर्जिकल जटिलताओं की सूचना है, लेकिन वे दावा कर सकते हैं कि तुलना उचित नहीं है क्योंकि वे कई और सर्जरी करते हैं। तो आप इसके लिए नियंत्रण करने का प्रयास करने का निर्णय लेते हैं। आप बस एक ऑफसेट के रूप में सर्जरी की संख्या के लॉग का उपयोग कर सकते हैं, जो आपको प्रति सर्जरी जटिलताओं की दर का अध्ययन करने देगा। आप एक और सहसंयोजक के रूप में सर्जरी की संख्या के लॉग का भी उपयोग कर सकते हैं। मान लें कि गुणांक 1 से काफी अलग है । अगर β 2 > 1β211β2>1, फिर जो अस्पताल अधिक शल्यचिकित्सा करते हैं, उनमें जटिलताओं की दर अधिक होती है (शायद इसलिए कि वे अधिक काम करने के लिए काम कर रहे हैं)। अगर , अस्पतालों कि सबसे अधिक है सर्जरी प्रति कम जटिलताओं (शायद वे सबसे अच्छा डॉक्टरों है, और इसलिए अधिक करना और उन्हें बेहतर कर) है। β2<1

β2>1β2<1, इसका मतलब है कि घटनाओं की दर धीमी हो रही है।

पूर्व के एक ठोस उदाहरण के लिए, एक स्कैन की कल्पना करें जो कि प्रारंभिक ट्यूमर को शल्य चिकित्सा द्वारा हटाए जाने के बाद कैंसर की कोशिकाओं की संख्या को गिनता है। कुछ रोगियों के लिए, सर्जरी के बाद से अधिक समय बीत चुका है और आप इसे ध्यान में रखना चाहते हैं। चूंकि एक बार एक कैंसर ने अपने पैर जमाने के बाद यह तेजी से बढ़ना शुरू हो जाएगा, अतिरिक्त उपचार के बिना सर्जरी के बाद से समय के साथ दर बढ़ रही होगी।

उत्तरार्द्ध के एक ठोस उदाहरण के लिए, उन लोगों की संख्या पर विचार करें जो एक बीमारी के प्रकोप से मर जाते हैं जिनके लिए हमारे पास कोई उपचार नहीं है। सबसे पहले, बहुत से लोग मर जाते हैं क्योंकि वे उस बीमारी के प्रति अधिक संवेदनशील थे, या पहले से ही एक समझौता प्रतिरक्षा प्रणाली आदि थे, समय के साथ, शेष लोगों की आबादी रोग के प्रति कम संवेदनशील होने के कारण, दर घट जाएगी। (क्षमा करें यह उदाहरण बहुत रुग्ण है।)


y=टीमैं*exp(Σ1पीβपीएक्सपी+सीnरोंटी)। इसके बजाय अगर हम लॉग टाइम का उपयोग कोवरिएट के रूप में करते हैं तो हम घटनाओं पर समय के घातीय प्रभाव का अनुमान लगाते हैं, जो या तो सकारात्मक ओ नकारात्मक हो सकता हैy=टीमैंβटीमैं*exp(Σ1पीβपीएक्सपी+सीnरोंटी)। (cont ...)
बकाबुर्ग

1
इसलिए क्यों मान लेना चाहिए कि समय और घटनाओं के बीच संबंध रैखिक और बढ़ रहा है? हर मामले में ऐसे रिश्ते के आकार का अनुमान लगाना बेहतर नहीं होगा? मेरे पास दो और प्रश्न हैं: 1. इसके बजाय कोवरिएट के रूप में परिवर्तित समय लॉग का उपयोग करने का क्या मतलब होगा? 2. (शायद मुझे इस सवाल को संपादित करना चाहिए या इसके लिए एक नया पूछना चाहिए) मैंने पढ़ा कि पॉइसन मॉडल का उपयोग वास्तव में पूर्णांक नहीं के साथ भी किया जा सकता है। इस प्रकार मैं R: glm (I (y / time) ~ cov.1 + ... + cov.n, poisson) में लिख सकता हूं और मेरे पास ऑफसेट (लॉग (समय)) का उपयोग करने के समान परिणाम हैं। मैंने यह कोशिश की लेकिन मुझे अलग-अलग गुणांक मिलते हैं।
बकाबुर्ग

Poisson dist केवल पूर्णांकों के लिए है; आपको एलएचएस पर एक अंश दर्ज नहीं करना चाहिए। लॉग ट्रांसफ़ॉर्म का उपयोग न करने का अर्थ है प्रति इकाई समय के हिसाब से घटनाओं की मॉडलिंग दरें, जो वास्तविक दुनिया में शायद कभी समझदार नहीं होंगी।
गंग -

1
@ बाकाबर्ग, समय शायद उनके साथ सहसंबद्ध है। यह किसी भी अन्य प्रतिगमन मॉडलिंग की स्थिति से अलग नहीं है। मैं यहाँ समस्या नहीं देख रहा हूँ। आप या तो औसत दरों के मॉडलिंग में रुचि रखते हैं या आप नहीं हैं।
गंग -

1
@ ततमी, यदि आप एक कोवरिएट (एक ऑफसेट के बजाय) के रूप में समय का उपयोग करने जा रहे हैं, तो आपको समय का लॉग लेने की जरूरत नहीं है। हालाँकि, यदि आप अपने परिणाम की तुलना किसी ऑफसेट से करना चाहते हैं, तो आपको उन्हें तुलनीय बनाने के लिए लॉग का उपयोग करना होगा।
गूँज - मोनिका

7

समय ऑफसेट को आमतौर पर आपके मॉडल के रूप में देखा जा सकता है, जो आपके द्वारा किसी विषय पर कितनी देर तक अवलोकन किए गए ऑफसेट को नियंत्रित करने के साथ प्रति यूनिट समय दर घटना का अनुमान लगाता है।

पॉइसन मॉडल में आप हमेशा एक दर का अनुमान लगा रहे हैं जो कुछ घटित होता है, लेकिन आपको कभी भी इस दर का सीधे निरीक्षण करने की आवश्यकता नहीं है । आपको यह देखने को मिलता है कि कोई घटना कितनी बार होती है। ऑफसेट दो अवधारणाओं के बीच संबंध बनाता है।

उदाहरण के लिए, आपने अलग-अलग समय के लिए टोकरियों की शूटिंग करने वाले विषयों का अवलोकन किया और आपने प्रत्येक विषय के लिए सफल टोकरियों की संख्या गिना। क्या आप वास्तव में रुचि रखते हैं कि कितनी बार प्रत्येक विषय एक टोकरी डूबता है, अर्थात प्रत्येक विषय में सफल टोकरियों की संख्या प्रत्येक मिनट को डूबने की उम्मीद करती है, क्योंकि यह उनके कौशल का कुछ हद तक उद्देश्य है। आपके द्वारा वास्तव में डूबे हुए टोकरियों की संख्या इस अनुमानित दर का समय होगा कि आपने कब तक इस विषय का प्रयास करते हुए मनाया। तो आप प्रतिक्रिया की इकाइयों के संदर्भ में सोच सकते हैं , प्रति मिनट बास्केट की संख्या ।

एक ऐसी स्थिति के बारे में सोचना मुश्किल है, जहां आप समय का उपयोग एक पॉजिसन रिग्रेशन में कोवरिएट के रूप में करते हैं, क्योंकि इसकी प्रकृति से आप एक दर का अनुमान लगा रहे हैं।

उदाहरण के लिए, अगर मैं टोकरी की संख्या पर अमेरिकी बनाम यूरोपीय (बहुत मूर्खतापूर्ण उदाहरण) होने के प्रभाव का आश्वासन देना चाहता हूं, तो एक कोवरिएट के रूप में समय जोड़ने से मुझे उस प्रभाव का "स्वतंत्र रूप से" मूल्यांकन करने की अनुमति मिलेगी, जो समय बीतने वाली शॉटिंग से है, न कि यह? इसके अलावा यह मुझे परिणाम पर समय के प्रभाव का अनुमान भी देगा।

यहाँ एक उदाहरण है जो उम्मीद करता है कि इस के खतरे को उजागर करेगा। मान लें कि अमेरिकी और यूरोपीय, सच में, प्रत्येक मिनट में एक ही संख्या में बास्केट डूबते हैं। लेकिन कहते हैं कि हमने प्रत्येक यूरोपीय को प्रत्येक अमेरिकी के रूप में दो बार देखा है, इसलिए, औसतन, हमने प्रत्येक यूरोपीय के लिए दो बार कई बास्केट के रूप में देखा है।

यदि हम एक मॉडल सेट करते हैं जिसमें दोनों समय के लिए पैरामीटर शामिल हैं और "यूरोपीय" के लिए एक संकेतक है, तो ये दोनों मॉडल डेटा की व्याख्या करते हैं:

(टोकरी)=2सीटी+0एक्सEropean
(टोकरी)=0टी+2सीएक्सEropean

(कहाँ पे सी कुछ स्थिर है, जो सही दर है कि दोनों प्रकार के खिलाड़ी बास्केट बनाते हैं)।

एक सांख्यिकीविद् के रूप में, हम वास्तव में चाहते हैं, इस स्थिति में, हमारा मॉडल हमें यह सूचित करने के लिए कि यूरोपियों द्वारा बास्केट बनाने की दर और अमेरिकियों के बास्केट बनाने की दर में कोई सांख्यिकीय अंतर नहीं है। लेकिन हमारा मॉडल ऐसा करने में विफल रहा है, और हम भ्रमित हैं।

मुद्दा यह है कि हम कुछ ऐसा जानते हैं जो हमारे मॉडल को नहीं पता है। यही है, हम जानते हैं कि यदि हम एक ही व्यक्ति को दो बार ज्यादा से ज्यादा समय के लिए देखते हैं, तो उम्मीद में, वे दो बार के रूप में कई बास्केट बना लेंगे। चूंकि हम यह जानते हैं, हमें अपने मॉडल को इसके बारे में बताना होगा। यह वही है जो ऑफसेट पूरा करता है।

शायद ऑफसेट विधि का उपयोग करना उचित है जब हम जानते हैं कि समय के साथ घटनाएं समान रूप से होती हैं!

हां, लेकिन यह खुद पोइसन मॉडल की एक धारणा है । Poisson वितरण पर विकिपीडिया पृष्ठ से

फ्रेंच गणितज्ञ सिमोन डेनिस पॉइसन के नाम पर स्थित पॉइसन डिस्ट्रीब्यूशन एक असतत प्रायिकता वितरण है, जो किसी निश्चित समय और / या अंतरिक्ष के निश्चित अंतराल में होने वाली घटनाओं की संभावना को व्यक्त करता है, अगर ये घटनाएं एक ज्ञात औसत दर के साथ और स्वतंत्र रूप से होती हैं अंतिम घटना के बाद का समय


2
आपके उत्तर के लिए धन्यवाद। लेकिन एक सहसंयोजक के रूप में समय का उपयोग करने से यह मुझे एक ही जवाब नहीं देगा? उदाहरण के लिए, अगर मैं टोकरी की संख्या पर अमेरिकी बनाम यूरोपीय (बहुत मूर्खतापूर्ण उदाहरण) होने के प्रभाव का आश्वासन देना चाहता हूं, तो एक कोवरिएट के रूप में समय जोड़ने से मुझे उस प्रभाव का "स्वतंत्र रूप से" मूल्यांकन करने की अनुमति मिलेगी, जो समय बीतने वाली गोली से होता है, न कि यह? इसके अलावा यह मुझे परिणाम पर समय के प्रभाव का अनुमान भी देगा। गणना चर के लिए कभी-कभी समय हमेशा महत्वपूर्ण नहीं होता है, उदाहरण के लिए जब घटनाएँ अवलोकन अवधि की शुरुआत में होती हैं।
बकाबुर्ग

शायद ऑफसेट विधि का उपयोग करना उचित है जब हम जानते हैं कि समय के साथ घटनाएं समान रूप से होती हैं!
बकाबुर्ग

1
@ बाकाबुर्ग I ने एक प्रतिक्रिया व्यक्त की। मुझे उम्मीद है यह मदद करेगा!
मैथ्यू ड्र्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.