पॉइसन रिग्रेशन में ओवरडिप्रेशन से कैसे निपटें: अर्ध-संभावना, नकारात्मक द्विपद जीएलएम, या विषय-स्तरीय यादृच्छिक प्रभाव?


12

मैं एक पॉइसन प्रतिक्रिया चर और एक सभी निश्चित प्रभाव शुरू करने वाले मॉडल में अतिविशिष्टता से निपटने के लिए तीन प्रस्तावों पर आया हूं:

  1. एक अर्ध मॉडल का उपयोग करें;
  2. नकारात्मक द्विपद जीएलएम का उपयोग करें;
  3. विषय-स्तरीय यादृच्छिक प्रभाव के साथ मिश्रित मॉडल का उपयोग करें।

लेकिन वास्तव में किसे चुनना है और क्यों? क्या इनमें से कोई वास्तविक मानदंड है?


क्वासी मॉडल स्केल / फैलाव पैरामीटर को एक उपद्रव पैरामीटर के रूप में मानता है, और आईआरआर के लिए एसई प्रदान करता है जो उस विषमता से चौड़ा होता है जबकि नकारात्मक द्विपद आईआरआर स्केल पैरामीटर पर निर्भर करता है। एक मिश्रित मॉडल मॉडल एक अलग प्रभाव डालता है: व्यक्तिगत स्तर या सशर्त प्रभाव (ओं) जबकि नकारात्मक द्विपद और क्सीपिसोइसन मॉडल सीमांत मॉडल हैं। इसलिए वे एक ही बात का अनुमान नहीं लगा रहे हैं।
एडमो

ठीक है, तो जो वास्तव में चुनना है, और उस निर्णय को बनाने के लिए क्या मापदंड हैं?
ब्रायन

मुझे लगता है कि आप क्वासिपोइसन को चुनेंगे यदि (डेटा से स्वतंत्र) आपको पता है कि पॉइसन मॉडल आपको उस प्रवृत्ति का अनुमान लगाता है जिसमें आप रुचि रखते हैं, लेकिन डिजाइन या डेटा विश्लेषण बिल्कुल भिन्नता को पूरा नहीं करता है। आप एक नकारात्मक द्विपद मॉडल का उपयोग करेंगे यदि आपके पास यह विश्वास करने का अच्छा कारण है कि संभावना मॉडल वास्तव में नकारात्मक द्विपद है, और आपको वास्तव में प्रवृत्ति पर अनुमान लगाने के बजाय विषमलैंगिकता का अनुमान लगाने की आवश्यकता है। अंत में, आप एक मिश्रित मॉडल का उपयोग करते हैं यदि आप आबादी के बजाय किसी व्यक्ति पर एक्सपोज़र के प्रभाव को जानना चाहते हैं (अर्थात विष विज्ञान के साथ कभी भी उपयोग न करें)।
एडमो

मैं @ अदमो "मिश्रित मॉडल ... पर एक प्रदर्शन का प्रभाव ... व्यक्तिगत आबादी के बजाय" से असहमत हूं । मेरी समझ यह है कि मिश्रित मॉडल विषय-स्तर के प्रभावों को निर्धारित करते हैं, और फिर उन्हें बाहर निकालते हैं। अनिवार्य रूप से, यह आपके पैरामीटर अनुमानों से छद्म मूल्यांकन (एक ही विषय पर कई उपाय) के लिए खाता है, आबादी के लिए निष्पक्ष पैरामीटर अनुमानों में resorts (व्यक्तिगत नहीं)। मैं इस कारण से हर समय मिश्रित मॉडल का उपयोग करता हूं ... इसलिए मुझे आशा है कि मैं इस बारे में गलत नहीं हूं!
आरटीबार्ड

जवाबों:


12

Poisson प्रतिगमन सिर्फ एक GLM है:

पॉइज़न रिग्रेशन लगाने के लिए लोग अक्सर पैरामीट्रिक तर्क की बात करते हैं । वास्तव में, पॉइसन प्रतिगमन केवल एक जीएलएम है। इसका मतलब है कि पॉइज़न रिग्रेशन किसी भी प्रकार के डेटा (गणना, रेटिंग, परीक्षा स्कोर, बाइनरी ईवेंट, आदि) के लिए उचित है जब दो धारणाएं पूरी होती हैं: 1) माध्य-परिणाम का लॉग पूर्वसूचक और 2 का रैखिक संयोजन है) विचरण परिणाम की के बराबर है मतलब । इन दो स्थितियों को क्रमशः माध्य-मॉडल और माध्य-विचरण संबंध के रूप में जाना जाता है।

अर्थ-मॉडल की धारणा को भविष्यवाणियों के लिए समायोजन के एक जटिल सेट का उपयोग करके कुछ हद तक आराम दिया जा सकता है। यह अच्छा है क्योंकि लिंक फ़ंक्शन मापदंडों की व्याख्या को प्रभावित करता है; व्याख्या की सूक्ष्मता एक वैज्ञानिक प्रश्न का उत्तर देने और आपके सांख्यिकीय विश्लेषण के उपभोक्ताओं को पूरी तरह से अलग करने के बीच अंतर बनाती है। एक अन्य एसई पोस्ट में मैं व्याख्या के लिए लॉग-ट्रांसफ़ॉर्म की उपयोगिता पर चर्चा करता हूं।

हालांकि, यह पता चला है कि दूसरी धारणा (मतलब-विचरण संबंध) के अनुमान पर मजबूत प्रभाव है। जब माध्य-विचरण संबंध सत्य नहीं होता है, तो पैरामीटर अनुमान पक्षपाती नहीं होते हैं । हालांकि, मानक त्रुटियां, आत्मविश्वास अंतराल, पी-मान और भविष्यवाणियां सभी गलत हैं। इसका मतलब है कि आप टाइप I त्रुटि के लिए नियंत्रित नहीं कर सकते हैं और आपके पास उप-शक्ति का उपयोग हो सकता है।

क्या होगा यदि माध्य-विचरण को शिथिल किया जा सके ताकि विचरण केवल माध्य के समानुपाती हो? नकारात्मक द्विपद प्रतिगमन और क्वासिपोइसन प्रतिगमन ऐसा करते हैं।

क्वासिपोइसन मॉडल

क्वासिपोइसन मॉडल संभावना आधारित नहीं हैं। वे एक "क्वासिलिकेलहुड" को अधिकतम करते हैं जो एक आनुपातिक स्थिरांक तक एक पॉइसन संभावना है। यह आनुपातिक निरंतर फैलाव होता है। फैलाव एक उपद्रव माना जाता हैपैरामीटर। जबकि अधिकतमकरण दिनचर्या उपद्रव पैरामीटर के एक अनुमान के साथ आती है, यह अनुमान किसी भी मूल्य के बजाय डेटा की एक कलाकृति है जो जनसंख्या को सामान्य करता है। फैलाव केवल प्रतिगमन मापदंडों के एसई को "सिकोड़ना" या "चौड़ा" करने के लिए कार्य करता है, चाहे विचरण आनुपातिक रूप से छोटा या मतलब से बड़ा हो। चूंकि फैलाव को एक उपद्रव पैरामीटर के रूप में माना जाता है, क्वासिपोइसन मॉडल मजबूत गुणों के एक मेजबान का आनंद लेते हैं: डेटा वास्तव में विषमलैंगिक हो सकता है (आनुपातिक माध्य-विचरण धारणा को पूरा नहीं कर सकता) और यहां तक ​​कि निर्भरता के छोटे स्रोतों का भी प्रदर्शन करता है, और माध्य मॉडल की आवश्यकता नहीं है बिल्कुल सही हो, लेकिन प्रतिगमन मापदंडों के लिए 95% सीआई असिम्पोटिक रूप से सही हैं।यदि डेटा विश्लेषण का आपका लक्ष्य प्रतिगमन मापदंडों के एक सेट और परिणाम के बीच सहयोग को मापना है, तो क्वासिपोइसन मॉडल आमतौर पर जाने का तरीका है। इन मॉडलों की एक सीमा यह है कि वे भविष्यवाणी अंतराल प्राप्त नहीं कर सकते हैं, पियर्सन अवशिष्ट आपको इस बारे में ज्यादा नहीं बता सकते हैं कि माध्य मॉडल कितना सही है, और एआईसी या बीआईसी जैसे सूचना मानदंड इन मॉडलों को अन्य प्रकार के मॉडल से प्रभावी रूप से तुलना नहीं कर सकते हैं।

नकारात्मक द्विपद मॉडल

2-पैरामीटर पोइसन रिग्रेशन के रूप में नकारात्मक द्विपद प्रतिगमन को समझने के लिए यह सबसे उपयोगी है। माध्य मॉडल पोइसन और क्वासिपोइसन मॉडल के समान है जहां परिणाम का लॉग भविष्यवाणियों का एक रैखिक संयोजन है। इसके अलावा, "स्केल" पैरामीटर एक माध्य-विचरण संबंध मॉडल करता है जहां विचरण पहले की तरह अर्थ के लिए आनुपातिक है। हालांकि, क्सिपोइसन मॉडल के विपरीत, इस प्रकार का मॉडल एक सटीक संभावना आधारित प्रक्रिया है। इस मामले में फैलाव एक वास्तविक पैरामीटर है जिसमें आबादी के लिए कुछ हद तक सामान्यता है। यह कासिपोइसन पर कुछ फायदे पेश करता है लेकिन, मेरी राय में, अधिक (अप्रतिष्ठित) धारणाओं को लागू करता है। क्सीपॉइसोन मॉडल के विपरीत: डेटा स्वतंत्र होना चाहिए, माध्य मॉडल सही होना चाहिए, और स्केल पैरामीटर सही अनुमान प्राप्त करने के लिए फिट किए गए मानों की श्रेणी में समरूप होना चाहिए। हालांकि, पियरसन अवशिष्टों का निरीक्षण करके इनका कुछ हद तक मूल्यांकन किया जा सकता है, और मॉडल व्यवहार्य भविष्यवाणी और भविष्यवाणी अंतराल पैदा करता है, और सूचना मानदंडों के साथ तुलना करने के लिए उत्तरदायी है।

नकारात्मक द्विपद संभावना मॉडल एक पॉइसन-गामा मिश्रण से उत्पन्न होते हैं। यही है, एक अज्ञात उतार-चढ़ाव वाला गामा यादृच्छिक चर है "पोइसन दर पैरामीटर"। चूंकि एनबी जीएलएम फिटिंग संभावना आधारित है, इसलिए यह आमतौर पर डेटा जनरेटिंग तंत्र के बारे में पूर्व मान्यताओं को बताने और हाथ में मॉडल के लिए संभाव्य तर्क से कनेक्ट करने में मददगार होता है। उदाहरण के लिए, यदि मैं 24-घंटे की धीरज रेसिंग से सेवानिवृत्त होने वाले रेसर्स की संख्या का परीक्षण कर रहा हूं, तो मैं सोच सकता हूं कि पर्यावरण की स्थिति सभी तनाव हैं जो मैंने नहीं मापे हैं और इस तरह डीएनएफ के जोखिम में योगदान करते हैं, जैसे नमी या ठंडे तापमान टायर को प्रभावित करते हैं। कर्षण और इस तरह एक स्पिन-आउट और मलबे का खतरा।

निर्भर डेटा के लिए मॉडल: जीएलएमएम बनाम जीईई

Poisson डेटा के लिए सामान्यीकृत रैखिक मिश्रित मॉडल (GLMM) उपरोक्त दृष्टिकोणों के साथ तुलना नहीं करते हैं। GLMMs एक अलग प्रश्न का उत्तर देते हैं और विभिन्न डेटा संरचनाओं में उपयोग किया जाता है। यहां डेटा के बीच निर्भरता के स्रोतों को स्पष्ट रूप से मापा जाता है। GLMM व्यक्तिगत स्तर की विषमता को ध्यान में रखते हुए यादृच्छिक इंटरसेप्ट और यादृच्छिक ढलानों का उपयोग करते हैं। यह संशोधित करता है कि हम क्या अनुमान लगाते हैं। यादृच्छिक प्रभाव माध्य और विचरण को संशोधित करते हैं , जो कि केवल विचरण के बजाय मॉडल किया गया है जैसा कि ऊपर चर्चा की गई थी।

एसोसिएशन के दो संभावित स्तर हैं जो निर्भर डेटा में मापा जा सकता है: जनसंख्या स्तर (सीमांत) और व्यक्तिगत स्तर (सशर्त)। जीएलएमएम व्यक्तिगत स्तर (सशर्त) संघों को मापने का दावा करते हैं: अर्थात्, परिणाम के लिए व्यक्तिगत स्तर के योगदानकर्ताओं के पूरे मेजबान को देखते हुए, भविष्यवक्ताओं के संयोजन का सापेक्ष प्रभाव क्या है। एक उदाहरण के रूप में, एग्जाम प्रीप कोर्स उन बच्चों के लिए बहुत कम प्रभावकारी हो सकते हैं जो अनुकरणीय स्कूलों में जाते हैं, जबकि भीतरी शहर के बच्चों को काफी फायदा हो सकता है। इस स्थिति में व्यक्तिगत स्तर का प्रभाव तब काफी हद तक बढ़ जाता है क्योंकि सकारात्मक जोखिम के मामले में सुविधा प्राप्त बच्चे वक्र से बहुत ऊपर हैं।

यदि हमने डेटा पर निर्भर रहने के लिए क्वैसिपोइसन या नकारात्मक द्विपद मॉडल लागू किए हैं, तो एनबी मॉडल गलत होंगे, और क्वासिपोइसन मॉडल अक्षम होंगे। GEE, हालांकि, स्पष्ट रूप से GLMM जैसी निर्भरता संरचनाओं को मॉडल करने के लिए क्वासिपोइसन मॉडल का विस्तार करता है, लेकिन GEE एक सीमांत (जनसंख्या स्तर) प्रवृत्ति को मापता है और सही भार, मानक त्रुटियां, और अनुमान प्राप्त करता है।

डेटा विश्लेषण उदाहरण:

यह पोस्ट पहले से बहुत लंबी है :) इस ट्यूटोरियल में पहले दो मॉडलों का अच्छा चित्रण है , साथ ही यदि आप रुचि रखते हैं तो अधिक पढ़ने के संदर्भ में। प्रश्न के आंकड़ों में घोड़े की नाल के घोंसले के शिकार की आदतें शामिल हैं: मादा घोंसले में बैठती है और नर (उपग्रह) उसके साथ जुड़ते हैं। जांचकर्ता महिला की विशेषताओं के एक समारोह के रूप में एक महिला से जुड़े पुरुषों की संख्या को मापना चाहते थे। मुझे आशा है कि मैंने यह रेखांकित किया है कि मिश्रित मॉडल क्यों न के बराबर हैं: यदि आपके पास आश्रित डेटा है, तो आपको उस प्रश्न के लिए सही मॉडल का उपयोग करना चाहिए जो आश्रित डेटा जवाब देने की कोशिश कर रहे हैं, या तो जीएलएम या जीईई।

संदर्भ:

[१] अग्रेस्टी, श्रेणीबद्ध डेटा विश्लेषण २ संस्करण

[२] डिगल, हैगरटी, लियांग, ज़ेगर, अनुदैर्ध्य डेटा 2 डी एड का विश्लेषण।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.