कैसे तय करें कि किस ग्लम परिवार का उपयोग करना है?


17

मेरे पास मछली के घनत्व का डेटा है जिसे मैं कई अलग-अलग संग्रह तकनीकों के बीच तुलना करने की कोशिश कर रहा हूं, डेटा में बहुत सारे शून्य हैं, और हिस्टोग्राम एक पॉइज़न वितरण के लिए उचित लग रहा है, सिवाय इसके कि घनत्व के रूप में, यह पूर्णांक डेटा नहीं है। मैं जीएलएम के लिए अपेक्षाकृत नया हूं और पिछले कई दिनों से यह देख रहा हूं कि कैसे बताएं कि किस वितरण का उपयोग करना है लेकिन किसी भी संसाधन को खोजने में विफल रहे हैं जो इस निर्णय को बनाने में मदद करते हैं। डेटा का एक नमूना हिस्टोग्राम निम्न की तरह दिखता है:नमूना हिस्टोग्राम

मुझे नहीं पता कि जीएलएम का उपयोग करने के लिए उपयुक्त परिवार के बारे में निर्णय लेने के बारे में कैसे जाना जाए। अगर किसी के पास कोई सलाह है या वह मुझे एक संसाधन दे सकता है जिसकी मुझे जांच करनी चाहिए, तो यह शानदार होगा।


1
वास्तव में "मछली का घनत्व" क्या है? क्या यह झील की प्रति इकाई मात्रा मछली की संख्या है, उदाहरण के लिए?
गूँग - मोनिका

यह प्रति इकाई क्षेत्र में मछली की संख्या है (इस मामले में वर्ग मीटर)। हमने दृश्य सर्वेक्षण उपकरणों का उपयोग किया है, इसलिए यह उपकरण द्वारा सर्वेक्षण किए गए क्षेत्र द्वारा विभाजित मछली की संख्या से गणना की जाती है। हमें उपकरणों के बीच मानकीकरण के लिए घनत्व का उपयोग करना पड़ा क्योंकि वे बहुत अलग-अलग मात्रा में क्षेत्र का सर्वेक्षण करते हैं, अन्यथा मैं सिर्फ गणना डेटा और एक पॉइज़न वितरण के साथ छड़ी का उपयोग कर सकता था।
सी। डेनी

7
मेरी सलाह - गिनती डेटा पर वापस जाएं और लॉग लिंक के साथ एक मॉडल में ऑफसेट के रूप में "क्षेत्र" का उपयोग करें --- लेकिन मुझे नहीं पता कि पॉइसन बहुत अच्छी तरह से फिट होगा (यह अनुमान लगाना थोड़ा मुश्किल है आपका हिस्टोग्राम केवल सशर्त वितरण के बजाय सीमांत वितरण को दिखा रहा है कि जीएलएम मॉडलिंग करेगा ... और किसी भी मामले में बहुत अधिक उपयोग करने के लिए बहुत कम डिब्बे हैं)। यदि पॉइसन भारी-पूंछ वाला / स्पाइक-एट-0-ईश पर्याप्त नहीं है, तो एक नकारात्मक द्विपद काम कर सकता है, या आपको शून्य-फुलाया या बाधा मॉडल की आवश्यकता हो सकती है
Glen_b -Reinstate Monica

मैं पूरे दिन-प्रतिदिन पोइसन मॉडलिंग करता हूं और ग्लेन_ब की टिप्पणी विहित जवाब है।
पॉल

2
एक परिशिष्ट - पॉइसन मॉडलिंग सैद्धांतिक रूप से अच्छी तरह से उचित है जब अवलोकन की इकाइयां (इस मामले में, मैं आपको व्यक्तिगत मछली गिनने का अनुमान लगा रहा हूं?) स्वतंत्र रूप से अवलोकन के क्षेत्र में वितरित किया जाता है, जैसे कि रेत के बेतरतीब ढंग से बिखरे अनाज। इस धारणा के तहत घनत्व में कुछ भिन्नता हो सकती है, लेकिन एक मछली की स्थिति अन्य मछली की स्थिति के बारे में कुछ भी नहीं बताती है। लेकिन चेतावनी दी जानी चाहिए कि इस धारणा का उल्लंघन किया जा सकता है क्योंकि मछली स्कूलों में उदाहरण के लिए क्लस्टर करते हैं, और फिर उनकी स्थिति अब स्वतंत्र नहीं है।
पॉल

जवाबों:


8

GLM परिवारों में लिंक फ़ंक्शन के साथ-साथ माध्य-विचरण संबंध भी शामिल है। पॉइसन GLMs के लिए, लिंक फ़ंक्शन एक लॉग है, और माध्य-विचरण संबंध पहचान है। चेतावनी के बावजूद कि अधिकांश सांख्यिकीय सॉफ़्टवेयर आपको देता है, यह निरंतर डेटा में एक मॉडल को मॉडल करने के लिए पूरी तरह से उचित है जिसमें लॉग चर पर दो चर के बीच संबंध रैखिक है, और माध्य के अनुसार विचरण बढ़ जाता है।

यह अनिवार्य रूप से, जीएलएम में लिंक और विचरण समारोह को चुनने के लिए तर्क है। बेशक, इस प्रक्रिया के पीछे कई धारणाएं हैं। आप quasilikelihood (देखें ?quasipoisson) या मजबूत मानक त्रुटियों (पैकेज sandwichया देखें ) का उपयोग करके अधिक मजबूत मॉडल बना सकते हैं gee

आपने सही ढंग से नोट किया है कि आपके डेटा में कई घनत्व 0 हैं। पॉइसन प्रायिकता मॉडल के तहत, कभी-कभार डेटा में 0s का नमूना लेना उचित होता है, इसलिए यह जरूरी नहीं है कि ये अवलोकन दरों के अनुमानों में पूर्वाग्रह की ओर अग्रसर हों।

GLMs के पीछे की मान्यताओं का निरीक्षण करने के लिए, आमतौर पर पियर्सन के अवशेषों को देखना उपयोगी होता है। औसत विचरण संबंध के लिए ये खाते और सांख्यिकीविद को दिखाते हैं कि क्या विशेष रूप से अवलोकन, जैसे कि ये 0, जैसे अनुमान और परिणाम को प्रभावित कर रहे हैं।


22

सामान्यीकृत रैखिक मॉडल रैखिक भविष्यवक्ता के रूप में परिभाषित किया गया है

η=Xβ

यह लिंक फंक्शन से होकर गुजरा है :g

g(E(Y|X))=η

यह निर्भर चर और स्वतंत्र चर X = X 1 , X 2 , , X k के बीच के संबंध को दर्शाता हैYX=X1,X2,,Xk । अधिक सटीक रूप से, यह वाई एक्स के सशर्त अपेक्षा को है ,YX

E(Y|X)=μ=g1(η)

इसलिए मॉडल को संभाव्य शब्दों में परिभाषित किया जा सकता है

Y|Xf(μ,σ2)

ffYYXYX

दूसरी ओर, व्यवहार में, यदि आप एक पूर्वानुमान मॉडल के निर्माण में रुचि रखते हैं, तो आप कुछ अलग-अलग वितरणों का परीक्षण करने में रुचि रख सकते हैं, और अंत में सीखते हैं कि उनमें से एक आपको अधिक सटीक परिणाम देता है, तो अन्य भले ही ऐसा न हो। सैद्धांतिक विचारों के संदर्भ में सबसे "उपयुक्त" (उदाहरण के लिए सिद्धांत रूप में आपको पॉइसन का उपयोग करना चाहिए, लेकिन व्यवहार में मानक रेखीय प्रतिगमन आपके डेटा के लिए सबसे अच्छा काम करता है)।


2

यह एक व्यापक प्रश्न है, आप मॉडलिंग करने के तरीके के बारे में पूछ रहे हैं, और इसके लिए पूरी किताबें समर्पित हैं। उदाहरण के लिए, जब गणना डेटा के साथ काम करते हैं, तो निम्नलिखित पर विचार करें:

वितरण चुनने के अलावा, आपको एक लिंक फ़ंक्शन चुनना होगा। गिनती के आंकड़ों के साथ आप पॉज़िशन या नकारात्मक द्विपद वितरण और लॉग लिंक फ़ंक्शन की कोशिश कर सकते हैं। लॉग लिंक के लिए एक कारण यहां दिया गया है: फिट होने के लिए अच्छा और कौन सा मॉडल रैखिक प्रतिगमन या पॉइसन चुनने के लिए यदि आपके पैच में बहुत अलग क्षेत्र हैं, तो शायद आपको एक ऑफसेट के रूप में क्षेत्र के लघुगणक को शामिल करना चाहिए, प्रति यूनिट क्षेत्र गिना जाता है और निरपेक्ष नहीं है। मायने रखता है। काउंट डेटा रिग्रेशन में ऑफ़सेट की खोज के लिए, देखें कि पॉसन रिग्रेशन में ऑफ़सेट का उपयोग कब करें?

EDIT 

यह उत्तर मूल रूप से एक अन्य प्रश्न पर पोस्ट किया गया था, जिसे इस एक के साथ मिला दिया गया था। हालांकि उत्तर सामान्य है, यह एक डेटा सेट और समस्या की बारीकियों पर टिप्पणी करता है जो अब और नहीं हैं। मूल प्रश्न निम्नलिखित लिंक में पाया जा सकता है: GLM में परिवार - सही का चयन कैसे करें?


हम @kjetil के सवालों को नहीं खोल सकते, केवल देवता ही ऐसा कर सकते हैं (और वे वास्तव में पसंद नहीं करते हैं)। मैं अभी भी मूल क्यू का उपयोग कर सकता हूं, हालांकि। 1 संभावना यह है कि मैं सामग्री को एक नए क्यू (जो मेरे द्वारा अधिकृत किया जाएगा) में कॉपी कर सकता हूं, आप इस ए को नए धागे में कॉपी कर सकते हैं, और फिर मैं इस धागे को नकल के रूप में बंद कर सकता हूं। यह कहना मुश्किल है कि क्या यह एक पागल विचार है, या यदि यह परेशानी के लायक है, लेकिन यह वही है जो मैं कर सकता हूं। क्या आपकी कोई प्राथमिकता है?
गूँग - मोनिका

@ गंग: आप ऐसा कर सकते हैं, या मैं उस प्रश्न से मिली जानकारी को यहां उत्तर में कॉपी कर सकता हूं। हो सकता है कि सबसे अच्छा है? (मैं संपादित इतिहास से लगता है कि संपादित कर सकते हैं)
kjetil b halvorsen

1
@kjetilbhalvorsen सबसे पहले, मैसेज करने के लिए खेद है क्योंकि यह थ्रेड्स को मर्ज करने का मेरा विचार था क्योंकि वे लगभग एक जैसे लग रहे थे और दोनों में अच्छे उत्तर थे। मेरी प्रारंभिक धारणा थी कि धागों को मिलाने से कोई नुकसान नहीं होगा। हो सकता है कि आप अपने दूसरे पैराग्राफ में "उदाहरण के लिए, जब गिनती डेटा के साथ काम कर रहे हों ..." जोड़ सकते हैं ? आपका उत्तर सामान्य रूप से उत्तर देता है "परिवार कैसे चुनें?" सवाल, तो शायद यह सामान्य धागे में छोड़ने लायक है?
टिम

1
@ समय जैसा आप कहेंगे मैं संपादित करूँगा!
kjetil b halvorsen

आइए संपादित करने का प्रयास करें। यदि आप चाहते हैं कि मैं फिर से क्यू को पस्त कर दूं तो मुझे फिर से पिंग करें। मैं अब झंडे को खारिज करने जा रहा हूं।
गुंग - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.