निरंतर डेटा मॉडलिंग करते समय एक पॉइसन वितरण कैसे काम करता है और क्या इससे सूचना हानि होती है?


20

एक सहकर्मी कुछ बुरा Heteroscedasticity (नीचे आंकड़ा) के साथ उसके शोध प्रबंध के लिए कुछ जैविक डेटा का विश्लेषण कर रहा है। वह एक मिश्रित मॉडल के साथ इसका विश्लेषण कर रही है लेकिन अभी भी अवशेषों से परेशान है।

प्रतिक्रिया-चर को लॉग-ट्रांसफ़ॉर्म करना चीजों को साफ़ करता है और इस प्रश्न के फीडबैक के आधार पर यह एक उपयुक्त दृष्टिकोण प्रतीत होता है। मूल रूप से, हालांकि, हमने सोचा था कि मिश्रित मॉडल के साथ रूपांतरित चर का उपयोग करने में समस्याएं थीं। यह पता चला है कि हम मिश्रित मॉडल के लिए लिटिल और मिलिकेन (2006) एसएएस में एक बयान की गलत व्याख्या कर रहे थे जो इंगित कर रहा था कि गिनती डेटा को बदलना अनुचित है और फिर सामान्य रैखिक मिश्रित मॉडल (पूर्ण उद्धरण नीचे है) के साथ इसका विश्लेषण करें। ।

एक दृष्टिकोण जो अवशेषों में भी सुधार करता था, वह एक पॉज़ोन वितरण के साथ सामान्यीकृत रैखिक मॉडल का उपयोग करना था। मैंने पढ़ा है कि Poisson वितरण का उपयोग निरंतर डेटा (उदाहरण के लिए, इस पोस्ट में चर्चा की गई ) मॉडलिंग के लिए किया जा सकता है , और आँकड़े पैकेज इसकी अनुमति देते हैं, लेकिन मुझे समझ नहीं आता कि मॉडल फिट होने पर क्या हो रहा है।

अंतर्निहित गणना कैसे की जा रही है, यह समझने के उद्देश्य से, मेरे प्रश्न हैं: जब आप निरंतर डेटा के लिए एक पॉइज़न वितरण फिट करते हैं, तो 1) क्या यह डेटा निकटतम पूर्णांक 2 पर गोल हो जाता है ) क्या यह जानकारी के नुकसान में परिणाम करता है? 3) जब, यदि कभी, क्या निरंतर डेटा के लिए पॉइसन मॉडल का उपयोग करना उचित है?

Littel & Milliken 2006, pg 529 "बदलना [गणना] डेटा प्रतिरूप हो सकता है। उदाहरण के लिए, एक परिवर्तन यादृच्छिक मॉडल प्रभाव या मॉडल की रैखिकता के वितरण को बिगाड़ सकता है। अधिक महत्वपूर्ण बात, डेटा को बदलने से संभावना खुल सकती है। नकारात्मक पूर्वानुमानित गणनाओं के परिणामस्वरूप, मिश्रित डेटा का उपयोग करके मिश्रित मॉडल से निष्कर्ष निकालना अत्यधिक संदिग्ध है। "

यहां छवि विवरण दर्ज करें


1
जैसे @ टॉमास मुझे बिना किसी कारण के पता चलता है कि आपको एक मिश्रित मॉडल से पहले चर नहीं बदलना चाहिए, और मैंने इस विषय पर काफी पढ़ा है। मुझे रेमन और लिटल बुक मिली है .... आप किस पेज का संदर्भ ले रहे हैं?
पीटर Flom - को पुनः स्थापित मोनिका

यह पता चला है कि हम पृष्ठ 529 पर एक बयान की गलत व्याख्या कर रहे थे।
एन

जवाबों:


22

मैं ह्यूबर / व्हाइट / सैंडविच के साथ निरंतर सकारात्मक परिणाम Poisson regressions का अनुमान लगा रहा हूं, जो कि काफी बार विचरण का अनुमान लगाया गया है। हालांकि, यह कुछ भी करने के लिए विशेष रूप से अच्छा कारण नहीं है, इसलिए यहां कुछ वास्तविक संदर्भ हैं।

y

सैंटोस सिल्वा और टेनरीरो (2006) के कुछ उत्साहजनक सिमुलेशन साक्ष्य भी हैं , जहां पोइज़न सबसे अच्छे शो में आता है। यह परिणाम में बहुत सारे शून्य के साथ एक सिमुलेशन में भी अच्छा करता है । आप खुद को समझाने के लिए आसानी से अपना अनुकरण भी कर सकते हैं कि यह आपके स्नोफ्लेक मामले में काम करता है।

अंत में, आप लॉग लिंक फ़ंक्शन और पॉइसन परिवार के साथ GLM का भी उपयोग कर सकते हैं। यह समान परिणाम देता है और गिनती-डेटा-केवल घुटने के झटके प्रतिक्रियाओं को शांत करता है।

बिना लिंक के संदर्भ:

गॉइयरॉउक्स, सी।, ए। मॉनफोर्ट और ए। ट्रोगनॉन (1984)। "छद्म अधिकतम संभावना तरीके: पॉसन मॉडल के लिए अनुप्रयोग," इकोनोमेट्रिक , 52, 701-720।


2
इस अच्छी ब्लॉग प्रविष्टि को बिल गाउल्ड द्वारा लिखे गए स्टैटा
boscovich

1
y

स्टैटा ब्लॉग पर एक संबंधित पोस्ट है जो अतिरिक्त सिमुलेशन साक्ष्य प्रदान करता है
दिमित्री वी। मास्टरोव 20

6

पॉइज़न वितरण केवल गिनती डेटा के लिए है, इसे निरंतर डेटा के साथ खिलाने की कोशिश करना बुरा है और मेरा मानना ​​है कि ऐसा नहीं किया जाना चाहिए। कारणों में से एक यह है कि आप नहीं जानते कि आपके निरंतर चर को कैसे स्केल किया जाए। और पोइसन स्केल पर बहुत निर्भर करता है! मैंने यहां एक सरल उदाहरण के साथ इसे समझाने की कोशिश की । इसलिए इस कारण से मैं काउंट डेटा के अलावा किसी अन्य चीज़ के लिए पॉइज़न का उपयोग नहीं करता।

यह भी याद रखें कि जीएलएम 2 चीजें करता है - लिंक फ़ंक्शन (प्रतिक्रिया संस्करण को बदलना, पॉसन केस में लॉग इन), और अवशेष (इस मामले में पॉइसन डिस्टर्बेंस)। जैविक कार्य के बारे में, अवशिष्ट के बारे में सोचें और फिर उचित विधि का चयन करें। कभी-कभी यह लॉग ट्रांसफ़ॉर्म का उपयोग करने के लिए समझ में आता है, लेकिन सामान्य रूप से वितरित अवशेषों के साथ रहें।

"लेकिन ऐसा लगता है कि पारंपरिक ज्ञान यह है कि आपको डेटा को एक मिश्रित मॉडल में बदलना नहीं चाहिए"

यह मैंने पहली बार सुना! मुझे इससे कोई मतलब नहीं है। मिश्रित मॉडल सामान्य रैखिक मॉडल की तरह हो सकता है, बस यादृच्छिक प्रभावों के साथ। क्या आप एक सटीक उद्धरण यहाँ रख सकते हैं? मेरी राय में, यदि लॉग ट्रांसफ़ॉर्म चीजों को साफ़ करता है, तो बस इसका उपयोग करें!


सहायता के लिए धन्यवाद; जो मैंने सोचा था कि "पारंपरिक ज्ञान" लिट्टल और मिलिकेन का गलत पढ़ना था। मैंने अपना प्रश्न संपादित कर लिया है और L & M 2006 से उद्धरण जोड़ा है।
N Brouwer

@NBrouwer: हाँ, ऐसा लगता है कि आपने वास्तव में इसका गलत अर्थ निकाला है। यह गिनती डेटा को बदलने के लिए बुरा है और यह डेटा को गिनने के लिए निरंतर डेटा को बदलने और उस पर पॉइसन को फिट करने की कोशिश करने के लिए और भी बुरा है! यही मैंने आपको समझाने की कोशिश की। यह मत करो। बस जरूरत पड़ने पर अपने निरंतर डेटा को लॉग-ट्रांसफ़ॉर्म करें । यह आंकड़ों में बहुत आम है, इसके बारे में चिंता करने की कोई जरूरत नहीं है।
जिज्ञासु

5

यहाँ लॉग-रिग्रेसशन को फिट करने के लिए पोइसन मॉडल का उपयोग करने के तरीके के बारे में एक और शानदार चर्चा है: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (मैं एक मित्र को बता रहा हूं, जैसे कि ब्लॉग प्रविष्टि बताती है)। मूल जोर यह है कि हम केवल पॉइसन मॉडल के उस हिस्से का उपयोग करते हैं जो लॉग लिंक है। जिस भाग के लिए माध्य के बराबर विचरण की आवश्यकता होती है, वह विचरण के सैंडविच अनुमान के साथ ओवरराइड किया जा सकता है। हालाँकि, यह सभी iid डेटा के लिए है; दिमित्री मास्टरोव द्वारा क्लस्टर / मिश्रित-मॉडल एक्सटेंशन को ठीक से संदर्भित किया गया है ।


1

यदि समस्या माध्य के साथ विचरण स्केलिंग है, लेकिन आपके पास निरंतर डेटा है, तो क्या आपने निरंतर वितरण का उपयोग करने के बारे में सोचा है जो आपके पास होने वाले मुद्दों को समायोजित कर सकता है। शायद एक गामा? विचरण का माध्य के साथ द्विघात संबंध होगा - वास्तव में एक नकारात्मक द्विपद की तरह।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.