मिश्रित मॉडल प्रति स्तर 1 अवलोकन के साथ


12

मैं glmerकुछ व्यावसायिक डेटा के साथ एक यादृच्छिक प्रभाव मॉडल फिट कर रहा हूं । उद्देश्य वितरक द्वारा बिक्री के प्रदर्शन का विश्लेषण करना है, क्षेत्रीय विविधता को ध्यान में रखते हुए। मेरे पास निम्नलिखित चर हैं:

  • distcode: वितरक आईडी, लगभग 800 स्तरों के साथ
  • region: शीर्ष-स्तरीय भौगोलिक आईडी (उत्तर, दक्षिण, पूर्व, पश्चिम)
  • zone: मध्य स्तर के भूगोल के भीतर निहित region, सभी में लगभग 30 स्तर
  • territory: निम्न-स्तर के भूगोल के भीतर निहित zone, लगभग 150 स्तर

प्रत्येक वितरक केवल एक क्षेत्र में कार्य करता है। मुश्किल हिस्सा यह है कि यह संक्षेप डेटा है, प्रति वितरक एक डेटा बिंदु के साथ। इसलिए मेरे पास 800 डेटा प्वाइंट हैं और मैं नियमित रूप से फैशन में फिट (कम से कम) 800 मापदंडों को फिट करने की कोशिश कर रहा हूं।

मैंने एक मॉडल इस प्रकार फिट किया है:

glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)

यह एक समस्या के बिना चलता है, हालांकि यह एक नोट छापता है:

यादृच्छिक प्रभावों के लिए एक समूहीकरण कारक के स्तरों की संख्या n, टिप्पणियों की संख्या के बराबर है

क्या यह एक समझदारी की बात है? मुझे सभी गुणांकों के परिमित अनुमान मिलते हैं, और AIC भी अनुचित नहीं है। अगर मैं पहचान लिंक के साथ एक पॉलीसम GLMM की कोशिश करता हूं, तो AIC बहुत खराब है, इसलिए लॉग लिंक कम से कम एक अच्छा प्रारंभिक बिंदु है।

अगर मैं फिट किए गए मूल्यों बनाम प्रतिक्रिया की साजिश करता हूं, तो मुझे वह मिलता है जो अनिवार्य रूप से एक आदर्श फिट है, जो मुझे लगता है क्योंकि मेरे पास प्रति वितरक एक डेटा बिंदु है। क्या यह उचित है, या मैं पूरी तरह से मूर्खतापूर्ण कुछ कर रहा हूं?

यह एक महीने के लिए डेटा का उपयोग कर रहा है। मैं कई महीनों के लिए डेटा प्राप्त कर सकता हूं और इस तरह से कुछ प्रतिकृति प्राप्त कर सकता हूं, लेकिन मुझे महीने-दर-महीने भिन्नता और संभव इंटरैक्शन के लिए नई शर्तें जोड़ना होंगी, सही?


ETA: मैंने उपरोक्त मॉडल को फिर से चलाया, लेकिन एक familyतर्क के बिना (इसलिए GLMM के बजाय केवल एक गॉसियन LMM)। अब lmerमुझे निम्नलिखित त्रुटि दी:

समारोह में त्रुटि (fr, FL, start, REML, verbose): यादृच्छिक प्रभावों के लिए एक समूहीकरण कारक के स्तरों की संख्या टिप्पणियों की संख्या से कम होनी चाहिए

इसलिए मुझे लगता है कि मैं कुछ समझदार नहीं कर रहा हूँ, क्योंकि परिवार बदलने का असर नहीं होना चाहिए। लेकिन अब सवाल यह है कि इसने पहले स्थान पर काम क्यों किया?

जवाबों:


4

मैं एक मिश्रित मॉडल को फिट करने के अभ्यास से दृढ़ता से असहमत हूं जहां आपके पास वैचारिक आधारों पर टिप्पणियों के समान समूह हैं, "समूह" नहीं हैं, और कम्प्यूटेशनल आधार पर भी हैं, क्योंकि आपके मॉडल में पहचान योग्य मुद्दे होने चाहिए- मामले में एलएमएम के कम से कम। (मैं LMM के साथ विशेष रूप से काम करता हूँ यह थोड़ा पक्षपाती भी हो सकता है। :))

y~एन(एक्सβ,जेडडीजेडटी+σ2मैं)डीσ2

(मुझे समझ नहीं आ रहा है कि आप "वाजिब" AIC से क्या मतलब रखते हैं। AIC को इस अर्थ में गणना योग्य होना चाहिए कि आपके डेटा को ओवर-फिटिंग करने के बावजूद भी आप "कुछ कंप्यूटिंग कर रहे हैं"।

glmeryएक्सβएक्सβ>0glmer

वैचारिक भाग: मुझे लगता है कि यह थोड़ा अधिक "व्यक्तिपरक" है, लेकिन थोड़ा अधिक सीधा भी। आप मिश्रित प्रयास का उपयोग करें। मॉडल क्योंकि आपने अनिवार्य रूप से पहचान लिया था कि आपकी त्रुटि में कुछ समूह-संबंधित संरचना है। अब यदि आपके पास डेटा-पॉइंट्स के रूप में कई समूह हैं, तो देखने के लिए संरचना नहीं है। आपके LM त्रुटि संरचना में कोई भी विचलन जिसे "समूहीकरण" के लिए जिम्मेदार ठहराया जा सकता है, को अब विशिष्ट अवलोकन बिंदु (और जैसे कि आप एक ओवर-फिट मॉडल के साथ समाप्त करते हैं) के लिए जिम्मेदार ठहराया जाता है।

सामान्य एकल-अवलोकन समूहों में थोड़ा गड़बड़ हो जाता है; डी-सेट्स को r-sig-मिश्रित-मॉडल मेलिंग सूची से उद्धृत करने के लिए:

मुझे लगता है कि आप पाएंगे कि मॉडल में बहुत कम अंतर है कि आप एकल-अवलोकन समूहों को शामिल करते हैं या बाहर करते हैं। यह कोशिश करो और देखो।


1
यह सही है कि यह लीनियर सेटिंग में ज्यादा मायने नहीं रखता है, लेकिन यह पॉइसन रिग्रेशन में बहुत उपयोगी हो सकता है । मैं देखूंगा कि क्या मैं इस विषय पर बेन बोल्कर के लिंक को ट्रैक कर सकता हूं (वह डॉग बेट्स के साथ lme4 के डेवलपर्स में से एक है)।
डेविड जे। हैरिस

हाँ, जैसा कि मैंने कहा कि शायद मैं LMM के बारे में सोचकर पक्षपाती हूं और मैं "वैचारिक भाग" पर टिप्पणी कर रहा था। मैंने समझाया कि यह glmerवैसे भी क्यों काम करता है (हालांकि इसके साथ ज्यादा खुश नहीं होने के बावजूद)।
us --r11852

8

प्रति अवलोकन एक स्तर बहुत उपयोगी हो सकता है यदि आपके पास डेटा को आपके प्रतिक्रिया चर के रूप में अतिशीत किया गया हो। यह कहने के बराबर है कि आप अपने गणना डेटा को पॉइसन-लोगनॉर्मल डिस्ट्रीब्यूशन से आने की उम्मीद करते हैं, यानी कि आपके पॉइसन डिस्ट्रीब्यूशन का लैम्ब्डा पैरामीटर आपके मॉडल में प्रेडिक्टर वेरिएबल्स द्वारा पूरी तरह से निर्धारित नहीं है और यह संभावनाएं हैं कि लॉगऑनलाइन डिस्ट्रीब्यूट की गई हैं।

Lme4 के डेवलपर्स में से एक, बेन बोल्कर ने इसके साथ दो ट्यूटोरियल-जैसे उदाहरण दिए हैं। सिंथेटिक डेटा के साथ पहला, थोड़ा और अधिक विस्तार में जाता है। आप यहाँ एक pdf पा सकते हैं । उन्होंने यह भी एक खोजपूर्ण डेटा विश्लेषण के माध्यम से चला है जिसमें उल्लू (पीडीएफ और आर कोड यहां से उपलब्ध है ) के वास्तविक डेटा शामिल हैं ।


1
+1। आप जो कहते हैं, मैं उससे सहमत हूं। जैसा कि मैंने अपने मूल पोस्ट में उल्लेख किया है: " अति-फैलाव (...) है कि आप कैसे" चारों ओर "प्राप्त करते हैं" टिप्पणियों के रूप में कई समूह होने का मुद्दा। " glmerवैचारिक तरीके से बेहतर बिंदु बनाने के लिए धन्यवाद ।
us --r11852

1
लिंक के लिए धन्यवाद! उन लोगों को पढ़ने के बाद, और अपने मॉडल से फिट किए गए मूल्यों को करीब से देखने के बाद, मुझे इस बात का बेहतर विचार है कि क्या हो रहा है। मैं वास्तव में यह नहीं सोचता कि बेन जो कर रहा है वह मेरे विश्लेषण के लिए उपयुक्त है। वह ओवरडाइस्प्रेशन के लिए अनुमति देने के लिए एक अवलोकन-स्तरीय चर का उपयोग कर रहा है, इसलिए यह एक उपद्रव प्रभाव की तरह है। मेरे विश्लेषण के लिए, distributorब्याज का एक प्रभाव है: मैं यह देखना चाहता हूं कि अन्य चर की अनुमति देते समय वितरक एक-दूसरे के सापेक्ष कैसे प्रदर्शन करते हैं। इस प्रकार यह एक पारंपरिक रैखिक मिश्रित मॉडल की तुलना में अधिक है, जहां ओवरफिटिंग एक वास्तविक चिंता है।
हांग ओय जूल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.