यादृच्छिक प्रभाव और असंतुलित डेटा को पार किया


10

मैं कुछ डेटा मॉडलिंग कर रहा हूं, जहां मुझे लगता है कि मेरे पास दो यादृच्छिक प्रभाव हैं। लेकिन डेटा सेट संतुलित नहीं है, और मुझे यकीन नहीं है कि इसके लिए क्या किया जाना चाहिए।

मेरा डेटा घटनाओं का एक समूह है। एक घटना तब होती है जब कोई ग्राहक किसी कार्य को करने के लिए एक प्रदाता से मिलता है, जो या तो सफल होता है या नहीं। हजारों ग्राहक और प्रदाता हैं, और प्रत्येक ग्राहक और प्रदाता घटनाओं की अलग-अलग संख्या में भाग लेते हैं (लगभग 5 से 500)। प्रत्येक ग्राहक और प्रदाता के पास कौशल का एक स्तर होता है, और यह मौका कि कार्य सफल होता है, दोनों प्रतिभागियों के कौशल का एक कार्य है। ग्राहकों और प्रदाताओं के बीच कोई ओवरलैप नहीं है।

मुझे ग्राहकों और प्रदाताओं की आबादी के संबंधित संस्करण में दिलचस्पी है, इसलिए हम यह जान सकते हैं कि सफलता दर पर किस स्रोत का बड़ा प्रभाव है। मैं उन ग्राहकों और प्रदाताओं के बीच कौशल के विशिष्ट मूल्यों को भी जानना चाहता हूं जिनके पास वास्तव में सबसे अच्छा / सबसे खराब क्लाइंट या प्रदाताओं की पहचान करने के लिए हमारे पास डेटा है।

प्रारंभ में, मैं यह मान लेना चाहता हूं कि सफलता की संभावना केवल ग्राहक और प्रदाता के संयुक्त कौशल स्तरों द्वारा संचालित है, जिसमें कोई निश्चित प्रभाव नहीं है। तो, यह मानते हुए कि x ग्राहक के लिए एक कारक है और y प्रदाता के लिए एक कारक है, तो R में (पैकेज lme4 का उपयोग करके) मेरे पास एक मॉडल के रूप में निर्दिष्ट है:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

एक समस्या यह है कि ग्राहकों को समान रूप से प्रदाताओं में वितरित नहीं किया जाता है। उच्च कौशल ग्राहकों को उच्च कौशल प्रदाताओं के साथ मेल खाने की अधिक संभावना है। मेरी समझ यह है कि एक यादृच्छिक प्रभाव को मॉडल में किसी भी अन्य भविष्यवक्ताओं के साथ असंबंधित होना पड़ता है, लेकिन मुझे यकीन नहीं है कि इसके लिए कैसे खाता है।

साथ ही, कुछ क्लाइंट्स और प्रोवाइडर्स में बहुत कम इवेंट्स (10 से कम) होते हैं, जबकि अन्य में कई (500 तक) होते हैं, इसलिए हमारे पास प्रत्येक प्रतिभागी के डेटा की मात्रा में व्यापक प्रसार होता है। आदर्श रूप से यह प्रत्येक पार्टिसिपेंट कौशल अनुमान के आसपास "आत्मविश्वास अंतराल" में परिलक्षित होगा (हालांकि मुझे लगता है कि शब्द आत्मविश्वास अंतराल यहाँ बहुत सही नहीं है)।

क्या असंतुलित डेटा के कारण यादृच्छिक प्रभाव पार करने में समस्या हो रही है? यदि हां, तो मुझे क्या विचार करना चाहिए?

जवाबों:


4

असंतुलित डेटा के लिए, ग्लमर असंतुलित समूहों को संभालने में सक्षम है: यह वास्तव में मिश्रित-मॉडल दृष्टिकोण विकसित करने की बात थी, जो कि बार-बार किए गए उपायों के मुकाबले संतुलित डिजाइन के लिए प्रतिबंधित है। कुछ घटनाओं के साथ ग्राहकों या प्रदाताओं को शामिल करना (यहां तक ​​कि केवल एक ही) अभी भी उन्हें छोड़ने से बेहतर है, क्योंकि यह अवशिष्ट विचरण के अनुमान में सुधार करता है ( मार्टिन एट अल। 2011 देखें )।

यदि आप ranef(model)कौशल के प्रॉक्सी के रूप में BLUPs ( ) का उपयोग करना चाहते हैं , तो आपको वास्तव में अपनी बिंदु भविष्यवाणियों के बारे में अनिश्चितता का अनुमान लगाना होगा। यह ranef(model, postVar=TRUE)एक बायिसियन फ्रेमवर्क में पोस्टीरियर डिस्ट्रीब्यूशन के माध्यम से या इसके माध्यम से एक निरंतरवादी ढांचे में किया जा सकता है । हालांकि आपको आगे प्रतिगमन मॉडल में प्रतिक्रिया चर के रूप में BLUP का उपयोग नहीं करना चाहिए: Hadfield एट अल देखें। (२०१०) बीएलयूपी के दुरुपयोग और विभिन्न तरीकों के उदाहरणों के लिए पर्याप्त रूप से उनकी अनिश्चितता को ध्यान में रखना।

ग्राहकों और प्रदाताओं के बीच कौशल के सहसंबंध के लिए, यह असंतुलित समस्याग्रस्त हो सकता है यदि यह बहुत मजबूत है, क्योंकि यह प्रत्येक यादृच्छिक प्रभाव के कारण विचरण का सही अनुमान लगाने से रोकता है। ऐसा लगता नहीं है कि मिश्रित-मॉडल फ्रेमवर्क है जो आसानी से यादृच्छिक अंतर के बीच सहसंबंध को संभाल लेगा ( अपनी समस्या की औपचारिक अभिव्यक्ति के लिए यहां देखें )। क्या आप इस बात को लेकर सटीक हो सकते हैं कि ग्राहकों और प्रदाताओं की औसत सफलताएँ कितनी सहसंबद्ध हैं?


मेरे एक पुराने प्रश्न से निपटने के लिए बहुत-बहुत धन्यवाद। उत्तर अभी भी प्रासंगिक है और मार्गदर्शन और संदर्भ की सराहना की जाती है। खेद है कि मुझे यह नोटिस करने में इतना समय लगा! मैंने इसे हल कर लिया है।
colonel.triq
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.