मैं कुछ डेटा मॉडलिंग कर रहा हूं, जहां मुझे लगता है कि मेरे पास दो यादृच्छिक प्रभाव हैं। लेकिन डेटा सेट संतुलित नहीं है, और मुझे यकीन नहीं है कि इसके लिए क्या किया जाना चाहिए।
मेरा डेटा घटनाओं का एक समूह है। एक घटना तब होती है जब कोई ग्राहक किसी कार्य को करने के लिए एक प्रदाता से मिलता है, जो या तो सफल होता है या नहीं। हजारों ग्राहक और प्रदाता हैं, और प्रत्येक ग्राहक और प्रदाता घटनाओं की अलग-अलग संख्या में भाग लेते हैं (लगभग 5 से 500)। प्रत्येक ग्राहक और प्रदाता के पास कौशल का एक स्तर होता है, और यह मौका कि कार्य सफल होता है, दोनों प्रतिभागियों के कौशल का एक कार्य है। ग्राहकों और प्रदाताओं के बीच कोई ओवरलैप नहीं है।
मुझे ग्राहकों और प्रदाताओं की आबादी के संबंधित संस्करण में दिलचस्पी है, इसलिए हम यह जान सकते हैं कि सफलता दर पर किस स्रोत का बड़ा प्रभाव है। मैं उन ग्राहकों और प्रदाताओं के बीच कौशल के विशिष्ट मूल्यों को भी जानना चाहता हूं जिनके पास वास्तव में सबसे अच्छा / सबसे खराब क्लाइंट या प्रदाताओं की पहचान करने के लिए हमारे पास डेटा है।
प्रारंभ में, मैं यह मान लेना चाहता हूं कि सफलता की संभावना केवल ग्राहक और प्रदाता के संयुक्त कौशल स्तरों द्वारा संचालित है, जिसमें कोई निश्चित प्रभाव नहीं है। तो, यह मानते हुए कि x ग्राहक के लिए एक कारक है और y प्रदाता के लिए एक कारक है, तो R में (पैकेज lme4 का उपयोग करके) मेरे पास एक मॉडल के रूप में निर्दिष्ट है:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
एक समस्या यह है कि ग्राहकों को समान रूप से प्रदाताओं में वितरित नहीं किया जाता है। उच्च कौशल ग्राहकों को उच्च कौशल प्रदाताओं के साथ मेल खाने की अधिक संभावना है। मेरी समझ यह है कि एक यादृच्छिक प्रभाव को मॉडल में किसी भी अन्य भविष्यवक्ताओं के साथ असंबंधित होना पड़ता है, लेकिन मुझे यकीन नहीं है कि इसके लिए कैसे खाता है।
साथ ही, कुछ क्लाइंट्स और प्रोवाइडर्स में बहुत कम इवेंट्स (10 से कम) होते हैं, जबकि अन्य में कई (500 तक) होते हैं, इसलिए हमारे पास प्रत्येक प्रतिभागी के डेटा की मात्रा में व्यापक प्रसार होता है। आदर्श रूप से यह प्रत्येक पार्टिसिपेंट कौशल अनुमान के आसपास "आत्मविश्वास अंतराल" में परिलक्षित होगा (हालांकि मुझे लगता है कि शब्द आत्मविश्वास अंतराल यहाँ बहुत सही नहीं है)।
क्या असंतुलित डेटा के कारण यादृच्छिक प्रभाव पार करने में समस्या हो रही है? यदि हां, तो मुझे क्या विचार करना चाहिए?