क्या इन आंकड़ों को एक द्विपद चमक के लिए एक अनुपात में एकत्र किया जा सकता है?


11

हमने 60 लोगों को अटलांटा में कई रेस्तरां फ्रेंचाइजी के रूप में सूचीबद्ध करने के लिए कहा। समग्र सूची में 70 से अधिक रेस्तरां शामिल थे, लेकिन हमने उन लोगों को समाप्त कर दिया, जिन्हें 10% से कम लोगों ने उल्लेख किया था, हमें 45 के साथ छोड़ दिया। इन 45 के लिए, हमने उन सूचनादाताओं के अनुपात की गणना की जो मताधिकार सूचीबद्ध करते हैं, और हम इसमें रुचि रखते हैं इस अनुपात को फ्रेंचाइज़ीज़ (लॉग-ट्रांसफ़ॉर्म) विज्ञापन बजट और फ्रैंचाइज़ी बनने के वर्षों से एक समारोह के रूप में मॉडलिंग करते हैं।

इसलिए मैंने यह कोड लिखा:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

जैसा कि अनुमान लगाया गया था, दोनों चर मजबूत, महत्वपूर्ण प्रभाव दिखाते हैं।

लेकिन भले ही मुझे पता है कि आनुपातिक डेटा को कभी ओएलएस प्रतिगमन के साथ मॉडल नहीं किया जाना चाहिए, मैंने बाद में यह कोड लिखा था:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

इस मामले में, "बजट" अभी भी एक महत्वपूर्ण भविष्यवक्ता है, लेकिन "वर्ष" अपेक्षाकृत कमजोर है और महत्वपूर्ण नहीं है।

यह मुझे चिंतित करता है कि अनुमानों में विश्वास एकत्रीकरण द्वारा कृत्रिम रूप से फुलाया जाता है। क्या द्विपदीय चमक अनिवार्य रूप से डेटा को वेक्टर नहीं करती है जैसे कि मॉडल 45 * 55 = 2,475 पंक्तियों पर आधारित है? क्या यह उचित है कि वास्तव में केवल 45 रेस्तरां और 55 मुखबिर हैं? क्या यह मिश्रित-प्रभाव मॉडलिंग के लिए कहेंगे?


4
संकेत: देखिए क्या होता हैfamily=quasibinomial
बेन बोल्कर

1
दिलचस्प। अनुमानित गुणांक समान हैं, लेकिन मानक त्रुटियां अधिक रूढ़िवादी हैं (और वर्ष कासिबिनोमियल मॉडल में महत्वपूर्ण नहीं है)। मैं quasibinomial के लिए मदद फ़ाइलों को देख रहा हूं, लेकिन क्या आप बता सकते हैं कि क्या चल रहा है? मेरी धारणा है कि क्वासिबिनोमियल का उपयोग मुख्य रूप से अतिविशिष्टता के लिए किया जाता है। । ।
जेरेमी _

3
बिल्कुल सही। वहाँ के बीच मतभेद की एक किस्म है lmऔर glm(...,family=binomial)है, लेकिन महत्वपूर्ण हैं में से एक है कि एक द्विपद GLM विचरण के बारे में मजबूत धारणाएं बनाता है। यदि डेटा अतिप्रवाहित नहीं हैं , तो एकत्रित / असहमति से कोई फर्क नहीं पड़ता है।
बेन बोल्कर

1
आर आउटपुट से पता चलता है कि फैलाव पैरामाटर को 8.7 तक ले जाता है। मैं यह पता लगाने की कोशिश कर रहा हूं कि यह अतिविशिष्टता के बारे में क्या कहता है। इस बीच, बेन, मैं देखता हूं कि आपको मिश्रित मॉडल के साथ काफी पृष्ठभूमि मिली है। क्या मैं मुखबिर या मताधिकार के लिए मिश्रित प्रभावों के बिना एक द्विपद glm का उपयोग करके सुरक्षित हूं (जिस स्थिति में मुझे "मुखबिर आईडी" के लिए एक कॉलम जोड़ते हुए संभवतः सभी डेटा को वेक्टर करना होगा)?
जेरेमी _

जवाबों:


1

आनुपातिक डेटा के लिए, व्यक्ति फिटिंग से पहले आश्रित चर का लघुगणक ले सकता है क्योंकि लघुगणक गुणन को इसके अलावा में बदल देता है। एक समान नस में, यदि कोई स्वतंत्र चर के लघुगणक को भी ले लेता है, यदि वे आनुपातिक भी हैं, तो कई रैखिक प्रतिगमन के लिए परिणामी फिट एक शक्ति फ़ंक्शन उत्पाद मॉडल का अर्थ है, न कि योज्य, योजक । अर्थात्, एक फिट । आनुपातिक चर के लिए, यह आमतौर पर रैखिक फिटिंग की तुलना में अधिक महत्व देता है, और अधिक शक्तिशाली होता है, और उच्च ।Y=सीएक्स11एक्स22...Xnknln(Y)=ln(सी)+1ln(एक्स1)+2ln(एक्स2)+nln(एक्सn)आर2

अब यदि अनअल्ड्ड रिग्रेशन लाइन (आदर्श रूप से एक द्विभाजित प्रतिगमन, उदाहरण के लिए, एक डेमिंग प्रतिगमन) संभवतया {0,0} से होकर नहीं गुजरती है, तो यह थोड़ा अधिक जटिल हो जाता है, और एक साधारण से कम उपयोग के बजाय एक ऑफसेट आनुपातिक नुकसान को कम करता है। वर्गों।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.