हमने 60 लोगों को अटलांटा में कई रेस्तरां फ्रेंचाइजी के रूप में सूचीबद्ध करने के लिए कहा। समग्र सूची में 70 से अधिक रेस्तरां शामिल थे, लेकिन हमने उन लोगों को समाप्त कर दिया, जिन्हें 10% से कम लोगों ने उल्लेख किया था, हमें 45 के साथ छोड़ दिया। इन 45 के लिए, हमने उन सूचनादाताओं के अनुपात की गणना की जो मताधिकार सूचीबद्ध करते हैं, और हम इसमें रुचि रखते हैं इस अनुपात को फ्रेंचाइज़ीज़ (लॉग-ट्रांसफ़ॉर्म) विज्ञापन बजट और फ्रैंचाइज़ी बनने के वर्षों से एक समारोह के रूप में मॉडलिंग करते हैं।
इसलिए मैंने यह कोड लिखा:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
जैसा कि अनुमान लगाया गया था, दोनों चर मजबूत, महत्वपूर्ण प्रभाव दिखाते हैं।
लेकिन भले ही मुझे पता है कि आनुपातिक डेटा को कभी ओएलएस प्रतिगमन के साथ मॉडल नहीं किया जाना चाहिए, मैंने बाद में यह कोड लिखा था:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
इस मामले में, "बजट" अभी भी एक महत्वपूर्ण भविष्यवक्ता है, लेकिन "वर्ष" अपेक्षाकृत कमजोर है और महत्वपूर्ण नहीं है।
यह मुझे चिंतित करता है कि अनुमानों में विश्वास एकत्रीकरण द्वारा कृत्रिम रूप से फुलाया जाता है। क्या द्विपदीय चमक अनिवार्य रूप से डेटा को वेक्टर नहीं करती है जैसे कि मॉडल 45 * 55 = 2,475 पंक्तियों पर आधारित है? क्या यह उचित है कि वास्तव में केवल 45 रेस्तरां और 55 मुखबिर हैं? क्या यह मिश्रित-प्रभाव मॉडलिंग के लिए कहेंगे?
lmऔर glm(...,family=binomial)है, लेकिन महत्वपूर्ण हैं में से एक है कि एक द्विपद GLM विचरण के बारे में मजबूत धारणाएं बनाता है। यदि डेटा अतिप्रवाहित नहीं हैं , तो एकत्रित / असहमति से कोई फर्क नहीं पड़ता है।
family=quasibinomial