सबसे महत्वपूर्ण मॉडल के पीछे तर्क है। आपका चर "प्रति वर्ष पेटेंट की संख्या" एक गणना चर है, इसलिए पॉइसन प्रतिगमन संकेत दिया गया है। यह (आमतौर पर) लॉग लिंक फ़ंक्शन के साथ एक GLM (सामान्यीकृत रैखिक मॉडल) है, जबकि सामान्य रैखिक प्रतिगमन पहचान लिंक के साथ एक गाऊसी GLM है। यहां, यह वास्तव में लॉग लिंक फ़ंक्शन है जो सबसे महत्वपूर्ण है, त्रुटि वितरण (पॉइज़न या गॉसियन) की तुलना में अधिक महत्वपूर्ण है।
चर "पेटेंट" एक व्यापक चर है: गहन और व्यापक गुणों को देखें । के लिए गहन जैसे तापमान चर, रेखीय मॉडल (पहचान लिंक के साथ) अक्सर उपयुक्त हैं। लेकिन एक व्यापक चर के साथ यह अलग है। यह सोचें कि आपकी एक दवा कंपनी दो अलग-अलग कंपनियों में विभाजित हो गई है। तब पेटेंट को दो नई कंपनियों के बीच विभाजित किया जाना था। क्या होता है कोवरिएबल्स के साथ, आपके प्रतिगमन में का? कर्मचारियों की संख्या और आरडी बजट जैसे भिन्नताओं को भी विभाजित करना होगा।x
मोटे तौर पर, इस संदर्भ में, एक गहन चर एक चर है जो कंपनी के आकार से स्वतंत्र है, जबकि एक व्यापक चर कंपनी के आकार पर (आमतौर पर, रैखिक रूप से) निर्भर करता है। इसलिए, एक अर्थ में, यदि हमारे पास प्रतिगमन समीकरण में कई अलग-अलग व्यापक चर हैं, तो हम बार-बार आकार प्रभाव को माप रहे हैं । यह बेमानी लगता है, इसलिए हमें जब संभव हो, गहन रूप में चर व्यक्त करना चाहिए , जैसे कि आरडी बजट प्रति कर्मचारी (या कुल बजट का प्रतिशत), इसी तरह राजस्व, आदि जैसे कर्मचारियों की संख्या के रूप में एक चर को छोड़ना होगा। बहुत बड़ा। इस व्यापक / गहन चर मुद्दे की एक और चर्चा के लिए सहसंबद्ध रजिस्ट्रारों से निपटने के लिए @ onestop का उत्तर देखें ।
आइए इस बीजगणितीय रूप से देखें:
पेटेंट, बजट (प्रति कर्मचारी), मूल कंपनी में कर्मचारी हैं, जबकि
और एक विभाजन के बाद संबंधित चर हैं। ऊपर मान लें, कि एकमात्र व्यापक सहसंयोजनीय है ( साथ , निश्चित रूप से, व्यापक भी)।पी 1 , बी 1 , ई 1 पी 2 , बी 2 , ई 2 ई पीP,B,EP1,B1,E1P2,B2,E2EP
फिर, विभाजन से पहले, हमारे पास मॉडल, पहचान लिंक, यादृच्छिक भाग के साथ छोड़ दिया गया:
विभाजन के बाद कंपनी के लिए विभाजित अंशों को इसलिए दें। हम
के बाद से लेकिन । इसी तरह कंपनी दो के लिए। इसलिए मॉडल कंपनी के आकार पर काफी जटिल तरीके से निर्भर करता है, केवल पर प्रतिगमन गुणांकअल्फा , 1 - अल्फा अल्फा पी
P=μ+β1E+β2B
α,1−ααPP1=αμ+αβ1E+αβ2B=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEकंपनी के आकार, अन्य सभी मापदंडों को प्रभावित करने वाले आकार से स्वतंत्र होना। इससे परिणामों की व्याख्या मुश्किल हो जाती है, विशेष रूप से इसलिए, यदि आपके डेटा में आपके पास अलग-अलग आकार की कंपनियां हैं, तो आप उन गुणांकों की व्याख्या कैसे करने जा रहे हैं? अन्य डेटा, आदि के आधार पर अन्य अध्ययनों के साथ तुलना करना बेतहाशा जटिल हो जाता है।
अब, देखते हैं कि लॉग लिंक फ़ंक्शन का उपयोग करने से मदद मिल सकती है। फिर, हम अशांति की शर्तों के बिना आदर्शित मॉडल लिखते हैं। चर ऊपर के रूप में हैं।
सबसे पहले, विभाजन से पहले मॉडल:
विभाजन के बाद, कंपनी के लिए, हमें मिलता है:
यह लगभग सही लगता है, एक समस्या को छोड़कर, पर निर्भरता का हिस्सा काफी काम नहीं करता है। इसलिए हम देखते हैं कि कर्मचारियों की संख्या, व्यापक रूप में एक कोवरिबल, का उपयोग लॉग पैमाने पर किया जाना चाहिए। फिर, फिर से कोशिश करते हुए, हमें मिलता है:
P=exp(μ+β1E+β2B)
P1P1=exp(logα)exp(μ+β1E+β2B)=exp(logα+μ+β1E+β2B1)
E
विभाजन से पहले मॉडल:
विभाजन के बाद:
जहाँ एक नई । अब, हमने मॉडल को एक ऐसे रूप में रखा है जहां सभी मापदंडों (अवरोधन को छोड़कर) में कंपनी के आकार की एक स्वतंत्र व्याख्या है।
P=exp(μ+β1logE+β2B)
P1P1P1P1=exp(logα)exp(μ+β1logE+β2B)=exp(logα+μ+β1logE+β2B1)=exp((1−β)logα+μ+β1logE1+β2B1)=exp(μ′+β1logE1+β2B1)
μ′
यह परिणामों की व्याख्याओं को बहुत आसान बनाता है, और अन्य डेटा का उपयोग करते हुए अध्ययनों के साथ तुलना, समय के साथ रुझान, आदि। आप इस फॉर्म को किसी पहचान लिंक के साथ आकार-स्वतंत्र व्याख्याओं के मापदंडों के साथ प्राप्त नहीं कर सकते हैं।
निष्कर्ष: लॉग लिंक फ़ंक्शन के साथ GLM का उपयोग करें, शायद एक पॉइसन रिग्रेशन, या नकारात्मक-द्विपद, या ... लिंक फ़ंक्शन अधिक महत्वपूर्ण परिमाण के आदेश है!
योग करने के लिए, जब एक प्रतिक्रिया चर के लिए एक प्रतिगमन मॉडल का निर्माण होता है , जो एक गणना चर की तरह व्यापक होता है ।
गहन रूप में सहसंयोजक व्यक्त करने का प्रयास करें।
Covariables जिसे व्यापक के रूप में छोड़ा जाना चाहिए: उन्हें लॉग इन करें (ऊपर दिया गया बीजगणित वहां पर निर्भर करता है जो कि अधिकतम एक व्यापक सह-परिवर्तनीय है)।
लॉग लिंक फ़ंक्शन का उपयोग करें।
फिर, अन्य मानदंड, जैसे कि फिट के आधार पर, माध्यमिक निर्णयों के लिए उपयोग किया जा सकता है, जैसे कि गड़बड़ी शब्द का वितरण।