फिट का अच्छा होना और लीनियर रिग्रेशन या पॉइसन को चुनना कौन सा मॉडल है


19

मुझे अपने शोध में दो मुख्य दुविधाओं के बारे में कुछ सलाह की आवश्यकता है, जो 3 बड़े फार्मास्यूटिकल्स और नवाचार का एक केस अध्ययन है। प्रति वर्ष पेटेंट की संख्या निर्भर चर है।

मेरे सवाल हैं

  • एक अच्छे मॉडल के लिए सबसे महत्वपूर्ण मानदंड क्या हैं? अधिक / कम महत्वपूर्ण क्या है? क्या यह है कि अधिकांश या सभी चर महत्वपूर्ण होंगे? क्या यह "एफ स्टेटिक" की संभावना है? क्या यह "समायोजित आर चुकता" का मूल्य है?

  • दूसरा, मैं अनुसंधान के लिए सबसे उपयुक्त मॉडल कैसे तय कर सकता हूं? पेटेंट के अलावा जो एक काउंट वैरिएबल है (इसलिए शायद एक पॉइसन काउंट) मेरे पास व्याख्यात्मक वैरिएबल हैं जैसे कि एसेट्स, रिसर्च एंड डेवलपमेंट बजट, बार-बार पार्टनर (एक बाइनरी वैरिएबल नहीं%), कंपनी साइज (कर्मचारी) और एक दो और। क्या मुझे एक रैखिक प्रतिगमन या पॉइसन करना चाहिए?


5
Kjetil ने एक अच्छा विस्तृत जवाब दिया है। उनके तर्क के अनुरूप एक तेज़ और संक्षिप्त राय यह है कि आप "दूसरा" लेबल क्या वास्तव में महत्वपूर्ण प्रश्न है। आप जो पहले उल्लेख करते हैं वह आकस्मिक है।
निक कॉक्स

जवाबों:


31

सबसे महत्वपूर्ण मॉडल के पीछे तर्क है। आपका चर "प्रति वर्ष पेटेंट की संख्या" एक गणना चर है, इसलिए पॉइसन प्रतिगमन संकेत दिया गया है। यह (आमतौर पर) लॉग लिंक फ़ंक्शन के साथ एक GLM (सामान्यीकृत रैखिक मॉडल) है, जबकि सामान्य रैखिक प्रतिगमन पहचान लिंक के साथ एक गाऊसी GLM है। यहां, यह वास्तव में लॉग लिंक फ़ंक्शन है जो सबसे महत्वपूर्ण है, त्रुटि वितरण (पॉइज़न या गॉसियन) की तुलना में अधिक महत्वपूर्ण है।

चर "पेटेंट" एक व्यापक चर है: गहन और व्यापक गुणों को देखें । के लिए गहन जैसे तापमान चर, रेखीय मॉडल (पहचान लिंक के साथ) अक्सर उपयुक्त हैं। लेकिन एक व्यापक चर के साथ यह अलग है। यह सोचें कि आपकी एक दवा कंपनी दो अलग-अलग कंपनियों में विभाजित हो गई है। तब पेटेंट को दो नई कंपनियों के बीच विभाजित किया जाना था। क्या होता है कोवरिएबल्स के साथ, आपके प्रतिगमन में का? कर्मचारियों की संख्या और आरडी बजट जैसे भिन्नताओं को भी विभाजित करना होगा।x

मोटे तौर पर, इस संदर्भ में, एक गहन चर एक चर है जो कंपनी के आकार से स्वतंत्र है, जबकि एक व्यापक चर कंपनी के आकार पर (आमतौर पर, रैखिक रूप से) निर्भर करता है। इसलिए, एक अर्थ में, यदि हमारे पास प्रतिगमन समीकरण में कई अलग-अलग व्यापक चर हैं, तो हम बार-बार आकार प्रभाव को माप रहे हैं । यह बेमानी लगता है, इसलिए हमें जब संभव हो, गहन रूप में चर व्यक्त करना चाहिए , जैसे कि आरडी बजट प्रति कर्मचारी (या कुल बजट का प्रतिशत), इसी तरह राजस्व, आदि जैसे कर्मचारियों की संख्या के रूप में एक चर को छोड़ना होगा। बहुत बड़ा। इस व्यापक / गहन चर मुद्दे की एक और चर्चा के लिए सहसंबद्ध रजिस्ट्रारों से निपटने के लिए @ onestop का उत्तर देखें ।

आइए इस बीजगणितीय रूप से देखें: पेटेंट, बजट (प्रति कर्मचारी), मूल कंपनी में कर्मचारी हैं, जबकि और एक विभाजन के बाद संबंधित चर हैं। ऊपर मान लें, कि एकमात्र व्यापक सहसंयोजनीय है ( साथ , निश्चित रूप से, व्यापक भी)।पी 1 , बी 1 , 1 पी 2 , बी 2 , 2पीP,B,EP1,B1,E1P2,B2,E2EP

फिर, विभाजन से पहले, हमारे पास मॉडल, पहचान लिंक, यादृच्छिक भाग के साथ छोड़ दिया गया: विभाजन के बाद कंपनी के लिए विभाजित अंशों को इसलिए दें। हम के बाद से लेकिन । इसी तरह कंपनी दो के लिए। इसलिए मॉडल कंपनी के आकार पर काफी जटिल तरीके से निर्भर करता है, केवल पर प्रतिगमन गुणांकअल्फा , 1 - अल्फा अल्फा पी

P=μ+β1E+β2B
α,1α
αP=αμ+αβ1E+αβ2BP1=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEकंपनी के आकार, अन्य सभी मापदंडों को प्रभावित करने वाले आकार से स्वतंत्र होना। इससे परिणामों की व्याख्या मुश्किल हो जाती है, विशेष रूप से इसलिए, यदि आपके डेटा में आपके पास अलग-अलग आकार की कंपनियां हैं, तो आप उन गुणांकों की व्याख्या कैसे करने जा रहे हैं? अन्य डेटा, आदि के आधार पर अन्य अध्ययनों के साथ तुलना करना बेतहाशा जटिल हो जाता है।

अब, देखते हैं कि लॉग लिंक फ़ंक्शन का उपयोग करने से मदद मिल सकती है। फिर, हम अशांति की शर्तों के बिना आदर्शित मॉडल लिखते हैं। चर ऊपर के रूप में हैं।

सबसे पहले, विभाजन से पहले मॉडल: विभाजन के बाद, कंपनी के लिए, हमें मिलता है: यह लगभग सही लगता है, एक समस्या को छोड़कर, पर निर्भरता का हिस्सा काफी काम नहीं करता है। इसलिए हम देखते हैं कि कर्मचारियों की संख्या, व्यापक रूप में एक कोवरिबल, का उपयोग लॉग पैमाने पर किया जाना चाहिए। फिर, फिर से कोशिश करते हुए, हमें मिलता है:

P=exp(μ+β1E+β2B)
P1=exp(logα)exp(μ+β1E+β2B)P1=exp(logα+μ+β1E+β2B1)
E

विभाजन से पहले मॉडल: विभाजन के बाद: जहाँ एक नई । अब, हमने मॉडल को एक ऐसे रूप में रखा है जहां सभी मापदंडों (अवरोधन को छोड़कर) में कंपनी के आकार की एक स्वतंत्र व्याख्या है।

P=exp(μ+β1logE+β2B)
P1=exp(logα)exp(μ+β1logE+β2B)P1=exp(logα+μ+β1logE+β2B1)P1=exp((1β)logα+μ+β1logE1+β2B1)P1=exp(μ+β1logE1+β2B1)
μ

यह परिणामों की व्याख्याओं को बहुत आसान बनाता है, और अन्य डेटा का उपयोग करते हुए अध्ययनों के साथ तुलना, समय के साथ रुझान, आदि। आप इस फॉर्म को किसी पहचान लिंक के साथ आकार-स्वतंत्र व्याख्याओं के मापदंडों के साथ प्राप्त नहीं कर सकते हैं।

निष्कर्ष: लॉग लिंक फ़ंक्शन के साथ GLM का उपयोग करें, शायद एक पॉइसन रिग्रेशन, या नकारात्मक-द्विपद, या ... लिंक फ़ंक्शन अधिक महत्वपूर्ण परिमाण के आदेश है!

योग करने के लिए, जब एक प्रतिक्रिया चर के लिए एक प्रतिगमन मॉडल का निर्माण होता है , जो एक गणना चर की तरह व्यापक होता है ।

  1. गहन रूप में सहसंयोजक व्यक्त करने का प्रयास करें।

  2. Covariables जिसे व्यापक के रूप में छोड़ा जाना चाहिए: उन्हें लॉग इन करें (ऊपर दिया गया बीजगणित वहां पर निर्भर करता है जो कि अधिकतम एक व्यापक सह-परिवर्तनीय है)।

  3. लॉग लिंक फ़ंक्शन का उपयोग करें।

फिर, अन्य मानदंड, जैसे कि फिट के आधार पर, माध्यमिक निर्णयों के लिए उपयोग किया जा सकता है, जैसे कि गड़बड़ी शब्द का वितरण।


3
मुझे लगा कि लॉग लिंक फ़ंक्शन के साथ एक पॉइसन रिग्रेशन जीएलएस रिग्रेशन था ?
सिद्देशो बॉब

1
आमतौर पर, हाँ, लेकिन आप पहचान (या अन्य, जैसे वर्गमूल) लिंक के साथ एक पॉइसन प्रतिगमन पर भी विचार कर सकते हैं। लेकिन यहां मेरा तर्क दिखाता है कि आमतौर पर, आप लॉग लिंक चाहते हैं।
kjetil b halvorsen

@ kjetil b halvorsen, क्या है के सुधार में _ शब्द? (1β)μ
गारेज
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.