क्या मैं एक बहुराष्ट्रीय लॉजिस्टिक प्रतिगमन करने के लिए glm एल्गोरिदम का उपयोग कर सकता हूं?


14

मैं अपनी परियोजना में सांख्यिकीय विश्लेषण के लिए स्पॉटफ़ायर (एस ++) का उपयोग कर रहा हूं और मुझे एक बड़े डेटा सेट के लिए बहुराष्ट्रीय लॉजिस्टिक रिग्रेशन चलाना होगा। मुझे पता है कि सबसे अच्छा एल्गोरिथ्म नकली था, लेकिन दुर्भाग्य से यह s ++ में उपलब्ध नहीं है। हालाँकि, मेरे पास इस प्रतिगमन के लिए glm एल्गोरिथ्म का उपयोग करने का एक विकल्प है। मैं यहां दो बातें स्पष्ट करना चाहता हूं:

1. क्या मेरी समझ सही है कि glm का उपयोग बहुराष्ट्रीय लॉजिस्टिक प्रतिगमन को चलाने के लिए भी किया जा सकता है?

  1. यदि पिछले प्रश्न का उत्तर हां में है, तो glm algo में किन मापदंडों का उपयोग किया जाना चाहिए?

धन्यवाद,

जवाबों:


9

हां, एक पॉइसन GLM (लॉग रैखिक मॉडल) के साथ आप बहुराष्ट्रीय मॉडल फिट कर सकते हैं। इसलिए बहुराष्ट्रीय लॉजिस्टिक या लॉग रैखिक पॉसन मॉडल समकक्ष हैं।

आपको रैंडम काउंट्स को Poisson यादृच्छिक चर के रूप में रूप में देखना होगा और निम्नलिखित लॉग-लीनियर मॉडल को निर्दिष्ट करना होगा।μ i jyijμij

log(μij)=o+pi+cj+xiβj

एक बहुराष्ट्रीय लॉगिट मॉडल प्राप्त करने के लिए पैरामीटर हैं:

प्रत्येक बहुराष्ट्रीय अवलोकन के लिए एक पैरामीटर , उदाहरण के लिए व्यक्ति या समूह। यह बहुराष्ट्रीय हरकतों के सटीक प्रजनन का आश्वासन देता है और वास्तव में पॉइसन और बहुराष्ट्रीय मॉडल की समानता स्थापित करता है। वे बहुराष्ट्रीय संभावना में तय हो गए हैं, लेकिन पॉइसन संभावना में यादृच्छिक हैं।pi

प्रत्येक प्रतिक्रिया श्रेणी के लिए एक पैरामीटर । इस तरह से प्रत्येक प्रतिक्रिया श्रेणी के लिए मायने अलग हो सकते हैं और मार्जिन गैर-समान हो सकते हैं।cj

क्या आप वास्तव में रुचि रखते हैं बातचीत के शब्द हैं जो प्रतिक्रिया के लॉग-ऑन पर के प्रभावों का प्रतिनिधित्व करते हैं ।x i jxiβjxij

लॉग- गणना बस । यह लॉग ऑड्स है जो अवलोकन i प्रतिक्रिया श्रेणी सापेक्ष प्रतिक्रिया श्रेणी j में आएगा ।कश्मीरlog(μij/μik)=(cjck)+xi(βjβk)k

फिर, बहुराष्ट्रीय लॉगिट मॉडल (लैटिन अक्षरों में निरूपित) के मापदंडों को संबंधित लॉग-रैखिक मॉडल में मापदंडों के बीच अंतर के रूप में प्राप्त किया जा सकता है, अर्थात और ।j = β j - β कश्मीरaj=αjαkbj=βjβk


धन्यवाद मोमो। यह वास्तव में मददगार है। मेरा सॉफ्टवेयर मुझे GLM एलोगोरिथम चलाते समय परिवार को "ऑप्शन" के रूप में चुनने और "लॉग" के रूप में लिंक प्रदान करता है। इसलिए मुझे लगता है कि यहाँ वही होना चाहिए।
राघवेंद्र

7

हाँ आप कर सकते हैं, और वास्तव में यह वही है जो आर पैकेज GLMNET बहुराष्ट्रीय लॉजिस्टिक रिग्रेशन के लिए करता है। लॉग-लाइबिलिटी फ़ंक्शन को निम्नानुसार लिखना:

LogL=icniclog(pic)

कहाँ टिप्पणियों को दर्शाता है और बहुपद श्रेणियों को दर्शाता है अवलोकन के लिए मनाया गिनती है श्रेणी में । टिप्पणियों को उनके अनूठे सहसंयोजक संयोजनों द्वारा परिभाषित किया जाता है - या वैकल्पिक रूप से हम प्रत्येक डुप्लिकेट और सेट करने की अनुमति दे सकते हैं ताकि हमारे पास श्रेणीबद्ध "बाइनरी" डेटा हो (.... पता नहीं कि बाइनरी का बहुवचन क्या है। ...)। लॉजिस्टिक रिग्रेशन के लिए संभावनाओं को इस प्रकार परिभाषित किया गया है:c n i c c i c n i c = 1icnicicnic=1

pic=exp(xiTβc)cexp(xiTβc)

यह पूर्ण रैंक पैरामीटर से कम है और यदि आप दंडित संभावना (जैसे GLMNET) का उपयोग कर रहे हैं तो यह उपयोगी हो सकता है। हम पूर्ण बीटा मैट्रिक्स पर IRLS / न्यूटन रैप्सन का उपयोग कर सकते हैं , हालांकि आप गैर-विकर्ण वजन मैट्रिक्स के साथ समाप्त होते हैं। वैकल्पिक रूप से हम "गिब्स-शैली" को एक को छोड़कर सभी श्रेणियों के बीट को ठीक कर सकते हैं, और फिर उस श्रेणी के ऊपर अनुकूलन कर सकते हैं। फिर अगली श्रेणी के लिए आगे बढ़ें, और इसी तरह। आप देख सकते हैं कि संभावनाओं का रूप है(β1,,βC)

pic=exp(xiTβc)exp(xiTβc)+A where Aβc=0
pic=Bexp(xiTβc)+A where Bβc=0

कि बारे में द्विघात विस्तार का लॉजिस्टिक प्रतिगमन के लिए एक ही रूप होगा, लेकिन IRLS भार के साथ अलग-अलग गणना की जाती है - हालांकि हमारे पास अभी भी सामान्य रूप से बीटा का अपडेट।βcWii,c=nicpic(1pic)(XTWX)1XTWY


मैं IRLS क्यूआर न्यूटन संस्करण का उपयोग कर बहुराष्ट्रीय लॉजिस्टिक रिग्रेशन को लागू करने की कोशिश कर रहा हूं। कोड अन्य GLM मॉडल के लिए काम करता है, लेकिन काम करने के लिए mlogit प्राप्त करने में सक्षम नहीं है। चाहेंगे softmax समारोह जो मुझे केवल Cholesky गणना करने के लिए यात्रा के बजाय प्रति एक बार अनुमति होगी की Jacobian हो बार परिणाम प्रति वजन के प्रत्येक सेट के लिए हल करने के लिए? Wk
जोस बेओआन सैंटियागो काल्डेरोन

यह देखते हुए कि यह विकर्ण नहीं होगा यह बड़ी संख्या में टिप्पणियों के साथ अच्छी तरह से पैमाने पर नहीं होगा, नहीं? हैं, "गिब्स शैली" जा रहा होगा से आधार श्रेणी पैरामीटर घटाकर से पहले या भविष्यवाणी के बाद किया जाना मैट्रिक्स? β
जोस बेओआन सैंटियागो काल्डेरॉन

जब आप "चोल्स्की एक बार" बनाम "चोल्स्की के समय" के बारे में बात करते हैं, तो आपको ध्यान देना चाहिए कि मैट्रिसेस विभिन्न आयाम हैं - यदि में कॉलम हैं, तो "एक बार" मैट्रिक्स आकार के और "के बार" के लिए है एक मैट्रिक्स आकारpXpkp
probabilityislogic
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.