क्या द्विआधारी डेटा के प्रतिगमन मॉडलिंग के लिए लॉगिट फ़ंक्शन हमेशा सबसे अच्छा है?


15

मैं इस समस्या के बारे में सोच रहा हूं। द्विआधारी डेटा मॉडलिंग के लिए सामान्य लॉजिस्टिक फ़ंक्शन है: हालांकि logit समारोह है, जो एक एस के आकार की अवस्था है, हमेशा डेटा मॉडलिंग के लिए सबसे अच्छा है? हो सकता है कि आपके पास यह विश्वास करने का कारण हो कि आपका डेटा सामान्य S- आकार के वक्र का अनुसरण नहीं करता है लेकिन डोमेन(0,1) केसाथ एक अलग प्रकार का वक्र है।

log(p1p)=β0+β1X1+β2X2+
(0,1)

क्या इसमें कोई शोध है? हो सकता है कि आप इसे प्रोबिट फ़ंक्शन या कुछ इसी तरह के रूप में मॉडल कर सकते हैं, लेकिन अगर यह पूरी तरह से कुछ और है तो क्या होगा? क्या इससे प्रभावों का बेहतर अनुमान लगाया जा सकता है? बस एक विचार मेरे पास था, और मुझे आश्चर्य है कि क्या इसमें कोई शोध है।



2
@ मकारो मुझे नहीं लगता कि यह एक सटीक डुप्लिकेट है। यह सवाल सिर्फ तर्क और जांच के बारे में है; यह अन्य विकल्पों के लिए भी पूछता है।
पीटर Flom - को पुनः स्थापित मोनिका

मैं इसे खुला छोड़ने के लिए मतदान कर रहा हूं। मुख्य अंतर जो मैं देख रहा हूं वह यह है कि यह क्यू विभिन्न संभावित लिंक कार्यों के विषय पर आंकड़ों में शोध के लिए पूछ रहा है । यह एक सूक्ष्म अंतर है, लेकिन यह पर्याप्त हो सकता है। @Glen, आप अन्य Q की समीक्षा करना चाहते हैं, यदि आपने इसे पहले से नहीं देखा है। अपने जवाब में मैं विभिन्न संभावित लिंक के बारे में बात करता हूं। अगर आपको लगता है कि यह Q वास्तव में अलग नहीं है, तो इसे ध्वजांकित करें और मॉड इसे बंद कर सकते हैं; अगर आप भेद करने के तरीके के बारे में सोच सकते हैं b / t जो आप पूछ रहे हैं और जो कि आप स्पष्ट कर रहे हैं, तो आप ऐसा करने के लिए संपादित करना चाह सकते हैं।
गूँग - मोनिका

मुझे पता है कि यह लॉगिट बनाम प्रोबेट प्रश्न का सटीक डुप्लिकेट नहीं है, लेकिन मुझे लगा कि गंग का जवाब है, जो कि ऊपर और उससे परे चला गया था जो कि जुड़े हुए प्रश्न द्वारा पूछा गया था, यहाँ जो पूछा गया था, उसमें से अधिकांश को संबोधित करता है, यही कारण है कि मैं एक डुप्लिकेट के रूप में बंद हुआ। वहाँ शायद अन्य निकट संबंधित धागे हैं, लेकिन यह पहली बार मन में आया है।
मैक्रों

टिप्पणियों के लिए धन्यवाद। मेरा मानना ​​है कि मेरा प्रश्न पिछले प्रश्न से अलग है। मैं प्रोबेट और लॉग-लॉग परिवर्तनों से बहुत परिचित हूं, और पिछले प्रश्न से चर्चा मेरे लिए बहुत जानकारीपूर्ण थी। हालांकि, मैं अन्य लिंक फ़ंक्शंस (संभवतः गैर-पैरामीट्रिक?) में रुचि रखता हूं, जो संभव है, ऐसी स्थिति में जिसे आप जानते हैं या नहीं हो सकता है कि संभावना वक्र एक अलग वितरण का अनुसरण करता है। मुझे लगता है कि जब सहसंबंधियों के बीच बातचीत होती है तो यह एक महत्वपूर्ण भूमिका निभा सकता है। @ दाविद जे। हैरिस का उत्तर सहायक है ...
ग्लेन

जवाबों:


15

लोग अपने डेटा को 0 और 1. के बीच रखने के लिए सभी प्रकार के कार्यों का उपयोग करते हैं। जब आप मॉडल प्राप्त करते हैं तो लॉग-ऑड गणित से स्वाभाविक रूप से बाहर हो जाता है (इसे "कैनोनिकल लिंक फ़ंक्शन" कहा जाता है), लेकिन आप इसके साथ प्रयोग करने के लिए बिल्कुल स्वतंत्र हैं। अन्य विकल्प।

t

ttt7

उम्मीद है की यह मदद करेगा।

जोड़ने के लिए संपादित : चर्चा @Macro से जुड़ी वास्तव में उत्कृष्ट है। यदि आप अधिक विवरण में रुचि रखते हैं तो मैं इसके माध्यम से पढ़ने की अत्यधिक सलाह दूंगा।


प्रश्न विशेष रूप से "बाइनरी डेटा" के बारे में है - उस डेटा के बारे में नहीं जो 0 और 1 के बीच है। प्रोबेट मॉडल में बाइनरी डेटा के मामले में कोई सैद्धांतिक औचित्य नहीं है।
नील जी

3
@ नील, प्रोबेट मॉडल का उपयोग करने का एक कारण यह है कि यह थ्रेसहोल्ड मानदंडों के रूप में मॉडलिंग मल्टीवेरिएट बाइनरी डेटा (जैसे मिश्रित मॉडल के साथ) का एक सुविधाजनक तरीका देता है। उस मामले में, अंतर्निहित चर का सहसंबंध मैट्रिक्स सांख्यिकीय रूप से अप्रत्यक्ष है, जबकि यह लॉजिस्टिक मामले में नहीं है। यहाँ थोड़ी लंबी चर्चा है
मैक्रों

@ मैक्रो: ओह, मैं देख रहा हूं। यह बहुत दिलचस्प है, धन्यवाद।
नील जी

@ डेविड जे। हैरिस: क्या आपका मतलब है क्विंटल (या शायद क्वांटाइल का एक ही अर्थ है), यानी, वितरण को पंद्रहवें हिस्से में तोड़कर: 20%, 40%, .., 100%?
MSIS

1
@MSIS एक क्विंटल, पाँचवें भाग में विभाजित होता है, एक प्रतिशताइल 100 वें में विभाजित होता है, और एक चतुर्थक मनमानी इकाइयों में विभाजित होता है। देखें en.wikipedia.org/wiki/Quantile#Specialized_quantiles
डेविड जे। हैरिस

11

मुझे कोई कारण नहीं दिखता है, एक प्राथमिकता-प्राथमिकता, किसी दिए गए डेटासेट के लिए उपयुक्त लिंक फ़ंक्शन को लॉगिट (हालांकि ब्रह्मांड सामान्य रूप से हमारे लिए दयालु लगता है) होना चाहिए। मुझे नहीं पता कि ये आपके लिए काफी हैं, लेकिन यहां कुछ कागजात हैं जो अधिक विदेशी लिंक कार्यों पर चर्चा करते हैं:

प्रकटीकरण: मैं इस सामग्री को अच्छी तरह से नहीं जानता। मैंने कुछ साल पहले काचिट और स्कोबिट के साथ डबलिंग की कोशिश की थी, लेकिन मेरा कोड क्रैश हो रहा था (शायद इसलिए कि मैं एक महान प्रोग्रामर नहीं हूं), और यह उस परियोजना के लिए प्रासंगिक नहीं लग रहा था जिस पर मैं काम कर रहा था, इसलिए मैंने इसे गिरा दिया ।

X


4

सबसे अच्छी रणनीति यह है कि क्या हो रहा है (कोई आश्चर्य नहीं!)

  • प्रोब मॉडल एलडी 50 अध्ययन के साथ उत्पन्न होते हैं - आप कीटनाशक की खुराक चाहते हैं जो आधे कीड़े को मारता है। बाइनरी प्रतिक्रिया है कि बग रहता है या मर जाता है (किसी दिए गए खुराक पर)। एक खुराक पर अतिसंवेदनशील होने वाले कीड़े कम खुराक के साथ ही अतिसंवेदनशील होंगे, जो कि मॉडलिंग के लिए संचयी सामान्य में आता है।
  • यदि बाइनरी अवलोकन क्लस्टर में आते हैं, तो आप बीटा-द्विपद मॉडल का उपयोग कर सकते हैं। बेन बोल्कर का अपने bbmle पैकेज (R में) के प्रलेखन में एक अच्छा परिचय है, जो इसे सरल मामलों में लागू करता है। ये मॉडल डेटा की भिन्नता पर अधिक नियंत्रण की अनुमति देते हैं जो आपको द्विपद वितरण में मिलता है।
  • बहुभिन्नरूपी बाइनरी डेटा - सॉर्ट जो बहु-आयामी आकस्मिक तालिकाओं में रोल करता है - एक लॉग-लीनियर मॉडल का उपयोग करके विश्लेषण किया जा सकता है। लिंक फ़ंक्शन लॉग ऑड्स के बजाय लॉग है। कुछ लोग इसे पॉइसन प्रतिगमन के रूप में संदर्भित करते हैं।

संभवत: इन मॉडलों पर इस तरह से शोध नहीं किया गया है, हालांकि इनमें से किसी एक मॉडल पर और उनके बीच तुलना पर और उनके आकलन के विभिन्न तरीकों पर काफी शोध किया गया है। साहित्य में आप जो पाते हैं वह यह है कि कुछ समय के लिए बहुत सी गतिविधियाँ होती हैं, क्योंकि शोधकर्ता समस्याओं के एक विशेष वर्ग के लिए कई विकल्पों पर विचार करते हैं, और फिर एक विधि श्रेष्ठ बनकर उभरती है।


बीटा-द्विपद के लिए +1। यह एक महान उपकरण है जो किसी के टूलबॉक्स में है।
डेविड जे। हैरिस

3

लॉजिट एक मॉडल है जैसे कि इनपुट विशेषज्ञों का एक उत्पाद है जिसमें से प्रत्येक बर्नौली वितरण है। दूसरे शब्दों में, यदि आप संभावनाओं के साथ स्वतंत्र बर्नौली वितरण के सभी इनपुटों पर विचार करते हैंपीमैं जिनके साक्ष्य संयुक्त हैं, आप पाएंगे कि आप प्रत्येक के लिए लागू लॉजिस्टिक फ़ंक्शन जोड़ रहे हैं पीमैंरों। (एक ही बात कहने का एक और तरीका यह है कि बर्नौली वितरण के प्राकृतिक पैरामीरिजेशन की अपेक्षा पैरामीरीज़ेशन से रूपांतरण लॉजिस्टिक फ़ंक्शन है।)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.