Logit और Probit मॉडल में क्या अंतर है ?
मुझे यह जानने में अधिक दिलचस्पी है कि लॉजिस्टिक रिग्रेशन का उपयोग कब करना है, और कब प्रोबेट का उपयोग करना है।
यदि कोई साहित्य है जो R का उपयोग करके इसे परिभाषित करता है , तो यह सहायक होगा।
Logit और Probit मॉडल में क्या अंतर है ?
मुझे यह जानने में अधिक दिलचस्पी है कि लॉजिस्टिक रिग्रेशन का उपयोग कब करना है, और कब प्रोबेट का उपयोग करना है।
यदि कोई साहित्य है जो R का उपयोग करके इसे परिभाषित करता है , तो यह सहायक होगा।
जवाबों:
वे मुख्य रूप से लिंक फ़ंक्शन में भिन्न होते हैं।
Logit में:
Probit में: (संचयी सामान्य पीडीएफ)
दूसरे तरीके से, लॉजिस्टिक में थोड़ी चापलूसी होती है। यानी प्रोबेट वक्र, लॉज वक्र की तुलना में अधिक तेजी से कुल्हाड़ियों तक पहुंचता है।
प्रोबिट की तुलना में लॉगिट की आसान व्याख्या है। लॉजिस्टिक रिग्रेशन की व्याख्या मॉडलिंग लॉग ऑड्स के रूप में की जा सकती है (अर्थात जो लोग धूम्रपान करते हैं> एक दिन में 25 सिगरेट 65 वर्ष की आयु से पहले मरने की संभावना 6 गुना अधिक होती है)। आमतौर पर लोग मॉडलिंग की शुरुआत लॉजिट से करते हैं। आप लॉबी बनाम प्रोबिट के लिए निर्णय लेने के लिए प्रत्येक मॉडल की संभावना मूल्य का उपयोग कर सकते हैं।
एक मानक रैखिक मॉडल (उदाहरण के लिए, एक साधारण प्रतिगमन मॉडल) को दो 'भागों' के रूप में माना जा सकता है। इन्हें संरचनात्मक घटक और यादृच्छिक घटक कहा जाता है । उदाहरण के लिए:
पहले दो शब्द (यानी, ) का गठन करते हैं संरचनात्मक घटक, और (जो सामान्य रूप से वितरित त्रुटि अवधि को इंगित करता है) यादृच्छिक घटक है। जब प्रतिक्रिया चर सामान्य रूप से वितरित नहीं किया जाता है (उदाहरण के लिए, यदि आपका प्रतिक्रिया चर द्विआधारी है) तो यह दृष्टिकोण अब मान्य नहीं हो सकता है। सामान्यीकृत रेखीय मॉडल
β 0 + β 1 एक्स ε जी ( μ ) = बीटा 0 + β 1 एक्स β 0 + β 1 एक्स जी ( ) μ
लिंक फ़ंक्शन GLiMs की कुंजी है: चूंकि प्रतिक्रिया चर का वितरण गैर-सामान्य है, यह वही है जो हमें संरचनात्मक घटक को प्रतिक्रिया से जोड़ता है - यह उन्हें (इसलिए नाम) लिंक करता है। यह आपके प्रश्न की कुंजी भी है, क्योंकि लॉगिट और प्रोबेट लिंक हैं (जैसा कि @vinux समझाया गया है), और लिंक फ़ंक्शन को समझने से हमें समझदारी से चुनने की अनुमति मिलेगी कि किसका उपयोग कब करना है। यद्यपि कई लिंक फ़ंक्शंस हो सकते हैं जो स्वीकार्य हो सकते हैं, अक्सर एक ऐसा होता है जो विशेष होता है। बिना अनुमान के मातम में बहुत दूर जाना चाहते हैं (यह बहुत तकनीकी हो सकता है) अनुमानित अर्थ, , जरूरी नहीं कि गणितीय रूप से प्रतिक्रिया वितरण के विहित स्थान पैरामीटर के समान हो ;। इसका लाभ "यह है कि लिए न्यूनतम पर्याप्त आंकड़ा मौजूद है" ( जर्मन रोड्रिगेज )। द्विआधारी प्रतिक्रिया डेटा (अधिक विशेष रूप से, द्विपद वितरण) के लिए विहित लिंक लॉगिट है। हालांकि, बहुत सारे कार्य हैं जो अंतराल पर संरचनात्मक घटक को मैप कर सकते हैं , और इस तरह स्वीकार्य हो सकते हैं; प्रोबिट भी लोकप्रिय है, लेकिन अभी भी अन्य विकल्प हैं जो कभी-कभी उपयोग किए जाते हैं (जैसे कि पूरक लॉग लॉग, , जिन्हें अक्सर 'क्लॉगलॉग' कहा जाता है)। इस प्रकार, बहुत सारे संभावित लिंक फ़ंक्शन हैं और लिंक फ़ंक्शन का विकल्प बहुत महत्वपूर्ण हो सकता है। चुनाव कुछ संयोजन के आधार पर किया जाना चाहिए: ( 0 , 1 ) ln ( - ln ( 1 - μ ) )
इन विचारों को और अधिक स्पष्ट रूप से समझने के लिए आवश्यक वैचारिक पृष्ठभूमि को कवर करने के बाद (मुझे क्षमा करें), मैं बताऊंगा कि कैसे इन विचारों का उपयोग लिंक की आपकी पसंद को निर्देशित करने के लिए किया जा सकता है। (मुझे ध्यान दें कि मुझे लगता है कि @ डेविड की टिप्पणी सटीक रूप से पकड़ लेती है कि अलग-अलग लिंक व्यवहार में क्यों चुने जाते हैं ।) के साथ शुरू करने के लिए, यदि आपका प्रतिक्रिया चर बर्नौली परीक्षण (यानी, या ) का परिणाम है, तो आपकी प्रतिक्रिया वितरण होगी। द्विपद, और जो आप वास्तव में मॉडलिंग कर रहे हैं वह एक अवलोकन की संभावना है (यानी, )। परिणामस्वरूप, कोई भी फ़ंक्शन जो वास्तविक संख्या रेखा को मैप करता है, , अंतराल1 1 π ( Y = 1 ) ( - ∞ , + ∞ ) ( 0 , 1 )काम करेगा।
अपने मूल सिद्धांत के दृष्टिकोण से, यदि आप अपने सहसंयोजकों को सीधे सफलता की संभावना से जुड़ा हुआ समझ रहे हैं , तो आप आमतौर पर लॉजिस्टिक रिग्रेशन का चयन करेंगे क्योंकि यह विहित लिंक है। हालांकि, निम्नलिखित उदाहरण पर विचार करें: आपको high_Blood_Pressure
कुछ कोवरिएट के एक समारोह के रूप में मॉडल करने के लिए कहा जाता है । रक्तचाप को सामान्य रूप से जनसंख्या में वितरित किया जाता है (मुझे वास्तव में यह नहीं पता है, लेकिन यह उचित प्राइमा फेशियल लगता है), फिर भी, चिकित्सकों ने अध्ययन के दौरान इसका पता लगाया (यानी, उन्होंने केवल 'हाई-बीपी' या 'सामान्य' दर्ज किया था) )। इस मामले में, प्रोब सैद्धांतिक कारणों के लिए बेहतर प्राथमिकता होगी। यह वही है जो @Elvis का अर्थ है "आपका बाइनरी परिणाम एक छिपे हुए गौसियन चर पर निर्भर करता है"।सममितीय , यदि आप मानते हैं कि सफलता की संभावना शून्य से धीरे-धीरे बढ़ती है, लेकिन फिर अधिक तेज़ी से टेंपरिंग होती है क्योंकि यह एक के निकट आता है, क्लॉगलॉग को इसके लिए कहा जाता है, आदि।
अंत में, ध्यान दें कि डेटा के लिए मॉडल के अनुभवजन्य फिट एक लिंक का चयन करने में सहायता की संभावना नहीं है, जब तक कि प्रश्न में लिंक कार्यों के आकार में पर्याप्त रूप से भिन्न नहीं होते हैं (जिनमें से, लॉगिट और प्रोबेट नहीं करते हैं)। उदाहरण के लिए, निम्नलिखित सिमुलेशन पर विचार करें:
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
जब हम जानते हैं कि डेटा एक प्रोबेट मॉडल द्वारा उत्पन्न किया गया था, और हमारे पास 1000 डेटा पॉइंट हैं, प्रोबेट मॉडल केवल 70% समय के लिए एक बेहतर फिट बैठता है, और फिर भी, अक्सर केवल एक तुच्छ राशि द्वारा। अंतिम पुनरावृत्ति पर विचार करें:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
इसका कारण बस यह है कि लॉग इन और प्रोबेट लिंक फ़ंक्शन समान इनपुट देने पर बहुत समान आउटपुट प्राप्त करते हैं।
लॉगइन और प्रोबिट फ़ंक्शन व्यावहारिक रूप से समान हैं, सिवाय इसके कि लॉगिट सीमा से थोड़ा आगे है जब वे 'कोने को चालू करते हैं', जैसा कि @vinux ने कहा है। (ध्यान दें कि logit और PROBIT बेहतर संरेखित करने के लिए प्राप्त करने के लिए, logit के किया जाना चाहिए PROBIT के लिए कई बार इसी ढलान मूल्य। इसके अलावा, मैं थोड़ा इतना है कि वे शीर्ष पर रखना होगा अधिक cloglog स्थानांतरित कर दिया जा सकता था एक दूसरे के अधिक, लेकिन मैंने इसे आंकड़ा अधिक पठनीय रखने के लिए किनारे पर छोड़ दिया।) ध्यान दें कि क्लॉगल विषम है जबकि अन्य नहीं हैं; यह पहले 0 से दूर खींचना शुरू करता है, लेकिन अधिक धीरे-धीरे, और 1 के करीब पहुंचता है और फिर तेजी से मुड़ता है। ≈ 1 β 1.7
लिंक कार्यों के बारे में कुछ और बातें कही जा सकती हैं। सबसे पहले, एक लिंक फ़ंक्शन के रूप में पहचान फ़ंक्शन ( ) पर विचार करने से हमें मानक रैखिक मॉडल को सामान्यीकृत रैखिक मॉडल के विशेष मामले के रूप में समझने की अनुमति मिलती है (अर्थात, प्रतिक्रिया वितरण सामान्य है, और लिंक पहचान समारोह है)। यह पहचानना भी महत्वपूर्ण है कि लिंक इंस्टेंटिअट्स में जो भी परिवर्तन होता है, वह प्रतिक्रिया वितरण को नियंत्रित करने वाले पैरामीटर पर ठीक से लागू होता है (अर्थात, ), वास्तविक प्रतिक्रिया डेटा नहीं। अंत में, क्योंकि व्यवहार में हमारे पास इन मॉडलों के विचार-विमर्श में बदलने के लिए अंतर्निहित पैरामीटर कभी नहीं होता है, अक्सर जिसे वास्तविक लिंक माना जाता है उसे छोड़ दिया जाता है और मॉडल को संरचनात्मक घटक पर लागू लिंक फ़ंक्शन के व्युत्क्रम द्वारा दर्शाया जाता है । वह है:
उदाहरण के लिए, लॉजिस्टिक रिग्रेशन आमतौर पर दर्शाया जाता है:
बजाय:
सामान्यीकृत रेखीय मॉडल के त्वरित और स्पष्ट, लेकिन ठोस अवलोकन के लिए, फिजमौरिस, लैयर्ड, और वेयर (2004) के अध्याय 10 को देखें , (जिस पर मैं इस उत्तर के कुछ हिस्सों के लिए झुक गया, हालांकि चूंकि यह मेरा अपना अनुकूलन है - और अन्य - सामग्री, कोई भी गलती मेरी खुद की होगी)। इन मॉडलों को आर में कैसे फिट किया जाए, इसके लिए फंक्शन के लिए डॉक्यूमेंटेशन देखें । बेस पैकेज में glm ।
(एक अंतिम नोट बाद में जोड़ा गया :) मैं कभी-कभी लोगों को यह कहते हुए सुनता हूं कि आपको प्रोबेट का उपयोग नहीं करना चाहिए, क्योंकि इसकी व्याख्या नहीं की जा सकती है। यह सच नहीं है, हालांकि दांव की व्याख्या कम सहज है। लॉजिस्टिक रिग्रेशन के साथ, में एक इकाई परिवर्तन 'सफलता' के लॉग ऑड्स में एक परिवर्तन के साथ जुड़ा हुआ है (वैकल्पिक रूप से, एक में परिवर्तन), बाकी सभी समान हैं। एक परिवीक्षा के साथ, यह 's का परिवर्तन होगा । ( उदाहरण के लिए, 1 और 2 के -scores के साथ एक डेटासेट में दो टिप्पणियों के बारे में सोचें ।) इन्हें अनुमानित संभावनाओं में बदलने के लिए , आप इन्हें सामान्य सीडीएफ के माध्यम से पारित कर सकते हैं।β 1 exp ( β 1 ) β 1 जेड जेड जेड, या एक पर उन्हें देखो ।
(+1 दोनों @vinux और @ एल्विस के लिए। यहां मैंने एक व्यापक रूपरेखा प्रदान करने की कोशिश की है जिसके भीतर इन चीजों के बारे में सोचने और फिर लॉग और प्रोबिट के बीच विकल्प को संबोधित करने के लिए इसका उपयोग करना है।)
विनक्स के उत्तर के अलावा, जो पहले से ही सबसे महत्वपूर्ण बताता है:
लॉजिट रिग्रेशन में गुणांक में अनुपात अनुपात के संदर्भ में प्राकृतिक व्याख्याएं हैं;
संभावित प्रतिगमन प्राकृतिक मॉडल है जब आपको लगता है कि आपका द्विआधारी परिणाम एक छिपे हुए गौसियन चर [eq पर निर्भर करता है । 1] नियतात्मक तरीके से साथ: बिल्कुल जब ।
आम तौर पर, और अधिक स्वाभाविक रूप से, प्रोबेशनल रिग्रेशन अधिक प्राकृतिक मॉडल है यदि आपको लगता है कि परिणाम ठीक है जब कुछ थ्रेशोल्ड से अधिक हो जाता है , जिसमें । यह देखना आसान है कि इसे उपरोक्त मामले में कम किया जा सकता है: को ; उस समीकरण को जांचना आसान है [eq। 1] अब भी रखती है (गुणांक को पुनर्परिभाषित करें और अवरोधन का अनुवाद करें)। इन मॉडलों का बचाव किया गया है, उदाहरण के लिए, मेडिकल संदर्भों में, जहां एक होगा, और उदा एक बीमारी है जो होने पर प्रकट होती है कुछ "पैथोलॉजिकल थ्रेशोल्ड" से अधिक है।
लॉजिट और प्रोबिट मॉडल दोनों ही मॉडल हैं । "सभी मॉडल गलत हैं, कुछ उपयोगी हैं", जैसा कि बॉक्स ने एक बार कहा था! दोनों मॉडल आपको परिणाम पर प्रभाव के अस्तित्व का पता लगाने की अनुमति देंगे ; कुछ बहुत ही विशेष मामलों को छोड़कर, उनमें से कोई भी "वास्तव में सच" नहीं होगा, और उनकी व्याख्या सावधानी से की जानी चाहिए।
आपके कथन के संबंध में
मुझे यह जानने में अधिक दिलचस्पी है कि लॉजिस्टिक रिग्रेशन का उपयोग कब करना है, और प्रोबेट का उपयोग कब करना है
यहां पहले से ही कई उत्तर हैं जो दोनों के बीच चयन करते समय विचार करने के लिए चीजों को लाते हैं लेकिन एक महत्वपूर्ण विचार है जो अभी तक नहीं कहा गया है: जब आपकी रुचि मिश्रित प्रभाव लॉजिस्टिक का उपयोग करके द्विआधारी डेटा में क्लस्टर समूहों के भीतर देखने में है या प्रोबेट मॉडल, प्रोबेट मॉडल को प्राथमिकता देने के लिए एक सैद्धांतिक आधार है। यह निश्चित रूप से, यह मानते हुए कि लॉजिस्टिक मॉडल को प्राथमिकता देने का कोई प्राथमिक कारण नहीं है (उदाहरण के लिए यदि आप एक अनुकरण कर रहे हैं और इसे सही मॉडल जानते हैं)।
सबसे पहले , यह देखने के लिए कि यह पहला सच क्यों है कि इन दोनों मॉडलों को निरंतर प्रतिगमन मॉडल के रूप में देखा जा सकता है। एक उदाहरण के रूप पर विचार अवलोकन के लिए सरल रैखिक मिश्रित प्रभाव मॉडल क्लस्टर के भीतर :
जहाँ क्लस्टर यादृच्छिक प्रभाव है और त्रुटि शब्द है। तब लॉजिस्टिक और प्रोबेट रिग्रेशन दोनों मॉडल समान रूप से इस मॉडल से उत्पन्न होते हैं और 0 पर थ्रेसहोल्ड होते हैं।
यदि शब्द सामान्य रूप से वितरित किया गया है, तो आपके पास एक प्रोबेट प्रतिगमन है और यदि यह तार्किक रूप से वितरित किया गया है तो आपके पास लॉजिस्टिक प्रतिगमन मॉडल है। चूंकि पैमाने की पहचान नहीं की गई है, इन अवशिष्ट त्रुटियों को क्रमशः मानक सामान्य और मानक लॉजिस्टिक के रूप में निर्दिष्ट किया गया है।
पियर्सन (1900) ने दिखाया कि यदि बहुभिन्नरूपी सामान्य डेटा को उत्पन्न किया गया था और उसे स्पष्ट किया जा रहा था, तो अंतर्निहित चर के बीच संबंध अभी भी सांख्यिकीय रूप से पहचाने जाते हैं - इन सहसंबंधों को पॉलीकोरिक सहसंबंध कहा जाता है और, द्विआधारी मामले के लिए विशिष्ट, उन्हें टेट्राकोरिक सहसंबंध कहा जाता है । इसका मतलब यह है कि, एक प्रोबिट मॉडल में, अंतर्निहित सामान्य रूप से वितरित चर का अंतःसंबंध सहसंबंध गुणांक:
पहचाना जाता है जिसका अर्थ है कि प्रोबेट मामले में आप अंतर्निहित अव्यक्त चर के संयुक्त वितरण को पूरी तरह से चिह्नित कर सकते हैं ।
लॉजिस्टिक मॉडल में लॉजिस्टिक मॉडल में यादृच्छिक प्रभाव विचरण को अभी भी पहचाना जाता है, लेकिन यह पूरी तरह से निर्भरता संरचना (और इसलिए संयुक्त वितरण) को चिह्नित नहीं करता है, क्योंकि यह एक सामान्य और लॉजिस्टिक यादृच्छिक चर के बीच का मिश्रण है जिसमें कोई परिवर्तन नहीं होता है संपत्ति है कि यह पूरी तरह से अपने माध्य और सहसंयोजक मैट्रिक्स द्वारा निर्दिष्ट है। अंतर्निहित अव्यक्त चर के लिए इस अजीब पैरामीट्रिक धारणा को ध्यान में रखते हुए सामान्य रूप से व्याख्या करने के लिए लॉजिस्टिक मॉडल में यादृच्छिक प्रभावों की व्याख्या कम स्पष्ट हो जाती है।
एक महत्वपूर्ण बिंदु जिसे पिछले (उत्कृष्ट) उत्तरों में संबोधित नहीं किया गया है, वह वास्तविक आकलन कदम है। बहुराष्ट्रीय लॉगिट मॉडल में एक पीडीएफ होता है जो एकीकृत करने के लिए आसान होता है, जिससे चुनाव संभावना की बंद-रूप अभिव्यक्ति होती है। सामान्य वितरण का घनत्व फ़ंक्शन इतनी आसानी से एकीकृत नहीं होता है, इसलिए प्रोबेट मॉडल को आमतौर पर सिमुलेशन की आवश्यकता होती है। इसलिए जब दोनों मॉडल वास्तविक दुनिया की स्थितियों के सार होते हैं, तो आमतौर पर बड़ी समस्याओं (कई विकल्प या बड़े डेटासेट) पर उपयोग करने के लिए लॉगिट तेज़ होता है।
इसे और अधिक स्पष्ट रूप से देखने के लिए, किसी विशेष परिणाम के चयनित होने की संभावना भविष्यवक्ता चर और त्रुटि शब्दों ( ट्रेन के बाद ) का एक कार्य है
मैं च ( एक्स )
प्रोबेट मॉडल के लिए ऐसा कोई सुविधाजनक रूप मौजूद नहीं है।
मैं जो कहने जा रहा हूं, वह इस तरह से अमान्य है जो इस प्रकार कहा गया है। मैं केवल यह बताना चाहता हूं कि प्रोबिट मॉडल IIA (अप्रासंगिक विकल्पों की स्वतंत्रता) मान्यताओं से ग्रस्त नहीं हैं, और लॉजिट मॉडल करता है।
ट्रेन की उत्कृष्ट पुस्तक से एक उदाहरण का उपयोग करने के लिए। अगर मेरे पास एक लॉजिट है जो यह भविष्यवाणी करता है कि मैं अपनी कार में ब्लू बस की सवारी करने जा रहा हूं या नहीं, तो लाल बस को जोड़ने से कार और ब्लू बस दोनों आनुपातिक रूप से आकर्षित होंगे। लेकिन प्रोबेट मॉडल का उपयोग करके आप इस समस्या से बच सकते हैं। संक्षेप में, दोनों आनुपातिक रूप से ड्राइंग करने के बजाय, आप नीली बस से अधिक आकर्षित कर सकते हैं क्योंकि वे करीब विकल्प हैं।
आपके द्वारा किया गया बलिदान यह है कि ऊपर बंद किए गए कोई भी बंद समाधान नहीं है। जब मैं आईआईए के मुद्दों के बारे में चिंतित हूं, तो प्रॉबिट मेरा गोटो हो जाता है। यह कहना नहीं है कि लॉज फ्रेमवर्क (GEV वितरण) में IIA के आसपास आने के रास्ते नहीं हैं। लेकिन मैंने हमेशा इस तरह के मॉडल को समस्या के चारों ओर एक स्पष्ट तरीके से देखा है। कम्प्यूटेशनल गति के साथ जो आप प्राप्त कर सकते हैं, मैं कहूंगा कि प्रोबिट के साथ जाएं।
लॉगिट और प्रोबिट के बीच सबसे प्रसिद्ध अंतर में से एक है (सैद्धांतिक) प्रतिगमन अवशिष्ट वितरण: प्रोबेट के लिए सामान्य, लॉजिस्टिक के लिए लॉजिस्टिक (कृपया देखें: कोप जी। इकोनोमेट्रिक्स चीचस्टर, विली का एक परिचय: 2008: 280)।
मैं प्रश्न का व्यावहारिक उत्तर देता हूं, जो केवल "जब लॉजिस्टिक रिग्रेशन का उपयोग करना है, और जब प्रोबेट का उपयोग करना है" पर ध्यान केंद्रित करता है, बिना सांख्यिकीय विवरण में आए, बल्कि आंकड़ों के आधार पर निर्णय पर ध्यान केंद्रित करता है। उत्तर दो मुख्य बातों पर निर्भर करता है: क्या आपके पास एक अनुशासनात्मक प्राथमिकता है, और क्या आप केवल इस बात की परवाह करते हैं कि कौन सा मॉडल आपके डेटा को बेहतर ढंग से फिट करता है?
मूल अंतर
लॉजिट और प्रोबेट मॉडल दोनों सांख्यिकीय मॉडल प्रदान करते हैं जो इस बात की संभावना देते हैं कि एक आश्रित प्रतिक्रिया चर 0 या 1 होगा। वे बहुत ही समान हैं और अक्सर व्यावहारिक रूप से पहचान के परिणाम दिए जाते हैं, लेकिन क्योंकि वे संभावनाओं की गणना करने के लिए विभिन्न कार्यों का उपयोग करते हैं, उनके परिणाम कभी-कभी थोड़े होते हैं विभिन्न।
अनुशासनात्मक वरीयता
कुछ अकादमिक अनुशासन आम तौर पर एक या दूसरे को पसंद करते हैं। यदि आप एक विशिष्ट पारंपरिक वरीयता के साथ अपने परिणामों को अकादमिक अनुशासन में प्रकाशित या प्रस्तुत करने जा रहे हैं, तो उसे अपनी पसंद निर्धारित करें ताकि आपके निष्कर्ष अधिक आसानी से स्वीकार्य हों। उदाहरण के लिए ( मेथड्स कंसल्टेंट्स से ),
लॉजिट - जिसे लॉजिस्टिक रिग्रेशन के रूप में भी जाना जाता है - स्वास्थ्य विज्ञान में महामारी विज्ञान की तरह अधिक लोकप्रिय है, क्योंकि गुणांकों की व्याख्या बाधाओं के अनुपात में की जा सकती है। अधिक उन्नत अर्थमितीय सेटिंग्स में गैर-निरंतर त्रुटि भिन्नताओं के लिए प्रोब मॉडल को सामान्यीकृत किया जा सकता है (जिसे हेट्रोसेकेडिस्ट प्रोबेट मॉडल कहा जाता है) और इसलिए अर्थशास्त्रियों और राजनीतिक वैज्ञानिकों द्वारा कुछ संदर्भों में उपयोग किया जाता है।
मुद्दा यह है कि परिणामों में अंतर इतना मामूली है कि आपके सामान्य दर्शकों के लिए आपके परिणामों को समझने की क्षमता दो दृष्टिकोणों के बीच के मामूली अंतर को पछाड़ देती है।
यदि आप सभी के बारे में परवाह है बेहतर फिट है ...
यदि आपका शोध एक अनुशासन में है जो एक या दूसरे को पसंद नहीं करता है, तो मेरे इस प्रश्न का अध्ययन (जो बेहतर है, लॉजिट या प्रोबेट है) ने मुझे निष्कर्ष निकाला है कि आमतौर पर प्रोबेट का उपयोग करना बेहतर होता है , क्योंकि यह लगभग हमेशा होगा डेटा को एक सांख्यिकीय फिट दें जो लॉजिट मॉडल के बराबर या श्रेष्ठ हो। सबसे उल्लेखनीय अपवाद जब लॉगिट मॉडल एक बेहतर फिट देते हैं, तो "चरम स्वतंत्र चर" (जो मैं नीचे समझाता हूं) के मामले में है।
मेरा निष्कर्ष Hahn, ED & Soyer, R., 2005 पर लगभग पूरी तरह से (कई अन्य स्रोतों की खोज करने के बाद) आधारित है। प्रोबिट और लॉगिट मॉडल: मल्टीवेरेट दायरे में अंतर। यहां उपलब्ध है: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf । इस लेख से व्यावहारिक निर्णय निष्कर्ष का मेरा सारांश यहां है कि क्या लॉजिट बनाम प्रोबिट मल्टीवेरेट मॉडल डेटा के लिए एक बेहतर फिट प्रदान करते हैं (ये निष्कर्ष भी अविभाजित मॉडल पर लागू होते हैं, लेकिन वे केवल दो स्वतंत्र चर के लिए अनुकरण प्रभाव डालते हैं):
अधिकांश परिदृश्यों में, लॉगिट और प्रोबेट मॉडल निम्नलिखित दो अपवादों के साथ डेटा को समान रूप से अच्छी तरह से फिट करते हैं।
"अत्यधिक स्वतंत्र चर" के मामले में लॉज निश्चित रूप से बेहतर है । ये स्वतंत्र चर हैं जहां एक विशेष रूप से बड़े या छोटे मूल्य में अक्सर यह निर्धारित होता है कि आश्रित चर 0 या 1 है, अधिकांश अन्य चर के प्रभावों को देखते हुए। हैन और सोयर ने इसे औपचारिक रूप से परिभाषित किया (पृष्ठ 4):
एक चरम स्वतंत्र परिवर्तनीय स्तर में तीन घटनाओं के involves uence शामिल हैं। सबसे पहले, एक स्वतंत्र स्वतंत्र चर स्तर एक स्वतंत्र चर के ऊपरी या निचले चरम पर होता है। उदाहरण के लिए, मान लें कि स्वतंत्र चर x मान 1, 2 और 3.2 पर लेना था। चरम स्वतंत्र चर स्तर में x = 3.2 (या x = 1) के मान शामिल होंगे। दूसरा, कुल n का पर्याप्त अनुपात (जैसे, 60%) इस स्तर पर होना चाहिए। तीसरा, इस स्तर पर सफलता की संभावना चरम पर होनी चाहिए (जैसे, 99% से अधिक)।
हैन और सोयर के विश्लेषण के आधार पर, मेरा निष्कर्ष हमेशा अत्यधिक स्वतंत्र चर के मामले में छोड़कर प्रोबेट मॉडल का उपयोग करना है, जिस स्थिति में लॉग को चुना जाना चाहिए । चरम स्वतंत्र चर वे सभी आम नहीं हैं, और पहचानने में काफी आसान होना चाहिए। अंगूठे के इस नियम के साथ, यह कोई फर्क नहीं पड़ता कि मॉडल एक यादृच्छिक प्रभाव मॉडल है या नहीं। ऐसे मामलों में जहां एक मॉडल एक यादृच्छिक प्रभाव मॉडल होता है (जहां प्रोबेट को प्राथमिकता दी जाती है) लेकिन अत्यधिक स्वतंत्र चर (जहां लॉगिट को प्राथमिकता दी जाती है) हैं, हालांकि हैन और सोयर ने इस पर टिप्पणी नहीं की है, उनके लेख से मेरी धारणा यह है कि प्रभाव अत्यधिक स्वतंत्र चर अधिक प्रभावी होते हैं, और इसलिए प्रवेश को प्राथमिकता दी जाएगी।
नीचे, मैं एक अनुमानक को समझाता हूं जो प्रोब और एनगिट को विशेष मामलों के रूप में बताता है और जहां कोई परीक्षण कर सकता है जो अधिक उपयुक्त है।
प्रोबिट और लॉगिट दोनों को एक अव्यक्त चर मॉडल में नेस्ट किया जा सकता है,
जहाँ मनाया गया घटक है
यदि आप सामान्य cdf होने के लिए चुनते हैं , तो आप प्रोबेट प्राप्त करते हैं, यदि आप लॉजिस्टिक cdf चुनते हैं, तो आपको logit मिलता है। किसी भी तरह, संभावना फ़ंक्शन का रूप लेती है
हालांकि, अगर आप इस बात से चिंतित हैं कि आपने कौन सी धारणा बनाई है, तो आप क्लेन एंड स्पडी (1993; इकोनोमेट्रीका) अनुमानक का उपयोग कर सकते हैं। यह अनुमानक आपको सीएफडी, अपने विनिर्देश में पूरी तरह से लचीला होने की अनुमति देता है , और आप तब भी सामान्यता या तार्किकता (?) की वैधता का परीक्षण कर सकते हैं।
क्लेन एंड स्पीडी में, इसके बजाय मानदंड फ़ंक्शन है
जहाँ cdf का एक अप्रमाणिक अनुमान है, उदाहरण के लिए नादराया-वाटसन कर्नेल रिग्रेसमेंट अनुमानक का उपयोग करते हुए,
जहाँ को "कर्नेल" कहा जाता है (आमतौर पर, गॉसियन cdf या त्रिकोणीय कर्नेल चुना जाता है), और एक "बैंडविड्थ" है। प्लगइन मूल्यों बाद के लिए लेने के लिए कर रहे हैं, लेकिन यह एक बहुत अधिक जटिल हो सकता है और इस पर बाहरी अनुकूलन कर सकते हैं और अधिक जटिल है, तो हर कदम में परिवर्तन ( तथाकथित संतुलन पूर्वाग्रह-विचरण तालमेल )।एच βज
सुधार: इचिमुरा ने सुझाव दिया है कि कर्नेल प्रतिगमन, , th अवलोकन छोड़ देना चाहिए ; अन्यथा, का विकल्प नमूना में अति-फिटिंग (बहुत अधिक विचरण) के साथ एक समस्या से जटिल हो सकता है। मैंज
चर्चा: क्लेन-स्पीडी अनुमानक के साथ एक दोष यह है कि यह स्थानीय मिनीमा में फंस सकता है। इसका कारण यह है कि cdf दिए गए पैरामीटरों को स्वीकार करता है। मुझे ऐसे कई छात्रों के बारे में पता है जिन्होंने इसे लागू करने की कोशिश की है और उन्हें अभिसरण प्राप्त करने और संख्यात्मक मुद्दों से बचने में समस्याएं हुई हैं। इसलिए, इसके साथ काम करने के लिए एक आसान अनुमानक नहीं है। इसके अलावा, अनुमानित मापदंडों पर अनुमान लिए अर्ध-पैरामीट्रिक विनिर्देश द्वारा जटिल है ।β जी
वे बहुत समान हैं।
दोनों मॉडल में, दिए गए को प्रायिकता के रूप में देखा जा सकता है कि एक यादृच्छिक छिपा चर (एक निश्चित वितरण के साथ) एक निश्चित सीमा से नीचे है जो पर रैखिक रूप से निर्भर करता है :एक्स एस एक्स
या समकक्ष:
फिर यह सब के वितरण के लिए आपके द्वारा चुने गए विषय है :
वेरिएंस महत्वहीन है क्योंकि यह एक स्थिरांक से को गुणा करके स्वचालित रूप से मुआवजा दिया जाता है। यदि आप इंटरसेप्ट का उपयोग करते हैं तो इसका मतलब महत्वहीन है।
इसे एक दहलीज प्रभाव के रूप में देखा जा सकता है। कुछ अदृश्य परिणाम कुछ शोर के साथ का रैखिक कार्य है को रेखीय प्रतिगमन की तरह जोड़ा जाता है, और हम कहकर 0/1 परिणाम प्राप्त करते हैं:एक्स - एस
लॉजिस्टिक और प्रोबिट के बीच अंतर लॉजिस्टिक और सामान्य वितरण के बीच अंतर होता है। वहाँ इतना नहीं है। एक बार समायोजित होने के बाद, वे इस तरह दिखते हैं:
लॉजिस्टिक में भारी पूंछ होती है। यह थोड़ा प्रभावित कर सकता है कि कैसे छोटे (<1%) या उच्च (> 99%) की घटनाओं की संभावना फिट होती है। व्यावहारिक रूप से, अंतर अधिकांश स्थितियों में भी ध्यान देने योग्य नहीं है: लॉगिट और प्रोबिट अनिवार्य रूप से एक ही चीज की भविष्यवाणी करते हैं। Http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&contef=#icle देखें
"दार्शनिक रूप से", लॉजिस्टिक प्रतिगमन अधिकतम एन्ट्रापी के सिद्धांत के समतुल्य होने से उचित ठहराया जा सकता है: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropy-मॉडल /
गणना के संदर्भ में: लॉजिस्टिक सरल है क्योंकि लॉजिस्टिक वितरण के संचयी वितरण में सामान्य वितरण के विपरीत एक बंद सूत्र है। लेकिन जब आप बहु-आयामी जाते हैं तो सामान्य वितरण में अच्छे गुण होते हैं, यही कारण है कि उन्नत मामलों में प्रायः प्रोबेट को प्राथमिकता दी जाती है।