लॉजिस्टिक रिग्रेशन गुणांक का क्या महत्व है?


42

मैं वर्तमान में 2000 और 2004 के चुनाव में मतदान के स्थान और मतदान की प्राथमिकता से संबंधित एक पेपर पढ़ रहा हूं । इसमें, एक चार्ट है जो लॉजिस्टिक रिग्रेशन गुणांक प्रदर्शित करता है। पाठ्यक्रम वर्षों से और थोड़ा पढ़ने में, मैं कई स्वतंत्र चर और एक द्विआधारी प्रतिक्रिया चर के बीच संबंध का वर्णन करने का एक तरीका होने के लिए लॉजिस्टिक प्रतिगमन को समझता हूं। मैं जिस उलझन में हूं, उसे नीचे दी गई तालिका में दिया गया है, क्योंकि दक्षिण में एक लॉजिस्टिक रिग्रेशन गुणांक .903 है, इसका मतलब है कि 90.3% सॉथरर्स वोट रिपब्लिकन हैं? मीट्रिक की तार्किक प्रकृति के कारण, यह प्रत्यक्ष सहसंबंध मौजूद नहीं है। इसके बजाय, मेरा मानना ​​है कि आप केवल यह कह सकते हैं कि .903, साथ .506 के प्रतिगमन के साथ, पहाड़ों / मैदानों से अधिक रिपब्लिकन को वोट करता है। बाद के मामले को देखते हुए, मुझे कैसे पता चलेगा कि क्या महत्वपूर्ण है और क्या नहीं है और क्या यह लॉजिस्टिक वोटों के प्रतिशत को अलग करने के लिए संभव है जो इस लॉजिस्टिक रिग्रेशन गुणांक को देखते हैं। तालिका लॉजिस्टिक प्रतिगमन गुणांक दिखा रही है

एक साइड नोट के रूप में, यदि कुछ भी गलत कहा गया है, तो कृपया मेरी पोस्ट को संपादित करें


यह एक अनुवर्ती कार्रवाई का अधिक है (और मुझे शायद इसे पोस्ट नहीं करना चाहिए), लेकिन क्या आपने "एक प्रतिशत को एक्सट्रपलेशन करना संभव है" यह एक अच्छा तरीका है क्योंकि यह बहुत ज्यादा है जो मैं देख रहा हूं।
स्टीफन एंडरसन

2
मुझे लगता है कि आपके लिए बेहतर होगा कि इसे एक स्टैंड-अलोन प्रश्न के रूप में तैयार करें और इसे उत्तर के रूप में अलग-अलग पोस्ट करें।
कार्डिनल

यदि कोई कागज के बारे में सोच रहा है, तो यह SC McKee और JM Teigen की रेडिंग और ब्लूज़ का प्रमाण है: 2000 और 2004 में अनुभागवाद और मतदाता स्थान और अमेरिकी राष्ट्रपति चुनाव (2009) राजनीतिक भूगोल
एलेक्स

जवाबों:


36

लेखक विचारशील के रूप में किसी को मजबूर कर दिया है कि के रूप में आप एक सवाल पूछने की तरह इस का कारण है कि अभ्यास सम्मोहक उदाहरण है के लिए - अभी भी जिस तरह से भी आम - इस तरह एक मेज के प्रतिगमन मॉडल परिणामों की रिपोर्टिंग सीमित की तो अस्वीकार्य है।

  1. जैसा कि आपने बताया, प्रश्न में पूर्वसूचक के लिए अनुमानित गुणांक को तार्किक गुणांक में बदलने की कोशिश कर सकते हैं, लेकिन यह बोझिल है और भविष्यवाणी की सटीकता के बारे में जानकारी नहीं देता है, जो आमतौर पर एक में बहुत महत्वपूर्ण है लॉजिस्टिक रिग्रेशन मॉडल (विशेष रूप से मतदान पर)।

  2. इसके अलावा, महत्व के "स्तरों" की रिपोर्ट करने के लिए कई तारांकन का उपयोग गलत धारणा को पुष्ट करता है कि पी-मान प्रभाव आकार के कुछ सार्थक सूचकांक हैं ("वाह - कि एक 3 तारांकन है !!"); ज़ोर से रोने के लिए, w / N का 10,000 से 20,000 तक, पूरी तरह से तुच्छ अंतर p <.001 blah blah पर "महत्वपूर्ण" होगा।

  3. इस तरह से रहस्य की कोई आवश्यकता नहीं है। लॉजिस्टिक रिग्रेशन मॉडल एक समीकरण है, जिसका उपयोग मापन त्रुटि के अधीन, भविष्यवक्ताओं के लिए निर्दिष्ट मूल्यों पर एक परिणाम सशर्त की संभावना की भविष्यवाणी करने के लिए (गणना या बेहतर अभी भी सिमुलेशन के माध्यम से) किया जा सकता है। इसलिए शोधकर्ता को रिपोर्ट करना चाहिएब्याज के भविष्यवाणियों के प्रभाव पर ब्याज दर के परिणाम चर, और संबद्ध CI की संभावना पर, जैसा कि इकाइयों में मापा जाता है, जिसके व्यावहारिक महत्व को आसानी से समझा जा सकता है। तैयार लोभी को आश्वस्त करने के लिए, परिणामों को ग्राफिक रूप से प्रदर्शित किया जाना चाहिए। यहाँ, उदाहरण के लिए, शोधकर्ता यह रिपोर्ट कर सकता है कि शहरी मतदाता के विपरीत एक ग्रामीण होने के नाते, मतदान में रिपब्लिकन की संभावना बढ़ जाती है, बाकी सब बराबर, X pct अंक (मैं 2000 में 17 के आसपास अनुमान लगा रहा हूं; "4 से विभाजित" एक उचित हेयुरिस्टिक) +/- x% ०.९ ५ के स्तर पर आत्मविश्वास-- अगर ऐसा कुछ है जो जानना उपयोगी है।

  4. छद्म आर ^ 2 की रिपोर्टिंग भी एक संकेत है कि मॉडल को रोशन करने के किसी भी प्रयास के बजाय सांख्यिकीय अनुष्ठान में लगे हुए हैं। "छद्म आर ^ 2" की गणना करने के तरीके के स्कोर हैं; कोई शिकायत कर सकता है कि यहां इस्तेमाल किया गया निर्दिष्ट नहीं है, लेकिन परेशान क्यों? सभी व्यर्थ के बगल में हैं। एकमात्र कारण यह है कि कोई भी छद्म आर ^ 2 का उपयोग करता है, वे या समीक्षक जो उन्हें यातनाएं दे रहे हैं (संभवतया 25 या अधिक वर्ष पहले) कि ओएलएस रेखीय प्रतिगमन आँकड़ों की पावन कब्र है और सोचता है कि केवल एक चीज जो कभी पता लगाने की कोशिश कर रही है "विचरण समझाया गया है।" लॉजिस्टिक विश्लेषण के लिए समग्र मॉडल फिट की पर्याप्तता का आकलन करने के लिए बहुत सारे बचाव के तरीके हैं, और संभावना अनुपात वैकल्पिक परिकल्पना को प्रतिबिंबित करने वाले मॉडल की तुलना करने के लिए सार्थक जानकारी प्रदान करता है। राजा, जी। सांख्यिकी के साथ झूठ कैसे नहीं। Am। जे। पोल। विज्ञान। 30, 666-687 (1986)।

  5. यदि आप एक ऐसा पेपर पढ़ते हैं जिसमें रिपोर्टिंग कमोबेश इस तरह से एक टेबल तक ही सीमित रहती है, तो भ्रमित न हों, भयभीत न हों, और निश्चित रूप से प्रभावित न हों; इसके बजाय गुस्सा हो और शोधकर्ता को बताएं कि वह एक घटिया काम कर रहा है (खासकर यदि वह आपके स्थानीय बौद्धिक वातावरण w / रहस्यवाद और खौफ को प्रदूषित कर रहा है - आश्चर्यजनक है कि कितने पूरी तरह से औसत दर्जे के विचारक स्मार्ट लोगों को सोच में डाल देते हैं कि वे बस बी जानते हैं / c वे एक तालिका का निर्माण कर सकते हैं जिसे बाद वाला समझ नहीं सकता है)। स्मार्ट, और शीतोष्ण, इन विचारों के प्रसार के लिए, देखें राजा, जी।, टोमज़, एम। और विटेनबर्ग, जे। अधिकांश सांख्यिकीय विश्लेषण बनाना: व्याख्या और प्रस्तुति में सुधार । Am। जे। पोल। विज्ञान। 44, 347-361 (2000); और गेलमैन, ए।, पसारिका, सी। और दोधिया, आर।चलो अभ्यास करते हैं कि हम क्या उपदेश देते हैं: टेबल्स को ग्राफ़ में बदलना । Am। स्टेट। 56, 121-130 (2002)।


19

plogp/(1p)

x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.9030.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
हेयुरिस्टिक: 4 से विभाजित करें - लॉज कोएफ़ / 4 लगभग अनुमानित pct-pt है जो प्रोब में भिन्न है। 1 यूनिट परिवर्तन से। यह कहने के समान नहीं है कि "व्यक्ति w / charsubn charcteristic = z x% होने की संभावना है।" इतना ही नहीं (जैसा कि कहा गया है) किसी को .sub0 जोड़ना होगा और रेफ क्लास के साथ जुड़ी संभावना को घटाना होगा। भविष्यवक्ता की मिलीभगत का भी ध्यान रखना आवश्यक है। B / c अन्य भविष्यवक्ताओं के साथ दक्षिणी संबंध रखता है, यह सही नहीं होगा। के वोटिंग रिप्रजेंट thersub0 है - NE प्लस के लिए परिवर्तित लॉग ऑड्स दक्षिण के लिए ट्रांस लॉग लॉग्स। कहने के लिए बेहतर है, "बाकी सभी समान, दक्षिण की ओर से होने से x pct बिंदु बदल जाता है"
dmk38

1
'वास्तविक अंतर 0.43 से 1 हो गया है।' क्या ०.४३ पहले स्थान से आए थे?
मोनिका हेडडेक

0.30.3/(10.3)0.43

6

लॉजिस्टिक रिग्रेशन में गुणांक किसी संदर्भ क्षेत्र की तुलना में किसी दिए गए क्षेत्र / जनसांख्यिकीय को वोट देने की प्रवृत्ति का प्रतिनिधित्व करते हैं। एक सकारात्मक गुणांक का मतलब है कि क्षेत्र रिपब्लिकन को वोट करने की अधिक संभावना है, और नकारात्मक गुणांक के लिए इसके विपरीत; एक बड़ा निरपेक्ष मूल्य का मतलब है एक छोटे मूल्य की तुलना में एक मजबूत प्रवृत्ति।

संदर्भ श्रेणियां "पूर्वोत्तर" और "शहरी मतदाता" हैं, इसलिए सभी गुणांक इस विशेष मतदाता प्रकार के साथ विरोधाभासों का प्रतिनिधित्व करते हैं।

सामान्य तौर पर, लॉजिस्टिक प्रतिगमन में गुणांक पर कोई प्रतिबंध नहीं है [0, 1] में, यहां तक ​​कि निरपेक्ष मूल्य में भी। ध्यान दें कि विकिपीडिया लेख में -5 और 2 के गुणांकों के साथ लॉजिस्टिक रिग्रेशन का एक उदाहरण है।


5

आपने यह भी पूछा कि "मुझे कैसे पता चलेगा कि क्या महत्वपूर्ण है और क्या नहीं है।" (मुझे लगता है कि आप सांख्यिकीय रूप से महत्वपूर्ण हैं, क्योंकि व्यावहारिक या महत्वपूर्ण महत्व एक और मामला है।) तालिका में तारांकन फुटनोट को संदर्भित करते हैं: कुछ प्रभाव छोटे पी- अंतराल के रूप में नोट किए जाते हैं । ये प्रत्येक गुणांक के महत्व के वाल्ड परीक्षण का उपयोग करके प्राप्त किए जाते हैं। यादृच्छिक नमूने की मानें, पी <.05 का मतलब है कि, अगर बड़ी आबादी में ऐसा कोई प्रभाव नहीं था, तो इस आकार के नमूने में किसी कनेक्शन को देखने के रूप में मजबूत होने की संभावना, या मजबूत, .05 से कम होगी। । आप इस साइट पर सूक्ष्म लेकिन महत्वपूर्ण संबंधित बिंदु पर चर्चा करते हुए कई धागे देखेंगे कि p <.05 नहीं है इसका मतलब है कि वहाँ बड़ी आबादी में कोई संबंध नहीं होने की संभावना है।


5

मुझे केवल इस बात पर ज़ोर देना चाहिए कि रोलाण्डो 2 और dmk38 दोनों का क्या महत्व है: महत्व आमतौर पर गलत होता है, और परिणाम के उस सारणीबद्ध प्रस्तुति के साथ ऐसा होने का उच्च जोखिम होता है।

पॉल श्रॉड्ट ने हाल ही में इस मुद्दे का एक अच्छा विवरण पेश किया:

शोधकर्ताओं ने पाया कि महत्व परीक्षण की सही व्याख्या का पालन करना लगभग असंभव है। पी-मूल्य आपको केवल उसी संभावना को बताता है जो आपको अशक्त परिकल्पना की [आमतौर पर] पूरी तरह से अवास्तविक स्थितियों के तहत परिणाम मिलेगा। वह नहीं है जो आप जानना चाहते हैं - आप आमतौर पर डेटा को देखते हुए एक स्वतंत्र चर के प्रभाव की भयावहता जानना चाहते हैं। यह एक बायेसियन प्रश्न है, एक निरंतर प्रश्न नहीं है। इसके बजाय हम लगातार देखते हैं - पी-मूल्य की व्याख्या की जाती है जैसे कि इसने संघ की ताकत दी: यह सितारों की सर्वव्यापी रहस्यमय संस्कृति और पी-मूल्य है जो हमारी पत्रिकाओं को अनुमति देता है। (एफएन) यह वही नहीं है जो पी-मूल्य कहता है। , न ही कभी होगा।

मेरे अनुभव में, इस गलती से बचना लगभग असंभव है: यहां तक ​​कि बहुत सावधान विश्लेषकों को जो समस्या से पूरी तरह से अवगत हैं, अक्सर अपने परिणामों पर चर्चा करते समय मोड को स्विच करेंगे, भले ही उन्होंने लिखित व्यय में समस्या से बचा हो। और चलो हजारों घंटे और स्याही के गैलन पर अटकलें नहीं लगाते हैं, हमने इसे स्नातक पत्रों में सुधारने के लिए खर्च किया है।

(fn) फुटनोट भी dmk38 द्वारा उल्लिखित एक अन्य मुद्दे पर सूचित करता है: "[सितारों और पी-मूल्यों के सर्वव्यापी रहस्यमय कल्ट] ने पहले और समान रूप से व्यापक-कल्टिव की संस्कृति को समाप्त कर दिया - राजा द्वारा ध्वस्त ... (1986) । "


ओह-- मैंने अपनी संपादित प्रतिक्रिया में किंग का हवाला दिया। लेख वास्तव में R ^ 2 उन्माद (अर्थमिति के लिए अभी भी स्थानिक) को ध्वस्त करता है, जहां भी आंकड़े का एक अर्थ है - OLS प्रतिगमन के लिए। राजा ने यह भी नोट किया कि छद्म आर ^ 2 गिब्रिश है जिसे "वैरिएंट समझाया गया" के साथ जुड़े विचारहीनता का विस्तार करने के लिए निर्मित किया गया था।
dmk38
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.