रैखिक प्रतिगमन में प्रतिशत परिणाम का उपयोग करने के साथ क्या मुद्दे हैं?


11

मेरे पास एक अध्ययन है जहां कई परिणामों को प्रतिशत के रूप में दर्शाया गया है और मैं इन परिणामों पर कुछ श्रेणीबद्ध चर के प्रभाव का आश्वासन देने के लिए कई रैखिक रजिस्टरों का उपयोग कर रहा हूं।

मैं सोच रहा था, क्योंकि एक रेखीय प्रतिगमन यह मानता है कि परिणाम एक निरंतर वितरण है, क्या ऐसे मॉडल को प्रतिशत में लागू करने में पद्धतिगत समस्याएं हैं, जो 0 और 100 के बीच सीमित हैं?


1
क्या ये प्रतिशत निरंतर हैं (उदाहरण के लिए दूध में क्रीम का प्रतिशत), या असतत (जैसे द्विपद अनुपात, कुल संख्या में से कुछ श्रेणी में एक गणना)?
Glen_b -Reinstate मोनिका

1
उम्म ... मुझे फर्क नहीं पड़ता। क्या वे दोनों निरंतर नहीं हैं? वैसे भी मुझे लगता है कि दूसरा मेरे डेटा का बेहतर वर्णन करता है, क्योंकि हम कुल मिलाकर लोगों के बारे में बोल रहे हैं।
बकाबुर्ग

काउंट्स से विभाजित की गई संख्या का वितरण निश्चित रूप से असतत है। वास्तव में, अंश आमतौर पर एक द्विपद के रूप में तैयार किया जाता है, हर पर वातानुकूलित किया जाता है (स्थिर के रूप में माना जाता है), इसलिए अनुपात को आमतौर पर एक तिरछे द्विपद के रूप में माना जाता है। हालांकि, यहां तक ​​कि अगर भाजक एक यादृच्छिक चर था, तब भी अनुपात असतत होगा क्योंकि इसका नमूना स्थान गणनीय है
Glen_b -Reinstate Monica

जवाबों:


17

मैं या तो असतत या निरंतर संभावना से संबंधित मुद्दों को संबोधित करूंगा:

  1. माध्य के विवरण के साथ एक समस्या

    आपके पास एक बंधी हुई प्रतिक्रिया है। लेकिन जिस मॉडल को आप फिटिंग कर रहे हैं वह बाध्य नहीं है, और इसलिए यह बाध्य के माध्यम से सही ब्लास्ट कर सकता है; आपके कुछ फिट किए गए मूल्य असंभव हो सकते हैं, और पूर्वानुमानित मूल्य अंततः होना चाहिए।

    अंत में बीच की तुलना में सच्चा रिश्ता चापलूसी वाला होना चाहिए, क्योंकि यह सीमा के करीब पहुंचता है, इसलिए इसे कुछ फैशन में झुकना होगा।

  2. विचरण के विवरण के साथ एक समस्या

    जैसे-जैसे माध्य बंधेगा, वैसे-वैसे विचरण कम होता जाएगा, अन्य चीजें भी बराबर होती जा रही हैं। माध्य और बाउंड के बीच कम जगह है, इसलिए समग्र परिवर्तनशीलता कम हो जाती है (अन्यथा माध्य को औसत से दूर बिंदु पर बाउंड से दूर खींच लिया जाएगा, बाउंड के करीब नहीं।

(वास्तव में, यदि किसी मोहल्ले में सभी जनसंख्या मूल्य बिलकुल बंधे हुए हैं, तो वहां भिन्नता शून्य होगी।)

एक मॉडल जो इस तरह के बंधन से निपटता है, उसे ऐसे प्रभावों को ध्यान में रखना चाहिए।

यदि अनुपात एक गणना चर के लिए है, तो अनुपात के वितरण के लिए एक सामान्य मॉडल एक द्विपद GLM है। माध्य अनुपात और भविष्यवक्ताओं के संबंध के रूप के लिए कई विकल्प हैं, लेकिन सबसे आम एक लॉजिस्टिक जीएलएम होगा (कई अन्य विकल्प आम उपयोग में हैं)।

यदि अनुपात एक निरंतर है (जैसे दूध में क्रीम का प्रतिशत), तो कई विकल्प हैं। बीटा प्रतिगमन एक काफी सामान्य विकल्प लगता है। फिर, यह माध्य और भविष्यवक्ताओं के बीच एक तार्किक संबंध का उपयोग कर सकता है, या यह कुछ अन्य कार्यात्मक रूप का उपयोग कर सकता है।

0 और 1 के बीच एक परिणाम (अनुपात या अंश) के लिए प्रतिगमन भी देखें ।


1
+1 और मैंने इस विषय पर हमारे "मास्टर" धागे के रूप में जो संभवत: देखा जा सकता है, के लिए एक लिंक जोड़ने के लिए स्वतंत्रता ली (गंग का जवाब भी बीटा और लॉजिस्टिक विकल्प शामिल हैं)।
अमीबा

2
एक आसान सामान्य तर्क यह है कि यदि इसका मतलब 0 है तो यह केवल तभी संभव है जब सभी मान 0 हों, और इसी तरह 1 = 100% और सभी मानों के साथ 1. इसलिए प्रसरण चरम पर होना चाहिए, चाहे अनुपात पर आधारित हों गिनना या नापना। यद्यपि यह संभव है कि अन्य सभी मूल्य कुछ स्थिर हैं, व्यवहार में यह बहुत दुर्लभ है। इसलिए विचरण 0 और 1. के बीच कुछ मान के लिए उच्चतम होगा
निक कॉक्स

क्या आप बताए गए 2 मुद्दों के लिए कुछ संदर्भ प्रदान कर पाएंगे?
user1607

3

यह ठीक वैसी ही बात है जब परिणाम 0 और 1 के बीच होता है, और यह मामला आमतौर पर लॉजिस्टिक रिग्रेशन जैसे सामान्यीकृत रैखिक मॉडल (GLM) के साथ होता है। इंटरनेट पर लॉजिस्टिक रिग्रेशन (और अन्य GLMs) के लिए बहुत सारे उत्कृष्ट प्राइमर्स हैं, और इस विषय पर एगेस्टी द्वारा एक प्रसिद्ध पुस्तक भी है।

बीटा प्रतिगमन एक व्यवहार्य लेकिन अधिक जटिल विकल्प है। संभावना है कि लॉजिस्टिक प्रतिगमन आपके आवेदन के लिए ठीक काम करेगा, और आमतौर पर अधिकांश सांख्यिकीय सॉफ़्टवेयर के साथ लागू करना आसान होगा।

साधारण न्यूनतम वर्ग प्रतिगमन का उपयोग क्यों नहीं किया जाता है? वास्तव में लोग करते हैं, कभी-कभी "रैखिक संभावना मॉडल" (एलपीएम) नाम के तहत। एलपीएम "खराब" होने का सबसे स्पष्ट कारण यह है कि परिणाम को एक निश्चित सीमा के भीतर झूठ बोलने के लिए विवश करने का कोई आसान तरीका नहीं है, और आप 1 (या 100% या किसी अन्य परिमित ऊपरी सीमा) से ऊपर और नीचे 0 (या) की भविष्यवाणियां कर सकते हैं। कुछ अन्य निचले हिस्से)। इसी कारण से, ऊपरी बाउंड के पास की भविष्यवाणियां व्यवस्थित रूप से बहुत अधिक हो जाती हैं, और निचले बाउंड के पास की भविष्यवाणियां बहुत कम हो जाती हैं। गणित अंतर्निहित रैखिक प्रतिगमन स्पष्ट रूप से मानता है कि इस तरह की प्रवृत्ति मौजूद नहीं है। आमतौर पर लॉजिस्टिक रिग्रेशन पर एलपीएम फिट होने का एक बड़ा कारण नहीं है।

एक तरफ के रूप में, यह पता चला है कि एलपीएम सहित सभी ओएलएस प्रतिगमन मॉडल को एक विशेष प्रकार के जीएलएम के रूप में परिभाषित किया जा सकता है, और इस संदर्भ में एलपीएम लॉजिस्टिक रिग्रेशन से संबंधित हैं।


4
हालाँकि इस उत्तर का कुल योग सार्थक लगता है, इसमें कुछ गलत सूचनाएँ हैं जो पाठकों को भ्रमित कर सकती हैं। पहले पैराग्राफ में लॉजिस्टिक रिग्रेशन का खाता रैखिक प्रतिगमन के बाद निर्भर चर के लॉग-जैसे परिवर्तन के विवरण की तरह लगता है: यह लॉजिस्टिक रिग्रेशन नहीं है। गुणांक की व्याख्या बहुत सही नहीं है, या तो। "एलपीएम" के साथ एक और महत्वपूर्ण समस्या यह है कि जब डेटा चरम सीमा के पास होते हैं, तो वे अवशिष्ट के असममित वितरण का प्रदर्शन करते हैं, जो कि प्रतिगमन की आईआईडी धारणा का एक महत्वपूर्ण उल्लंघन है।
whuber

मुझे नहीं लगता था कि यह अनुपात अनुपात और इस तरह के होने के लायक था। मैं सिर्फ उस सामान को बाहर निकालूंगा और उसके बाद ओपी को पढ़ने दूंगा। अवशेषों के बारे में भी अच्छी बात है।
छायाकार

(+1) आपकी रचनात्मक प्रतिक्रियाओं के लिए धन्यवाद!
whuber

2

यह बीटा प्रतिगमन की जांच के लायक हो सकता है (जिसके लिए मैं समझता हूं कि एक आर पैकेज है), जो इस तरह की समस्याओं के लिए उपयुक्त है।

http://www.jstatsoft.org/v34/i02/paper


7
यदि आप प्रतिशत के परिणाम के कारण रेखीय प्रतिगमन ग्रस्त हैं तो कुछ प्रमुख कारणों पर आप जवाब देंगे तो आप और भी बेहतर होंगे।
एलेक्सिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.