रेखीय प्रतिगमन में लघुगणक रूपांतरित रूपांकनों की व्याख्या कैसे करें?


10

मेरी स्थिति यह है:

मेरे पास 1 निरंतर आश्रित और 1 निरंतर पूर्वसूचक चर है जिसे मैंने सरल रेखीय प्रतिगमन के लिए उनके अवशिष्टों को सामान्य करने के लिए तार्किक रूप से रूपांतरित किया है।

मैं किसी भी मदद की सराहना करता हूं कि मैं इन रूपांतरित चर को उनके मूल संदर्भ से कैसे संबंधित कर सकता हूं।

मैं उन दिनों की संख्या का अनुमान लगाने के लिए एक रेखीय प्रतिगमन का उपयोग करना चाहता हूं जो 2011 में उन दिनों की संख्या के आधार पर विद्यार्थियों के स्कूल जाने से चूक गए थे। अधिकांश विद्यार्थियों को 0 दिन याद आते हैं या कुछ ही दिनों में डेटा बाईं ओर सकारात्मक रूप से तिरछा हो जाता है। इसलिए, रैखिक प्रतिगमन का उपयोग करने के लिए परिवर्तन की आवश्यकता है।

मैंने दोनों चर के लिए log10 (var + 1) का उपयोग किया है (मैंने उन विद्यार्थियों के लिए +1 का उपयोग किया था जो 0 दिनों के स्कूल से चूक गए थे)। मैं प्रतिगमन का उपयोग कर रहा हूं क्योंकि मैं श्रेणीबद्ध कारकों - लिंग / जातीयता आदि में भी जोड़ना चाहता हूं।

मेरी समस्या यह है:

जिन दर्शकों को मैं वापस खाना चाहता हूं, वे लॉग 10 (y) = लॉग (निरंतर) + लॉग (var2) x (और स्पष्ट रूप से न तो I) को समझ नहीं सकते हैं।

मेरे प्रश्न हैं:

a) क्या प्रतिगमन में रूपांतरित चर की व्याख्या करने के बेहतर तरीके हैं? २०१० में कभी १ दिन चूक गए, २०११ में उन्हें २ दिन याद आएंगे क्योंकि २०१० में कभी १ लॉग यूनिट बदलने का विरोध हुआ था, २०११ में x लॉग यूनिट बदल जाएगा?

ख) विशेष रूप से, इस स्रोत से उद्धृत अंश इस प्रकार दिया गया है:

"यह गणित के मानकीकृत परीक्षण स्कोर में एक इकाई वृद्धि के लिए नकारात्मक द्विपद प्रतिगमन अनुमान है, यह देखते हुए कि अन्य चर को मॉडल में स्थिर रखा जाता है। यदि एक छात्र को एक अंक से अपने गणित के परीक्षा स्कोर को बढ़ाना था, तो लॉग के अंतर में अंतर। मॉडल में अन्य चर रखने के दौरान अपेक्षित गणना में 0.0016 यूनिट की कमी होने की उम्मीद की जाएगी। "

मैं जानना चाहता हूँ:

  • क्या यह दर्रा यह कह रहा है कि UNTRANSFORMEDचर गणित के स्कोर में हर एक इकाई के बढ़ने से स्थिरांक (a) से 0.0016 की कमी होती है, इसलिए यदि UNTRANSFORMEDगणित का अंक दो अंकों से ऊपर जाता है, तो मैं निरंतरता से 0.0016 * 2 को घटाता हूं?
  • क्या इसका मतलब यह है कि मैं घातांक (ए) और घातांक (ए + बीटा * 2) का उपयोग करके ज्यामितीय माध्य प्राप्त करता हूं और, मुझे यह बताने की आवश्यकता है कि इन दोनों के बीच प्रतिशत अंतर की गणना यह कहने के लिए है कि भविष्यवक्ता चर (ओं) पर क्या प्रभाव पड़ता है / आश्रित चर पर है?
  • या मुझे लगता है कि पूरी तरह से गलत है?

मैं SPSS v20 का उपयोग कर रहा हूं। एक लंबे प्रश्न में इसे तैयार करने के लिए क्षमा करें।



8
क्या आपने इसके बजाय पॉइसन प्रतिगमन का उपयोग करने के बारे में सोचा है? यह स्वाभाविक रूप से निर्भर गणना डेटा के साथ संकेत दिया गया है और लॉग परिवर्तन के साथ आपकी सफलता पॉसों के वितरण के अनुरूप है। स्कूल के एक दिन लापता होने की संभावना में आनुपातिक वृद्धि के संदर्भ में गुणांक की व्याख्या की जाएगी। एक फायदा यह है कि शून्य के किसी विशेष उपचार की आवश्यकता नहीं है (हालांकि यह अभी भी एक बहुत अच्छा विचार है कि एक शून्य-फुलाया हुआ वैकल्पिक मॉडल देखें)।
whuber

हाय Whuber, हाँ, मैं Poisson प्रतिगमन के बारे में सोच रहा था, लेकिन इस बारे में निश्चित नहीं था या नकारात्मक द्विपद प्रतिगमन के लिए चयन नहीं किया था। मैं नकारात्मक द्विपद का अनुमान लगाता हूं क्योंकि डेटा छितराया हुआ है - अर्थात इसका मतलब डेटासेट में विचरण से कम है (इसलिए सकारात्मक तिरछा)। इसके अलावा, सख्ती से, वर्ष में स्कूल सत्र की संख्या पर एक ऊपरी सीमा होती है, जबकि पॉइसन एक असीमित हरक मानता है? या क्या आपको अभी भी लगता है कि पॉइसन अधिक उपयुक्त है? दुर्भाग्य से SPSS शून्य फुलाया हुआ मॉडल का समर्थन नहीं करता है जहाँ तक मैंने देखा है ...) धन्यवाद Whuber :)
जिमबेक

3
मुझे पोइसन डिस्ट्रीब्यूशन के असीमित समर्थन के साथ कोई समस्या नहीं दिखती है: यह सामान्य वितरण का उपयोग करने के लिए मॉडल के समान है, कहते हैं, मान जो अप्रतिष्ठित होना चाहिए। बशर्ते कि असंभव मूल्यों से जुड़े मौके छोटे हों, लेकिन यह एक अच्छा मॉडल हो सकता है। नकारात्मक द्विपद फिट और अतिप्रवाह की अच्छाई का परीक्षण करने के लिए उपयोग किए जाने वाले पॉइसन का मानक विकल्प है; यह एक अच्छा विचार है। यदि SPSS बहुत सीमित है, तो कुछ और उपयोग करें! ( Rशून्य फुलाया मॉडल के लिए संकुल है, इस साइट खोज ।)
whuber

2
मैं @whuber से सहमत हूं मुझे लगता है कि आप शायद एक ज़िप या ZINB मॉडल चाहते हैं। मैं तो बस, जोड़ना होगा कि वे भी उपलब्ध एसएएस में PROC COUNTREG के माध्यम से कर रहे हैं (ईटीएस) और शुरू एसएएस 9.2 के साथ (STAT में) PROC GENMOD में
पीटर Flom

2
आँकड़ों में बहुत अच्छी जानकारी है ।stackexchange.com / questions / 18480 /
rolando2

जवाबों:


7

मुझे लगता है कि @ व्हिबर की टिप्पणी में अधिक महत्वपूर्ण बिंदु सुझाया गया है। आपका संपूर्ण दृष्टिकोण गलत है क्योंकि आप लोगरियम को प्रभावी ढंग से लेते हुए 2010 या 2011 में शून्य गुम दिनों के साथ किसी भी छात्र को प्रभावी ढंग से बाहर निकाल रहे हैं। ऐसा लगता है कि इन लोगों को समस्या होने के लिए पर्याप्त हैं, और मुझे यकीन है कि आपके परिणाम होंगे आपके द्वारा लिए जा रहे दृष्टिकोण के आधार पर गलत होना।

इसके बजाय, आपको एक पॉज़िशन प्रतिक्रिया के साथ एक सामान्यीकृत रैखिक मॉडल फिट करने की आवश्यकता है। जब तक आपने उपयुक्त मॉड्यूल के लिए भुगतान नहीं किया है, तब तक SPSS ऐसा नहीं कर सकता, इसलिए मैं R को अपग्रेड करने का सुझाव दूंगा।

आपको अभी भी गुणांक की व्याख्या करने की समस्या होगी, लेकिन यह मूल रूप से उपयुक्त एक मॉडल होने के महत्व के लिए माध्यमिक है।


परिवर्तन उपयोग क्यों नहीं किया जाता है ? यह आपके द्वारा लाई गई समस्या का समाधान करेगा। हालांकि, उलटा परिवर्तन थोड़ा अधिक शामिल होगा, और व्याख्या अधिक कठिन होगी। इसके बारे में यहाँ एक पोस्ट है: आंकड़े . stackexchange.com/questions/18694/…xlog(x+1)
toypajme

3

मैं अन्य उत्तरदाताओं के साथ सहमत हूं, खासकर मॉडल के रूप के संबंध में। यदि मैं आपके प्रश्न की प्रेरणा को समझता हूँ, हालाँकि, आप सामान्य श्रोताओं को संबोधित कर रहे हैं और मूल को बताना चाहते हैं(सैद्धांतिक) अपने विश्लेषण का अर्थ। इस उद्देश्य के लिए मैं विभिन्न "परिदृश्यों" के तहत अनुमानित मूल्यों (जैसे अनुमानित दिनों की याद) की तुलना करता हूं। आपके द्वारा चुने गए मॉडल के आधार पर, आप आश्रित चर की अपेक्षित संख्या या मूल्य की तुलना कर सकते हैं जब भविष्यवक्ता कुछ विशिष्ट निश्चित मानों (उदाहरण के लिए उनके मध्यस्थ या शून्य) पर होते हैं, और फिर दिखाते हैं कि कैसे पूर्वानुमानकर्ताओं में "सार्थक" परिवर्तन होता है भविष्यवाणियों को प्रभावित करता है। बेशक, आपको डेटा को मूल, समझ में आने वाले पैमाने से बदलना होगा। मैं कहता हूं कि "सार्थक परिवर्तन" क्योंकि अक्सर मानक "एक्स में एक इकाई परिवर्तन" वास्तविक आयात या उसके स्वतंत्र चर की कमी को व्यक्त नहीं करता है। "उपस्थिति डेटा" के साथ, मुझे यकीन नहीं है कि ऐसा बदलाव क्या होगा। (यदि कोई छात्र 2010 में कोई दिन नहीं चूकता है, और 2011 में एक दिन, मुझे यकीन नहीं है कि हम कुछ भी सीखेंगे। लेकिन मुझे नहीं पता।)


2

यदि हमारे पास का मॉडल है , तो हम उम्मीद कर सकते हैं कि में पैदावार एब यूनिट की 1 यूनिट वृद्धि हो सकती है। इसके बजाय, यदि हमारे पास , तो हम में 1 प्रतिशत वृद्धि की उम्मीद करते हैं। उपज के लिए वाई में इकाई वृद्धिX Y = b लॉग ( X ) X b लॉग ( 1.01 )Y=bXXY=blog(X)Xblog(1.01)

संपादित करें: वूप्स, महसूस नहीं किया कि आपका आश्रित चर भी रूपांतरित था। यहां तीनों स्थितियों का वर्णन करते हुए एक अच्छे उदाहरण के साथ एक लिंक दिया गया है:

1) केवल Y रूपांतरित होता है 2) केवल भविष्यवक्ता 3 रूपांतरित हो जाते हैं) Y और पूर्वसूचक दोनों रूपांतरित हो जाते हैं

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm


1
हाय जे.सी., आपके उत्तर के लिए धन्यवाद। मैंने अपने आश्रित और स्वतंत्र चर दोनों को स्थिरता के लिए बदलने का तरीका अपनाया है, लेकिन मैंने पढ़ा है कि यह केवल DV है जो वास्तव में अपने IV की तुलना में सामान्यता के लिए रूपांतरण की आवश्यकता है।
जिमबेक

मैंने वास्तव में आपके द्वारा सुझाए गए लिंक को देखा है (धन्यवाद थो), लेकिन कुछ बिंदुओं पर स्पष्ट नहीं था, विशेष रूप से ज्यामितीय माध्य की तुलना 'वास्तविक जीवन' से करने के बारे में, लेकिन मुझे लगता है कि ज्यामितीय माध्य का उपयोग करना मॉडलिंग के साथ अधिक है x में y प्रति यूनिट परिवर्तन के परिणाम के बजाय y पर x में परिवर्तन का प्रभाव? मुझे लगता है कि मुझे वापस जाने की ज़रूरत है और इसे एक दूसरा पढ़ा ...
जिमबेक

2

मैं अक्सर लॉग-ट्रांसफ़ॉर्म का उपयोग करता हूं, लेकिन मैं बाइनरी कोवरिएट्स का उपयोग करता हूं क्योंकि यह गुणकों के संदर्भ में एक प्राकृतिक व्याख्या की ओर जाता है। मान लें कि आप भविष्यवाणी करना चाहते हैं , 3 बाइनरी , और को मान । अब, प्रस्तुत करने के बजाय:X 1 X 2 X 3 { 0 , 1 }YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2 ,

आप बस दिखा सकते हैं:

YC M1X1 M2X2 M3X3 ,

जहाँ: , और गुणक हैं। यह कहना है कि, हर बार 1 के बराबर होता है, भविष्यवाणी से गुणा । उदाहरण के लिए, यदि , और , तो आपकी भविष्यवाणी है:M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3

मैं का उपयोग कर रहा हूं क्योंकि यह वास्तव में के माध्य की भविष्यवाणी नहीं है : लॉग-नॉर्मल डिस्ट्रीब्यूशन का माध्य पैरामीटर सामान्य रूप से रैंडम वैरिएबल का मतलब नहीं है (क्योंकि यह शास्त्रीय रैखिक रिग्रेशन के लिए मामला है। लॉग-बदलना)। मेरा यहां सटीक संदर्भ नहीं है, लेकिन मुझे लगता है कि यह सीधा तर्क है।Y


3
आपको लॉगऑन असामान्य मुद्दों के बारे में चिंता करने की ज़रूरत नहीं है: गुणक परवाह किए बिना सही हैं। (विषमलैंगिक मॉडल के साथ कोई समस्या होगी।) ऐसा इसलिए है क्योंकि जहां का प्रसरण है । BTW, कृपया लिए की अपनी परिभाषाएँ स्कैन करें । E[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.