परिवर्तित चर का उपयोग करते समय रैखिक प्रतिगमन प्रभाव आकार


9

रैखिक प्रतिगमन का प्रदर्शन करते समय, बेहतर सामान्य वितरण वितरण प्राप्त करने के लिए आश्रित चर के लिए लॉग-परिवर्तन जैसे परिवर्तन करना अक्सर उपयोगी होता है। परिणाम के प्रभाव के आकार / वास्तविक प्रासंगिकता का बेहतर आकलन करने के लिए प्रतिगमन से बीटा का निरीक्षण करना अक्सर उपयोगी होता है।

यह समस्या उठाती है कि उदाहरण के लिए लॉग ट्रांसफ़ॉर्मेशन का उपयोग करते समय, प्रभाव का आकार लॉग स्केल में होगा, और मुझे बताया गया है कि उपयोग किए गए पैमाने के गैर-रैखिकता के कारण, इन बीटा के वापस-बदलने से गैर-सार्थक मान उत्पन्न होंगे किसी भी वास्तविक दुनिया का उपयोग नहीं है।

अब तक हमने आमतौर पर परिवर्तनशील चर के साथ रेखीय प्रतिगमन का प्रदर्शन किया है ताकि प्रभाव का आकार निर्धारित करने के लिए मूल गैर-परिवर्तित चर के साथ रेखीय प्रतिगमन का निरीक्षण किया जा सके।

क्या ऐसा करने का एक सही / बेहतर तरीका है? अधिकांश भाग के लिए हम नैदानिक ​​डेटा के साथ काम करते हैं, इसलिए एक वास्तविक जीवन उदाहरण यह निर्धारित करने के लिए होगा कि एक निश्चित एक्सपोज़र कैसे प्रभावित करता है जैसे कि ऊँचाई, वजन या कुछ प्रयोगशाला माप जैसे चर को जारी रखता है, और हम "एक्सपोज़र ए" की तरह कुछ निष्कर्ष निकालना चाहते हैं। 2 किलो वजन बढ़ाना ”।

जवाबों:


5

मेरा सुझाव है कि आपकी त्रुटियों के लिए एक सामान्य वितरण प्राप्त करने के लिए रूपांतरण महत्वपूर्ण नहीं हैं। सामान्यता एक आवश्यक धारणा नहीं है। यदि आपके पास "पर्याप्त" डेटा है, तो केंद्रीय सीमा प्रमेय अंदर जाती है और आपके मानक अनुमान विषम रूप से सामान्य हो जाते हैं। वैकल्पिक रूप से, आप मानक त्रुटियों का अनुमान लगाने के लिए गैर-पैरामीट्रिक साधनों के रूप में बूटस्ट्रैपिंग का उपयोग कर सकते हैं। (Homoskedasticity, इकाइयों में टिप्पणियों के लिए एक सामान्य विचरण, आपके मानक त्रुटियों के सही होने के लिए आवश्यक है; मजबूत विकल्प विषमलैंगिकता की अनुमति देते हैं)।

इसके बजाय, रूपांतरण यह सुनिश्चित करने में मदद करते हैं कि एक रैखिक मॉडल उपयुक्त है। इसका एक अर्थ देने के लिए, आइए विचार करें कि हम रूपांतरित मॉडल में गुणांक की व्याख्या कैसे कर सकते हैं:

  • परिणाम इकाइयाँ है, भविष्यवाणियाँ इकाइयाँ हैं: पूर्वसूचक में एक इकाई परिवर्तन से परिणाम में एक बीटा इकाई परिवर्तन होता है।
  • इकाइयों में परिणाम, लॉग इकाइयों में पूर्वसूचक: पूर्वसूचक में एक प्रतिशत परिवर्तन से परिणाम में बीटा / 100 इकाई परिवर्तन होता है।
  • लॉग इकाइयों में परिणाम, इकाइयों में पूर्वसूचक: पूर्वसूचक में एक इकाई परिवर्तन से परिणाम में बीटा x 100% परिवर्तन होता है।
  • लॉग इकाइयों में परिणाम, लॉग इकाइयों में पूर्वसूचक: पूर्वसूचक में एक प्रतिशत परिवर्तन से परिणाम में बीटा प्रतिशत परिवर्तन होता है।

यदि आपके मॉडल को समझ में लाने के लिए परिवर्तन आवश्यक हैं (यानी, धारण करने के लिए रैखिकता), तो इस मॉडल से अनुमान अनुमान के लिए उपयोग किया जाना चाहिए। एक मॉडल से ऐसा अनुमान जो आपको नहीं लगता कि बहुत उपयोगी नहीं है। उपर्युक्त व्याख्याएं एक रूपांतरित मॉडल से अनुमानों को समझने में काफी उपयोगी हो सकती हैं और अक्सर प्रश्न पर अधिक प्रासंगिक हो सकती हैं। उदाहरण के लिए, अर्थशास्त्रियों को लॉग-लॉग फॉर्मूलेशन पसंद है क्योंकि बीटा की व्याख्या एक लोच, अर्थशास्त्र में एक महत्वपूर्ण उपाय है।

मैं जोड़ूंगा कि बैक ट्रांसफ़ॉर्म काम नहीं करता है क्योंकि किसी फंक्शन की उम्मीद की फंक्शन नहीं है; बीटा के अपेक्षित मान का लॉग बीटा के लॉग का अपेक्षित मान नहीं है। इसलिए, आपका अनुमानक निष्पक्ष नहीं है। यह मानक त्रुटियों को भी दूर फेंकता है।


2

SHORT ANSWER: बिल्कुल सही, बीटा मान का पिछला परिवर्तन अर्थहीन है। हालांकि, आप गैर-रैखिकता को कुछ के रूप में रिपोर्ट कर सकते हैं। "यदि आप 100 किलो वजन करते हैं तो एक दिन में दो टुकड़ों के केक खाने से एक सप्ताह में आपका वजन लगभग 2 किलोग्राम बढ़ जाएगा। हालांकि, यदि आप 200 किलोग्राम वजन करते हैं तो आपका वजन 2.5 किलोग्राम बढ़ जाएगा। इस गैर-रैखिक संबंध के चित्रण के लिए आंकड़ा 1 देखें। (50) आंकड़ा 1 कच्चे डेटा पर वक्र के एक फिट होने के नाते)। "

लंबा जवाब:

वापस रूपांतरित मान की सार्थकता बदलती है लेकिन जब ठीक से किया जाता है तो आमतौर पर इसका कुछ अर्थ होता है।

यदि आपके पास 0.13 के बीटा के साथ दो एक्स प्रेडिक्टर्स पर प्राकृतिक लॉग मानों का एक प्रतिगमन है, और 7.0 का अवरोधन है, तो 0.13 (1.14) का पिछला परिवर्तन बहुत अधिक अर्थहीन है। वह सही है। हालाँकि, 7.13 का बैक ट्रांसफ़ॉर्म एक ऐसा मूल्य होने जा रहा है जिसकी व्याख्या कुछ अर्थों से की जा सकती है। फिर आप 7.0 के बैक ट्रांसफ़ॉर्मेशन को घटा सकते हैं और एक शेष मूल्य के साथ छोड़ दिया जा सकता है जो आपके सार्थक पैमाने (152.2) में असर करता है। यदि आप किसी भी अनुमानित मूल्य को देखना चाहते हैं, तो आपको पहले इसे लॉग वैल्यू में और फिर बैक-ट्रांसफॉर्म में गणना करनी होगी। यह प्रत्येक अनुमानित मूल्य के लिए अलग-अलग किया जाना चाहिए और यदि रेखांकन किया जाता है, तो इसका परिणाम होता है।

यदि आपका परिवर्तन आपके डेटा पर अपेक्षाकृत कम प्रभाव डालता है, तो ऐसा करना अक्सर उचित होता है। प्रतिक्रिया समय का लॉग परिवर्तन एक प्रकार का मूल्य है जिसे वापस रूपांतरित किया जा सकता है। जब यह सही ढंग से किया जाता है तो आप पाएंगे कि मान कच्चे आंकड़ों पर सरल गणना करते हुए औसत दर्जे के मूल्यों के करीब लगते हैं।

फिर भी किसी को बातचीत और गैर-बातचीत से सावधान रहना चाहिए। सापेक्ष मूल्य पैमाने पर भिन्न होते हैं। विश्लेषण लॉग वैल्यू के प्रति संवेदनशील था, जबकि पीछे बदल गए मान अलग-अलग पैटर्न दिखा सकते हैं जो बातचीत करते हैं ऐसा लगता है कि वे वहां नहीं होना चाहिए या इसके विपरीत नहीं होना चाहिए। दूसरे शब्दों में, जब तक आप सावधान रहें तब तक आप डेटा में छोटे बदलाव कर सकते हैं।

कुछ परिवर्तन, जैसे लॉजिस्टिक ट्रांसफ़ॉर्मेशन ऑफ प्रोबेबिलिटी, के व्यापक पैमाने पर प्रभाव हो सकते हैं, विशेष रूप से पैमाने के अंत के पास। जिस स्थान पर आपको कभी भी रूपांतरण नहीं करना चाहिए, उसका एक उदाहरण सम्भावना के उच्च या निम्न छोर के पास अंतःक्रियात्मक भूखंड हैं।


2

प्रश्न सीमांत प्रभावों (एक्स ऑन वाई पर) के बारे में है, मुझे लगता है कि व्यक्तिगत गुणांक की व्याख्या करने के बारे में इतना नहीं है। जैसे-जैसे लोगों ने उपयोगी रूप से नोट किया है, ये कभी-कभी एक प्रभाव आकार के साथ पहचाने जाते हैं, उदाहरण के लिए जब रैखिक और additive संबंध होते हैं।

यदि यह ध्यान केंद्रित है (अवधारणा के अनुसार, यदि व्यावहारिक रूप से नहीं) तो समस्या के बारे में सोचने का सबसे सरल तरीका यह प्रतीत होगा:

बिना किसी बातचीत के एक रैखिक सामान्य प्रतिगमन मॉडल में वाई पर एक्स का सीमांत प्रभाव प्राप्त करने के लिए, आप बस एक्स पर गुणांक को देख सकते हैं । लेकिन यह काफी पर्याप्त नहीं है क्योंकि यह ज्ञात नहीं है। किसी भी मामले में, जो वास्तव में सीमांत प्रभावों के लिए चाहता है, वह कुछ प्रकार के कथानक या सारांश हैं जो एक्स के मूल्यों की एक सीमा के लिए वाई के बारे में एक भविष्यवाणी और अनिश्चितता का एक उपाय प्रदान करता है। आमतौर पर कोई अनुमानित मतलब वाई और एक आत्मविश्वास अंतराल चाहता है, लेकिन एक एक्स के लिए वाई के पूर्ण सशर्त वितरण के लिए भी भविष्यवाणियां चाह सकता है। यह वितरण फिट मॉडल के सिग्मा अनुमान से अधिक व्यापक है क्योंकि यह मॉडल गुणांक के बारे में अनिश्चितता को ध्यान में रखता है। ।

इस तरह के सरल मॉडल के लिए विभिन्न बंद फॉर्म समाधान हैं। वर्तमान उद्देश्यों के लिए, हम उन्हें अनदेखा कर सकते हैं और इसके बजाय आम तौर पर सोच सकते हैं कि सिमुलेशन द्वारा उस सीमांत प्रभाव ग्राफ को कैसे प्राप्त किया जाए, एक तरह से जो मनमाने ढंग से जटिल मॉडलों के साथ व्यवहार करता है।

मान लें कि आप Y के अर्थ पर अलग-अलग एक्स के प्रभाव चाहते हैं, और आप कुछ सार्थक मूल्यों पर अन्य सभी चर को ठीक करने के लिए खुश हैं। एक्स के प्रत्येक नए मूल्य के लिए, मॉडल गुणांक के वितरण से एक आकार बी नमूना लें। आर में ऐसा करने का एक आसान तरीका यह मान लेना है कि यह माध्य coef(model)और सहसंयोजक मैट्रिक्स के साथ सामान्य है vcov(model)। गुणांक के प्रत्येक सेट के लिए एक नई अपेक्षित वाई की गणना करें और एक अंतराल के साथ बहुत कुछ संक्षेप करें। फिर एक्स के अगले मूल्य पर आगे बढ़ें।

यह मुझे लगता है कि इस पद्धति को किसी भी चर के लिए लागू किसी भी फैंसी परिवर्तन से अप्रभावित होना चाहिए, बशर्ते आप प्रत्येक नमूना चरण में उन्हें (या उनके व्युत्क्रम) भी लागू करते हैं। इसलिए, यदि फिट किए गए मॉडल में एक भविष्यवक्ता के रूप में लॉग (एक्स) है तो नमूना गुणांक द्वारा गुणा करने से पहले अपने नए एक्स को लॉग इन करें। यदि फिट किए गए मॉडल में एक आश्रित चर के रूप में sqrt (Y) है तो प्रत्येक अंदाज में एक अंतराल के रूप में सारांशित करने से पहले नमूने में प्रत्येक वर्ग का अनुमान लगाएं।

संक्षेप में, अधिक प्रोग्रामिंग लेकिन कम संभावना गणना, और परिणामस्वरूप परिणामस्वरूप सीमांत प्रभाव। इस 'विधि' को कभी-कभी राजनीतिक विज्ञान साहित्य में क्लैरिटी के लिए संदर्भित किया जाता है, लेकिन यह सामान्य है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.