उन सभी चरों को लॉग-ट्रांसफ़ॉर्म क्यों न करें जो मुख्य रुचि के नहीं हैं?


10

पुस्तकों और चर्चाओं में अक्सर कहा जाता है कि जब एक भविष्यवक्ता के साथ समस्याओं (जिनमें से कुछ का सामना करना पड़ता है) का सामना करना पड़ता है, तो यह एक संभावना है। अब, मैं समझता हूं कि यह वितरण पर निर्भर करता है और भविष्यवाणियों में सामान्यता प्रतिगमन की धारणा नहीं है; लेकिन लॉग ट्रांसफ़ॉर्मिंग डेटा को अधिक समान बनाता है, आउटलेर और इतने पर कम प्रभावित होता है।

मैंने अपने सभी निरंतर चर को बदलने के बारे में सोचा, जो मुख्य अंतर के नहीं हैं, अर्थात चर जिन्हें मैं केवल समायोजित करता हूं।

क्या वह गलत है? अच्छा? निकम्मा?

जवाबों:


24

अब, मैं समझता हूं कि यह भविष्यवाणियों में वितरण और सामान्यता पर निर्भर करता है

लॉग ट्रांसफ़ॉर्मेशन डेटा को अधिक समान बनाता है

एक सामान्य दावे के रूप में, यह झूठा है --- लेकिन अगर यह मामला था, तो भी एकरूपता महत्वपूर्ण क्यों होगी ?

उदाहरण के लिए विचार करें,

i) एक बाइनरी भविष्यवक्ता केवल 1 और 2 का मान लेता है। लॉग ले रहा है यह केवल मान 0 और लॉग 2 लेने वाले बाइनरी भविष्यवक्ता के रूप में छोड़ देगा। यह वास्तव में इस भविष्यवक्ता को शामिल करने वाले शब्दों के अवरोधन और स्केलिंग के अलावा कुछ भी प्रभावित नहीं करता है। यहां तक ​​कि भविष्यवक्ता का पी-मूल्य भी अपरिवर्तित होगा, जैसा कि फिट किए गए मूल्य।

यहां छवि विवरण दर्ज करें

ii) बाएं-तिरछा भविष्यवक्ता पर विचार करें। अब लॉग लेते हैं। यह आमतौर पर अधिक बाएं तिरछा हो जाता है।

यहां छवि विवरण दर्ज करें

iii) एकसमान डेटा बाएं तिरछा हो जाता है

यहां छवि विवरण दर्ज करें

(यह अक्सर इतना चरम परिवर्तन नहीं होता है, हालांकि)

आउटलेर्स से कम प्रभावित

एक सामान्य दावे के रूप में, यह गलत है। एक भविष्यवक्ता में कम आउटलेर्स पर विचार करें।

यहां छवि विवरण दर्ज करें

मैंने अपने सभी निरंतर चरों को बदलने के बारे में सोचा जो मुख्य रुचि के नहीं हैं

किस हद तक? यदि मूल रूप से रिश्ते रैखिक थे, तो वे लंबे समय तक नहीं रहेंगे।

यहां छवि विवरण दर्ज करें

और अगर वे पहले से ही घुमावदार थे, तो ऐसा करना स्वचालित रूप से उन्हें बदतर (अधिक घुमावदार) बना सकता है, बेहतर नहीं।

-

एक भविष्यवक्ता (चाहे प्राथमिक रुचि हो या न हो) का लॉग लेना कभी-कभी उपयुक्त हो सकता है, लेकिन ऐसा हमेशा नहीं होता है।


2
इस शानदार जवाब के लिए बहुत धन्यवाद। मुझे लगता है कि हम में से कई, कम से कम मुझे, इसे इस तरह से देखने की जरूरत थी। लेकिन क्या आप इस बात से भी सहमत हैं कि राइट-स्कवड डेटा लॉग-ट्रांसफॉर्मिंग के अधीन होना चाहिए? अन्य स्कूप और रूपों से अधिक?
एडम रॉबिंसन

1
आम तौर पर नहीं, नहीं। कुछ बहुत विशिष्ट परिस्थितियों में, शायद।
Glen_b -Reinstate मोनिका

मैं यह देखकर हैरान हूं कि किसी ने भी मॉडल की व्याख्या का उल्लेख नहीं किया है। यदि आप लॉग इन करते हुए आपको आश्रित चर बनाते हैं, तो मॉडल की व्याख्या करना थोड़ा मुश्किल हो जाता है - विशेष रूप से आम लोगों के लिए या बिना सांख्यिकीय / गणितीय पृष्ठभूमि के। उदाहरण के लिए मान लें कि आपके पास एक मॉडल है जिसने फीट में एक पेड़ की ऊंचाई की भविष्यवाणी की है। इंच में ट्रंक की परिधि दी गई है। परिधि में एक इंच की वृद्धि के लिए की व्याख्या , पेड़ की औसत ऊंचाई आधे फीट के लॉग से बढ़ जाती है और अधिक बोझिल (जारी) हैβ^=0.50
StatsStudent

(con't) कहने में सक्षम होने के बजाय, उदाहरण के लिए, ट्रंक परिधि परिधि की संख्या में एक इंच की वृद्धि के लिए, पेड़ की औसत ऊंचाई आधा फीट बढ़ जाती है। बाद में व्याख्या करना आसान है और कैलकुलेटर के बिना क्षेत्र में गणना करना आसान है।
स्टैट्सस्टूडेंट

10

मेरी राय में, केवल इसके लिए लॉग ट्रांसफॉर्मेशन (और उस मामले के लिए कोई भी डेटा ट्रांसफ़ॉर्मेशन ) करने का कोई मतलब नहीं है। जैसा कि पिछले उत्तरों में बताया गया है, डेटा के आधार पर, कुछ परिवर्तन या तो अमान्य होंगे , या बेकार होंगे । मैं आपको डेटा परिवर्तन पर निम्नलिखित IMHO उत्कृष्ट परिचयात्मक सामग्री को पढ़ने के लिए अत्यधिक सलाह देता हूं : http://fmwww.bc.edu/repec/bocode/t/transint.html । कृपया ध्यान दें कि इस दस्तावेज़ में कोड उदाहरण स्टाटा भाषा में लिखे गए हैं, लेकिन अन्यथा दस्तावेज़ पर्याप्त सामान्य है और इस प्रकार, गैर-स्टाटा उपयोगकर्ताओं के लिए भी उपयोगी है।

सामान्य डेटा-संबंधी समस्याओं से निपटने के लिए कुछ सरल तकनीक और उपकरण , जैसे कि सामान्यता की कमी , आउटलेर और मिश्रण वितरण इस लेख में पाए जा सकते हैं (ध्यान दें, मिश्रण वितरण से निपटने के लिए एक दृष्टिकोण के रूप में स्तरीकरण सबसे सरल एक है - इसके लिए एक अधिक सामान्य और जटिल दृष्टिकोण मिश्रण विश्लेषण है , जिसे परिमित मिश्रण मॉडल के रूप में भी जाना जाता है , जिसका एक विवरण इस उत्तर के दायरे से परे है)। बॉक्स-कॉक्स परिवर्तन, संक्षेप में ऊपर दिए गए दो संदर्भों में उल्लेख किया गया है, विशेष रूप से गैर-सामान्य डेटा (कुछ कैविट्स के साथ) के लिए एक महत्वपूर्ण डेटा परिवर्तन है। बॉक्स-कॉक्स परिवर्तन पर अधिक जानकारी के लिए, कृपया इस परिचयात्मक लेख को देखें


2
महान संदर्भ। साझा करने के लिए धन्यवाद कि अच्छी तरह से संवेदनशीलता की आवश्यकता है। धन्यवाद।
एडम रॉबिंसन

1
@AdamRobinsson: मेरी खुशी, एडम! खुशी है कि आपको मेरा जवाब पसंद आया।
अलेक्सांद्र ब्लेक

8

लॉग ट्रांसफॉर्मिंग हमेशा चीजों को बेहतर नहीं बनाता है। जाहिर है, आप शून्य या नकारात्मक मान प्राप्त करने वाले चर को लॉग-ट्रांसफ़ॉर्म नहीं कर सकते हैं, और सकारात्मक भी जो शून्य को गले लगाते हैं, अगर लॉग-ट्रांसफ़ॉर्म किए गए नकारात्मक आउटलेर के साथ बाहर आ सकते हैं।

आपको केवल हर चीज को नियमित रूप से लॉग इन नहीं करना चाहिए, लेकिन किसी मॉडल को फिट करने से पहले चयनित पॉजिटिव प्रेडिक्टर्स (उपयुक्त रूप से, अक्सर एक लॉग लेकिन शायद कुछ और) को बदलने के बारे में सोचना अच्छा है। एक ही प्रतिक्रिया चर के लिए चला जाता है। विषय-वस्तु का ज्ञान भी महत्वपूर्ण है। भौतिकी या समाजशास्त्र से कुछ सिद्धांत या जो कुछ भी स्वाभाविक रूप से कुछ परिवर्तनों को जन्म दे सकता है। आम तौर पर, यदि आप ऐसे चरों को देखते हैं जो सकारात्मक रूप से तिरछे हैं, तो यह वह जगह है जहाँ एक लॉग (या शायद एक वर्गमूल या एक पारस्परिक) मदद कर सकता है।

कुछ प्रतिगमन ग्रंथों से लगता है कि आपको किसी भी परिवर्तन पर विचार करने से पहले नैदानिक ​​भूखंडों को देखना होगा, लेकिन मैं असहमत हूं। मुझे लगता है कि किसी भी मॉडल को फिट करने से पहले आप इन विकल्पों को कर सकते हैं सबसे अच्छा काम करना बेहतर है, ताकि आपके पास सबसे अच्छा शुरुआती बिंदु हो; फिर डायग्नोस्टिक्स को देखें कि आपको वहां से समायोजित करने की आवश्यकता है या नहीं।


सभी जोड़ते हैं कि ये विचार महत्वपूर्ण और महत्वहीन भविष्यवक्ताओं दोनों पर लागू होते हैं।
रस लेन्थ

धन्यवाद @ श्रवण! परिवर्तनों का चयन कब और कैसे किया जाए, इस बीच की कलह से मैं हमेशा भ्रमित रहता हूं; किताबें अक्सर बताती हैं कि, जैसा कि आपने लिखा है, किसी को प्रतिगमन को छूने से पहले सभी चर के रूप को जांचना होगा। अपनी अंतर्दृष्टि प्रदान करने के लिए धन्यवाद।
एडम रॉबिंसन

@rvl, आपके उत्तर के लिए धन्यवाद। क्या आप snoqइस CrossValidated धागे में डेटासेट को लॉग-ट्रांसफ़ॉर्म करेंगे (ध्यान रखें कि लक्ष्य गॉसियंस के मिश्रण को फिट करना है)?
Zhubarb

-3

1) गिनती डेटा (y> 0) -> लॉग (y) या y = exp (b0 + biXi) 2) गणना डेटा + शून्य (y> = 0) -> बाधा मॉडल (द्विपद + गिनती reg।) 3) सभी) बहुपद प्रभाव (और त्रुटियां) एडिटिव 4 होंगे) विचरण ~ माध्य -> ​​लॉग (y) या y = exp (b0 + biXi) 5) ...


यह उत्तर पढ़ना कठिन है और यह स्पष्ट नहीं है कि यह प्रश्न का उत्तर देने का प्रयास करता है या नहीं।
जुहो कोक्कल

1
टेलीग्राफिक और अनफ़ॉर्मेटेड प्रस्तुति इस उत्तर को समझ से बाहर कर देती है। क्या आपको लगता है कि आप अपने विचारों का अंग्रेजी में विस्तार कर सकते हैं और उपयोग कर सकते हैंTEX
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.