क्या कारण है कि लॉग-ट्रांस्फ़ॉर्म का उपयोग दाईं-तिरछी वितरण के साथ किया जाता है?


18

मैंने एक बार सुना था

रेखीय प्रतिगमन या क्वांटाइल प्रतिगमन में दाएं तिरछी वितरण के लिए लॉग ट्रांसफॉर्मेशन सबसे लोकप्रिय है

मैं जानना चाहूंगा कि क्या इस कथन का कोई कारण है? लॉग-रूपांतरण सही-तिरछा वितरण के लिए उपयुक्त क्यों है?

बाएं-तिरछे वितरण के बारे में कैसे?

जवाबों:


26

अर्थशास्त्री (मेरे जैसे) लोग परिवर्तन को पसंद करते हैं। हम विशेष रूप से प्रतिगमन मॉडल में इसे पसंद करते हैं, जैसे:

lnYi=β1+β2lnXi+ϵमैं

हम इसे इतना प्यार क्यों करते हैं? जब मैं इस पर व्याख्यान देता हूं, तो मैं उन छात्रों की सूची यहां देता हूं:

  1. यह की सकारात्मकता का सम्मान करता है । अर्थशास्त्र और अन्य जगहों पर वास्तविक दुनिया में कई बार, वाई , स्वभाव से, एक सकारात्मक संख्या है। यह एक कीमत, एक कर की दर, एक मात्रा में उत्पादित, उत्पादन की लागत, कुछ श्रेणियों के सामानों पर खर्च आदि हो सकता है। एक अनियंत्रित रैखिक प्रतिगमन से अनुमानित मूल्य नकारात्मक हो सकता है। लॉग-तब्दील प्रतिगमन से अनुमानित मान कभी भी नकारात्मक नहीं हो सकता है। वे हैं Y j = exp ( β 1 + β 2 ln एक्स जेYY (देखेंमेरा एक पहले जवाबव्युत्पत्ति के लिए)।Y^j=exp(β1+β2lnXj)1Nexp(ei)
  2. लॉग-लॉग कार्यात्मक रूप आश्चर्यजनक रूप से लचीला है। सूचना: हमें देता है कौन सा: यही कारण है कि अलग अलग आकार के एक बहुत कुछ है। एक पंक्ति (जिसका ढलान द्वारा निर्धारित की जायेगीexp ( β 1 ) , तो जो किसी भी सकारात्मक ढलान हो सकता है), एक अतिशयोक्ति, एक परवलय, और एक "वर्ग जड़ की तरह" आकार। मैं के साथ तैयार किया हैβ1=0औरε=0,, लेकिन न तो की एक वास्तविक आवेदन में इन सही होगा ताकि ढलान और कम से घटता की ऊंचाईएक्स=
    lnYi=β1+β2lnXi+ϵiYi=exp(β1+β2lnXi)exp(ϵi)Yi=(Xi)β2exp(β1)exp(ϵi)
    लॉग-लॉग कार्यात्मक रूपों को प्यार करनाexp(β1)β1=0ϵ=0 पर सेट के बजाय 1 उन लोगों द्वारा नियंत्रित किया जाएगा।X=1
  3. जैसा कि TrynnaDoStat का उल्लेख है, लॉग-लॉग फॉर्म "बड़े मूल्यों" में खींचता है जो अक्सर डेटा को देखने में आसान बनाता है और कभी-कभी टिप्पणियों में विचरण को सामान्य करता है।
  4. गुणांक एक लोच के रूप में व्याख्या की है। यह Y में प्रतिशत वृद्धि हैβ2Y में एक प्रतिशत की वृद्धि से प्रतिशत वृद्धि है ।एक्स
  5. यदि एक डमी वैरिएबल है, तो आप इसे लॉग इन किए बिना शामिल करते हैं। इस मामले में, β 2 में प्रतिशत का अंतर है वाई के बीच एक्स = 1 श्रेणी और एक्स = 0 श्रेणी।Xβ2YX=1X=0
  6. यदि समय है, तो फिर से आप इसे आम तौर पर लॉग इन किए बिना शामिल करते हैं। इस मामले में, β 2 में विकास दर है Y --- जो कुछ समय इकाइयों में मापा एक्स में मापा जाता है। तो एक्सXβ2YXX साल है, तो गुणांक में वार्षिक वृद्धि दर है उदाहरण के लिए,।Y
  7. ढलान गुणांक, , स्केल-अपरिवर्तनीय हो जाता है। इसका मतलब है, एक तरफ, कि इसकी कोई इकाइयाँ नहीं हैं, और दूसरी ओर, कि अगर आप पुनः पैमाने पर (यानी) X या Y की इकाइयाँ बदलते हैं , तो इसका अनुमानित मूल्य पर बिल्कुल कोई प्रभाव नहीं पड़ेगाβ2XY । कम से कम, ओएलएस और अन्य संबंधित अनुमानकर्ताओं के साथ।β2
  8. यदि आपका डेटा लॉग-सामान्य रूप से वितरित किया जाता है, तो लॉग ट्रांसफ़ॉर्मेशन उन्हें सामान्य रूप से वितरित करता है। आम तौर पर वितरित डेटा उनके लिए बहुत सारे हैं।

सांख्यिकीविद आमतौर पर अर्थशास्त्रियों को डेटा के इस विशेष परिवर्तन के बारे में अति उत्साही पाते हैं। यह, मुझे लगता है, क्योंकि वे मेरी बात को 8 और मेरी बात 3 की दूसरी छमाही को बहुत महत्वपूर्ण मानते हैं। इस प्रकार, ऐसे मामलों में जहां डेटा लॉग-सामान्य रूप से वितरित नहीं किया जाता है या जहां डेटा लॉगिंग नहीं होता है, रूपांतरण में डेटा का अवलोकन में समान रूप से परिवर्तन होता है, एक सांख्यिकीविद् रूपांतरण को बहुत पसंद नहीं करेगा। अर्थशास्त्री वैसे भी आगे बढ़ने की संभावना रखते हैं क्योंकि हम वास्तव में परिवर्तन के बारे में क्या पसंद करते हैं, अंक 1,2 और 4-7 हैं।


7
ये मानक बिंदु हैं, लेकिन इन्हें कंफर्ट के साथ लाना बहुत अच्छा है। कई खाते इनमें से कुछ बिंदुओं को ही कवर करते हैं। छोटा बिंदु: मुझे लगता है कि अर्थशास्त्रियों के नजरिए और सांख्यिकीविदों के नजरिए के बीच आपका विरोध थोड़ा ज्यादा है। उदाहरण के लिए, त्रुटि परिवार पर लिंक का महत्व सामान्यीकृत रैखिक मॉडल साहित्य के माध्यम से चलता है, हालांकि यह अधिक तुरही के साथ कर सकता है। कीने, ओलिवर एन। 1995. लॉग परिवर्तन विशेष है। चिकित्सा में आंकड़े 14: 811-819। DOI: 10.1002 / sim.4780140810 एक और उदाहरण है।
निक कॉक्स

21

पहले देखते हैं कि आम तौर पर क्या होता है जब हम कुछ सही तिरछा के लॉग लेते हैं।

शीर्ष पंक्ति में तीन अलग-अलग, तेजी से तिरछे वितरण से नमूनों के लिए हिस्टोग्राम होते हैं।

नीचे की पंक्ति में उनके लॉग के लिए हिस्टोग्राम होते हैं।

यहाँ छवि विवरण दर्ज करें

yएक्सz

यदि हम चाहते थे कि हमारे वितरण अधिक सामान्य दिखें, तो परिवर्तन ने निश्चित रूप से दूसरे और तीसरे मामले में सुधार किया। हम देख सकते हैं कि इससे मदद मिल सकती है।


तो यह काम क्यों करता है?

ध्यान दें कि जब हम डिस्ट्रीब्यूशन शेप की तस्वीर देख रहे होते हैं, तो हम माध्य या मानक विचलन पर विचार नहीं कर रहे होते हैं - जो अक्ष पर लेबल को प्रभावित करता है।

इसलिए हम कुछ प्रकार के "मानकीकृत" चर देखने की कल्पना कर सकते हैं (जबकि शेष सकारात्मक, सभी का समान स्थान और प्रसार है, कहते हैं)

माध्यिका के सापेक्ष दाईं ओर (उच्च मूल्यों) में अधिक "लॉग्स" खींचने से, जबकि बाईं ओर (कम मान) के मान पीछे की ओर और अधिक खिंचते जाते हैं।

यहाँ छवि विवरण दर्ज करें

एक्सyz सभी के पास 178 के पास साधन हैं, सभी के पास लगभग 150 के करीब मध्यस्थ हैं, और उनके लॉग में सभी के पास 5 हैं।

जब हम मूल डेटा को देखते हैं, तो दाईं ओर एक मान - 750 के आसपास कहते हैं - मंझला से बहुत ऊपर बैठा है। के मामले मेंy , यह माध्यिका के ऊपर 5 इंटरक्वेर्टाइल रेंज है।

लेकिन जब हम लॉग लेते हैं, तो यह माध्यिका की ओर वापस खींच जाता है; लॉग लेने के बाद यह माध्यिका के ऊपर लगभग 2 इंटरक्वेर्टल रेंज है।

y

यहाँ छवि विवरण दर्ज करें

यह कोई दुर्घटना नहीं है कि 750/150 और 150/30 का अनुपात दोनों 5 है जब लॉग (750) और लॉग (30) दोनों लॉग (वाई) के मध्य से लगभग समान दूरी पर समाप्त हो गए। इस तरह से लॉग काम करता है - निरंतर अंतर को निरंतर अंतर में परिवर्तित करना।

यह हमेशा ऐसा नहीं होता है कि लॉग ध्यान देने में मदद करेगा। उदाहरण के लिए यदि आप एक लॉगऑन रैंडम वेरिएबल कहते हैं और इसे काफी हद तक दाईं ओर शिफ्ट कर देते हैं (अर्थात इसमें एक बड़ा कंटीन्यूअस जोड़ देते हैं) ताकि माध्य मानक विचलन के सापेक्ष बड़ा हो जाए, तो उस लॉग को लेने से बहुत कम अंतर पड़ेगा आकार। यह कम तिरछा होगा - लेकिन मुश्किल से।


लेकिन अन्य परिवर्तन - वर्गमूल, कहते हैं - जैसे बड़े मूल्यों को भी खींच लेंगे। लॉग विशेष रूप से, अधिक लोकप्रिय क्यों हैं?

0.162

उदाहरण के लिए (प्रतिशत के पैमाने पर निरंतर या निकट-स्थिर प्रभाव) बहुत से आर्थिक और वित्तीय डेटा इस तरह व्यवहार करते हैं। लॉग स्केल उस मामले में बहुत मायने रखता है। इसके अलावा, उस प्रतिशत-पैमाने के प्रभाव के परिणामस्वरूप। मूल्यों का प्रसार बढ़ जाता है जैसे-जैसे माध्य बढ़ता है - और लॉग लेना भी फैल को स्थिर करता है। यह आमतौर पर सामान्यता से अधिक महत्वपूर्ण है। वास्तव में, मूल आरेख में सभी तीन वितरण परिवारों से आते हैं जहां मानक विचलन मतलब के साथ बढ़ जाएगा, और प्रत्येक मामले में लॉग लेने से विचरण स्थिर हो जाता है। [यह सब सही तिरछा डेटा के साथ नहीं होता है, हालांकि। यह उस डेटा के प्रकार में बहुत आम है जो विशेष रूप से एप्लिकेशन क्षेत्रों में फ़सल करता है।]

ऐसे समय भी होते हैं जब वर्गमूल चीजों को अधिक सममित बना देगा, लेकिन यह मेरे उदाहरणों में मेरे उपयोग की तुलना में कम तिरछा वितरण के साथ होता है।

हम (अधिक आसानी से) तीन और हल्के राइट-तिरछा उदाहरणों के एक और सेट का निर्माण कर सकते हैं, जहां वर्गमूल ने एक बाएं तिरछा, एक सममित और तीसरा अभी भी राइट-तिरछा (लेकिन पहले की तुलना में थोड़ा कम तिरछा) था।


बाएं-तिरछे वितरण के बारे में क्या?

यदि आपने एक सममित वितरण के लिए लॉग ट्रांसफ़ॉर्मेशन लागू किया है, तो यह उसी कारण से इसे बाएं-तिरछा बना देगा, यह अक्सर दाहिने तिरछा एक और सममित बनाता है - संबंधित चर्चा यहां देखें

तदनुसार, अगर आप कुछ है कि पहले से ही तिरछा बचा है करने के लिए लॉग-परिवर्तन लागू होते हैं, यह तो यह और भी बना देती हैं जाएगा अधिक छोड़ दिया तिरछा, चीजों को मंझला ऊपर और भी कठिन मंझला नीचे नीचे बातें और भी अधिक सशक्त में खींच, और खींच।

तो लॉग परिवर्तन तब मददगार नहीं होगा।

सत्ता परिवर्तन / तुकी की सीढ़ी भी देखें । तिरछा छोड़ दिए जाने वाले वितरणों को एक शक्ति लेने से अधिक सममित बनाया जा सकता है (1 से अधिक - चुकता कहना), या घातांक द्वारा। यदि यह एक स्पष्ट ऊपरी सीमा है, तो कोई ऊपरी सीमा से टिप्पणियों को घटा सकता है (एक सही तिरछा परिणाम दे सकता है) और फिर उसे बदलने का प्रयास कर सकता है।


इस उत्कृष्ट उत्तर के लिए आपको Glen_b धन्यवाद। आप हमें चित्रण करने के लिए अनुभवजन्य डेटा देते हैं और फिर यह परिवर्तन क्यों / कैसे काम करता है, के लिए एक सहज ज्ञान युक्त विवरण देते हैं। बहुत सराहना की।
राम

5

लॉग फ़ंक्शन अनिवार्य रूप से बहुत बड़े मूल्यों पर जोर देता है। नीचे दी गई छवि को देखें जो दिखाता हैy=एलn(एक्स)। नोटिस कैसे बड़े मूल्यों परएक्स-एक्सीस y- अक्ष पर अपेक्षाकृत छोटे होते हैं।

http://www.librow.com/content/common/images/articles/article-11/graph-ln.gif

अब, एक तिरछी वितरण में आपके पास कुछ बहुत बड़े मूल्य हैं। लॉग परिवर्तन अनिवार्य रूप से वितरण के केंद्र में इन मूल्यों को रील करता है जिससे यह सामान्य वितरण की तरह दिखता है।


1

ये सभी उत्तर प्राकृतिक लॉग परिवर्तन के लिए बिक्री पिच हैं। इसके उपयोग के लिए कैविटीज़ हैं, कैविटीज़ जो किसी भी और सभी परिवर्तनों के लिए सामान्य हैं। एक सामान्य नियम के रूप में, सभी गणितीय परिवर्तन अंतर्निहित कच्चे चर की पीडीएफ को फिर से खोलते हैं चाहे वह संपीड़ित करने, विस्तार करने, उल्टा, पुनर्विक्रय करने के लिए कार्य कर रहा हो। विशुद्ध रूप से व्यावहारिक दृष्टिकोण से प्रस्तुत सबसे बड़ी चुनौती यह है कि, जब प्रतिगमन मॉडल में उपयोग किया जाता है जहां पूर्वानुमान एक प्रमुख मॉडल आउटपुट होते हैं, तो आश्रित चर के रूपांतरण, वाई-हैट, संभावित रूप से महत्वपूर्ण प्रत्यावर्तन पूर्वाग्रह के अधीन हैं। ध्यान दें कि प्राकृतिक लॉग ट्रांसफ़ॉर्मेशन इस पूर्वाग्रह के लिए प्रतिरक्षा नहीं हैं, वे बस इसके द्वारा कुछ अन्य, समान अभिनय परिवर्तनों के रूप में प्रभावित नहीं होते हैं। इस पूर्वाग्रह के लिए समाधान प्रदान करने वाले कागजात हैं लेकिन वे वास्तव में बहुत अच्छी तरह से काम नहीं करते हैं। मेरी राय में, आप बहुत सुरक्षित आधार पर हैं कि आप वाई को बदलने की कोशिश नहीं कर रहे हैं और मजबूत कार्यात्मक रूप पा रहे हैं जो आपको मूल मीट्रिक को बनाए रखने की अनुमति देते हैं। उदाहरण के लिए, प्राकृतिक लॉग के अलावा, अन्य परिवर्तन भी हैं जो उलटे हाइपरबोलिक साइन या लैम्बर्ट जैसे तिरछे और कर्टोटिक चर की पूंछ को संकुचित करते हैं डब्ल्यू। ये दोनों रूपांतर सममित PDFs उत्पन्न करने में बहुत अच्छी तरह से काम करते हैं और इसलिए, भारी पूंछ वाली जानकारी से गॉसियन जैसी त्रुटियां होती हैं, लेकिन जब आप DV, Y के लिए मूल पैमाने पर भविष्यवाणियों को वापस लाने का प्रयास करते हैं तो पूर्वाग्रह को देखते हैं । यह बदसूरत हो सकता है।


3
यह भारी पूंछ वाले वितरण के साथ क्या करना है पर ध्यान केंद्रित करने के लिए लगता है (कर्टोटिक द्वारा आपका मतलब उच्च कुर्टोसिस रखने से है)। मुझे लगता है कि आपको इस प्रश्न से संबंधित कैसे वर्तनी की आवश्यकता है। इसी तरह, लैम्बर्ट कैसेडब्ल्यूप्रश्न से संबंधित स्पष्ट नहीं है। मुझे नहीं पता है कि संबंधित परिवर्तनों (जो लोगों के लिए?) के रूप में इस संबंध में और अन्य लोगों के मुकाबले परिवर्तन संबंधी पूर्वाग्रह लॉगरिदमिक परिवर्तन के लिए एक संभावित समस्या से कम नहीं है। वर्गमूल और पारस्परिक के बीच प्रभाव में मध्यवर्ती होने में उदाहरण।
निक कॉक्स

3
हम सभी नियमों के विभिन्न पहलुओं पर विश्वास करते हैं, लेकिन हम में से कई लोग यहां बातचीत करना जारी रखते हैं क्योंकि हम उनमें से ज्ञान को देखने आए हैं और स्पष्ट प्रतिबंधों के आसपास काम करने के रचनात्मक तरीके खोजे हैं। यह नियम मौलिक है: ऐसा पोस्ट जो किसी प्रश्न का उत्तर नहीं देता है। यह प्रत्येक धागे को सुसंगत, सीमित, स्वच्छ और ऑन-विषय रखने के लिए जाता है। यह ऐसी सामग्री बनाने के लिए महत्वपूर्ण है जो किसी भी अन्य प्रश्नोत्तर साइट पर आपको अधिक उपयोगी और दिलचस्प लगती है।
whuber

3
आपने इसके साथ छेड़छाड़ की है लेकिन मेरे विचार में यह एक उत्तर के रूप में बहुत समस्याग्रस्त है। 1. आप प्रश्न को कई तरह से व्यापक कर रहे हैं, जैसे भारी पूंछ वाले वितरण में भी लाकर। यह कुछ थ्रेड्स में करने के लिए एक उचित बात हो सकती है, लेकिन यहां उच्च गुणवत्ता वाले उत्तर के साथ एक अच्छी तरह से ध्यान केंद्रित धागा है और यहां अतिरिक्त जवाब पानी को मटमैला करना है। जब किसी प्रश्न के मौजूदा अच्छे उत्तर होते हैं तो नए उत्तर के लिए वास्तव में अच्छा कारण होना चाहिए।
निक कॉक्स

4
2. परिवर्तन पूर्वाग्रह के बारे में दावा हाथ लहराते रहते हैं; इस दावे से कोई तकनीकी सटीकता नहीं है, जो दावों से मेल खाता है, जिसमें रहस्यमयी दावा शामिल है कि लॉग अन्य समान परिवर्तनों की तुलना में कम समस्याग्रस्त है।
निक कॉक्स

4
3. लैंबर्ट के बारे में विस्तार से डब्ल्यूगुप्त रहता है। अधिक मोटे तौर पर, संदेश यह है कि ट्रांसफॉर्मेशन संदिग्ध हैं सिवाय इसके कि असिन्ह और लैंबर्ट अच्छे हो सकते हैं। यह विरोधाभासी लगता है और अच्छी तरह से समझाया नहीं गया है। आप स्पष्ट रूप से बहुत ज्ञानी हैं, लेकिन इसके लिए मूल्यवान होने के लिए एक सख्त एक्सपोजर शैली की आवश्यकता है। इसलिए मैं इसे अच्छे विवेक में नहीं बढ़ा सकता। इसे हटाने का आपका पहले का निर्णय मेरे विचार में बेहतर था। यहाँ और अन्य जगहों पर मुझे नहीं लगता कि आप सीवी शैली को पकड़ रहे हैं: एक कठोर पर्चे नहीं है, लेकिन उत्तर पर ध्यान केंद्रित करना होगा; गपशप, विचारोत्तेजक पोस्ट आमतौर पर अच्छी तरह से फिट नहीं होती हैं।
निक कॉक्स

0

कई दिलचस्प बिंदु बनाए गए हैं। थोड़ा और?

1) मैं सुझाव दूंगा कि रैखिक प्रतिगमन के साथ एक और मुद्दा यह है कि प्रतिगमन समीकरण का 'बाएं हाथ की ओर' E (y) है: अपेक्षित मूल्य। यदि त्रुटि वितरण सममित नहीं है, तो अपेक्षित मूल्य के अध्ययन के लिए योग्यता कमजोर है। त्रुटियों के विषम होने पर अपेक्षित मूल्य केंद्रीय हित का नहीं होता है। इसके बजाय मात्रात्मक प्रतिगमन का पता लगा सकता है। फिर, का कहना है कि, औसत या अन्य प्रतिशत अंक भी योग्य हो सकते हैं, भले ही त्रुटियां विषम हों।

2) यदि कोई प्रतिक्रिया चर को बदलने के लिए चुनाव करता है, तो एक ही फ़ंक्शन के साथ व्याख्यात्मक चर में से एक को बदलना चाह सकता है। उदाहरण के लिए, यदि किसी के पास प्रतिक्रिया के रूप में 'अंतिम' परिणाम है, तो किसी के पास व्याख्यात्मक चर के रूप में 'आधार रेखा' परिणाम हो सकता है। व्याख्या के लिए, यह एक ही फ़ंक्शन के साथ 'अंतिम' और 'आधार रेखा' को बदल देता है।

3) एक व्याख्यात्मक चर को बदलने के लिए मुख्य तर्क अक्सर प्रतिक्रिया की व्याख्यात्मकता के आसपास होता है - व्याख्यात्मक संबंध। इन दिनों, कोई अन्य विकल्पों पर विचार कर सकता है जैसे कि व्याख्यात्मक चर के लिए प्रतिबंधित क्यूबिक स्प्लिन या फ्रैक्शनल पॉलीनोमियल। निश्चित रूप से एक निश्चित स्पष्टता है यदि रैखिकता को हालांकि पाया जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.