जवाबों:
अर्थशास्त्री (मेरे जैसे) लोग परिवर्तन को पसंद करते हैं। हम विशेष रूप से प्रतिगमन मॉडल में इसे पसंद करते हैं, जैसे:
हम इसे इतना प्यार क्यों करते हैं? जब मैं इस पर व्याख्यान देता हूं, तो मैं उन छात्रों की सूची यहां देता हूं:
सांख्यिकीविद आमतौर पर अर्थशास्त्रियों को डेटा के इस विशेष परिवर्तन के बारे में अति उत्साही पाते हैं। यह, मुझे लगता है, क्योंकि वे मेरी बात को 8 और मेरी बात 3 की दूसरी छमाही को बहुत महत्वपूर्ण मानते हैं। इस प्रकार, ऐसे मामलों में जहां डेटा लॉग-सामान्य रूप से वितरित नहीं किया जाता है या जहां डेटा लॉगिंग नहीं होता है, रूपांतरण में डेटा का अवलोकन में समान रूप से परिवर्तन होता है, एक सांख्यिकीविद् रूपांतरण को बहुत पसंद नहीं करेगा। अर्थशास्त्री वैसे भी आगे बढ़ने की संभावना रखते हैं क्योंकि हम वास्तव में परिवर्तन के बारे में क्या पसंद करते हैं, अंक 1,2 और 4-7 हैं।
पहले देखते हैं कि आम तौर पर क्या होता है जब हम कुछ सही तिरछा के लॉग लेते हैं।
शीर्ष पंक्ति में तीन अलग-अलग, तेजी से तिरछे वितरण से नमूनों के लिए हिस्टोग्राम होते हैं।
नीचे की पंक्ति में उनके लॉग के लिए हिस्टोग्राम होते हैं।
यदि हम चाहते थे कि हमारे वितरण अधिक सामान्य दिखें, तो परिवर्तन ने निश्चित रूप से दूसरे और तीसरे मामले में सुधार किया। हम देख सकते हैं कि इससे मदद मिल सकती है।
तो यह काम क्यों करता है?
ध्यान दें कि जब हम डिस्ट्रीब्यूशन शेप की तस्वीर देख रहे होते हैं, तो हम माध्य या मानक विचलन पर विचार नहीं कर रहे होते हैं - जो अक्ष पर लेबल को प्रभावित करता है।
इसलिए हम कुछ प्रकार के "मानकीकृत" चर देखने की कल्पना कर सकते हैं (जबकि शेष सकारात्मक, सभी का समान स्थान और प्रसार है, कहते हैं)
माध्यिका के सापेक्ष दाईं ओर (उच्च मूल्यों) में अधिक "लॉग्स" खींचने से, जबकि बाईं ओर (कम मान) के मान पीछे की ओर और अधिक खिंचते जाते हैं।
सभी के पास 178 के पास साधन हैं, सभी के पास लगभग 150 के करीब मध्यस्थ हैं, और उनके लॉग में सभी के पास 5 हैं।
जब हम मूल डेटा को देखते हैं, तो दाईं ओर एक मान - 750 के आसपास कहते हैं - मंझला से बहुत ऊपर बैठा है। के मामले में , यह माध्यिका के ऊपर 5 इंटरक्वेर्टाइल रेंज है।
लेकिन जब हम लॉग लेते हैं, तो यह माध्यिका की ओर वापस खींच जाता है; लॉग लेने के बाद यह माध्यिका के ऊपर लगभग 2 इंटरक्वेर्टल रेंज है।
यह कोई दुर्घटना नहीं है कि 750/150 और 150/30 का अनुपात दोनों 5 है जब लॉग (750) और लॉग (30) दोनों लॉग (वाई) के मध्य से लगभग समान दूरी पर समाप्त हो गए। इस तरह से लॉग काम करता है - निरंतर अंतर को निरंतर अंतर में परिवर्तित करना।
यह हमेशा ऐसा नहीं होता है कि लॉग ध्यान देने में मदद करेगा। उदाहरण के लिए यदि आप एक लॉगऑन रैंडम वेरिएबल कहते हैं और इसे काफी हद तक दाईं ओर शिफ्ट कर देते हैं (अर्थात इसमें एक बड़ा कंटीन्यूअस जोड़ देते हैं) ताकि माध्य मानक विचलन के सापेक्ष बड़ा हो जाए, तो उस लॉग को लेने से बहुत कम अंतर पड़ेगा आकार। यह कम तिरछा होगा - लेकिन मुश्किल से।
लेकिन अन्य परिवर्तन - वर्गमूल, कहते हैं - जैसे बड़े मूल्यों को भी खींच लेंगे। लॉग विशेष रूप से, अधिक लोकप्रिय क्यों हैं?
उदाहरण के लिए (प्रतिशत के पैमाने पर निरंतर या निकट-स्थिर प्रभाव) बहुत से आर्थिक और वित्तीय डेटा इस तरह व्यवहार करते हैं। लॉग स्केल उस मामले में बहुत मायने रखता है। इसके अलावा, उस प्रतिशत-पैमाने के प्रभाव के परिणामस्वरूप। मूल्यों का प्रसार बढ़ जाता है जैसे-जैसे माध्य बढ़ता है - और लॉग लेना भी फैल को स्थिर करता है। यह आमतौर पर सामान्यता से अधिक महत्वपूर्ण है। वास्तव में, मूल आरेख में सभी तीन वितरण परिवारों से आते हैं जहां मानक विचलन मतलब के साथ बढ़ जाएगा, और प्रत्येक मामले में लॉग लेने से विचरण स्थिर हो जाता है। [यह सब सही तिरछा डेटा के साथ नहीं होता है, हालांकि। यह उस डेटा के प्रकार में बहुत आम है जो विशेष रूप से एप्लिकेशन क्षेत्रों में फ़सल करता है।]
ऐसे समय भी होते हैं जब वर्गमूल चीजों को अधिक सममित बना देगा, लेकिन यह मेरे उदाहरणों में मेरे उपयोग की तुलना में कम तिरछा वितरण के साथ होता है।
हम (अधिक आसानी से) तीन और हल्के राइट-तिरछा उदाहरणों के एक और सेट का निर्माण कर सकते हैं, जहां वर्गमूल ने एक बाएं तिरछा, एक सममित और तीसरा अभी भी राइट-तिरछा (लेकिन पहले की तुलना में थोड़ा कम तिरछा) था।
बाएं-तिरछे वितरण के बारे में क्या?
यदि आपने एक सममित वितरण के लिए लॉग ट्रांसफ़ॉर्मेशन लागू किया है, तो यह उसी कारण से इसे बाएं-तिरछा बना देगा, यह अक्सर दाहिने तिरछा एक और सममित बनाता है - संबंधित चर्चा यहां देखें ।
तदनुसार, अगर आप कुछ है कि पहले से ही तिरछा बचा है करने के लिए लॉग-परिवर्तन लागू होते हैं, यह तो यह और भी बना देती हैं जाएगा अधिक छोड़ दिया तिरछा, चीजों को मंझला ऊपर और भी कठिन मंझला नीचे नीचे बातें और भी अधिक सशक्त में खींच, और खींच।
तो लॉग परिवर्तन तब मददगार नहीं होगा।
सत्ता परिवर्तन / तुकी की सीढ़ी भी देखें । तिरछा छोड़ दिए जाने वाले वितरणों को एक शक्ति लेने से अधिक सममित बनाया जा सकता है (1 से अधिक - चुकता कहना), या घातांक द्वारा। यदि यह एक स्पष्ट ऊपरी सीमा है, तो कोई ऊपरी सीमा से टिप्पणियों को घटा सकता है (एक सही तिरछा परिणाम दे सकता है) और फिर उसे बदलने का प्रयास कर सकता है।
लॉग फ़ंक्शन अनिवार्य रूप से बहुत बड़े मूल्यों पर जोर देता है। नीचे दी गई छवि को देखें जो दिखाता है। नोटिस कैसे बड़े मूल्यों पर-एक्सीस y- अक्ष पर अपेक्षाकृत छोटे होते हैं।
अब, एक तिरछी वितरण में आपके पास कुछ बहुत बड़े मूल्य हैं। लॉग परिवर्तन अनिवार्य रूप से वितरण के केंद्र में इन मूल्यों को रील करता है जिससे यह सामान्य वितरण की तरह दिखता है।
ये सभी उत्तर प्राकृतिक लॉग परिवर्तन के लिए बिक्री पिच हैं। इसके उपयोग के लिए कैविटीज़ हैं, कैविटीज़ जो किसी भी और सभी परिवर्तनों के लिए सामान्य हैं। एक सामान्य नियम के रूप में, सभी गणितीय परिवर्तन अंतर्निहित कच्चे चर की पीडीएफ को फिर से खोलते हैं चाहे वह संपीड़ित करने, विस्तार करने, उल्टा, पुनर्विक्रय करने के लिए कार्य कर रहा हो। विशुद्ध रूप से व्यावहारिक दृष्टिकोण से प्रस्तुत सबसे बड़ी चुनौती यह है कि, जब प्रतिगमन मॉडल में उपयोग किया जाता है जहां पूर्वानुमान एक प्रमुख मॉडल आउटपुट होते हैं, तो आश्रित चर के रूपांतरण, वाई-हैट, संभावित रूप से महत्वपूर्ण प्रत्यावर्तन पूर्वाग्रह के अधीन हैं। ध्यान दें कि प्राकृतिक लॉग ट्रांसफ़ॉर्मेशन इस पूर्वाग्रह के लिए प्रतिरक्षा नहीं हैं, वे बस इसके द्वारा कुछ अन्य, समान अभिनय परिवर्तनों के रूप में प्रभावित नहीं होते हैं। इस पूर्वाग्रह के लिए समाधान प्रदान करने वाले कागजात हैं लेकिन वे वास्तव में बहुत अच्छी तरह से काम नहीं करते हैं। मेरी राय में, आप बहुत सुरक्षित आधार पर हैं कि आप वाई को बदलने की कोशिश नहीं कर रहे हैं और मजबूत कार्यात्मक रूप पा रहे हैं जो आपको मूल मीट्रिक को बनाए रखने की अनुमति देते हैं। उदाहरण के लिए, प्राकृतिक लॉग के अलावा, अन्य परिवर्तन भी हैं जो उलटे हाइपरबोलिक साइन या लैम्बर्ट जैसे तिरछे और कर्टोटिक चर की पूंछ को संकुचित करते हैं डब्ल्यू। ये दोनों रूपांतर सममित PDFs उत्पन्न करने में बहुत अच्छी तरह से काम करते हैं और इसलिए, भारी पूंछ वाली जानकारी से गॉसियन जैसी त्रुटियां होती हैं, लेकिन जब आप DV, Y के लिए मूल पैमाने पर भविष्यवाणियों को वापस लाने का प्रयास करते हैं तो पूर्वाग्रह को देखते हैं । यह बदसूरत हो सकता है।
कई दिलचस्प बिंदु बनाए गए हैं। थोड़ा और?
1) मैं सुझाव दूंगा कि रैखिक प्रतिगमन के साथ एक और मुद्दा यह है कि प्रतिगमन समीकरण का 'बाएं हाथ की ओर' E (y) है: अपेक्षित मूल्य। यदि त्रुटि वितरण सममित नहीं है, तो अपेक्षित मूल्य के अध्ययन के लिए योग्यता कमजोर है। त्रुटियों के विषम होने पर अपेक्षित मूल्य केंद्रीय हित का नहीं होता है। इसके बजाय मात्रात्मक प्रतिगमन का पता लगा सकता है। फिर, का कहना है कि, औसत या अन्य प्रतिशत अंक भी योग्य हो सकते हैं, भले ही त्रुटियां विषम हों।
2) यदि कोई प्रतिक्रिया चर को बदलने के लिए चुनाव करता है, तो एक ही फ़ंक्शन के साथ व्याख्यात्मक चर में से एक को बदलना चाह सकता है। उदाहरण के लिए, यदि किसी के पास प्रतिक्रिया के रूप में 'अंतिम' परिणाम है, तो किसी के पास व्याख्यात्मक चर के रूप में 'आधार रेखा' परिणाम हो सकता है। व्याख्या के लिए, यह एक ही फ़ंक्शन के साथ 'अंतिम' और 'आधार रेखा' को बदल देता है।
3) एक व्याख्यात्मक चर को बदलने के लिए मुख्य तर्क अक्सर प्रतिक्रिया की व्याख्यात्मकता के आसपास होता है - व्याख्यात्मक संबंध। इन दिनों, कोई अन्य विकल्पों पर विचार कर सकता है जैसे कि व्याख्यात्मक चर के लिए प्रतिबंधित क्यूबिक स्प्लिन या फ्रैक्शनल पॉलीनोमियल। निश्चित रूप से एक निश्चित स्पष्टता है यदि रैखिकता को हालांकि पाया जा सकता है।