अत्यंत तिरछे वितरण को बदलना


13

मान लें कि मेरे पास एक चर है जिसका वितरण सकारात्मक रूप से बहुत अधिक डिग्री तक तिरछा है, जैसे कि सामान्य वितरण के लिए तिरछापन की सीमा के भीतर लाने के लिए लॉग लेना पर्याप्त नहीं होगा। इस बिंदु पर मेरे विकल्प क्या हैं? चर को सामान्य वितरण में बदलने के लिए मैं क्या कर सकता हूं?


2
बस यह सुनिश्चित करने के लिए, "तिरछी नकारात्मक" का अर्थ है बाईं या दाईं ओर इंगित करने वाली लंबी पूंछ? यदि यह वास्तव में नकारात्मक रूप से तिरछा (लंबी पूंछ छोड़ दी गई) है, तो लॉग-ट्रांसफ़ॉर्मेशन बहुत अच्छी तरह से काम नहीं करेगा।
पेंगुइन

6
पारस्परिक परिवर्तन लॉगरिदमिक से अधिक मजबूत है और अक्सर अर्थ को संरक्षित करता है, क्योंकि माप की इकाइयां बस उल्टा होती हैं। उदाहरण के लिए, कुछ करने के लिए समय का पारस्परिक प्रकार एक गति है, और इसके विपरीत। मील प्रति गैलन या किमी प्रति लीटर का पारस्परिक अर्थ है। प्राप्तकर्ता आदेश को उल्टा कर देता है और अगर वह बेहतर हो तो उसे नकार दिया जा सकता है। वे स्वाभाविक रूप से उस अतिरिक्त विस्तार के साथ बॉक्स-कॉक्स योजना का हिस्सा हैं। अच्छा काम करने के लिए सभी मूल्य सकारात्मक होने चाहिए। (सिद्धांत रूप में, यह नकारात्मक सभी मूल्यों के साथ काम करेगा, लेकिन मैंने अभी तक अभ्यास में एक उदाहरण नहीं देखा है।)
निक कॉक्स

2
@ अक्षल मैं एक अच्छे विचार के रूप में नहीं देख सकता। परिणाम केवल मूल्यों के लिए सांख्यिकीय रूप से सार्थक है । यदि मान मायने रखते हैं, तो यह कृत्रिम है कि 0 या 1s के लिए एक अपरिभाषित होना चाहिए, भले ही वे मान डेटा में हों। यदि मान माप हैं, तो प्रतिबंध का अर्थ है कि परिवर्तन की वैधता माप की इकाइयों की पसंद पर निर्भर करती है, जो कि बेतुका है, जैसे कि इसलिए नहीं किया जा सकता क्योंकि मैं सेमी का उपयोग करता हूं, लेकिन जा सकता है क्योंकि मैं मिमी का उपयोग करता हूं। (यह कि लघुगणक नकारात्मक तर्कों के लिए जटिल परिणाम देता है जो मुझे नहीं लगता कि सांख्यिकीय रूप से मदद करता है।)ln(ln())>1ln(ln(0.7))ln(ln(7))
निक कॉक्स

2
@ अक्षल कहने के लिए बहुत मजबूत है "लॉग ट्रांसफॉर्मेशन तिरछापन को ठीक करने के लिए एक उपकरण नहीं है": यदि तिरछापन एकमात्र मुद्दा है, तो लॉग अक्सर बहुत अच्छी तरह से काम करते हैं। यदि आपकी बात यह है कि सीमांत वितरण की विषमता एक बड़ी समस्या नहीं है, तो मैं सहमत हूं।
निक कॉक्स

3
मैं स्वाभाविक रूप से सहमत हूं, लेकिन अगर मैंने स्क्वायर या लॉगरिथम का उपयोग किया है, तो मैं संदर्भों की पेशकश करने के लिए बाध्य नहीं महसूस करूंगा, और इसी तरह यहां। लेकिन पारस्परिकता, विशेष रूप से समय और गति की उपयोगिता पर जोर दिया गया था (उदाहरण के लिए) Tukey, JW 1977. स्पष्ट डेटा विश्लेषण। पढ़ना, एमए: एडिसन-वेस्ले और उनके कई पत्रों में। गैलन प्रति गैलन और गैलन प्रति मील (या इसके विपरीत किमी प्रति किमी और किमी प्रति लीटर) कार डेटा डेटा की चर्चा में आम जगह है। घनत्व और उनके प्रतिरूप भूगोल और जनसांख्यिकी में काफी मानक उदाहरण हैं।
निक कॉक्स

जवाबों:


13

बॉक्स, जीईपी और कॉक्स, डीआर (1964), "एन एनालिसिस ऑफ ट्रांसफॉर्मेशन", जर्नल ऑफ द रॉयल स्टैटिस्टिकल सोसाइटी, सीरीज़ बी , 26, 211--234 के अनुसार सीधे बॉक्स-कॉक्स ट्रांसफ़ॉर्म की कोशिश करें । एसएएस में सामान्यकरण परिवर्तनों में अपने लॉगलीकेलीहुड फ़ंक्शन का वर्णन है , जिसका उपयोग आप इष्टतम पैरामीटर को खोजने के लिए कर सकते हैं , जिसका वर्णन एटकिंसन, एसी (1985), प्लॉट्स, ट्रांसफ़ॉर्मेशन और रिग्रेशन , न्यूयॉर्क, ऑक्सफोर्ड यूनिवर्सिटी प्रेस में किया गया है।λ

यह LL फ़ंक्शन होने पर इसे लागू करना बहुत आसान है, या यदि आपके पास एक स्टेटस पैकेज है जैसे SAS या MATLAB उनके कमांड का उपयोग करते हैं: यह MATLAB में बॉक्सकॉक्स कमांड और SAS में PROC TRANSREG है।

इसके अलावा, आर में यह एमएएसएस पैकेज, फ़ंक्शन बॉक्सकॉक्स () में है।


5

सकारात्मक तिरछा के लिए (पूंछ एक्स अक्ष के सकारात्मक छोर पर है), वर्गमूल परिवर्तन, लॉग परिवर्तन और व्युत्क्रम / पारस्परिक परिवर्तन (बढ़ती गंभीरता के क्रम में) हैं। इस प्रकार, यदि लॉग परिवर्तन पर्याप्त नहीं है, तो आप परिवर्तन के अगले स्तर का उपयोग कर सकते हैं। बॉक्स कॉक्स सभी परिवर्तनों को स्वचालित रूप से चलाता है ताकि आप सर्वश्रेष्ठ चुन सकें।


-5

अधिकांश सॉफ़्टवेयर सुइट्स डिफ़ॉल्ट लॉग आधार, AKA: प्राकृतिक लॉग के रूप में यूलर के नंबर का उपयोग करेंगे। अत्यधिक दाएं तिरछे डेटा पर लगाम लगाने के लिए आप उच्च आधार संख्या का उपयोग कर सकते हैं। आप इसे कैसे करते हैं वाक्य-रचना उस सॉफ्टवेयर पर निर्भर करती है जिसका आप उपयोग कर रहे हैं।

यदि आपको अनुमान लगा लेने के बाद आपके द्वारा बदले हुए मानों को वापस लाने की आवश्यकता होती है, तो इस विधि का उपयोग करना थोड़ा आसान हो सकता है क्योंकि आपको बस इतना करना है कि जो कुछ भी आपका लॉग बेस था उसके साथ अपने वैरिएबल पर एक घातांक ऑपरेटर प्रदर्शन करें।


6
यह बिलकुल अर्थहीन प्रतीत होता है। दो अलग-अलग आधारों के लिए लघुगणक केवल एक गुणक स्थिरांक से भिन्न होता है और इसके द्वारा तिरछा घटाव इस प्रकार होता है। इस प्रकार 1 10 100 1000 10000 लॉग बेस 10 को बदलने के बाद सममित है और यह लॉग बेस या लॉग बेस के बाद सममित होगा । केवल अंतर एक स्केलिंग कारक है। e
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.