गणना डेटा के लिए वर्गमूल परिवर्तन की सिफारिश क्यों की जाती है?


57

जब आप डेटा की गणना करते हैं तो अक्सर वर्गमूल लेने की सिफारिश की जाती है। (सीवी पर कुछ उदाहरणों के लिए, @ HarveyMotulsky का उत्तर यहां देखें , या @ व्हिबर का उत्तर यहां दें ।) दूसरी ओर, जब पॉइज़न के रूप में वितरित प्रतिक्रिया चर के साथ एक सामान्यीकृत रैखिक मॉडल को फिट किया जाता है, तो लॉग कैन्यन लिंक होता है । यह आपके प्रतिक्रिया डेटा का लॉग परिवर्तन लेने की तरह है (हालांकि अधिक सटीक रूप से यह का लॉग ट्रांसफॉर्मेशन ले रहा है , पैरामीटर जो प्रतिक्रिया वितरण को नियंत्रित करता है)। इस प्रकार, इन दोनों के बीच कुछ तनाव है। λ

  • आप इस (स्पष्ट) विसंगति को कैसे समेटेंगे?
  • वर्गमूल लघुगणक से बेहतर क्यों होगा?

जवाबों:


45

वर्गमूल पोइसन के लिए लगभग विचरण-स्थिरीकरण है । स्क्वायर रूट पर कई विविधताएं हैं जो गुणों में सुधार करती हैं, जैसे कि 3 जोड़ना38 वर्गमूल ले, या उससे पहलेफ्रीमैन-Tukey(X+X+1 - हालांकि यह अक्सर माध्य के लिए समायोजित किया जाता है)।

यहाँ छवि विवरण दर्ज करें

वर्गमूल परिवर्तन कुछ हद तक समरूपता में सुधार करता है - हालांकि 2 के रूप में भी नहीं23 शक्ति करता है [1]:

यहाँ छवि विवरण दर्ज करें

यदि आप विशेष रूप से निकट-सामान्यता चाहते हैं (जब तक कि पॉइसन का पैरामीटर वास्तव में छोटा नहीं है) और देखभाल न करें / विषमलैंगिकता के लिए समायोजित कर सकते हैं , 2 का प्रयास करें23

y=log(y+c)0c0.40.5μ120.43

इस कारण से कि लोग दूसरे पर एक परिवर्तन (या कोई नहीं) चुनते हैं - यह वास्तव में एक बात है कि वे इसे हासिल करने के लिए क्या कर रहे हैं।

[१]: हेनरिक बेंग्टसन के भूखंडों के बाद उनके प्लॉट "जनरलाइज्ड लीनियर मॉडल्स एंड ट्रांसफॉर्मेड रेजिड्यूल्स" में देखे गए प्लॉट यहां देखें (पी 4 पर पहली स्लाइड देखें)। मैंने थोड़ा y-jitter जोड़ा और लाइनों को छोड़ दिया।


1
(0,+)(-,+)λ

2
एक्स'y

1
+1 वर्गमूल गणना डेटा से निपटने के लिए केवल एक प्रारंभिक बिंदु है। लघुगणक भी एक अच्छा विकल्प है। डेटा अक्सर आपको बताएगा कि कौन सा एक उपयोगी और रसीला विवरण प्राप्त करने में अधिक सफल है। गूँग, आपके द्वारा दिए गए उत्तर में , यह दर्शाता है कि वर्गमूल एक अच्छा विकल्प था जो दाहिने हाथ की आकृति में स्पष्ट रूप से गैर-बाहरी अवशेषों के सममित वितरण में निहित है। जब आप सिमुलेशन के मापदंडों को बदलते हैं, तो आप पाएंगे कि समरूपता बनाए रखी गई है।
whuber

1
@Glen मैंने नहीं कहा कि लॉग हमेशा एक अच्छा विकल्प है। लेकिन कभी-कभी वे जड़ों से बेहतर होते हैं। जब शून्य गणना दिखाई देती है तो हां, आपको "प्रारंभ" लघुगणक की आवश्यकता होती है । यहां अन्य थ्रेड्स ने शुरुआती मूल्य प्राप्त करने के तरीकों पर चर्चा की है । जब डेटा में कोई शून्य गणना नहीं होती है, तो लॉग में कोई समस्या नहीं होगी।
whuber

2
एक्स+3/8एक्सएक्स+सीसीएक्स+3/8
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.