क्या डेटा को वर्गमूल के साथ बदलने के लिए मैं क्या सोच सकता हूं, इसका कोई कारण है? मेरा मतलब है कि मैं हमेशा निरीक्षण करता हूं कि आर ^ 2 बढ़ता है। लेकिन यह शायद डेटा को केंद्रित करने के कारण है! किसी भी विचार की सराहना की है!
क्या डेटा को वर्गमूल के साथ बदलने के लिए मैं क्या सोच सकता हूं, इसका कोई कारण है? मेरा मतलब है कि मैं हमेशा निरीक्षण करता हूं कि आर ^ 2 बढ़ता है। लेकिन यह शायद डेटा को केंद्रित करने के कारण है! किसी भी विचार की सराहना की है!
जवाबों:
सामान्य तौर पर, पैरामीट्रिक रिग्रेशन / GLM मानती है कि चर और प्रत्येक X चर के बीच संबंध रैखिक है, कि आप एक बार फिट होने वाले अवशिष्टों को मॉडल के सामान्य वितरण का अनुसरण करते हैं और अवशेषों का आकार लगभग सभी तरह से रहता है आपकी सज्जित रेखा के साथ। जब आपका डेटा इन मान्यताओं के अनुरूप नहीं होता है, तो रूपांतरण मदद कर सकता है।
यह सहज है, तो होना चाहिए कि आनुपातिक है करने के लिए एक्स 2 तब वर्ग पक्ष Y इस रिश्ते linearises, एक मॉडल के लिए अग्रणी है कि बेहतर फिट मान्यताओं और है कि और अधिक विचरण बताते हैं (है उच्च )। स्क्वायर रुटिंग वाई भी मदद करता है जब आपको समस्या होती है कि आपके अवशेषों का आकार आपके एक्स के मूल्यों के रूप में उत्तरोत्तर बढ़ता हैवृद्धि (अर्थात सज्जित रेखा के चारों ओर डेटा बिंदुओं का बिखराव अधिक चिह्नित हो जाता है क्योंकि आप इसके साथ आगे बढ़ते हैं)। एक स्क्वायर रूट फ़ंक्शन के आकार के बारे में सोचें: यह पहले तो बहुत तेजी से बढ़ता है लेकिन फिर संतृप्त होता है। इसलिए एक वर्गमूल परिवर्तन को लागू करने से छोटी संख्या बढ़ जाती है लेकिन बड़े को स्थिर करती है। तो आप इसके बारे में सोच सकते हैं कि फिट लाइन से कम मानों पर छोटे अवशेषों को धकेलना और लाइन के प्रति उच्च X मानों पर बड़े अवशेषों को स्क्वीज़ करना । (यह मानसिक आशुलिपि उचित गणित नहीं है!)
जैसा कि पैनीप और ओश्रम कहते हैं, यह सिर्फ एक संभावित परिवर्तन है जो कुछ परिस्थितियों में मदद करेगा, और बॉक्स-कॉक्स फॉर्मूला जैसे उपकरण आपको सबसे उपयोगी लेने में मदद कर सकते हैं। जब आप किसी मॉडल को फिट करते हैं, तो मैं हमेशा फिट रहने वाले मूल्यों के खिलाफ अवशिष्टों के एक भूखंड (और एक सामान्य संभावना भूखंड या हिस्टोग्राम के हिस्टोग्राम) को देखने की आदत में शामिल होने की सलाह दूंगा। आप पाएंगे कि आप अंत में इन से देख पाएंगे कि किस प्रकार का परिवर्तन मदद करेगा।
वर्गमूल परिवर्तन केवल बॉक्स-कॉक्स बिजली परिवर्तन का एक विशेष मामला है (पेंगफी ली द्वारा एक अच्छा अवलोकन, उपयोगी रीडिंग हो सकता है और यहां पाया जाता है ), और कुछ केंद्रीकरण को छोड़ देना।
बॉक्स-कॉक्स परिवर्तनों का उद्देश्य रैखिक मॉडल धारण के लिए सामान्य मान्यताओं को सुनिश्चित करना है। यही है, ।
हालांकि यह एक प्राथमिक निश्चित मूल्य हो सकता है (और शायद) इष्टतम नहीं है। आर में आप car
लाइब्रेरी के एक फंक्शन पर विचार कर सकते हैं, powerTransform
जो आपके द्वारा काम करने वाले किसी भी डेटा के लिए लीनियर रिग्रेशन या किसी भी डेटा में भाग लेने के लिए बॉक्स-कॉक्स ट्रांसफॉर्मेशन के लिए एक इष्टतम मूल्य का अनुमान लगाने में मदद करता है ( example(powerTransform)
आगे के विवरण के लिए देखें)।
जब चर एक पॉइसन वितरण का अनुसरण करता है, तो वर्गमूल परिवर्तन के परिणाम गाऊसी के अधिक निकट होंगे।
ब्रे-कर्टिस के साथ गणना की जाने वाली दूरी मैट्रिक्स आमतौर पर कुछ डेटा के लिए मीट्रिक नहीं होती है, जो नकारात्मक eigenvalues को जन्म देती है। इस समस्या को दूर करने के लिए समाधानों में से एक है (लघुगणक, वर्गमूल या डबल स्क्वायर रूट) इसे बदलना।