डेटा पर वर्गमूल परिवर्तन का उपयोग करने का कारण क्या हो सकता है?


15

क्या डेटा को वर्गमूल के साथ बदलने के लिए मैं क्या सोच सकता हूं, इसका कोई कारण है? मेरा मतलब है कि मैं हमेशा निरीक्षण करता हूं कि आर ^ 2 बढ़ता है। लेकिन यह शायद डेटा को केंद्रित करने के कारण है! किसी भी विचार की सराहना की है!


मैंने इस सवाल का जवाब दिया है और अधिक सामान्य सवाल यहाँ दिए गए हैं। आँकड़े
18844/

3
यदि निर्भर चर भिन्न है, तो R- वर्गों की तुलना नहीं की जा सकती है।

जवाबों:


13

सामान्य तौर पर, पैरामीट्रिक रिग्रेशन / GLM मानती है कि चर और प्रत्येक X चर के बीच संबंध रैखिक है, कि आप एक बार फिट होने वाले अवशिष्टों को मॉडल के सामान्य वितरण का अनुसरण करते हैं और अवशेषों का आकार लगभग सभी तरह से रहता है आपकी सज्जित रेखा के साथ। जब आपका डेटा इन मान्यताओं के अनुरूप नहीं होता है, तो रूपांतरण मदद कर सकता है। YX

यह सहज है, तो होना चाहिए कि आनुपातिक है करने के लिए एक्स 2 तब वर्ग पक्ष Y इस रिश्ते linearises, एक मॉडल के लिए अग्रणी है कि बेहतर फिट मान्यताओं और है कि और अधिक विचरण बताते हैं (है उच्चYX2Y )। स्क्वायर रुटिंग वाई भी मदद करता है जब आपको समस्या होती है कि आपके अवशेषों का आकार आपके एक्स के मूल्यों के रूप में उत्तरोत्तर बढ़ता हैR2YXवृद्धि (अर्थात सज्जित रेखा के चारों ओर डेटा बिंदुओं का बिखराव अधिक चिह्नित हो जाता है क्योंकि आप इसके साथ आगे बढ़ते हैं)। एक स्क्वायर रूट फ़ंक्शन के आकार के बारे में सोचें: यह पहले तो बहुत तेजी से बढ़ता है लेकिन फिर संतृप्त होता है। इसलिए एक वर्गमूल परिवर्तन को लागू करने से छोटी संख्या बढ़ जाती है लेकिन बड़े को स्थिर करती है। तो आप इसके बारे में सोच सकते हैं कि फिट लाइन से कम मानों पर छोटे अवशेषों को धकेलना और लाइन के प्रति उच्च X मानों पर बड़े अवशेषों को स्क्वीज़ करना । (यह मानसिक आशुलिपि उचित गणित नहीं है!)XX

जैसा कि पैनीप और ओश्रम कहते हैं, यह सिर्फ एक संभावित परिवर्तन है जो कुछ परिस्थितियों में मदद करेगा, और बॉक्स-कॉक्स फॉर्मूला जैसे उपकरण आपको सबसे उपयोगी लेने में मदद कर सकते हैं। जब आप किसी मॉडल को फिट करते हैं, तो मैं हमेशा फिट रहने वाले मूल्यों के खिलाफ अवशिष्टों के एक भूखंड (और एक सामान्य संभावना भूखंड या हिस्टोग्राम के हिस्टोग्राम) को देखने की आदत में शामिल होने की सलाह दूंगा। आप पाएंगे कि आप अंत में इन से देख पाएंगे कि किस प्रकार का परिवर्तन मदद करेगा।


धन्यवाद! मुझे पता है कि बॉक्सक फंकशन है, लेकिन मैं सोच रहा था कि sqrt परिवर्तन किन व्यावहारिक कारणों से समझ में आता है! धन्यवाद!
मार्कडॉलर

1
यदि त्रुटियों का प्रसरण रैखिक रूप से श्रृंखला के स्तर से संबंधित है तो एक लघुगणकीय परिवर्तन लेता है। यदि मानक विचलन श्रृंखला के स्तर से रैखिक रूप से संबंधित है, तो एक वर्गमूल परिवर्तन लेता है। चयन का अवशेषों के आकार से कोई लेना-देना नहीं है क्योंकि यह पहले और दूसरे पल के युग्मन / डी-युग्मन के साथ वाई और सभी के स्तर से संबंधित है।
आयरिशस्टैट

1
Freya, मानसिक शॉर्टहैंड के लिए +1 >> उचित गणित। क्या यह अंतर्ज्ञान L.5-मेट्रिक्स-फॉर-क्लस्टरिंग का उपयोग करने का एक कारण भी है ?
डेनिस

हाय डेनिस, मुझे डर है कि मुझे क्लस्टरिंग के बारे में कुछ भी पता नहीं है।
फ्रेया हैरिसन

10

वर्गमूल परिवर्तन केवल बॉक्स-कॉक्स बिजली परिवर्तन का एक विशेष मामला है (पेंगफी ली द्वारा एक अच्छा अवलोकन, उपयोगी रीडिंग हो सकता है और यहां पाया जाता है ), और कुछ केंद्रीकरण को छोड़ देना।λ=0.5

बॉक्स-कॉक्स परिवर्तनों का उद्देश्य रैखिक मॉडल धारण के लिए सामान्य मान्यताओं को सुनिश्चित करना है। यही है, yN(Xβ,σ2In)

हालांकि यह एक प्राथमिक निश्चित मूल्य हो सकता है (और शायद) इष्टतम नहीं है। आर में आप carलाइब्रेरी के एक फंक्शन पर विचार कर सकते हैं, powerTransformजो आपके द्वारा काम करने वाले किसी भी डेटा के लिए लीनियर रिग्रेशन या किसी भी डेटा में भाग लेने के लिए बॉक्स-कॉक्स ट्रांसफॉर्मेशन के लिए एक इष्टतम मूल्य का अनुमान लगाने में मदद करता है ( example(powerTransform)आगे के विवरण के लिए देखें)।


5

जब चर एक पॉइसन वितरण का अनुसरण करता है, तो वर्गमूल परिवर्तन के परिणाम गाऊसी के अधिक निकट होंगे।


क्या आप इस दावे के लिए कुछ तर्क दे सकते हैं?
utdiscant

यह वास्तव में पैरामीटर के विशिष्ट मूल्य के साथ व्यक्तिगत वितरण के लिए बहुत मदद नहीं करता है, लेकिन यह पैरामीटर के भिन्न होने पर प्राप्त वितरण के परिवार को बनाता है, निरंतर विचरण के साथ
kjetil b halvorsen


3

वर्गमूल लेना कभी-कभी गैर-सामान्य चर बनाने की वकालत की जाती है जो प्रतिगमन समस्याओं में एक सामान्य चर की तरह दिखाई देता है। लघुगणक एक और आम संभव परिवर्तन है।


0

ब्रे-कर्टिस के साथ गणना की जाने वाली दूरी मैट्रिक्स आमतौर पर कुछ डेटा के लिए मीट्रिक नहीं होती है, जो नकारात्मक eigenvalues ​​को जन्म देती है। इस समस्या को दूर करने के लिए समाधानों में से एक है (लघुगणक, वर्गमूल या डबल स्क्वायर रूट) इसे बदलना।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.