कई प्रतिगमन का संचालन करते समय, आपको अपने भविष्यवक्ता चर को कब केंद्रित करना चाहिए और कब उन्हें मानकीकृत करना चाहिए?


281

कुछ साहित्य में, मैंने पढ़ा है कि कई व्याख्यात्मक चर के साथ एक प्रतिगमन, यदि विभिन्न इकाइयों में, मानकीकृत होने की आवश्यकता है। (मानकीकरण में माध्य को घटाना और मानक विचलन द्वारा विभाजित करना शामिल है।) अन्य मामलों में मुझे अपने डेटा को मानकीकृत करने की आवश्यकता है? क्या ऐसे मामले हैं जिनमें मुझे केवल अपने डेटा (यानी, मानक विचलन द्वारा विभाजित किए बिना) को केंद्र में रखना चाहिए?


11
एंड्रयू जेलमैन के ब्लॉग में एक संबंधित पोस्ट

31
पहले से दिए गए महान उत्तरों के अलावा, मुझे यह उल्लेख करना चाहिए कि रिज रिग्रेशन या लासो जैसे दंडात्मक तरीकों का उपयोग करते समय परिणाम मानकीकरण के लिए अपरिवर्तनीय नहीं रह जाता है। हालांकि, इसे अक्सर मानकीकृत करने की सिफारिश की जाती है। इस मामले में सीधे व्याख्याओं से संबंधित कारणों के लिए नहीं, बल्कि इसलिए कि दंड फिर अधिक समान स्तर पर विभिन्न व्याख्यात्मक चर का इलाज करेगा।
NRH

6
साइट @mathieu_r पर आपका स्वागत है! आपने दो बहुत लोकप्रिय प्रश्न पोस्ट किए हैं। कृपया उत्तोलन / दोनों प्रश्नों में से कुछ उत्कृष्ट उत्तरों को स्वीकार करने पर विचार करें;)
मैक्रो


1
जब मैंने इस प्रश्नोत्तर को पढ़ा तो इसने मुझे एक यूनीनेट साइट की याद दिला दी जिसे मैंने कई साल पहले faqs.org/faqs/ai-faq/neural-nets/part2/section-16.html पर ठोकर खाई थी यह कुछ मुद्दों और विचारों को सरलता से प्रस्तुत करता है। जब कोई डेटा को सामान्य / मानकीकृत / रीसेट करना चाहता है। मैंने इसका उत्तर यहाँ कहीं भी नहीं देखा। यह मशीन सीखने के दृष्टिकोण से अधिक विषय का इलाज करता है, लेकिन यह यहां आने वाले किसी व्यक्ति की मदद कर सकता है।
पॉल

जवाबों:


212

प्रतिगमन में, अक्सर चर को केंद्र में रखने की सिफारिश की जाती है ताकि भविष्यवाणियों का मतलब । यह बनाता है इसलिए अवरोधन शब्द की व्याख्या के अपेक्षित मूल्य के रूप में की जब भविष्यवक्ता मान उनके साधनों पर सेट होते हैं । अन्यथा, इंटरसेप्ट की व्याख्या के अपेक्षित मान के रूप में की जब भविष्यवक्ता 0 पर सेट हो जाते हैं, जो एक यथार्थवादी या व्याख्या करने योग्य स्थिति नहीं हो सकती है (जैसे कि क्या भविष्यवक्ता ऊंचाई और वजन थे?)। प्रतिगमन में स्केलिंग का एक और व्यावहारिक कारण यह है कि जब एक चर में बहुत बड़े पैमाने पर होता है, जैसे कि यदि आप एक भविष्यवक्ता के रूप में देश के जनसंख्या आकार का उपयोग कर रहे थे। उस स्थिति में, प्रतिगमन गुणांक बहुत अधिक हो सकता है0Y i Y i 10 - 6YiYiपरिमाण का छोटा क्रम (उदाहरण ) जो कंप्यूटर आउटपुट पढ़ते समय थोड़ा कष्टप्रद हो सकता है, इसलिए आप चर को उदाहरण के लिए, लाखों में जनसंख्या आकार में परिवर्तित कर सकते हैं। वह अधिवेशन जो आप भविष्यवाणियों को मानकीकृत करते हैं, मुख्य रूप से मौजूद है ताकि प्रतिगमन गुणांकों की इकाइयाँ समान हों।106

जैसा कि @gung ने और @ MånsT को स्पष्ट रूप से (+1 से दोनों, btw) को प्रदर्शित किया है, प्रतिगमन / स्केलिंग प्रतिगमन मॉडल में आपके सांख्यिकीय प्रभाव को प्रभावित नहीं करता है - अनुमान उचित रूप से समायोजित किए जाते हैं और अंतराल समान होंगे।p

अन्य स्थितियां जहां केंद्र और / या स्केलिंग उपयोगी हो सकती हैं:

  • जब आप अलग-अलग पैमानों पर योग या औसत चर बनाने की कोशिश कर रहे हैं , तो शायद किसी तरह का एक समग्र स्कोर बनाने के लिए। स्केलिंग के बिना, यह मामला हो सकता है कि एक चर का शुद्ध रूप से अपने पैमाने के कारण राशि पर बड़ा प्रभाव पड़ता है, जो अवांछनीय हो सकता है।

  • गणना और अंकन को सरल बनाने के लिए। उदाहरण के लिए, उनके नमूने के माध्यम से केंद्रित मूल्यों के एक मैट्रिक्स का नमूना सहसंयोजक मैट्रिक्स केवल । इसी प्रकार, यदि एक अविभाजित रैंडम वैरिएबल का अर्थ केन्द्रित किया गया है, तो और विचलन का अनुमान नमूने के वर्गों के नमूने माध्य को देखकर लगाया जा सकता है। मान।XXXvar(X)=E(X2)

  • उपर्युक्त से संबंधित, पीसीए की व्याख्या केवल डेटा मैट्रिक्स के एकवचन मान के अपघटन के रूप में की जा सकती है जब स्तंभों को पहली बार उनके साधनों द्वारा केंद्रित किया गया हो।

ध्यान दें कि मैंने जिन दो बुलेट बिंदुओं का उल्लेख किया है उनमें स्केलिंग आवश्यक नहीं है और मेरे द्वारा बताई गई पहली बुलेट में केंद्रबिंदु आवश्यक नहीं हो सकते हैं, इसलिए दोनों को हर समय हाथ से जाने की आवश्यकता नहीं है।


2
+1, ये अच्छे बिंदु हैं जिनके बारे में मैंने नहीं सोचा था। स्पष्टता के लिए, मुझे कुछ ठोस उदाहरणों को सूचीबद्ध करना चाहिए जहां एक शोधकर्ता एक प्रतिगमन को चलाने से पहले व्याख्यात्मक चर को संयोजित करना चाह सकता है, और इस प्रकार इसे मानकीकृत करने की आवश्यकता है। एक मामला बच्चों के व्यवहार संबंधी विकारों में अनुसंधान के लिए हो सकता है; शोधकर्ता माता-पिता और शिक्षकों दोनों से रेटिंग प्राप्त कर सकते हैं, और फिर उन्हें कुप्रबंधन के एकल उपाय में जोड़ना चाहते हैं। एक अन्य मामला एक नर्सिंग होम w / गतिविधि पर गतिविधि स्तर पर निवासियों द्वारा आत्म-मूल्यांकन और गतिविधियों के लिए साइन-अप शीट्स पर हस्ताक्षर की संख्या का अध्ययन हो सकता है।
गंग

2
लेकिन क्या हमें सिद्धांत रूप में जनसंख्या माध्य और मानक विचलन का उपयोग केंद्र / स्केलिंग के लिए नहीं करना चाहिए? व्यवहार में, क्या यह नमूना माध्य / SD का उपयोग करने जितना सरल है या इसमें और अधिक है?
अलेफसिन

3
पूर्णता के लिए, मुझे इस अच्छे उत्तर में जोड़ना चाहिए कि केंद्रित और मानकीकृत का मैट्रिक्स है। एक्सXXX
11

1
@ एलेफिन: आप वास्तव में जनसंख्या माध्य / एसडी के अलावा कुछ और उपयोग करना चाह सकते हैं, मेरा उत्तर देखें। लेकिन आपका कहना है कि हमें यह सोचना चाहिए कि सेंटरिंग / स्केलिंग के लिए क्या उपयोग करना है।
11-11 को 11

@AlefSin, मेरी सभी टिप्पणियों का अर्थ यह था कि आप नमूना माध्य / SD का उपयोग कर रहे थे। यदि आप नमूना द्वारा केंद्र का अर्थ है कि अवरोधन की व्याख्या अभी भी समान है, सिवाय इसके कि यह का अपेक्षित मूल्य है, जब भविष्यवक्ता अपने नमूना साधन सेट करते हैं । मेरे तीन बुलेट बिंदुओं की जानकारी तब भी लागू होती है जब आप नमूना मात्रा द्वारा केंद्र / स्केल करते हैं। यह भी ध्यान देने योग्य है कि यदि आप नमूना माध्य से केंद्र करते हैं, तो परिणाम 0 के साथ एक चर है, लेकिन नमूना मानक विचलन द्वारा स्केलिंग सामान्य रूप से मानक विचलन 1 (जैसे टी-स्टेटिस्टिक) के साथ परिणाम उत्पन्न नहीं करता है। Yi
मैक्रो

142

आप एक आम धारणा में आ गए हैं। हालांकि, सामान्य तौर पर, आपको कई प्रतिगमन के लिए अपने डेटा को केंद्र या मानकीकृत करने की आवश्यकता नहीं होती है। विभिन्न व्याख्यात्मक चर लगभग हमेशा अलग-अलग पैमानों पर होते हैं (अर्थात, विभिन्न इकाइयों में मापा जाता है)। ये कोई समस्या नहीं है; बेटों का अनुमान इस तरह लगाया जाता है कि वे प्रत्येक व्याख्यात्मक चर की इकाइयों को उचित रूप से प्रतिक्रिया चर की इकाइयों में बदल देते हैं। एक बात जो कभी-कभी लोग कहते हैं कि यदि आपने पहले अपने चर का मानकीकरण कर लिया है, तो आप बेटास को महत्व के उपायों के रूप में व्याख्या कर सकते हैं। उदाहरण के लिए, अगर , औरβ 2 = .3β1=.6β2=.3, तो पहले व्याख्यात्मक चर दूसरे के रूप में दो बार महत्वपूर्ण है। हालांकि यह विचार आकर्षक है, दुर्भाग्य से, यह मान्य नहीं है। कई मुद्दे हैं, लेकिन शायद इसका पालन करना सबसे आसान है कि आपके पास चर में संभावित सीमा प्रतिबंधों को नियंत्रित करने का कोई तरीका नहीं है। एक दूसरे के सापेक्ष विभिन्न व्याख्यात्मक चर के 'महत्व' का जिक्र एक बहुत ही कठिन दार्शनिक मुद्दा है। इसमें से कोई भी सुझाव नहीं है कि मानकीकरण खराब या गलत है , बस यह कि यह आमतौर पर आवश्यक नहीं है

केवल एक ही मामला मैं अपने सिर के ऊपर से सोच सकता हूं, जहां केंद्र सहायक होता है, शक्ति शब्द बनाने से पहले। कहते हैं कि आपके पास एक चर, , जो 1 से 2 तक है, लेकिन आपको प्रतिक्रिया चर के साथ एक वक्रतापूर्ण संबंध पर संदेह है, और इसलिए आप शब्द बनाना चाहते हैं । यदि आप पहले केंद्र में नहीं रखते हैं , तो आपका वर्ग शब्द साथ अत्यधिक सहसंबद्ध होगा , जो बीटा के अनुमान को खराब कर सकता है। केंद्रित पहले पतों इस मुद्दे। एक्स 2 एक्स एक्सXX2XX


(अपडेट बहुत बाद में जोड़ा गया :) एक अनुरूप मामला जिसे मैं उल्लेख करना भूल गया था, बातचीत की शर्तें पैदा कर रहा है । यदि एक इंटरैक्शन / उत्पाद शब्द दो चर से बनाया गया है जो 0 पर केंद्रित नहीं हैं, तो कुछ मात्रा में मिलीभगत को प्रेरित किया जाएगा (विभिन्न कारकों के आधार पर सटीक राशि के साथ)। पहली बार केंद्रित करना इस संभावित समस्या का समाधान करता है। फुलर स्पष्टीकरण के लिए, @Affine: Collinearity diagnostics समस्याग्रस्त से इस उत्कृष्ट उत्तर को केवल तभी देखें जब इंटरैक्शन शब्द शामिल हो


12
अगर कोई रुचि है, मैं भी यहाँ रिश्तेदार 'महत्व' अनुमान लगाने के लिए मानकीकृत बीटा का उपयोग कर के गलत विचार के बारे में बात: बहु-रेखीय प्रतिगमन के लिए परिकल्पना परीक्षण
गुंग

आपके जवाब के लिए धन्यवाद। मुझे लगता है कि मैंने इस बीच यह पता लगा लिया: एक वर्ग के रूप में एक्स के साथ बातचीत के बारे में सोच सकता है, इसलिए बोलने के लिए और इंटरेक्ट किए गए चर पर आपकी बात अधिक सामान्य होगी।
अभिमन्यु अरोड़ा

6
Belsley, Kuh, और Welsch ने अपनी 1980 की पुस्तक प्रतिगमन निदान में इस स्थिति का एक विचारशील विश्लेषण किया है (विवरण के लिए परिशिष्ट 3 बी देखें।) वे कहते हैं कि आप गलत हैं कि rescaling मदद नहीं करता है। उनका विश्लेषण समाधान प्रक्रिया की संख्यात्मक स्थिरता के संदर्भ में है , जो डेटा मैट्रिक्स की स्थिति संख्या के संदर्भ में मापा जाता है । जब विषम श्रेणियों के साथ तराजू पर चर मापा जाता है तो यह स्थिति संख्या बहुत अधिक हो सकती है। फिर स्केलिंग कारकों के भीतर में अधिकांश "खराबता" को अवशोषित करेगा । परिणामी समस्या बहुत बेहतर होगी। XX
whuber

बीटा 1 = 0.6 और बीटा 2 = 0.3 के बारे में, मुझे यकीन नहीं है कि बीटा 1 उतना ही महत्वपूर्ण है, जितना कि बीटा 2 उपयुक्त है, लेकिन मैंने सोचा कि जब से वे मानकीकृत हुए हैं, वे उसी 'पैमाने' पर हैं, यानी इकाइयां मानक विचलन हैं मतलब से। कहा कि, बीटा 2 (एक्स 1 स्थिरांक की तुलना में) की तुलना में वाई 1 की प्रतिक्रिया बीटा 1 के मामले में दोगुनी अधिक होगी। सही? या मुझे रास्ते में कुछ गलत समझ में आया है?
चाओ

@chao, आपने वास्तव में उन इकाइयों से छुटकारा नहीं पाया है जो 2 चर के लिए आंतरिक हैं; आपने अभी उन्हें छिपाया है। अब, X1 की इकाइयाँ प्रति 13.9 सेमी, और X2 की इकाइयाँ 2.3 डिग्री सेल्सियस के अनुसार हैं।
गंग

80

अन्य उत्तरों में टिप्पणियों के अलावा, मैं यह बताना चाहता हूं कि व्याख्यात्मक चर के पैमाने और स्थान किसी भी तरह से प्रतिगमन मॉडल की वैधता को प्रभावित नहीं करते हैं ।

मॉडल पर विचार करें ।y=β0+β1x1+β2x2++ϵ

कम से कम वर्गों आकलनकर्ता की स्थानांतरण से प्रभावित नहीं हैं। कारण यह है कि ये फिटिंग सतह के ढलान हैं - अगर आप एक इकाई को बदलते हैं तो सतह कितनी बदल जाती है। यह स्थान पर निर्भर नहीं करता है। ( हालांकि, का अनुमानक , करता है।)β1,β2,x1,x2,β0

समीकरणों को देख कर आकलनकर्ता के लिए आप देख सकते हैं कि स्केलिंग एक कारक के साथ तराजू एक पहलू से । इसे देखने के लिए, ध्यान देंx1aβ^11/a

β^1(x1)=i=1n(x1,ix¯1)(yiy¯)i=1n(x1,ix¯1)2.

इस प्रकार

β^1(ax1)=i=1n(ax1,iax¯1)(yiy¯)i=1n(ax1,iax¯1)2=ai=1n(x1,ix¯1)(yiy¯)a2i=1n(x1,ix¯1)2=β^1(x1)a.

(उदाहरण के लिए) के लिए इसी सूत्र को देखने से यह (उम्मीद है) स्पष्ट है कि यह स्केलिंग अन्य ढलानों के अनुमानकों को प्रभावित नहीं करती है।β^2

इस प्रकार, स्केलिंग बस इसी ढलानों स्केलिंग से मेल खाती है।

जैसा कि गूँग बताते हैं, कुछ लोग मानक विचलन द्वारा इस उम्मीद में पुनर्विक्रय करना पसंद करते हैं कि वे व्याख्या कर पाएंगे कि विभिन्न चर कितने "महत्वपूर्ण" हैं। हालांकि इस प्रथा पर सवाल उठाया जा सकता है, यह ध्यान दिया जा सकता है कि यह उपरोक्त संगणना में को चुनने से मेल खाती है , जहां का मानक विचलन है (जो कि एक अजीब बात के साथ शुरू करने के लिए कहना है, क्योंकि हैं) दृढ़ संकल्प होना)।ai=1/sisix1xi


1
क्या यह बहुत अच्छा है कि बहुत ही तिरछा हो सकने वाले चरों को खड़ा करना या सममित रूप से वितरित चर को मानकीकृत करना बेहतर है? क्या हमें केवल इनपुट वैरिएबल या परिणामों को भी स्थिर करना चाहिए?
स्केन

31

यदि आप अपने मॉडल को फिट करने के लिए ग्रेडिएंट डिसेंट का उपयोग करते हैं, तो मानकीकृत कोवरिएट्स अभिसरण को गति प्रदान कर सकते हैं (क्योंकि जब आपके पास असमान कोवरिएट्स होते हैं, तो संबंधित पैरामीटर अनुचित रूप से ढाल पर हावी हो सकते हैं)। इसे समझने के लिए, कुछ आर कोड:

> objective <- function(par){ par[1]^2+par[2]^2}  #quadratic function in two variables with a minimum at (0,0)
> optim(c(10,10), objective, method="BFGS")$counts  #returns the number of times the function and its gradient had to be evaluated until convergence
    function gradient 
          12        3 
> objective2 <- function(par){ par[1]^2+0.1*par[2]^2}  #a transformation of the above function, corresponding to unscaled covariates
> optim(c(10,10), objective2, method="BFGS")$counts
function gradient 
      19       10 
> optim(c(10,1), objective2, method="BFGS")$counts  #scaling of initial parameters doesn't get you back to original performance
function gradient 
      12        8

इसके अलावा, एसवीएम के कुछ अनुप्रयोगों के लिए, स्केलिंग पूर्वानुमानात्मक प्रदर्शन में सुधार कर सकती है: समर्थन वेक्टर डेटा विवरण में फ़ीचर स्केलिंग


25

मैं केंद्रित और मानकीकरण दोनों के लिए "ठोस कारण" पसंद करता हूं (वे बहुत बार मौजूद हैं)। सामान्य तौर पर, उन्हें डेटा विश्लेषण विधि के साथ डेटा सेट और समस्या के साथ अधिक करना पड़ता है।

बहुत बार, मैं भौतिक रूप से / रासायनिक रूप से / जैविक रूप से / ... अन्य बिंदुओं की तुलना में केंद्र (यानी डेटा की उत्पत्ति को स्थानांतरित करना) पसंद करता हूं (मतलब मैक्रो का जवाब भी देखें), जैसे

  • एक नियंत्रण समूह का मतलब है

  • खाली संकेत

संख्यात्मक स्थिरता केंद्र और / या स्केल डेटा के लिए एक एल्गोरिथम-संबंधित कारण है।

इसके अलावा, मानकीकरण के बारे में समान प्रश्न पर एक नज़र डालें । जिसमें "केवल केंद्र" भी शामिल है।


24

@Cbeleites द्वारा उल्लिखित संख्यात्मक स्थिरता के मुद्दे को समझने के लिए, साइमन वुड से एक उदाहरण है कि "कैसे" तोड़ दिया जाए lm()। पहले हम कुछ सरल डेटा उत्पन्न करेंगे और एक साधारण द्विघात वक्र को फिट करेंगे।

set.seed(1); n <- 100
xx <- sort(runif(n))
y <- .2*(xx-.5)+(xx-.5)^2 + rnorm(n)*.1
x <- xx+100
b <- lm(y ~ x+I(x^2))

plot(x,y)
lines(x, predict(b), col='red')

यहां छवि विवरण दर्ज करें

लेकिन अगर हम एक्स को 900 जोड़ते हैं, तो परिणाम बहुत समान होना चाहिए सिवाय दाईं ओर शिफ्ट किए, नहीं? दुर्भाग्य से नहीं...

X <- x + 900
B <- lm(y ~ X+I(X^2))
plot(X,y)
lines(X, predict(B), col='blue')

यहां छवि विवरण दर्ज करें

@Scortchi द्वारा टिप्पणी में जोड़ने के लिए संपादित करें - अगर हम lm () द्वारा लौटाई गई वस्तु को देखते हैं तो हम देखते हैं कि द्विघात शब्द का अनुमान नहीं लगाया गया है और इसे NA के रूप में दिखाया गया है।

> B
Call:
lm(formula = y ~ X + I(X^2))

Coefficients:
(Intercept)            X       I(X^2)  
  -139.3927       0.1394           NA  

और जैसा कि @Sortchi द्वारा सुझाया गया है, अगर हम मॉडल मैट्रिक्स को देखते हैं और सीधे हल करने की कोशिश करते हैं, तो यह "टूट जाता है"।

> X <- model.matrix(b) ## get same model matrix used above
> beta.hat <- solve(t(X)%*%X,t(X)%*%y) ## direct solution of ‘normal equations’
Error in solve.default(t(X) %*% X, t(X) %*% y) : 
  system is computationally singular: reciprocal condition number = 3.9864e-19

हालाँकि, lm()मुझे R-3.1.1 NAकी I(X^2)लाइन पर s के अलावा कोई चेतावनी या त्रुटि संदेश नहीं देता है summary(B)। अन्य एल्गोरिदम अलग-अलग उदाहरणों के साथ अलग-अलग तरीकों से "टूट" सकते हैं।


10
(+1) नोट lmद्विघात शब्द के लिए गुणांक का अनुमान लगाने में विफल रहता है, और एक विलक्षण डिजाइन मैट्रिक्स के बारे में चेतावनी देता है - शायद इन भूखंडों की तुलना में समस्या का अधिक प्रत्यक्ष रूप से चित्रण।
Scortchi

3

मुझे गंभीरता से संदेह है कि क्या मूल डेटा को केंद्रित या मानकीकृत करना वास्तव में मल्टीकोलिनरिटी समस्या को कम कर सकता है जब चुकता शब्द या अन्य इंटरैक्शन शब्द रिग्रेशन में शामिल होते हैं, जैसा कि आप में से कुछ, विशेष रूप से, ऊपर सिफारिश की है।

मेरी बात को समझने के लिए, आइए एक सरल उदाहरण पर विचार करें।

मान लीजिए कि वास्तविक विनिर्देश निम्न रूप लेता है जैसे कि

yi=b0+b1xi+b2xi2+ui

इस प्रकार संबंधित OLS समीकरण द्वारा दिया जाता है

yi=yi^+ui^=b0^+b1^xi+b2^xi2+ui^

जहां की सज्जित मूल्य है , अवशिष्ट, है - निरूपित OLS के लिए अनुमान है - -। मापदंडों कि अंतत: हम में रुचि रखते हैं सरलता के लिए, जाने उसके बाद।yi^yiuib0^b2^b0b2zi=xi2

आमतौर पर, हम जानते हैं कि और अत्यधिक सहसंबद्ध होने की संभावना है और यह मल्टीकोलिनरिटी समस्या का कारण होगा। इसे कम करने के लिए, एक लोकप्रिय सुझाव शब्द जोड़ने से पहले से का मतलब घटाकर मूल डेटा को केंद्रित करेगा ।xx2yiyi

यह दिखाना काफी आसान है कि का अर्थ निम्नानुसार दिया गया है: जहां , , क्रमशः , और का अर्थ दर्शाते हैं।yi

y¯=b0^+b1^x¯+b2^z¯
y¯x¯z¯yixizi

इसलिए, से हैy¯yi

yiy¯=b1^(xix¯)+b2^(ziz¯)+ui^

जहाँ , , और चर चर हैं। और - जिन मापदंडों का अनुमान लगाया जाता है, वे मूल OLS प्रतिगमन के समान ही रहते हैं। एक्स मैं - ˉ एक्स जेड मैं - ˉ z ^ 1 ^ 2yiy¯xix¯ziz¯b1^b2^

हालांकि, यह स्पष्ट है कि मेरी उदाहरण में, केंद्रित आरएचएस-चर और के रूप में uncentered ठीक उसी सहप्रसरण / संबंध हो और , यानी ।एक्स 2 एक्स एक्स 2 corr ( एक्स , जेड ) = corr ( एक्स - ˉ एक्स , जेड - ˉ z )xx2xx2corr(x,z)=corr(xx¯,zz¯)

सारांश में, अगर केंद्र पर मेरी समझ सही है, तो मुझे नहीं लगता कि डेटा को केंद्रित करने से MC-problem को कम करने में मदद मिलेगी, जिसमें चुकता शब्द या प्रतिगमन में अन्य उच्च क्रम शब्द शामिल हैं।

मुझे आपकी राय सुनकर खुशी होगी!


2
आपके योगदान के लिए धन्यवाद, @ rudi0086021 आप सही हो सकते हैं, लेकिन मुझे यहां कुछ मुद्दे दिखाई देते हैं। 1, केंद्र x के माध्य को घटाने के बारे में है, y के माध्य को घटाने के बारे में नहीं ; दूसरा, आपको पहले केंद्र की आवश्यकता है, आपके द्वारा नोट किए जाने के बाद किसी भी तरह का पासवर्ड लगाने का कोई प्रभाव नहीं है। पर विचार करें: x = c(1,2,3); x2 = x^2; cor(x, x2); # [1] 0.9897433; xc = c(-1,0,1); xc2 = xc^2; cor(xc, xc2) # [1] 0
गंग

आपके उत्तर के लिए धन्यवाद, @gung यहाँ मेरा विचार है सबसे पहले, व्यक्तिगत रूप से मैंने निर्भर और स्वतंत्र चर के इलाज के लिए कोई ठोस कारण नहीं देखा, अर्थात् स्वतंत्र चर के लिए, जबकि निर्भर चर के लिए ऐसा नहीं किया।
रुडी ०० r६०२१

2
दूसरे, जैसा कि आपने कहा, शायद हमें चुकता शब्द बनाने से पहले डेटा को केंद्र में रखना चाहिए। इस तरह की प्रथा एमसी समस्या को कम करेगी। हालाँकि, यह पक्षपाती अनुमान या अधिक संक्षिप्त रूप से, छोड़े गए परिवर्तनशील पूर्वाग्रह (OVB) को जन्म दे सकता है। उदाहरण के लिए, निम्नलिखित उदाहरण देखें: मान लें कि वास्तविक विनिर्देश है: y = b0 + b1 * x + b2 * x ^ 2 + u। डेटा को पहले से देना: y = b0 + b1 * (x-xhar) + b2 * (x-xbar) ^ 2 + v होगा, जहां नई त्रुटि शब्द v = u + b1 * xbar-b2 / xbar ^ 2 + 2B2 * xbar * x। यह स्पष्ट है कि कोव (एक्स-एक्सबार, वी)! = 0। इस प्रकार, दुर्भाग्य से, पहले से डेटा को केंद्रित करने से पक्षपाती अनुमान हो जाएगा।
रुडी ०० r६०२१

@ rudi0086021 आपकी पिछली टिप्पणी में ऐसा लगता है कि आप मान लेते हैं कि केंद्रीकृत डेटा को फिट करने के दौरान आपको समान गुणांक प्राप्त होगा, जैसा कि आपके पास बिना दर्ज किए गए डेटा को फिट करने के दौरान होगा। लेकिन वर्ग लेने से पहले केंद्रित करना एक स्थिर द्वारा एक सरल बदलाव नहीं है, इसलिए किसी को समान गुणांक प्राप्त करने की उम्मीद नहीं करनी चाहिए। B0 + B1 * (x-xbar) + B2 * (x-xbar) ^ 2 द्वारा B0 = b0 + b1 * xbar + b2 * xbar ^ 2, B1 = 1 + 2 * b2 * को केन्द्रित करने के बाद सबसे अच्छा फिट है। xbar और B2 = b2। इस प्रकार, वी = यू। इस टिप्पणी पर इतनी बेबाकी से प्रतिक्रिया देने के लिए क्षमा करें, लेकिन मेरे जैसे अन्य लोग हमेशा हो सकते हैं जो आज पहली बार इसे देखते हैं।
टिम गुडमैन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.