क्या स्वतंत्र चर का मानकीकरण करना संपार्श्विकता को कम करता है?
13
मुझे Bayes / MCMC पर एक बहुत अच्छा पाठ आया है। IT सुझाव देता है कि आपके स्वतंत्र चर का मानकीकरण MCMC (मेट्रोपोलिस) एल्गोरिथ्म को और अधिक कुशल बना देगा, लेकिन यह भी कि यह (बहु) संपार्श्विकता को कम कर सकता है। क्या यह सच हो सकता है? क्या यह कुछ ऐसा है जो मुझे मानक के रूप में करना चाहिए । (क्षमा करें)
यह मुख्य प्रभावों के बीच समस्वरता को बिल्कुल भी नहीं बदलता है। स्केलिंग या तो नहीं है। कोई भी रैखिक परिवर्तन ऐसा नहीं करेगा। यह जो परिवर्तन करता है वह मुख्य प्रभावों और उनकी बातचीत के बीच संबंध है। भले ही ए और बी 0 के सहसंबंध से स्वतंत्र हों, ए और बी के बीच संबंध, स्केल कारकों पर निर्भर करेगा।
R कंसोल में निम्न का प्रयास करें। ध्यान दें कि rnormआपके द्वारा निर्धारित जनसंख्या मूल्यों के साथ सामान्य वितरण से बस यादृच्छिक नमूने उत्पन्न होते हैं, इस मामले में 50 नमूने। scaleसमारोह 0 का मतलब है एक और 1 एसडी करने के लिए नमूना मानकीकृत करता है।
set.seed(1) # the samples will be controlled by setting the seed - you can try others
a <- rnorm(50, mean = 0, sd = 1)
b <- rnorm(50, mean = 0, sd = 1)
mean(a); mean(b)
# [1] 0.1004483 # not the population mean, just a sample
# [1] 0.1173265
cor(a ,b)
# [1] -0.03908718
इन स्वतंत्र नमूनों के लिए आकस्मिक सहसंबंध 0 के पास है। अब 0 के मतलब और 1 के एसडी को सामान्य करें।
a <- scale( a )
b <- scale( b )
cor(a, b)
# [1,] -0.03908718
फिर से, यह सटीक समान मान है, भले ही इसका मतलब 0 और SD = 1 है, दोनों के लिए aऔर b।
cor(a, a*b)
# [1,] -0.01038144
यह भी 0. के पास है (a * b को अंतःक्रियात्मक शब्द माना जा सकता है)
हालाँकि, आमतौर पर SD और भविष्यवाणियों के बीच का अंतर थोड़ा भिन्न होता है, तो चलिए बदलते हैं b। मैं एक नया नमूना लेने के बजाय मूल bको 5 के मतलब और 2 के एसडी के पुनर्विक्रय करूंगा ।
b <- b * 2 + 5
cor(a, b)
# [1] -0.03908718
फिर, उस परिचित सहसंबंध को हमने सभी के साथ देखा है। स्केलिंग के बीच aऔर सहसंबंध पर कोई प्रभाव नहीं पड़ रहा है b। परंतु!!
cor(a, a*b)
# [1,] 0.9290406
अब इसका पर्याप्त सहसंबंध होगा जिसे आप केंद्र में रखकर और / या मानकीकरण करके दूर जा सकते हैं। मैं आमतौर पर सिर्फ सेंटरिंग के साथ जाता हूं।
सर्वश्रेष्ठ उत्तर - इसके लिए धन्यवाद। हो सकता है मैंने किताब को गलत तरीके से समझने में भी अन्याय किया हो, लेकिन शायद अपनी अज्ञानता को उजागर करने के लायक था।
जैसा कि दूसरों ने पहले ही उल्लेख किया है, मानकीकरण का वास्तव में संपार्श्विकता से कोई लेना-देना नहीं है।
एकदम सही मिलीभगत
आइए शुरू करते हैं कि मानकीकरण (उर्फ सामान्यीकरण) क्या है, हम इसका क्या मतलब निकालते हैं और मानक विचलन से विभाजित करते हैं ताकि परिणामी मतलब शून्य और एकता के मानक विचलन के बराबर हो। यादृच्छिक चर तो अगर मतलब है μ एक्स और मानक विचलन σ एक्स , तोएक्सμएक्सσएक्स
जेडएक्स= एक्स- μएक्सσएक्स
माध्य और मानक विचलन को अपेक्षित मान और भिन्नता के गुण दिए गए हैं कि , और , , जहां rv है और स्थिरांक हैं।σ जेड = 1 ई ( एक्स + एक ) = ई ( एक्स ) + एक ई ( ख एक्स ) = खμजेड= 0σजेड= 1इ( एक्स)+ एक ) = ई( एक्स)) + कV a r ( X + a ) = V a r ( X ) V a r ( b X ) = b 2 V a r ( X ) X a , bइ( बी एक्स) = बीइ( एक्स))V a r (X)+ एक ) = वी एक आर ( एक्स)V a r (bX)) = बी2V a r (X))एक्सए , बी
हम कहते हैं कि दो चर और हैं पूरी तरह से समरेख अगर वहाँ इस तरह के मूल्यों मौजूद है और किवाई λ 0 λ 1एक्सYλ0λ1
Y= λ0+ λ1एक्स
इसके बाद, यदि का अर्थ और मानक विचलन , तो का मतलब और मानक विचलन । अब, जब हम दोनों चर का मानकीकरण करते हैं (उनके साधनों को हटाते हैं और मानक विचलन द्वारा विभाजित करते हैं), तो हम प्राप्त ...एक्सμएक्सσएक्सYμY= λ0+ λ1μएक्सσY= λ1σएक्सजेडएक्स= जेडएक्स
सह - संबंध
निश्चित रूप से सही संपार्श्विकता कुछ ऐसी चीज नहीं है जिसे हम अक्सर देखेंगे, लेकिन दृढ़ता से सहसंबंधित चर भी एक समस्या हो सकती है (और वे कोलीनियरिटी से संबंधित प्रजातियां हैं)। तो क्या मानकीकरण सहसंबंध को प्रभावित करता है? स्केलिंग से पहले और बाद में दो प्लॉट पर दो सहसंबद्ध चर दिखाने वाले निम्नलिखित भूखंडों की तुलना करें:
क्या तुम अंतर बता सकते हो। जैसा कि आप देख सकते हैं, मैंने उद्देश्य लेबल अक्ष को हटा दिया है, इसलिए आपको यह समझाने के लिए कि मैं धोखा नहीं दे रहा हूं, जोड़े गए लेबल के साथ भूखंड देखें:
= सी ओ वी ( एक्स), एक्स)σ2एक्स= वी एक आर ( एक्स)V a r (X))= 1
जबकि मानकीकृत चर के साथ
C o r r ( Zएक्स, जेडY)= ई[ ( जेड)एक्स- 0 ) ( जेड )Y( 0 ) ]1 × 1= सी ओ वी ( जेड)एक्स, जेडY) = वी एक आर ( जेडएक्स) = 1
बाद से ...जेडएक्स=जेडY
अंत में, ध्यान दें कि क्रुस्के किस बारे में बात कर रहे हैं , यह है कि चर का मानकीकरण गिब्स नमूना के लिए जीवन को आसान बनाता है और प्रतिगमन मॉडल में अवरोधन और ढलान के बीच संबंध को कम करने की ओर जाता है जिसे वह प्रस्तुत करता है। वह यह नहीं कहता है कि चर का मानकीकरण चर के बीच टकराव को कम करता है।
मानकीकरण चर के बीच सहसंबंध को प्रभावित नहीं करता है। वे बिलकुल एक जैसे रहते हैं। सहसंबंध चर की दिशा के तुल्यकालन को पकड़ता है। मानकीकरण में कुछ भी नहीं है जो चर की दिशा को बदल देता है।
यदि आप अपने वैरिएबल के बीच बहुस्तरीयता को समाप्त करना चाहते हैं, तो मैं प्रधान घटक विश्लेषण (पीसीए) का उपयोग करने का सुझाव देता हूं। जैसा कि आप जानते हैं कि पीसीए मल्टीकोलिनरिटी की समस्या को दूर करने में बहुत प्रभावी है। दूसरी ओर PCA संयुक्त वैरिएबल (प्रमुख घटक P1, P2, आदि ...) बल्कि अपारदर्शी प्रदान करता है। एक पीसीए मॉडल हमेशा एक अधिक पारंपरिक बहुभिन्नरूपी की तुलना में समझाने के लिए बहुत अधिक चुनौतीपूर्ण होता है।
मैंने मानक स्टेपवाइज एल्गोरिदम और LASSO के बीच चर चयन का परीक्षण किया है। और, LASSO एक बहुत दूर दूसरे में आता है। LASSO वैरिएबल प्रभावों को दंडित करता है, यह मजबूत चर पर कमजोर चरों का चयन कर सकता है। यहां तक कि परिवर्तन के संकेत भी बदल सकते हैं। और, यह सांख्यिकीय महत्व, आत्मविश्वास अंतराल और भविष्यवाणी अंतराल के पूरे ढांचे को तोड़ता है। LASSO कई बार काम कर सकता है। लेकिन, MSEs बनाम लैम्ब्डा ग्राफ और गुणांक बनाम लैम्ब्डा ग्राफ को बहुत ध्यान से देखें। यदि आपका LASSO मॉडल काम करता है तो आप नेत्रहीन निरीक्षण कर सकते हैं।
यह संपार्श्विकता को कम नहीं करता है, यह VIF को कम कर सकता है। आमतौर पर हम वीआईएफ का उपयोग कोलीनियरिटी के लिए चिंताओं के लिए संकेतक के रूप में करते हैं।
साइट पर आपका स्वागत है। वर्तमान में यह एक उत्तर से अधिक टिप्पणी है। आप इसका विस्तार कर सकते हैं, शायद लिंक पर जानकारी का सारांश देकर, या हम इसे आपके लिए एक टिप्पणी में बदल सकते हैं। इसके अलावा, लिंक की गई पोस्ट को पढ़ने के लिए यह काफी नहीं है कि मानकीकरण कोलेजन को कम किए बिना VIF को कम करता है। उनका उदाहरण इससे बहुत विशिष्ट और अधिक बारीक है।
मानकीकरण संपार्श्विकता को कम करने का एक सामान्य तरीका है। (आपको बहुत तेज़ी से यह सत्यापित करने में सक्षम होना चाहिए कि यह कुछ युग्मों के चर पर इसे आज़माकर काम करता है।) चाहे आप इसे नियमित रूप से करते हों, यह इस बात पर निर्भर करता है कि आपके विश्लेषण में कोलियरिटी की कितनी समस्या है।
संपादित करें: मुझे लगता है कि मैं गलती में था। हालांकि, मानकीकरण क्या करता है, उत्पाद की शर्तों (बातचीत की शर्तों) के साथ सहयोग को कम करता है।
हम्म, क्या आप समझा सकते हैं? मानकीकरण सिर्फ एक यादृच्छिक चर का मतलब और विचरण बदलता है (क्रमशः 0 और 1 के लिए)। यह दो चर के बीच संबंध को नहीं बदलना चाहिए। मैं देखता हूं कि मानकीकरण कम्प्यूटेशनल दक्षता में सुधार कैसे कर सकता है, लेकिन यह नहीं कि यह मल्टीकोलिनरिटी को कैसे कम करता है।
नहीं, मैं, मैं खो गया हूँ ... यह कैसे संभवतः भविष्यवाणियों के मैट्रिक्स में स्तंभ तत्वों की रैखिक निर्भरता को बदल सकता है। (नहीं है कि क्या collinearity के बारे में है?)
यद्यपि यह सही नहीं है कि मानकीकरण विशुद्ध रूप से गणितीय अर्थों में कोलीनिटी को बदलता है, यह रैखिक प्रणालियों को हल करने के लिए एल्गोरिदम की संख्यात्मक स्थिरता में सुधार कर सकता है। इस उत्तर में भ्रम की स्थिति हो सकती है।