सहसंबद्ध रजिस्टरों से निपटना


23

अत्यधिक सहसंबद्ध रजिस्टरों के साथ कई रेखीय प्रतिगमन में, उपयोग करने के लिए सबसे अच्छी रणनीति क्या है? यह सभी सहसंबद्ध रजिस्टरों के उत्पाद को जोड़ने के लिए एक वैध दृष्टिकोण है?


1
मुझे क्षमा करें @ Suncoolsu का उत्तर हटा दिया गया था। यह और इसके बाद की टिप्पणियों ने मल्टीकोलिनरिटी और इल कंडीशनिंग के बीच अंतर को स्पष्ट किया। इसके अलावा, एक टिप्पणी में Suncoolsu ने बताया कि प्रारंभिक मानकीकरण बहुपद प्रतिगमन के साथ कैसे मदद कर सकता है। अगर यह फिर से प्रकट होता है तो मैं इसे वोट करूंगा ;-)।
whuber

@ Ηλ beας: उत्पाद कई अनुप्रयोगों में अस्थिर होने की संभावना है। यह कई शून्य से ग्रस्त हो सकता है यदि व्यक्तिगत रजिस्टरों में कुछ शून्य हैं; इसका पूर्ण मूल्य कुछ उच्च-उत्तोलन बिंदुओं को जन्म देते हुए, मजबूत सकारात्मक तिरछा होने की संभावना है; यह आउटलाइंग डेटा को बढ़ा सकता है, विशेषकर एक साथ आउटलेयर को, और आगे उनके उत्तोलन में जोड़ सकता है। यह व्याख्या करना मुश्किल हो सकता है, भी, खासकर अगर रजिस्ट्रार पहले से ही मूल चर (जैसे लॉग या रूट) के फिर से अभिव्यक्त होते हैं।
whuber

जवाबों:


13

प्रमुख घटक बहुत मायने रखते हैं ... गणितीय रूप से। हालाँकि, मैं इस मामले में कुछ गणितीय चाल का उपयोग करने से सावधान रहूँगा और उम्मीद करूँगा कि मुझे अपनी समस्या के बारे में सोचने की आवश्यकता नहीं है।

मैं थोड़ा सोचने की सलाह दूंगा कि मेरे पास किस तरह के भविष्यवक्ता हैं, स्वतंत्र चर क्या है, मेरे भविष्यवक्ता क्यों सहसंबद्ध हैं, क्या मेरे कुछ भविष्यवक्ता वास्तव में एक ही अंतर्निहित वास्तविकता को माप रहे हैं (यदि हां, तो क्या मैं सिर्फ एक के साथ काम कर सकता हूं) एकल माप और मेरे भविष्यवक्ताओं में से कौन सा इसके लिए सबसे अच्छा होगा), मैं इसके लिए क्या विश्लेषण कर रहा हूं - अगर मुझे कोई दिलचस्पी नहीं है, केवल भविष्यवाणी में, तो मैं वास्तव में चीजों को छोड़ सकता हूं जैसे कि वे हैं, जब तक कि भविष्य पूर्वसूचक मान पिछले लोगों के समान हैं।


4
पूरी तरह से सहमत, +1। लेकिन एक "गणितीय चाल" के रूप में पीसीए के लक्षण वर्णन इसे गलत तरीके से नापसंद करते हैं, IMHO। यदि आप सहमत हैं (मुझे यकीन नहीं है कि आप ऐसा करते हैं), जो कि रजिस्टरों के समूहों को जोड़ते हैं या औसत करते हैं, जैसा कि श्रीकांत सुझाव देते हैं, स्वीकार्य होगा, तो पीसीए बस स्वीकार्य होना चाहिए और यह आमतौर पर फिट में सुधार करता है। इसके अलावा, प्रमुख घटक यह बता सकते हैं कि भविष्यवक्ताओं के कौन से समूह सहसंबद्ध हैं और वे कैसे सहसंबंधित हैं: यह उस सोच के लिए एक उत्कृष्ट उपकरण है जिसकी आप वकालत कर रहे हैं।
whuber

2
@whuber, मैं आपकी बात से सहमत हूं और सहमत हूं, और मैं पीसीए को नापसंद नहीं करना चाहता, इसलिए निश्चित रूप से +1। मैं सिर्फ यह देखना चाहता था कि पीसीए का उपयोग आँख बंद करके और अंतर्निहित समस्या के बारे में सोचने के बिना (जो कोई यहाँ की वकालत नहीं कर रहा है) मुझे एक बुरी भावना के साथ छोड़ देगा ...
एस। कोलासा - बहाल मोनिका

11

इस समस्या से निपटने के लिए आप प्रमुख घटकों या रिज रिग्रेशन का उपयोग कर सकते हैं। दूसरी ओर, यदि आपके पास दो चर हैं जो बहुत हद तक सहसंबंधित हैं, तो पैरामीटर अनुमान के साथ समस्याएं पैदा हो सकती हैं, तो आप भविष्यवाणी के संदर्भ में ज्यादा खोए बिना दोनों में से किसी एक को लगभग छोड़ सकते हैं - क्योंकि दो चर समान जानकारी को ले जाते हैं । बेशक, यह तभी काम करता है जब समस्या दो अत्यधिक सहसंबद्ध निर्दलीय उम्मीदवारों के कारण हो । जब समस्या में दो से अधिक चर शामिल होते हैं जो लगभग एक साथ होते हैं (कोई भी दो जिनमें से केवल मध्यम सहसंबंध हो सकते हैं), आपको संभवतः अन्य तरीकों में से एक की आवश्यकता होगी।


2
(+1) अब, समस्या यह है कि ओपी ने यह संकेत नहीं दिया कि मॉडल कितने वेरिएबल में प्रवेश करता है, क्योंकि यदि वे कई हैं तो सिकुड़न और परिवर्तनशील चयन दोनों को करना बेहतर हो सकता है, उदाहरण के लिए इलास्टिनेट मानदंड (जो संयोजन है) के लास्सो और रिज दंड)।
chl

3

यहाँ एक और विचार है जो स्टीफ़न के उत्तर से प्रेरित है :

यदि आपके कुछ सहसंबद्ध रजिस्ट्रार सार्थक रूप से संबंधित हैं (उदाहरण के लिए, वे बुद्धि के अलग-अलग उपाय हैं, मौखिक, गणित आदि) तो आप एक एकल चर बना सकते हैं जो निम्न तकनीकों में से एक का उपयोग करके एक ही चर को मापता है:

  • रजिस्टरों को सम्‍मिलित करें (यदि पंजीकर्ता संपूर्ण के घटक हैं, उदाहरणार्थ, मौखिक IQ + गणित IQ = कुल मिलाकर IQ)

  • रजिस्टरों का औसत (उपयुक्त यदि रजिस्टर्स समान अंतर्निहित निर्माण को माप रहे हैं जैसे, बाएं जूते का आकार, दाहिने जूते का आकार पैरों की लंबाई मापने के लिए)

  • कारक विश्लेषण (माप में त्रुटियों के लिए खाता है और एक अव्यक्त कारक को निकालने के लिए)

फिर आप सभी सहसंबद्ध रजिस्टरों को छोड़ सकते हैं और उन्हें एक चर के साथ बदल सकते हैं जो उपरोक्त विश्लेषण से निकलता है।


1
यह समझ में आता है कि यदि रजिस्टरों को सभी समान पैमाने पर मापा जाता है। मनोविज्ञान में, विभिन्न उप-वर्गों को अक्सर अलग-अलग पैमानों पर मापा जाता है (और अभी भी सहसंबद्ध), इसलिए भारित राशि या औसत (जो वास्तव में यहाँ भी ऐसा ही है) उपयुक्त होगा। और निश्चित रूप से, PCA को अधिकतम विचरण के अक्षों की गणना करके इस तरह के भार को प्रदान करने के रूप में देखा जा सकता है।
एस। कोलासा - मोनिका

2

मैं बहुत कुछ कहने वाला था, जैसा कि ऊपर स्टीफन कोलासा ने किया है (इसलिए उनके जवाब को याद किया है)। मैं केवल इतना ही कहना चाहूंगा कि कभी-कभी बहुस्तरीयता व्यापक चर का उपयोग करने के कारण हो सकती है, जो आकार के कुछ माप के साथ सभी अत्यधिक सहसंबद्ध होते हैं, और गहन चर का उपयोग करके चीजों को बेहतर बनाया जा सकता है, अर्थात आकार के कुछ माप के माध्यम से सब कुछ विभाजित करना। उदाहरण के लिए, यदि आपकी इकाइयाँ देश हैं, तो आप संदर्भ के आधार पर जनसंख्या, क्षेत्रफल या GNP से भाग ले सकते हैं।

ओह - और मूल प्रश्न के दूसरे भाग का उत्तर देने के लिए: मैं किसी भी स्थिति के बारे में नहीं सोच सकता जब सभी सहसंबद्ध रजिस्टरों के उत्पाद को जोड़ना एक अच्छा विचार होगा। यह कैसे मदद करेगा? इसका क्या मतलब होगा?


मेरा प्रारंभिक विचार रजिस्टरों की जोड़ी के अंतःक्रिया को ध्यान में रखना था
ίλ

जोड़ीदार बातचीत को ध्यान में रखना अक्सर एक अच्छा विचार होता है। लेकिन सभी उन्हें नहीं देते हैं: आपको गर्त के बारे में सोचने की ज़रूरत है जो समझ में आता है!
kjetil b halvorsen

1

मैं इस पर कोई विशेषज्ञ नहीं हूं, लेकिन मेरा पहला विचार भविष्यवक्ता चर पर एक प्रमुख घटक विश्लेषण चलाने के लिए होगा, फिर अपने आश्रित चर की भविष्यवाणी करने के लिए परिणामी प्रमुख घटकों का उपयोग करें।


kk

p

@chl अच्छा बिंदु। लेकिन चूंकि प्रमुख घटक रैखिक संयोजन हैं, इसलिए यह एक व्याख्या योग्य रैखिक मॉडल प्राप्त करने के लिए घटकों (= एक और रैखिक परिवर्तन) पर प्रक्षेपण के साथ सज्जित प्रतिगमन मॉडल (= एक रैखिक परिवर्तन) की रचना करने के लिए सीधा (हालांकि कभी-कभी थोड़ा दर्द होता है) है। सभी मूल चर शामिल हैं। यह कुछ हद तक रूढ़िवादी तकनीकों के समान है। ध्यान दें, भी, कि श्रीकांत के नवीनतम प्रस्ताव (कुल जमा या औसत) मूल रूप से प्रिंसिपल eigenvector को लगभग समान व्याख्यात्मक कठिनाइयों के लिए प्रेरित करते हैं।
whuber

@whuber हां, मैं आपकी दोनों बातों से सहमत हूं। मैंने बड़े पैमाने पर पीएलएस रिग्रेशन और सीसीए का इस्तेमाल किया, इसलिए इस मामले में हमें दोनों तरफ रैखिक संयोजनों से निपटना होगा (अधिकतम! एक अधिकतम। सहसंबंध या सहसंबंध मानदंड); बड़ी संख्या में भविष्यवाणियों के साथ, विहित वैक्टर की व्याख्या दर्दनाक है, इसलिए हम केवल सबसे अधिक योगदान देने वाले चर को देखते हैं। अब, मैं कल्पना कर सकता हूं कि इतना भविष्यवक्ता नहीं है कि आपके सभी तर्कों (@Stephan, @Mike) को समझ में आए।
CHL

-1

X

xijstandardized=xijx.j¯sj

यह एक उपाय नहीं है, लेकिन निश्चित रूप से सही दिशा में एक कदम है।


8
रैखिक परिवर्तन (इन की तरह) सहसंबंध गुणांक कभी नहीं बदलते हैं। मानकीकरण का बिंदु सामान्य मैट्रिक्स की कंडीशनिंग में सुधार करना है।
whuber

1
चर का मानकीकरण स्वतंत्र चर के बीच सहसंबंधों को प्रभावित नहीं करेगा और किसी भी तरह से "सहसंबंध के प्रभाव को कम नहीं करेगा" जो मैं इस समस्या के संबंध में सोच सकता हूं।
ब्रेट

2
@ ब्रेट, एक विशिष्ट उदाहरण है जहाँ मानकीकरण मदद करता है बहुपद प्रतिगमन । यह हमेशा रजिस्टरों को मानकीकृत करने की सिफारिश की जाती है। मानकीकरण सहसंबंध मैट्रिक्स को परिवर्तित नहीं करता है, लेकिन var कोव मैट्रिक्स (जो अब सहसंबंध मैट्रिक्स है) को अच्छी तरह से व्यवहार करता है (मैट्रिक्स, IMHO की स्थिति संख्या की ओर इशारा करते हुए @whuber द्वारा कंडीशनिंग कहा जाता है)।
सनकूलू

माना। बहुपद या अंतःक्रिया की शर्तों जैसे उच्च क्रम की शर्तों को दर्ज करते समय केंद्र उपयोगी होता है। यह मामला यहाँ प्रतीत नहीं होता है और अन्यथा सहसंबद्ध भविष्यवक्ताओं की समस्या के साथ मदद नहीं करेगा।
ब्रेट

मैंने इसे हटा दिया क्योंकि मैं गलत उत्तर वाले लोगों को भ्रमित नहीं करना चाहता था। संभवतः मध्यस्थों ने इसे फिर से लाया।
सनकूल्सू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.