कोलियर चर के साथ क्या करना है


11

डिस्क्लेमर: यह एक होमवर्क प्रोजेक्ट के लिए है।

मैं हीरे की कीमतों के लिए सबसे अच्छे मॉडल के साथ आने की कोशिश कर रहा हूं, कई चर पर निर्भर करता है और मुझे लगता है कि अब तक बहुत अच्छा मॉडल है। हालाँकि मैं दो चर में चला गया हूँ जो स्पष्ट रूप से मिल रहे हैं:

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

तालिका और गहराई एक-दूसरे पर निर्भर हैं, लेकिन मैं अभी भी उन्हें अपने पूर्वानुमान मॉडल में शामिल करना चाहता हूं। मैंने हीरों पर कुछ शोध किया और पाया कि टेबल और डेप्थ ऊपर की लंबाई और हीरे की नोक के ऊपर से नीचे तक की दूरी है। चूंकि हीरे की ये कीमतें सुंदरता से संबंधित लगती हैं और सौंदर्य संबंधित अनुपात से प्रतीत होता है, मैं कीमतों का अनुमान लगाने के लिए , उनका अनुपात शामिल करने जा रहा था । क्या यह मानक प्रक्रिया कोलीन चर से निपटने के लिए है? यदि नहीं, तो क्या है?टीएलडीपीटी

संपादित करें: यहाँ गहराई ~ तालिका का एक भूखंड है: यहाँ छवि विवरण दर्ज करें


1
एक दिलचस्प सवाल के लिए +1 लेकिन, नहीं, यह निश्चित रूप से सह-रैखिक चर से निपटने के लिए एक मानक प्रक्रिया नहीं है। उम्मीद है कि कोई आपको क्यों नहीं पर एक अच्छा जवाब देगा। यह हो सकता है अभी भी अपने मामले में क्या करने के लिए एक अच्छी बात हो ...
पीटर एलिस

3
इसके बारे में अजीब बात यह है कि -0.4 के सहसंबंध से पता चलता है कि हीरे जो ऊपर की तरफ लंबे होते हैं वे ऊपर से नीचे तक छोटे होते हैं। यह काउंटर-सहज ज्ञान युक्त लगता है - क्या यह सही है?
पीटर एलिस

सामान्य तौर पर, केवल रैखिक निर्भरता को प्रकट करेगा? क्या होगा अगर और गैर-रैखिक रूप से संबंधित थे? उस मामले में, क्या कोलिनैरिटी का कुछ एनालॉग होगा जो समस्या पैदा करता है? या केवल एक रैखिक निर्भरता एक समस्या है। टी बी एल डी पी टी एचसीआरटीएलडीपीटी
जिज्ञासु_काट

@PeterEllis मुझे बताया गया था कि यह एक वास्तविक डेटा सेट है, हाँ। गहराई ~ तालिका के एक भूखंड को देखते हुए, यह हो सकता है क्योंकि उच्च तालिका मूल्यों के लिए विचरण प्रशंसक बाहर।
माइक फ्लिन ने

जवाबों:


14

वे चर सहसंबद्ध हैं।

उस सहसंबंध मैट्रिक्स द्वारा निहित रैखिक संघटन की सीमा दूरस्थ रूप से इतनी अधिक नहीं है कि चरों को समतल माना जा सके।

इस मामले में, मुझे उन सभी तीनों का उपयोग करने में खुशी होगी, जो विशिष्ट प्रतिगमन अनुप्रयोगों के लिए हैं।

मल्टीकोलिनरिटी का पता लगाने का एक तरीका सहसंबंध मैट्रिक्स के चोल्स्की अपघटन की जांच करना है - अगर मल्टीकोलिनरिटी है तो कुछ विकर्ण तत्व होंगे जो शून्य के करीब हैं। यहाँ यह आपके स्वयं के सहसंबंध मैट्रिक्स पर है:

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

(विकर्ण हमेशा सकारात्मक होना चाहिए, हालांकि कुछ कार्यान्वयन संचित ट्रंकेशन त्रुटियों के प्रभाव से थोड़ा नकारात्मक हो सकते हैं)

जैसा कि आप देखते हैं, सबसे छोटा विकर्ण 0.91 है, जो अभी भी शून्य से लंबा रास्ता तय करता है।

इसके विपरीत यहाँ लगभग कुछ कोलियर डेटा हैं:

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.

धन्यवाद, मुझे लगता है कि मैं बस "सहसंबद्ध" और "कोलिनियर" के बीच उलझन में था
माइक फ्लिन

@kingledion कृपया अपने प्रश्न का उत्तर देने के लिए व्यक्तियों को प्राप्त करने के लिए टिप्पणियों का उपयोग न करें।
Glen_b -Reinstate मोनिका

6

सोचा कि यह हीरे की कटाई योजनाबद्ध प्रश्न में अंतर्दृष्टि जोड़ सकता है। एक टिप्पणी में एक छवि नहीं जोड़ सकते हैं तो यह एक जवाब बनाया ....

यहाँ छवि विवरण दर्ज करें

पुनश्च। @ पीटरईलिस की टिप्पणी: यह तथ्य कि "हीरे जो अब तक ऊपर से नीचे हैं, ऊपर से नीचे तक छोटे हैं" इस तरह समझ में आता है: मान लें कि सभी काटा हुआ हीरे मोटे तौर पर आयताकार (कहते हैं) हैं। अब इस बाउंडिंग आयत के साथ कटर को अपना कट चुनना होगा। यह ट्रेडऑफ़ का परिचय देता है। यदि चौड़ाई और लंबाई दोनों बढ़ जाती है तो आप बड़े हीरे के लिए जा रहे हैं। संभव है, लेकिन दुर्लभ और अधिक महंगा है। सही बात?


2

रैखिक प्रतिगमन में अनुपात का उपयोग करने से बचना चाहिए। अनिवार्य रूप से, आप जो कह रहे हैं वह यह है कि यदि उन दो चर पर एक रेखीय प्रतिगमन किया गया था, तो वे बिना किसी अवरोध के रैखिक रूप से सहसंबद्ध होंगे; यह स्पष्ट रूप से मामला नहीं है। देखें: http://cscu.cornell.edu/news/statnews/stnews03.pdf

इसके अलावा, वे एक अव्यक्त चर को माप रहे हैं- हीरे का आकार (मात्रा या क्षेत्र)। क्या आपने दोनों चर शामिल करने के बजाय अपने डेटा को सतह क्षेत्र / आयतन माप में परिवर्तित करने पर विचार किया है?

आपको उस गहराई और तालिका डेटा का एक अवशिष्ट प्लॉट पोस्ट करना चाहिए। दोनों के बीच आपका संबंध किसी भी तरह से अमान्य हो सकता है।


1

यदि तालिका और चौड़ाई वास्तव में सहसंबद्ध हैं, तो सहसंबंध से यह निष्कर्ष निकालना मुश्किल है। एक गुणांक + 1 / -1 के करीब वे कहते हैं कि वे समवर्ती हैं। यह नमूने के आकार पर भी निर्भर करता है..यदि आपके पास पुष्टि करने के लिए अधिक डेटा का उपयोग है।

Collinear चर के साथ काम करने में मानक प्रक्रिया उनमें से एक को खत्म करने के लिए है ... क्योंकि एक जानने वाला दूसरे को निर्धारित करेगा।


1
मुझे यकीन नहीं है कि मैं सहमत हूँ w / यह। सहसंबंध r = - 41 है, जो कि सहसंबंध के लिए एक उचित परिमाण है, मुझे लगता है। संभावित N को देखते हुए (कथानक पर एक नज़र के आधार पर) मुझे उम्मीद है कि r अत्यधिक 'महत्वपूर्ण' होगा। टेबल एंड डेप्थ को सहसंबंधित किया जाता है या नहीं, जिसे "कोलिनियर" कहा जाता है, परिभाषा की बात होने वाली है (हालाँकि मैं इसे समस्याग्रस्त कोलिनयरिटी नहीं कहूँगा)। अंत में, मैं केवल उन चरों में से एक को समाप्त करने से सावधान रहूंगा जब तक कि आर बहुत करीब नहीं होता। 1 | (उदाहरण के लिए, ~ .99) - मैं नहीं बता सकता कि क्या आपका मतलब है।
गूँग - मोनिका

1

आपको क्या लगता है कि तालिका और गहराई आपके मॉडल में मिलीभगत का कारण बनती है? सहसंबंध मैट्रिक्स से केवल यह बताना मुश्किल है कि ये दो चर कोलीनियरिटी मुद्दों का कारण बनेंगे। एक संयुक्त एफ परीक्षण आपको अपने मॉडल में दोनों चर के योगदान के बारे में क्या बताता है? जैसा कि curious_cat ने उल्लेख किया है कि पियर्सन सहसंबंध का सबसे अच्छा उपाय नहीं हो सकता है जब संबंध रैखिक नहीं है (शायद एक रैंक आधारित उपाय?)। VIF और सहिष्णुता आपके द्वारा की जाने वाली कोलीनियरिटी की डिग्री को निर्धारित करने में मदद कर सकती है।

मुझे लगता है कि उनके अनुपात का उपयोग करने का आपका दृष्टिकोण उचित है (हालांकि संपार्श्विकता के समाधान के रूप में नहीं)। जब मैं आंकड़ा देखता हूं, तो मैंने तुरंत स्वास्थ्य अनुसंधान में एक सामान्य उपाय सोचा जो कमर से लेकर हिप अनुपात तक होता है। हालांकि, इस मामले में बीएमआई (वजन / ऊँचाई ^ 2) के समान अधिक है। यदि आपके दर्शकों में अनुपात आसानी से व्याख्या योग्य और सहज है, तो मुझे इसका उपयोग न करने का कोई कारण नहीं दिखता है। हालाँकि, आप शायद अपने मॉडल में दोनों चर का उपयोग कर सकते हैं, जब तक कि संपार्श्विकता के स्पष्ट प्रमाण न हों।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.