चर के बीच संबंधों की पहचान के लिए आर पैकेज [बंद]


13

क्या कोई आर पैकेज है जिसे मैं यह पता लगाने के लिए उपयोग कर सकता हूं कि क्या चर के बीच संबंध मौजूद हैं?

आमतौर पर जब मैं पैटर्न की तलाश करता हूं तो मैं सहसंबंधों को देखता हूं, और फिर एक पहलू की साजिश। फिर मैं मैन्युअल रूप से डेटा में चर के लिए कुछ परिवर्तन लागू करता हूं। मैं सोच रहा था कि क्या मैं आर पैकेज के माध्यम से इस प्रक्रिया को तेज कर सकता हूं।


यदि आपकी अपनी प्रक्रिया है, तो आप हमेशा अपना पैकेज रोल कर सकते हैं। या आपकी स्क्रिप्ट की शुरुआत में भरी हुई कुछ फ़ाइल में सिर्फ एक पुन: प्रयोज्य कार्य।
ब्रैंडन बर्टेल्सन

जवाबों:


9

AFAIK, नहीं। अधिक सटीक होने के लिए, मुझे एक भी आर पैकेज के बारे में पता नहीं है जो कि एक फ़ंक्शन फ़ंक्शन कॉल के माध्यम से आपके लिए खोज डेटा विश्लेषण (EDA) का हिस्सा होता है - मैं पुनः अभिव्यक्ति और रहस्योद्घाटन पहलुओं के बारे में सोच रहा हूं Hoaglin, Mosteller और Tukey, Understanding Robust and Exploratory Data Analysis में चर्चा की गई । विशेष रूप से विली-इंटरसाइंस, 1983।

हालांकि, आर में कुछ निफ्टी विकल्प मौजूद हैं, विशेष रूप से डेटा के इंटरएक्टिव अन्वेषण के बारे में (दिलचस्प चर्चा के लिए यहां देखें: इंटरैक्टिव डेटा विज़ुअलाइज़ेशन कब उपयोग करने के लिए उपयोगी है? )। मै सोचूंगा

  • iplots , या उसके उत्तराधिकारी एसिनोनिक्स , इंटरैक्टिव विज़ुअलाइज़ेशन के लिए (ब्रश करने, लिंक किए गए भूखंडों के लिए अनुमति देता है, और की तरह) (इन कार्यक्षमताओं में से कुछ में पाया जा सकता latticist पैकेज, अंत में, RGL । 3 डी इंटरैक्टिव विज़ुअलाइज़ेशन के लिए अच्छा है)
  • इंटरैक्टिव और डायनामिक डिस्प्ले के लिए ggobi , जिसमें डेटा में कमी (बहुआयामी स्केलिंग) और प्रोजेक्शन पीछा शामिल है

यह केवल इंटरएक्टिव डेटा की खोज के लिए है, लेकिन मैं कहूंगा कि यह ईडीए का सार है। वैसे भी, उपरोक्त तकनीकें संख्यात्मक चर के बीच द्विभाजित या उच्च-क्रम संबंधों की खोज करते समय मदद कर सकती हैं। श्रेणीबद्ध डेटा के लिए, vcd पैकेज एक अच्छा विकल्प (दृश्य और सारांश तालिका) है। फिर, मैं कहूंगा कि शाकाहारी और ade4 पैकेज मिश्रित डेटा प्रकार के चर के बीच संबंधों की खोज के लिए पहले आते हैं।

अंत में, आर में डेटा खनन के बारे में क्या ? (इस कीवर्ड को Rseek पर आज़माएं )


(+1) आपको सवालों के जवाब देते हुए देखकर अच्छा लगा!
whuber

+1 Btw: थोड़ा टाइपो - एसिनोनिक्स (आई एंड वाई ट्रांसपोज़्ड हैं)।
Iterator

@ टाइपकर्ता को पकड़ने के लिए धन्यवाद। (मैं पहले से ही आपकी प्रतिक्रिया +1 कर रहा हूं, अच्छा है कि आपने विल्किंसन के पेपर का हवाला दिया)।
15:12

2
अब वहाँ loonभी है waddella.github.io/ गुब्बारा इस ओर इशारा करने के लिए @hadleywickham जाता है।
अरी बी। फ्रीडमैन

11

यदि आप अभी देखना चाहते हैं कि आपके डेटासेट में वेरिएबल्स कैसे संबद्ध हैं, तो जोड़े () फंक्शन, या इससे भी बेहतर, साइकल पैकेज () फंक्शन पर एक नज़र डालें। मैंने यहाँ जोड़े के फंक्शन के बारे में थोड़ा लिखा ।

जोड़े () या मानसिक :: जोड़े.पैनल्स () फ़ंक्शन का उपयोग करके स्कैटरप्लॉट मैट्रिस बनाना बहुत आसान है।

pairs.panels(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21,lm=TRUE)

यहाँ छवि विवरण दर्ज करें


7

की जाँच करें scagnosticsपैकेज और मूल शोध पत्र । यह रिश्तों के लिए बहुत दिलचस्प है। बहुभिन्नरूपी संबंधों के लिए, प्रक्षेपण पीछा एक बहुत अच्छा पहला कदम है।

सामान्य तौर पर, हालांकि, डोमेन और डेटा विशेषज्ञता दोनों ही संकीर्ण और जल्दी से संबंधों की जांच के लिए आपके तरीकों में सुधार करेंगे।


7

Chart.Correlation में समारोह PerformanceAnalytics को छोड़कर यह एक लेस समारोह के बजाय एक रेखीय मॉडल, और सह-संबंध के लिए महत्व के साथ सहज बनाता है, के लिए plot.pairs ढंग से काम @Stephen टर्नर उल्लेख इसी तरह की सुविधा प्रदान करता है।

library(PerformanceAnalytics)
chart.Correlation(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21)

चार्ट


5

यदि आप सहसंबंध के साथ काम करने के लिए संभावित परिवर्तनों की तलाश कर रहे हैं, तो एक उपकरण जिसका अभी तक उल्लेख नहीं किया गया है वह उपयोगी हो सकता है aceजो acepackपैकेज में पाया जा सकता है (और शायद अन्य पैकेज भी)। यह एक्स चर और ay चर के एक सेट के बीच सहसंबंध को अधिकतम करने के लिए परिवर्तनों को खोजने के लिए कई अलग-अलग परिवर्तनों (स्मूअरों का उपयोग करके) की कोशिश करने की एक अंतःक्रियात्मक प्रक्रिया करता है। परिवर्तनों को प्लॉट करना तब सार्थक परिवर्तनों का सुझाव दे सकता है।


2

आप 'एनर्जी' पैकेज में DCOR फ़ंक्शन का उपयोग कर सकते हैं, गैर-रैखिक निर्भरता के एक उपाय की गणना करने के लिए, जिसे दूरी सहसंबंध कहा जाता है और ऊपर प्लॉट किया जाता है। पियर्सन के सहसंबंध के साथ मुद्दा यह है कि यह केवल चर के बीच रैखिक संबंधों का पता लगा सकता है। सुनिश्चित करें कि आपने DCOR फ़ंक्शन में इंडेक्स के लिए लिखने के पैरामीटर का चयन किया है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.