कई चर के लिए एक स्कैटर-प्लॉट मैट्रिक्स की खोज


10

मैं कई मापदंडों (जैसे, 50-200) के साथ एक डेटासेट का विश्लेषण कर रहा हूं और मैं चर (2-चर तितर बितर भूखंड या 2 डी हिस्टोग्राम के संदर्भ में) के बीच संबंधों को देखने में दिलचस्पी रखता हूं। हालांकि, मापदंडों की इस संख्या के लिए 200x200 सरणी के भूखंडों को खींचना अक्षम्य लगता है (जब तक कि मैं इसे नहीं छापता और दीवार पर लटका नहीं सकता)।

दूसरी ओर, केवल सहसंबंध मैट्रिक्स करने से 2-चर संबंधों के बारे में सभी जानकारी नहीं मिलती है।

कई चर के लिए 2-चर संबंधों का पता लगाने का एक तरीका (पुस्तकालय या वर्कफ़्लो) है?

मुझे विशेष रूप से दूसरों को परिणाम दिखाने में दिलचस्पी है (शायद कुछ डेटा प्रीप्रोसेसिंग के बाद)। उदाहरण के लिए जावास्क्रिप्ट में कुछ इंटरैक्टिव, क्या मैं एक सहसंबंध मैट्रिक्स से चयनित फ़ील्ड के लिए स्कैटर-प्लॉट मैट्रिक्स देख सकता हूं।

स्कैटर-प्लॉट मैट्रिक्स से मेरा मतलब कुछ इस तरह है:

यहां छवि विवरण दर्ज करें

( pandasplotting ब्लॉग से लिया गया ; पायथन / पंडों , R , D3.js , आदि में उपलब्ध)।


4
आपने यह स्पष्ट नहीं किया कि आप क्या कर रहे हैं। क्या आप क्लाउड, हर डेटा बिंदु को देखना चाहते हैं? क्या आप एक ही बार में सभी बाइवेरेट पहलुओं को देखना चाहते हैं ?
ttnphns

@ttnphns मैं सभी डेटा पॉइंट्स या उन्हें कुछ एग्रीगेटेड फॉर्म में देखना चाहता हूं (जैसे 2 डी हिस्टोग्राम)। मुझे सभी चीजों को एक बार देखने की आवश्यकता नहीं है (जैसा कि यह <15 चर के लिए समझ में आता है, लेकिन 200 नहीं)। और हां, मुझे पता है कि सवाल थोड़ा खुला हुआ है। एक क्लोज-एंडेड संस्करण है "क्या तितर बितर भूखंडों और हिस्टोग्राम को दिखाने के लिए एक जेएस लाइब्रेरी है जब माउस एक सहसंबंध मैट्रिक्स पर संबंधित पिक्सेल पर मंडराता है? या क्या मुझे एक लिखना चाहिए? :)" मैंने एक अधिक सामान्य एक लिखा था, जैसे शायद वहाँ हैं। समस्या से निपटने के लिए कुछ बेहतर वर्कफ़्लोज़।
पियोट्र मिगदल

ऑलैप क्यूब के रूप में स्क्रैपप्लेट्स के मैट्रिक्स को व्यवस्थित करना संभव है, ताकि आप एक बार में केवल एक या कई प्लॉट देख सकें और उनके बीच स्विच कर सकें। दुर्भाग्य से, मैं ग्राफिकल ओलैप क्यूब्स करने के लिए एक विशिष्ट कार्यक्रम या कोड नहीं जानता।
1947

जवाबों:


7

चरों के बीच संबंधों का पता लगाना काफी अस्पष्ट है, लेकिन इस तरह के स्कैप्लेट्स की जांच करने के दो और सामान्य लक्ष्य हैं जैसे मुझे लगता है;

  • अंतर्निहित अव्यक्त समूहों (चर या मामलों के) को पहचानें।
  • बाहरी लोगों को पहचानें (अविभाजित, द्विभाजित या बहुभिन्नरूपी स्थान में)।

दोनों डेटा को अधिक प्रबंधन योग्य सारांश में कम करते हैं, लेकिन अलग-अलग लक्ष्य होते हैं। अव्यक्त समूहों को पहचानें जो आमतौर पर डेटा में आयामों को कम करता है (जैसे पीसीए के माध्यम से) और फिर यह पता लगाता है कि क्या चर या मामले इस कम हुए स्थान में एक साथ क्लस्टर करते हैं। उदाहरण के लिए देखें अनुकूल (2002) या कुक एट अल। (1995)।

आउटलेर्स की पहचान करने का मतलब या तो किसी मॉडल को फिट करना और मॉडल से विचलन की साजिश करना (जैसे कि प्रतिगमन मॉडल से अवशिष्ट की साजिश करना) हो सकता है या डेटा को उसके मुख्य घटकों में कम कर सकता है और केवल उन बिंदुओं को उजागर करता है जो मॉडल या डेटा के मुख्य निकाय से विचलित होते हैं। एक या दो आयामों में एग बॉक्सप्लॉट्स आमतौर पर केवल व्यक्तिगत बिंदु दिखाते हैं जो टिका के बाहर होते हैं (विकम और स्ट्राइजेस्की, 2013)। अवशेषों को प्लॉट करने की अच्छी संपत्ति है कि यह भूखंडों (टके, 1977) को समतल कर देना चाहिए, इसलिए शेष बिंदु क्लाउड में रिश्तों का कोई भी सबूत "दिलचस्प" है। CV पर इस प्रश्न में बहुभिन्नरूपी आउटलेयर की पहचान के कुछ उत्कृष्ट सुझाव हैं।

इस तरह के बड़े SPLOMS का पता लगाने का एक सामान्य तरीका है कि सभी अलग-अलग बिंदुओं की साजिश न करें , लेकिन कुछ प्रकार के सरलीकृत सारांश और फिर शायद ऐसे बिंदुओं से बड़े पैमाने पर विचलन करते हैं, जैसे आत्मविश्वास दीर्घवृत्त, स्केग्नॉस्टिक सारांश (विल्किंसन और विल्स, 2008), बिवरेट बॉक्स-प्लॉट, समोच्च भूखंड। नीचे अंडाकार की साजिश रचने का एक उदाहरण दिया गया है जो रैखिक संघ का वर्णन करने के लिए सहवास और अतिसूक्ष्मता को परिभाषित करता है।

कोरग्राम एलिप्स
(स्रोत: statmethods.net )

किसी भी तरह से, इतने सारे चर के साथ एक वास्तविक आत्मघाती, इंटरैक्टिव साजिश को बुद्धिमान छंटाई (विल्किंसन, 2005) की आवश्यकता होगी और चर (ब्रश करने / लिंकिंग क्षमताओं के अलावा) को फ़िल्टर करने का एक सरल तरीका होगा। इसके अलावा किसी भी यथार्थवादी डेटासेट में अक्ष बदलने की क्षमता होनी चाहिए (जैसे लॉगरिदमिक स्केल पर डेटा को प्लॉट करना, जड़ों को ले जाकर डेटा बदलना)। गुड लक, और केवल एक ही प्लॉट के साथ न रहें


उद्धरण


1
धन्यवाद! मेरा लक्ष्य पीसीए चलाने से पहले डेटा का पता लगाना है , क्योंकि चर एक गैर-रेखीय तरीके से संबंधित हो सकते हैं और उन्हें rescaling (या अन्य प्रसंस्करण) की आवश्यकता होती है।
पियोत्र मिग्डल

उदाहरण कॉरिग्राम एलिप्से + लोसे स्मूथर को तब भी प्रासंगिक होना चाहिए (या कोवर को बदलना चाहिए। बाइवेरिएट बॉक्सप्लॉट जैसे कुछ अन्य माप-बहुभुज के साथ दीर्घवृत्त), और आईडी गैर-रेखीय संघों की मदद कर सकता है। यदि पीसीए (या ऐसा कुछ) के माध्यम से डेटा में कमी के बाद गैर-रेखीय संघों के लिए संभव हो तो एक अच्छा अनुवर्ती प्रश्न हो सकता है।
एंडी डब्ल्यू

1

आप pairD3 R पैकेज से चमकदार इंटरफ़ेस का उपयोग करने पर विचार कर सकते हैं , जो स्कैटर प्लॉट मैट्रिसेस के साथ बातचीत करने का एक तरीका प्रदान करता है।

आईरिस डेटा सेट के साथ एक उदाहरण:

install.packages("pairsD3")
require("pairsD3")
shinypairs(iris)

स्रोत: https://github.com/garthtarr/pairsD3

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.