जब आप बड़े एन, असतत डेटा, और कई चर हैं, तो स्कैप्लेट मैट्रिक्स से जानकारी कैसे निकालें?


10

मैं स्तन कैंसर के प्रेग्नेंट के साथ खेल रहा हूं और एक विचार प्राप्त करने के लिए सभी विशेषताओं का एक स्कैल्प बनाया है, जिसके लिए (लाल) वर्ग malignant(नीला) की भविष्यवाणी करने पर सबसे अधिक प्रभाव पड़ता है benign

मैं समझता हूं कि पंक्ति x अक्ष का प्रतिनिधित्व करती है और स्तंभ y अक्ष का प्रतिनिधित्व करता है, लेकिन मैं यह नहीं देख सकता कि इस स्कैटरप्लॉट से डेटा या विशेषताओं के बारे में मैं क्या अवलोकन कर सकता हूं।

मैं इस स्कैटरप्लॉट से डेटा के बारे में व्याख्या करने / अवलोकन करने के लिए कुछ मदद की तलाश कर रहा हूं या अगर मुझे इस डेटा की कल्पना करने के लिए कुछ अन्य दृश्य का उपयोग करना चाहिए।

यहां छवि विवरण दर्ज करें

आर कोड मैंने इस्तेमाल किया

link   <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff"
breast <- read.arff(link)
cols   <- character(nrow(breast))
cols[] <- "black"
cols[breast$class == 2] <- "red"
cols[breast$class == 4] <- "blue"
pairs(breast, col=cols)

आप सही हैं: इसमें बहुत कुछ देखना मुश्किल है। चूँकि आपके सभी चर बहुत कम संख्या में श्रेणियों के साथ असतत प्रतीत होते हैं, इसलिए यह निर्धारित करना असंभव है कि प्रत्येक विशिष्ट रूप से दिखाई देने वाले प्रतीक को बनाने के लिए कितने प्रतीकों को ढेर किया जाता है। यह किसी भी चीज़ का आकलन करने में कम मूल्य की इस विशेष छवि को बनाता है।
whuber

1
मैंने जैसा सोचा था, वह वैसा ही है। मैंने एक बॉक्सिंग बारप्लॉट की साजिश रचने की कोशिश की, लेकिन यह देखने में उपयोगी नहीं होगा कि कक्षा में किस विशेषता का सबसे अधिक प्रभाव है ...? किस प्रकार के विज़ुअलाइज़ेशन में मदद की तलाश में कुछ सार्थक जानकारी दी जाएगी।
बिरादरी

2
यदि आप चिड़चिड़ाहट (शोर जोड़कर) करते हैं तो आपके दो-रंग वाले स्कैटर ठीक समझ सकते हैं।
ttnphns

@ttnphns मुझे समझ नहीं आ रहा है कि "अंकों के ढेर" से आपका क्या मतलब है
बिरादरी

1
घबराना का अर्थ है कि अपने कथानक को संपादित करना, ताकि प्रत्येक बिंदु पर एक के ऊपर एक डाटापॉइंट के दृश्य को अस्पष्ट न करने के लिए अतिव्यापी बिंदु रखे जाएं। यह अक्सर आर प्लॉटिंग फ़ंक्शन में उपयोग किया जाता है।
OFish

जवाबों:


3

मुझे यकीन नहीं है कि यह आपके लिए किसी भी मदद का है, लेकिन प्राथमिक ईडीए के लिए मुझे वास्तव में tabplotपैकेज पसंद है । आपके डेटा के भीतर क्या संभावित सहसंबंध हो सकते हैं, इसकी अच्छी जानकारी देता है।

install.packages("tabplot")
tableplot(breast) # gives you the unsorted image below
tableplot(breast, sortCol="class") # gives you a sorted image according to class

अनियंत्रित प्लॉट प्लॉट का आदेश दिया


कोई इस टैबप्लेट की व्याख्या कैसे करेगा? दूसरे टैब्लपॉट से ऐसा लगता है जैसे कॉलम 2, 3, 4, और 7 एक-दूसरे से बहुत मिलते-जुलते हैं?
बिरादरी

क्या यह किसी प्रकार का अस्मिता / गृहकार्य है? यदि ऐसा है, तो कृपया नियमों के लिए मेटास का संदर्भ लें। मेरा संक्षिप्त जवाब: क) मुझे कोई सुराग नहीं है कि कॉलम में सभी अलग-अलग मूल्यों का क्या मतलब है क्योंकि मैंने डेटासेट विवरण का अध्ययन नहीं किया है, ख) अगर मैं बस यह बताऊं कि मैं क्या देख रहा हूं, तो मैं कहूंगा: कक्षा 4 लगता है प्रत्येक स्तंभ / चर के उच्च मूल्यों के साथ जुड़ा हुआ है और इसके विपरीत।
OFish

6

ऐसे कई मुद्दे हैं जो आपके बिखराव मैट्रिक्स से किसी भी उपयोगी जानकारी को निकालना मुश्किल या असंभव बना देते हैं।

आपके पास बहुत सारे चर एक साथ प्रदर्शित होते हैं। जब आपके पास स्कैल्पलोट मैट्रिक्स में बहुत सारे चर होते हैं, तो प्रत्येक प्लॉट उपयोगी होने के लिए बहुत छोटा हो जाता है। ध्यान देने वाली बात यह है कि कई भूखंडों की नकल की जाती है, जो अंतरिक्ष को बर्बाद करते हैं। इसके अलावा, यद्यपि आप हर संयोजन को देखना चाहते हैं, आपको उन सभी को एक साथ करने की आवश्यकता नहीं है। ध्यान दें कि आप एक स्कैल्पलॉट मैट्रिक्स को चार या पांच (एक संख्या जो उपयोगी दृश्यमान है) के छोटे ब्लॉकों में तोड़ सकते हैं। आपको बस प्रत्येक ब्लॉक के लिए कई प्लॉट बनाने होंगे।

यहां छवि विवरण दर्ज करें

चूंकि आपके पास अंतरिक्ष में असतत बिंदुओं पर बहुत अधिक डेटा है , इसलिए वे एक दूसरे के ऊपर स्टैकिंग को समाप्त करते हैं। इस प्रकार, आप यह नहीं देख सकते हैं कि प्रत्येक स्थान पर कितने अंक हैं। इससे निपटने में आपकी मदद करने के लिए कई तरकीबें हैं।

  1. .5
  2. इतने डेटा के साथ, यहां तक ​​कि घबराना भी पेटेंट को मुश्किल बना देगा। आप ऐसे रंगों का उपयोग कर सकते हैं जो अत्यधिक संतृप्त हैं, लेकिन इसके लिए काफी हद तक पारदर्शी हैं । जहां एक-दूसरे के ऊपर ढेर सारा डेटा जमा होता है, वहां का रंग गहरा हो जाएगा, और जहां थोड़ा घनत्व होगा, वहां का रंग हल्का हो जाएगा।
  3. काम करने की पारदर्शिता के लिए, आपको अपना डेटा प्रदर्शित करने के लिए ठोस प्रतीकों की आवश्यकता होगी , जबकि R डिफ़ॉल्ट रूप से खोखले हलकों का उपयोग करता है।

इन रणनीतियों का उपयोग करते हुए, यहां कुछ उदाहरण आर कोड और किए गए भूखंड हैं:

# the alpha argument in rgb() lets you set the transparency
cols2 = c(rgb(red=255, green=0, blue=0,   alpha=50, maxColorValue=255),
          rgb(red=0,   green=0, blue=255, alpha=50, maxColorValue=255) )
cols2 = ifelse(breast$class==2, cols2[1], cols2[2])
# here we jitter the data
set.seed(6141)  # this makes the example exactly reproducible
jbreast = apply(breast[,1:9], 2, FUN=function(x){ jitter(x, amount=.5) })
jbreast = cbind(jbreast, class=breast[,10])  # the class variable is not jittered

windows()  # the 1st 5 variables, using pch=16
  pairs(jbreast[,1:5], col=cols2, pch=16)

यहां छवि विवरण दर्ज करें

windows()  # the 2nd 5 variables
  pairs(jbreast[,6:10], col=cols2, pch=16)

यहां छवि विवरण दर्ज करें

windows()  # to match up the 1st & 2nd sets requires more coding
  layout(matrix(1:25, nrow=5, byrow=T))
  par(mar=c(.5,.5,.5,.5), oma=c(2,2,2,2))
  for(i in 1:5){
    for(j in 6:10){
      plot(jbreast[,j], jbreast[,i], col=cols2, pch=16, 
           axes=F, main="", xlab="", ylab="")
      box()
      if(j==6 ){ mtext(colnames(jbreast)[i], side=2, cex=.7, line=1) }
      if(i==5 ){ mtext(colnames(jbreast)[j], side=1, cex=.7, line=1) }
      if(j==10){ axis(side=4, seq(2,10,2), cex.axis=.8) }
      if(i==1 ){ axis(side=3, seq(2,10,2), cex.axis=.8) }
    }
  }

यहां छवि विवरण दर्ज करें


5

एक ही भूखंड में 3-4 से अधिक आयामों की कल्पना करना मुश्किल है। एक विकल्प मुख्य घटक विश्लेषण (पीसीए) का उपयोग डेटा को संपीड़ित करने और फिर मुख्य आयामों में कल्पना करने के लिए होगा। आर (साथ ही आधार prcompफ़ंक्शन) में कई अलग-अलग पैकेज हैं जो इस वाक्यात्मक रूप से आसान बनाते हैं ( देखें सीआरएएन ); प्लॉट्स, लोडिंग की व्याख्या करना एक और कहानी है, लेकिन मुझे लगता है कि 10 वैरिएबल ऑर्डिनल स्कैल्पल मैट्रिक्स से आसान है।

यहां छवि विवरण दर्ज करें


पीसीए पर सुझाव के लिए धन्यवाद। मुझे इसकी जानकारी नहीं थी। मैं आपके द्वारा पोस्ट की गई छवि की व्याख्या कैसे करूंगा? क्या इसका मतलब यह है कि एक समूह में एक साथ टकराए जाने वाले सभी गुण कुछ महत्व के होंगे?
बिरादरी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.