अनुदैर्ध्य डेटा के बीच समूह (प्रक्षेपवक्र) कैसे खोजें?


11

प्रसंग

मैं सवाल पर कुछ विस्तार करने से पहले दृश्य सेट करना चाहता हूं।

मेरे पास अनुदैर्ध्य डेटा है, लगभग हर 3 महीने में विषयों पर माप लिया जाता है, प्राथमिक परिणाम संख्यात्मक (1dp के अनुसार) रेंज में 5 से 14 के बीच थोक में (सभी डेटा बिंदुओं में) 7 से 10 के बीच होता है। स्पेगेटी भूखंड (एक्स अक्ष पर उम्र के साथ और प्रत्येक व्यक्ति के लिए एक पंक्ति) यह स्पष्ट रूप से एक गड़बड़ है क्योंकि मेरे पास 1500 विषय हैं, लेकिन बढ़ती उम्र (और यह ज्ञात है) के साथ उच्च मूल्यों के लिए एक स्पष्ट रुझान है।

व्यापक प्रश्न: हम क्या करना चाहते हैं, सबसे पहले ट्रेंडिंग समूहों (जो उच्च शुरू करते हैं और उच्च रहते हैं, जो कम शुरू करते हैं और कम रहते हैं, जो कम शुरू करते हैं और उच्च स्तर तक बढ़ते हैं) और फिर हम कर सकते हैं व्यक्तिगत कारकों को देखें जो 'ट्रेंड ग्रुप' की सदस्यता से जुड़े हैं।

यहाँ मेरा प्रश्न विशेष रूप से पहले भाग से संबंधित है, प्रवृत्ति द्वारा समूहीकरण।

सवाल

  • हम व्यक्तिगत अनुदैर्ध्य प्रक्षेपवक्र कैसे समूह कर सकते हैं?
  • इसे लागू करने के लिए कौन सा सॉफ्टवेयर उपयुक्त होगा?

मैंने एसएएस और एम-प्लस में एक सहकर्मी द्वारा सुझाए गए प्रोक ट्रेज को देखा है, जिसे मैं देख रहा हूं, लेकिन यह जानना चाहूंगा कि इस पर अन्य विचार क्या हैं।


1
यह सिर्फ एक शुरुआती बिंदु है, लेकिन शायद इस सवाल के जवाबों में से कुछ की जाँच करें: आंकड़े.stackexchange.com/questions/2777/…
जेरोमी एंग्लीम

धन्यवाद जेरेमी, kml विकल्प दिलचस्प है, मुझे यह विचार आर में दिया गया पसंद है, लेकिन मुझे यकीन नहीं है कि मैं अपने डेटा के साथ उनके ढांचे का उपयोग कर सकता हूं, विषयों को देखते हुए उनकी यात्राओं के लिए अलग-अलग उम्र में आते हैं '1' का विरोध यात्रा 2 'आदि और कुछ में 10 दौरे हैं जबकि अन्य में 50 + ...
nzcoops

kml पैकेज की जाँच करें - कि आप की जरूरत कार्यक्षमता प्रदान करने के लिए लगता है। JoSS में पेपर इसका विस्तार से वर्णन करता है। इसके अलावा kml3dऔर kmlShapeब्याज की हो सकती है।
राडेक

जवाबों:


11

मैं समय-समय माइक्रोएरे डेटा सेट को क्लस्टर करने के लिए आर में एमज़्ज़ का उपयोग किया है । एमफुज़ "सॉफ्ट-क्लस्टरिंग" का उपयोग करता है। मूल रूप से, व्यक्ति एक से अधिक समूहों में दिखाई दे सकते हैं।

जैसा कि @Andy टिप्पणी में बताता है, मूल पेपर CTN डेटा का उपयोग करता है। हालांकि, मुझे संदेह है कि यह आपके असतत डेटा के लिए ठीक काम करना चाहिए। खासकर जब से आप सिर्फ डेटा सेट की खोज कर रहे हैं। यहाँ R में एक त्वरित उदाहरण दिया गया है:

##It's a bioconductor package
library(Mfuzz)
library(Biobase)

## Simulate some data
## 6 time points and 90 individuals
tps = 6;cases = 90
d = rpois(tps*cases, 1)  ##Poisson distribution with mean 1
m = matrix(d, ncol=tps, nrow=cases)

##First 30 individuals have increasing trends
m[1:30,] = t(apply(m[1:30,], 1, cumsum))

##Next 30 have decreasing trends
##A bit hacky, sorry
m[31:60,] = t(apply(t(apply(m[31:60,], 1, cumsum)), 1, rev))

##Last 30 individuals have random numbers from a Po(1)

##Create an expressionSet object
tmp_expr = new('ExpressionSet', exprs=m)

##Specify c=3 clusters
cl = mfuzz(tmp_expr, c=3, m=1.25)
mfuzz.plot(tmp_expr,cl=cl, mfrow=c(2, 2))

निम्नलिखित कथानक देता है:

मझु े कलपना


संदर्भ के लिए धन्यवाद, मैं इस से पहले नहीं आया था। क्या यह क्लस्टरिंग एल्गोरिथ्म कम गिनती वाले डेटा के साथ उपयुक्त होगा जैसा कि ओपी ने उल्लेख किया था (या द्विध्रुवीय डेटा)? संदर्भ पत्र (Futschik & Carlisle 2005) का उपयोग किया डेटा निरंतर होने के लिए बदल दिया गया था।
एंडी डब्ल्यू

@Andy: अच्छी बात है। मैंने एक त्वरित सिमुलेशन शामिल किया है। सब कुछ ठीक लगता है, लेकिन एक अधिक इष्टतम समाधान हो सकता है।
csgillespie

धन्यवाद @csgillespie, यह एक कोशिश देने के लिए दिखेगा। वैसे, मेरा डेटा निरंतर असतत नहीं है, निश्चित नहीं है कि प्रश्न पर्याप्त रूप से स्पष्ट नहीं था या यदि आपके उत्तर में कोई टाइपो था? मफज़ को स्थापित करने के लिए मेरे आर रोलबैक करें, मज़ा शुरू करें।
nzcoops

@csgillespie - यह बहुत अच्छा है। मैं कुछ वास्तविक आंकड़ों पर अभी इसके साथ खेल रहा हूं। क्या आपको पता है कि क्या समूहों की संख्या का अनुमान लगाने का एक तरीका है?
मैक्रों

4

मुझे उम्मीद है कि आप क्या जरूरत है करने के लिए एक MPLUS पैकेज है। लगभग इस विषय के बारे में साइकोमेट्रिका में एक पेपर है

springerlink.com/content/25r110007g417187

डेटा को छोड़कर द्विआधारी है और प्रक्षेपवक्र प्रायिकता प्रक्षेपवक्र हैं। लेखक समूह प्रक्षेपवक्रों के लिए अव्यक्त वर्ग विश्लेषण (एक दंडित परिमित मिश्रण मॉडल का उपयोग करके कार्यान्वित) का उपयोग करते हैं। मैं यह भी जानता हूं कि पहले लेखक ने लगभग 10 साल पहले बेंगट मुथेन (एमपीएलयूएस के निर्माता) के साथ कुछ अन्य पत्र लिखे थे जो इसी तरह की सेटिंग्स (प्रक्षेपवक्र के साथ) में अव्यक्त वर्ग विश्लेषण के बारे में थे। उदाहरण के लिए,

http://onlinelibrary.wiley.com/doi/10.1111/j.0006-341X.1999.00463.x/abstract

लगता है कि आप के बारे में बात कर रहे हैं के समान है, परिणाम को छोड़कर द्विआधारी है। निरंतर मामला बहुत सरल है, इसलिए मैं एक बैकवर्ड साहित्य खोज करूँगा (यानी कागजात इन कागजात संदर्भों को देखें) कुछ खोजने के लिए जो आपने अधिक सटीक वर्णन किया है।

अधिक जानने के लिए, आप सीधे MPLUS के प्रोप्राइटरों से पूछ सकते हैं कि आपको किस पैकेज का उपयोग करने की आवश्यकता है। वे आम तौर पर प्रतिक्रिया देने में बहुत तेज होते हैं और बहुत मददगार होते हैं:

http://www.statmodel.com/cgi-bin/discus/discus.cgi

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.