अनुदैर्ध्य चर क्लस्टर कैसे करें?


10

मेरे पास चर का एक गुच्छा है जिसमें 0 से दिन 7 तक के अनुदैर्ध्य डेटा होते हैं। मैं एक उपयुक्त क्लस्टरिंग दृष्टिकोण की तलाश कर रहा हूं जो इन अनुदैर्ध्य चर (मामलों में नहीं) को विभिन्न समूहों में क्लस्टर कर सकता है। मैंने समय-समय पर अलग-अलग सेट किए गए इस डेटा का विश्लेषण करने की कोशिश की, लेकिन परिणाम काफी मुश्किल से समझा गया।

मैंने एसएएस प्रक्रिया की उपलब्धता की जांच की PROC SIMILARITYक्योंकि इसकी वेबसाइट पर एक उदाहरण है ; हालाँकि, मुझे लगता है कि यह एक सही तरीका नहीं है। पिछले कुछ अध्ययनों में प्रत्येक समय बिंदु में खोजपूर्ण कारक विश्लेषण का उपयोग किया गया था, लेकिन यह मेरे अध्ययन के साथ-साथ अनुचित परिणामों के कारण एक विकल्प नहीं है।

उम्मीद है कि कुछ विचार यहां दिए जा सकते हैं, और एक संकलित कार्यक्रम, जैसे एसएएस या आर, प्रक्रिया के लिए उपलब्ध हो सकता है। किसी भी सुझाव की सराहना की है !!


यहाँ एक छोटा उदाहरण है (डेटा और चर नामों के बीच असंगत स्थिति के लिए खेद है):

id time   V1  V2   V3   V4   V5   V6   V7   V8   V9   V10
2    0    8    7    3    7    6    6    0    0    5    2
2    1    3    5    2    6    5    5    1    1    4    2
2    2    2    3    2    4    4    2    0    0    2    2
2    3    6    4    2    5    3    2    1    2    3    3
2    4    5    3    4    4    3    3    4    3    3    3   
2    5    6    4    5    5    6    3    3    2    2    2
2    6    7    5    2    4    4    3    3    4    4    5
2    7    7    7    2    6    4    4    0    0    4    3
4    0   10    7    0    2    2    6    7    7    0    9
4    1    8    7    0    0    0    9    3    3    7    8
4    2    8    7    0    0    0    9    3    3    7    8
4    3    8    7    0    0    0    9    3    3    7    8
4    4    5    7    0    0    0    9    3    3    7    8
4    5    5    7    0    0    0    9    3    3    7    8
4    6    5    7    0    0    0    9    3    3    7    8
4    7    5    7    0    0    0    9    3    3    7    8
5    0    9    6    1    3    2    2    2    3    3    5
5    1    7    3    1    3    1    3    2    2    1    3
5    2    6    4    0    4    2    4    2    1    2    4
5    3    6    3    2    3    2    3    3    1    3    4
5    4    8    6    0    5    3    3    2    2    3    4
5    5    9    6    0    4    3    3    2    3    2    5
5    6    8    6    0    4    3    3    2    3    2    5
5    7    8    6    0    4    3    3    2    3    2    5

क्या आप डेटा को थोड़ा और समझा सकते हैं या शायद एक छोटा नमूना प्रदान कर सकते हैं? जब आप कहते हैं कि "चर में अनुदैर्ध्य डेटा होता है" तो क्या इसका मतलब है कि वे 7 दिनों में एक ही व्यक्ति या चीज़ पर सभी दोहराया माप हैं (और इस तरह सहसंबद्ध होने की संभावना है)।
रोज़र

रोज़र के लिए: मैंने डेटा का एक भाग जोड़ा है। जैसा कि आपने उल्लेख किया है, वे दोहराया माप हैं: प्रत्येक रोगी (आईडी) में 10 माप (V1 ~ V10) हैं जो कई दिनों (दिन 0 ~ दिन 7) तक चलती हैं।
cchien

जवाबों:


5

आर Hmiscपैकेज में curveRepफ़ंक्शन के लिए मदद फ़ाइल देखें , जो "प्रतिनिधि घटता" के लिए खड़ा है। curveRepलापता समय बिंदुओं के वक्र आकार, स्थान और पैटर्न पर क्लस्टर।


आपके सुझाव के लिए धन्यवाद। यह उल्लेखनीय लगता है। मैं अभी इसका मैनुअल पढ़ूंगा।
cchien

फ्रैंक। मैनुअल doesn't में उदाहरण कार्य करने लगते हैं। क्या कोई टाइपो है? मैं इसके लिए एक उदाहरण पाने के लिए उदाहरण को चलाना चाहता था। यहाँ कोड है: set.seed (1) एन <- 200 एनसी <- नमूना (1:10, एन, ट्रू) आईडी <- प्रतिनिधि (1: एन, एनसी) एक्स <- वाई <- आईडी के लिए (i में) 1: N) {x [id == i] <- if (iy [id == i] <- i + 10 * (x [id == i] - .5) + runif (nc [i], -) 10, 10)}
B_Miner

1
ओह। मैं भूल गया कि R मदद फ़ाइल में एक प्रतिशत चिह्न बच निकलने की जरूरत है। इससे उदाहरण में एक पंक्ति काट दी गई। अधूरी रेखा को इसके साथ बदलें: x[id==i] <- if(i %% 2) runif(nc[i]) else runif(nc[i], c(.25, .75))
फ्रैंक हरेल

मुझे यकीन नहीं है कि "पी: पॉइंट्स की संख्या जिस पर क्लस्टरिंग के लिए प्रत्येक वक्र का मूल्यांकन करना है" का अर्थ है क्यूरप (x, y, id, kxdist = 2, p = 10)
greg121

1
p>3p=10p

5

मुझे यकीन नहीं है कि यह वही है जो आप खोज रहे हैं, लेकिन kmlआर में पैकेज बार-बार उपायों के क्लस्टर अनुक्रमों के लिए k-mean का उपयोग करता है। यहां पैकेज पेज और पेपर के लिए लिंक है (दुर्भाग्य से, यह दिनांकित है)। यह केवल तभी अच्छी तरह से काम करता है जब आपके पास एक छोटा सा डेटासेट (कुछ सौ क्रम) हो।

यहाँ कागज का एक गैर-गेटेड संस्करण है (संदर्भ समस्याओं के बिना): http://christophe.genolini.free.fr/recherche/aTelecharger/genolini2011.pdf


मैंने वास्तव में इस प्रश्न को पोस्ट करने से पहले इस पद्धति की समीक्षा की। मैंने माना कि kml दृष्टिकोण व्यक्तियों को इसके मूल पेपर के कुछ उदाहरणों से समूह बनाने का एक तरीका है। मैं इस पर फिर से विचार करूंगा। धन्यवाद!!
cchien

@ एक्चियन हाँ, वे इसे एक साथ व्यक्तिगत प्रक्षेपवक्र को क्लस्टर करने के लिए उपयोग करते हैं, लेकिन आप यह मान सकते हैं कि आपके पास प्रति व्यक्ति (आपके प्रत्येक चर के लिए एक) दस प्रक्षेपवक्र हैं। ठीक से काम करने के लिए आपको संभवतः kml प्रक्रिया के लिए अपने चर को सामान्य करना होगा। समस्या यह है कि जहां तक ​​मुझे पता है, किमी को बताने का कोई तरीका नहीं है कि आपके प्रक्षेपवक्र व्यक्तियों में निहित हैं। तो यह अंत हो सकता है कि आप जो हासिल करने की कोशिश कर रहे हैं, वह बिल्कुल ठीक नहीं है।
एंटोनी वर्नेट

@ greg121, कागज के स्वतंत्र रूप से उपलब्ध संस्करण के लिंक के लिए धन्यवाद। ऐसा लगता है कि इन-टेक्स्ट संदर्भ हटा दिए गए हैं, हो सकता है कि लेटेक्स फ़ाइल को एक बार फिर से हटा दिया जाए (संदर्भ सूची हालांकि वहाँ है)।
एंटोनी वर्नेट

@AntoineVernet हाँ, आप सही हैं। लेकिन मुझे
greg121

4

तो, आप पी चर प्रत्येक मापा टी एक ही पर बार n व्यक्तियों। आगे बढ़ने का एक तरीका यह है कि t ppp ( डिस ) समानता मैट्रिसेस की गणना करें और INDSCAL-Model Multidimentional Scaling को लागू करें। यह आपको दो निम्न-आयामी नक्शे देगा (जैसे, 2 आयामों का)। पहला नक्शा आयामों के स्थान में p चरों के निर्देशांक को दर्शाता है और यदि कोई हैं तो उनके बीच के समूहों को दर्शाता है। दूसरा नक्शा टी के प्रत्येक मैट्रिक्स में आयामों का वजन (अर्थात महत्व, या नम्रता) दिखाता है

यहां छवि विवरण दर्ज करें


मेरे पास n-आयाम को 2-आयाम में परिवर्तित करने का विचार भी है, लेकिन सिर्फ विशिष्ट पद्धति का कोई विचार नहीं है जो इसे पूरा कर सके। अब मैंने पाया कि एसएएस में एक प्रक्रिया हो सकती है जो इसे लागू कर सकती है। मैं अपने डेटा का उपयोग करते समय इसकी उपलब्धता देखना सीखूंगा।
cchien

भार की व्याख्या करने का सबसे अच्छा तरीका क्या है?
मिंग के

वजन दिखाता है कि इस विशेष स्रोत के लिए आयाम कितना प्रासंगिक है, या भेदभावपूर्ण है (स्रोत व्यक्ति हैं या, जैसे कि इस उदाहरण में, समय)। समय 1 के लिए चित्र पर, उदाहरण के लिए, आयाम II मजबूत या प्रासंगिक है और आयाम मैं कमजोर है।
ttnphns
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.