मान लें कि mat_pages [] कॉलम में पृष्ठ हैं (जो आप क्लस्टर करना चाहते हैं) और पंक्तियों में व्यक्ति। आप निम्नलिखित आदेश का उपयोग करके Rby में अलग-अलग डेटा के आधार पर पृष्ठों को क्लस्टर कर सकते हैं:
pc <- prcomp(x=mat_pages,center=TRUE,scale=TRUE)
लोडिंग मैट्रिक्स डेटा के एसवीडी अपघटन के eigenvectors का मैट्रिक्स है। वे अंकों की गणना में प्रत्येक पृष्ठ का सापेक्ष भार देते हैं। बड़े निरपेक्ष मूल्यों वाले लोडिंग का संगत सिद्धांत घटक के स्कोर को निर्धारित करने में अधिक प्रभाव होता है।
हालांकि, मैं यह भी कहना चाहिए कम आ रहा क्लस्टर पृष्ठों के लिए पीसीए का उपयोग करने का। इसका कारण यह है कि लोडिंग PAGES को अधिक भिन्नता के साथ बड़ा वजन देता है, चाहे यह भिन्नता पृष्ठ सामग्री या किसी अन्य कारण से हो (तकनीकी या व्यक्तिगत भिन्नता) हो। लोडिंग जरूरी समूहों के बीच सच्चे अंतर को नहीं दर्शाती है, जो (शायद) आपकी मुख्य रुचि है। लेकिन, यह गुट वास्तव में इस धारणा के तहत समूह में अंतर को दर्शाता है कि सभी पृष्ठों में एक ही भिन्नता है (मुझे नहीं पता कि यह एक मान्य धारणा है)।
यदि आपके पास एक शक्तिशाली कंप्यूटिंग सुविधाएं हैं (जो आपके डेटा का आकार दिया जा सकता है) - पदानुक्रमित मॉडल का उपयोग करना एक अच्छा विचार हो सकता है। आर में, यह lme4 पैकेज का उपयोग करके किया जा सकता है।
स्कोर होने के बाद आप क्या करते हैं?
यह एक कच्चा सुझाव है और विश्लेषण इस बात पर बहुत निर्भर करता है कि डेटा कैसा दिखता है। इसके अलावा, मुझे लगता है कि यह प्रक्रिया आपके पास मौजूद परिमाण के डेटा को समूहीकृत करने के लिए अत्यधिक प्रभावी होगी।
pc.col <- paste("page", 1:27000, sep=".")
pdf("principle-components.pdf")
plot(pc$x[,1:2]) ## Just look at the 1st two loadings (as you can see the groupings in a plane)
dev.off()
उम्मीद है, यह आपको एक तस्वीर दे सकता है कि डेटा को किस तरह से समूहीकृत किया गया है।
चेतावनी: यह वह नहीं है जो मैं सुझाऊँगा।
मेरी सिफारिश:
जीनोमिक्स में अक्सर इस तरह की समस्याएं उत्पन्न होती हैं। आपके मामले में पृष्ठ जीन से मेल खाते हैं और व्यक्ति रोगियों से मेल खाते हैं (मूल रूप से व्यक्तियों का जीनोमिक्स में वही अर्थ है)
आप डेटा के आधार पर पृष्ठों को क्लस्टर करना चाहते हैं।
आप आर में बहुत सारे संकुल संकुल का उपयोग कर सकते हैं और अन्य उत्तरों में इंगित किए गए हैं। संकुल के साथ एक मूलभूत समस्या यह है कि गुच्छों की संख्या का निर्धारण कैसे किया जाता है। मेरे कुछ पसंदीदा हैं:
- pvclust (आपको क्लस्टर देता है और प्रत्येक क्लस्टर के लिए एक पी-वैल्यू भी देता है। पी-वैल्यू का उपयोग करके आप सांख्यिकीय रूप से महत्वपूर्ण क्लस्टर निर्धारित कर सकते हैं। समस्या : बहुत अधिक कम्प्यूटेशनल शक्ति की आवश्यकता होती है और मुझे यकीन नहीं है कि यह आपके डेटा के डेटा के लिए काम करेगा। आकार)
- हॉपक (आपको क्लस्टर की अनुमानित संख्या और क्लस्टर देता है)
- बायोकॉन्टर में अन्य पैकेज उपलब्ध हैं, कृपया उन्हें कार्य दृश्य में देखें।
तुम भी k- साधन आदि की तरह क्लस्टरिंग algos का उपयोग कर सकते हैं। मुझे यकीन है कि मैंने क्लस्टरिंग के बारे में इस मंच में एक धागा देखा है। जवाब बहुत विस्तृत थे। यह ताल गैली द्वारा पूछा गया था कि क्या मुझे सही याद है।