मेरे पास एक मैट्रिक्स है, जहां जीन की संख्या है और रोगियों की संख्या है। जिस किसी ने भी इस तरह के डेटा के साथ काम किया है, वह जानता है कि हमेशा से बड़ा होता है । सुविधा चयन का उपयोग करके मैंने को एक अधिक उचित संख्या में प्राप्त किया है, हालाँकि अभी भी से अधिक है ।
मैं अपने आनुवंशिक प्रोफाइल के आधार पर रोगियों की समानता की गणना करना चाहूंगा; मैं यूक्लिडियन दूरी का उपयोग कर सकता था, हालांकि महालनोबिस अधिक उपयुक्त लगता है क्योंकि यह चर के बीच संबंध के लिए जिम्मेदार है। समस्या (जैसा कि इस पोस्ट में बताया गया है ) कि महालनोबिस दूरी, विशेष रूप से सहसंयोजक मैट्रिक्स, जब काम नहीं करती है । जब मैं आर में महालनोबिस दूरी चलाता हूं, तो मुझे जो त्रुटि मिलती है:
Error in solve.default(cov, ...) : system is computationally
singular: reciprocal condition number = 2.81408e-21
अब तक इसे हल करने की कोशिश करने के लिए, मैंने पीसीए का उपयोग किया है और जीन का उपयोग करने के बजाय, मैं घटकों का उपयोग करता हूं और यह मुझे महालनोबिस दूरी की गणना करने की अनुमति देता है; 5 घटकों, विचरण के 80% के बारे में प्रतिनिधित्व करते हैं तो अब ।
मेरे प्रश्न हैं: क्या मैं रोगियों के बीच महालनोबिस दूरी प्राप्त करने के लिए पीसीए का उपयोग कर सकता हूं या यह अनुचित है? क्या वैकल्पिक दूरी के मीट्रिक्स हैं जो काम करते हैं और चरों के बीच बहुत सहसंबंध है ?
PCA
काम करती है, मैं इस बात के लिए उत्सुक हूं कि क्या आउटपुट पर किसी भी दूरी की मीट्रिक का उपयोग किया जा सकता है।
PCA
चर सह-संबंध को तोड़ सकते थे, जब तक आप एक परोक्ष रोटेशन की तरह कुछ का उपयोग करें। मैं यह भी सुनिश्चित नहीं कर रहा हूं कि वैरिएंट एपॉर्सिंग कैसेPCA
समान रोगियों के बीच महालनोबिस दूरी को प्रभावित करेगा।