मेरे पास एक मैट्रिक्स है, जहां जीन की संख्या है और रोगियों की संख्या है। जिस किसी ने भी इस तरह के डेटा के साथ काम किया है, वह जानता है कि हमेशा से बड़ा होता है । सुविधा चयन का उपयोग करके मैंने को एक अधिक उचित संख्या में प्राप्त किया है, हालाँकि अभी भी से अधिक है ।
मैं अपने आनुवंशिक प्रोफाइल के आधार पर रोगियों की समानता की गणना करना चाहूंगा; मैं यूक्लिडियन दूरी का उपयोग कर सकता था, हालांकि महालनोबिस अधिक उपयुक्त लगता है क्योंकि यह चर के बीच संबंध के लिए जिम्मेदार है। समस्या (जैसा कि इस पोस्ट में बताया गया है ) कि महालनोबिस दूरी, विशेष रूप से सहसंयोजक मैट्रिक्स, जब काम नहीं करती है । जब मैं आर में महालनोबिस दूरी चलाता हूं, तो मुझे जो त्रुटि मिलती है:
Error in solve.default(cov, ...) : system is computationally
singular: reciprocal condition number = 2.81408e-21
अब तक इसे हल करने की कोशिश करने के लिए, मैंने पीसीए का उपयोग किया है और जीन का उपयोग करने के बजाय, मैं घटकों का उपयोग करता हूं और यह मुझे महालनोबिस दूरी की गणना करने की अनुमति देता है; 5 घटकों, विचरण के 80% के बारे में प्रतिनिधित्व करते हैं तो अब ।
मेरे प्रश्न हैं: क्या मैं रोगियों के बीच महालनोबिस दूरी प्राप्त करने के लिए पीसीए का उपयोग कर सकता हूं या यह अनुचित है? क्या वैकल्पिक दूरी के मीट्रिक्स हैं जो काम करते हैं और चरों के बीच बहुत सहसंबंध है ?
PCAकाम करती है, मैं इस बात के लिए उत्सुक हूं कि क्या आउटपुट पर किसी भी दूरी की मीट्रिक का उपयोग किया जा सकता है।
PCAचर सह-संबंध को तोड़ सकते थे, जब तक आप एक परोक्ष रोटेशन की तरह कुछ का उपयोग करें। मैं यह भी सुनिश्चित नहीं कर रहा हूं कि वैरिएंट एपॉर्सिंग कैसेPCAसमान रोगियों के बीच महालनोबिस दूरी को प्रभावित करेगा।