जब पीसीए के माध्यम से महालनोबिस दूरी


10

मेरे पास एक मैट्रिक्स है, जहां जीन की संख्या है और रोगियों की संख्या है। जिस किसी ने भी इस तरह के डेटा के साथ काम किया है, वह जानता है कि हमेशा से बड़ा होता है । सुविधा चयन का उपयोग करके मैंने को एक अधिक उचित संख्या में प्राप्त किया है, हालाँकि अभी भी से अधिक है ।n×ppnpnppn

मैं अपने आनुवंशिक प्रोफाइल के आधार पर रोगियों की समानता की गणना करना चाहूंगा; मैं यूक्लिडियन दूरी का उपयोग कर सकता था, हालांकि महालनोबिस अधिक उपयुक्त लगता है क्योंकि यह चर के बीच संबंध के लिए जिम्मेदार है। समस्या (जैसा कि इस पोस्ट में बताया गया है ) कि महालनोबिस दूरी, विशेष रूप से सहसंयोजक मैट्रिक्स, जब काम नहीं करती है । जब मैं आर में महालनोबिस दूरी चलाता हूं, तो मुझे जो त्रुटि मिलती है:n<p

 Error in solve.default(cov, ...) :    system is computationally
 singular: reciprocal condition number = 2.81408e-21

अब तक इसे हल करने की कोशिश करने के लिए, मैंने पीसीए का उपयोग किया है और जीन का उपयोग करने के बजाय, मैं घटकों का उपयोग करता हूं और यह मुझे महालनोबिस दूरी की गणना करने की अनुमति देता है; 5 घटकों, विचरण के 80% के बारे में प्रतिनिधित्व करते हैं तो अब ।n>p

मेरे प्रश्न हैं: क्या मैं रोगियों के बीच महालनोबिस दूरी प्राप्त करने के लिए पीसीए का उपयोग कर सकता हूं या यह अनुचित है? क्या वैकल्पिक दूरी के मीट्रिक्स हैं जो काम करते हैं और चरों के बीच बहुत सहसंबंध है ?n<pn


PCAचर सह-संबंध को तोड़ सकते थे, जब तक आप एक परोक्ष रोटेशन की तरह कुछ का उपयोग करें। मैं यह भी सुनिश्चित नहीं कर रहा हूं कि वैरिएंट एपॉर्सिंग कैसे PCAसमान रोगियों के बीच महालनोबिस दूरी को प्रभावित करेगा।
मिशेल

यदि PCA चर सहसंबंधों को तोड़ता है, तो क्या मैं महालनोबिस दूरी के बजाय कुछ अन्य दूरी मीट्रिक (जैसे पियर्सन की दूरी) का उपयोग कर सकता हूं?
user4673

मैं आगे अनुशंसा करने के लिए पर्याप्त नहीं जानता। मुझे उम्मीद थी कि कोई और बातचीत में कूद जाएगा। :) यह देखते हुए कि चर परिवर्तन तकनीक कैसे PCAकाम करती है, मैं इस बात के लिए उत्सुक हूं कि क्या आउटपुट पर किसी भी दूरी की मीट्रिक का उपयोग किया जा सकता है।
मिशेल

मैं क्षेत्र का विशेषज्ञ नहीं हूं। मैं बस साझा करना चाहता हूं, कि मुझे आपकी एक समस्या है, और मैंने कोरपोर पैकेज से 'cov.shrink' का उपयोग किया है ।
ब्रूनो सौसा

जवाबों:


8

यदि आप एक पीसीए से सभी घटकों को रखते हैं - तो नए पीसीए-स्पेस में मरीजों के बीच यूक्लिडियन दूरी मनाया-चर अंतरिक्ष में उनकी महालनोबिस दूरी के बराबर होगी। यदि आप कुछ घटकों को छोड़ देंगे, तो यह थोड़ा बदल जाएगा, लेकिन वैसे भी। यहां मैं यूनिट-विचरण PCA- घटकों का उल्लेख करता हूं, न कि उस प्रकार का जिसका विचरण eigenvalue के बराबर है (मैं आपके PCA कार्यान्वयन के बारे में निश्चित नहीं हूं)।

मेरा मतलब सिर्फ इतना है कि यदि आप मरीजों के बीच महालनोबिस दूरी का मूल्यांकन करना चाहते हैं, तो आप पीसीए लागू कर सकते हैं और यूक्लिडियन दूरी का मूल्यांकन कर सकते हैं। पीसीए लगाने के बाद महालनोबिस दूरी का मूल्यांकन करना मुझे कुछ निरर्थक लगता है।


यहाँ इस संबंध पर चर्चा करने वाला एक छोटा लेख है: ब्रेरेटन, आरजी द महालनोबिस दूरी और प्रिंसिपल कंपोनेंट जर्नल जर्नल ऑफ केमोमेट्रिक्स, विली-ब्लैकवेल, 2015, 29, 143-145 से इसका संबंध। dx.doi.org/10.1002/cem.2692 । ध्यान दें कि chemometrics में पीसीए डिफ़ॉल्ट रूप से डेटा का एक शुद्ध रोटेशन, इस प्रकार है नहीं यूनिट विचरण संस्करण दिमित्री को दर्शाता है।
SX

2

निम्नलिखित कागज पर एक नज़र डालें:

जुबेर, वी।, सिल्वा, एपीडी, और स्ट्रिमर, के। (2012)। उच्च-आयामी जीनोम-वाइड एसोसिएशन अध्ययन में एक साथ एसएनपी चयन के लिए एक उपन्यास एल्गोरिथ्मबीएमसी जैव सूचना विज्ञान , 13 (1), 284।

यह वास्तव में आपकी समस्या से निपटता है। लेखक एक नए चर-महत्व माप के उपयोग को मानते हैं, इसके अलावा उन्होंने पहले व्याख्यात्मक चर के सहसंबंध-मैट्रिक्स के लिए एक दंडित अनुमान पद्धति पेश की जो आपकी समस्या को फिट करती है। वे सजावट के लिए महालनोबिस दूरी का भी उपयोग करते हैं!

तरीके CRAN पर उपलब्ध R- पैकेज 'केयर' में शामिल हैं


0

पीसीए स्कोर (या पीसीए परिणाम) का उपयोग साहित्य में नमूने के बीच महालनोबिस दूरी और नमूनों के वितरण की गणना के लिए किया जाता है। एक उदाहरण के लिए, इस लेख को देखें । "विश्लेषण विधियों" अनुभाग के तहत, लेखक राज्य:

प्रतिदीप्ति स्पेक्ट्रा (681) के डेटा सेट को सहसंबंध मैट्रिक्स (681 × 681) के प्रमुख घटकों (पीसी) का मूल्यांकन करके एक कम आयाम (11) में घटाया जाता है। पीसी के साथ मूल डेटा प्रोजेक्ट करके पीसी स्कोर का अनुमान लगाया जाता है। पीसी स्कोर के लिए महालनोबिस दूरी की गणना करके महालनोबिस डिस्टेंस मॉडल का उपयोग करके डेटा सेटों के बीच वर्गीकरण किया गया है।

मैंने साहित्य में पीसीए / महालनोबिस दूरी आधारित भेदभावपूर्ण विश्लेषण और GRAMS IQ केमोमेट्रिक्स सॉफ्टवेयर के हेल्प मेनू में अन्य उदाहरण देखे हैं। यह संयोजन समझ में आता है क्योंकि महालनोबिस दूरी तब अच्छी तरह से काम नहीं करती है जब चर की संख्या उपलब्ध नमूनों की संख्या से अधिक होती है, और पीसीए चर की संख्या को कम कर देता है।

पीसीए / महालनोबिस दूरी आधारित विभेदक विश्लेषण के लिए वन-क्लास वर्गीकरण मशीन लर्निंग एल्गोरिदम (अर्थात अलगाव वन, वन-क्लासएसवीएम, आदि) संभव विकल्प हैं। हमारी प्रयोगशाला में, डेटा पूर्व प्रसंस्करण के साथ संयुक्त अलगाव वन ने निकट अवरक्त स्पेक्ट्रा के वर्गीकरण में अच्छे परिणाम उत्पन्न किए हैं।

थोड़े संबंधित नोट पर, उच्च dimentional डेटा के लिए पीसीए / महालनोबिस दूरी के साथ एकमुश्त या नवीनता का पता लगाने, अक्सर महालनोबिस दूरी की कटऑफ की गणना की आवश्यकता होती है । यह लेख बताता है कि कटऑफ की गणना ची-वर्गीय वितरण के महत्वपूर्ण मान के वर्गमूल के रूप में की जा सकती है , यह मानते हुए कि डेटा सामान्य रूप से वितरित किया जाता है। इस महत्वपूर्ण मूल्य में स्वतंत्रता की डिग्री की संख्या और डेटा से जुड़ी संभावना मूल्य की आवश्यकता होती है। लेख में यह सुझाव दिया गया है कि प्रमुख घटकों की संख्या महत्वपूर्ण मूल्य की गणना करने के लिए आवश्यक स्वतंत्रता की डिग्री की संख्या के बराबर होती है क्योंकि लेखकों ने अपनी गणना के लिए निर्धारित आंकड़ों में सुविधाओं की संख्या का उपयोग किया था।


हमारी साइट पर आपका स्वागत है। क्योंकि यह आपके उत्तर में स्पष्ट नहीं है, क्या आप बता सकते हैं कि यह कैसे संबोधित करता हैn<पीप्रश्न में परिस्थिति उत्पन्न हुई?
whuber

जब n <p, p को कम करने के लिए PCA का उपयोग किया जाता है। पीसीए विश्लेषण (एनसी) से बनाए गए घटकों की संख्या आमतौर पर पी की तुलना में बहुत छोटी है, और यह एन के आकार के आधार पर एन से भी छोटा हो सकता है। इस प्रकार, पीसीए "एन बाय पी" समस्या को "एन द्वारा एनसी" समस्या में बदल देता है। हमारी प्रयोगशाला में जहां हम एनआईआर स्पेक्ट्रा का विश्लेषण करते हैं, पी वेवलेंग्थ की संख्या का प्रतिनिधित्व करता है, जो आमतौर पर दो हजारों से अधिक है। n प्रशिक्षण नमूनों की संख्या का प्रतिनिधित्व करता है (~ 20 से 150)। nc आमतौर पर 3 से 11 है। जब n> nc, PCA / Mahalanobis विश्लेषण अच्छे परिणाम देता है।
चेरिफ़ डायलो

1
मुद्दा यह नहीं है कि पीसीए क्या करता है। यह इस साइट पर अन्य थ्रेड्स में अच्छी तरह से कवर किया गया है। समस्या यह है कि महालनोबिस दूरी आमतौर पर इस मामले में गणना नहीं की जा सकती क्योंकि सहसंयोजक मैट्रिक्स की विलक्षणता: यह प्रश्न में वर्णित परिस्थिति है।
whuber

आपकी उदार टिप्पणियों के लिए धन्यवाद। ऐसा प्रतीत होता है कि उपयोगकर्ता क्या पूछ रहा है, इसकी अलग-अलग व्याख्याएँ हैं। स्वीकृत उत्तर में कहा गया है, "यदि आप मरीजों के बीच महालनोबिस दूरी का मूल्यांकन करना चाहते हैं, तो आप पीसीए को लागू कर सकते हैं और यूक्लिडियन दूरी का मूल्यांकन कर सकते हैं। पीसीए को लागू करने के बाद महालनोबिस दूरी का मूल्यांकन कुछ निरर्थक लगता है ..."। मुझे लगता है कि आखिरी वाक्य उस साहित्य के साथ है जिसे मैंने देखा और उद्धृत किया है। तुम क्या सोचते हो? सादर।
चेरिफ़ डायलो

1
समझ गया। धन्यवाद :)!
चेरिफ़ डायलो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.