क्या मैं पीसीआर के लिए डेटा तैयार करने के लिए सीएलआर (केंद्रित लॉग-अनुपात परिवर्तन) का उपयोग कर सकता हूं?


13

मैं एक स्क्रिप्ट का उपयोग कर रहा हूं। यह कोर रिकॉर्ड के लिए है। मेरे पास एक डेटाफ्रेम है जो किसी दिए गए गहराई से (पहले कॉलम में) कॉलम में विभिन्न मौलिक रचनाओं को दिखाता है। मैं इसके साथ एक पीसीए करना चाहता हूं और मैं उस मानकीकरण विधि के बारे में उलझन में हूं जिसे मुझे चुनना है।

क्या आप में से किसी ने clr()अपने डेटा को तैयार करने के लिए उपयोग किया है prcomp()? या यह मेरे समाधानों में मिलावट करता है। मैंने विशेषता स्केल का उपयोग करने के अलावा फ़ंक्शन clr()का उपयोग करने से पहले डेटा पर उपयोग करने की कोशिश की prcomp()है prcomp()

data_f_clr<- clr(data_f)
data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE)

https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html

स्केल को डेटा स्केल करने के लिए वर्णित किया गया है, इसलिए उनके पास इकाई विचरण है। चूंकि मेरे डेटा का एक बहुत अलग पैमाना है जो मैं चाहता था, मुझे लगता है। समस्या यह है, कि मैं एक अलग समाधान प्राप्त करता हूं, जब मैं ऊपर दिए गए कोड का उपयोग करता हूं या जब मैं छोड़ता हूं clr()(जो अधिक वांछित परिणाम बनाता है)। लेकिन मैं जानना चाहता हूं कि clr()उस मामले में गड़बड़ी क्यों है ?


2
मेरे जैसे गैर-आर उपयोगकर्ताओं के लिए, यह स्पष्ट करने में मददगार हो सकता है कि क्या clrहोता है ....
डगल

3
बेशक सीएलआर समाधान बदलता है - आप इस प्रक्रिया का उपयोग क्यों करेंगे? शायद आप पूछ रहे होंगे कि कैसे निर्धारित किया जाए कि कौन सा दृष्टिकोण बेहतर है। सीएलआर के लिए हमारी साइट पर खोज करने के लिए उपयोगी पोस्ट हैं । एक में एक संबंधित सवाल का जवाब मैं कुछ चित्र है कि आप मदद कर सकता है प्रदान की है।
व्हुबर

1
त्वरित उत्तर यह है कि आप पीसीए से पहले डेटा के साथ कुछ भी कर सकते हैं। इस पर शासन करने वाले कोई नियम, कानून या व्यंजन नहीं हैं। कुछ का तर्क है कि पीसीए (रोटेशन के बिना) पैमाने पर अपरिवर्तनीय है, जबकि अन्य का तर्क है कि पीसीए के परिणाम पैमाने के प्रति अत्यधिक संवेदनशील हैं। लेकिन अगर आप पीसीए के परिणामों को घुमाते हैं तो अंगूठे के अधिदेश के नियम पूर्व-पीसीए को सामान्य करते हैं जैसे सीएलआर या मानकीकरण का मतलब = 0 और एसडी = 1। सीएलआर की एक बड़ी चर्चा ली कूपर की पुस्तक मार्केट शेयर एनालिसिस ( anderson.ucla.edu/facademy/lee.cooper/MCI_Book/BOOKI2010.pdf ) को घटक विश्लेषण से जोड़ने में है।
माइक हंटर

2
@DJohnson मैंने सीएलआर में विभिन्न शब्दों से जुड़े पीडीएफ को खोजा और लॉग-अनुपात परिवर्तन को केंद्रित किया लेकिन कुछ भी नहीं मिला। मैंने गलत क्या किया? उस संस्करण में कोई अनुक्रमणिका नहीं है, लेकिन अनुभाग शीर्षक आशाजनक नहीं दिखते हैं और संदर्भ में जॉन एचीसन शामिल नहीं हैं जिन्होंने संरचनागत डेटा के लिए इस परिवर्तन का प्रस्ताव किया था। उस या किसी अन्य नाम के तहत चर्चा के लिए पेज संदर्भ की सराहना की।
निक कॉक्स

1
जैसा कि पहले ही उल्लेख किया गया है, आपके द्वारा लिंक किए गए संस्करण में कोई इंडेक्स नहीं है, इसलिए मुझे सलाह देने के लिए माफ न करें। "लॉग-सेंटरिंग" कीवर्ड के लिए धन्यवाद, जहां से मुझे एक अलग जानवर के विचार-विमर्श मिलते हैं, न कि केंद्रित लॉग-अनुपात परिवर्तन , जिसके बारे में यह धागा है। @whuber ने पहले ही इस साइट पर चर्चा का लिंक दिया है। कुंजी यह है कि 1 में जोड़ने वाले अनुपातों के साथ संरचनागत डेटा के लिए, एक अलग स्थान पर सामूहिक परिवर्तन की आवश्यकता और गुंजाइश है। आपने "अनुपात" शब्द को याद किया, जिसे आप जानते हैं कि एक अलग विचार है।
निक कॉक्स

जवाबों:


6

आप सीएलआर निर्देशांक पर वेनिला पीसीए के साथ कुछ मुद्दों का अनुभव कर सकते हैं। रचना डेटा के साथ दो प्रमुख समस्याएं हैं:

  • वे सख्ती से गैर-नकारात्मक हैं
  • उनके पास एक योग है

विभिन्न संरचनागत परिवर्तन इन मुद्दों में से एक या दोनों को संबोधित करते हैं। विशेष रूप से, CLR आपके डेटा को प्रेक्षित आवृत्तियों और उनके ज्यामितीय माध्य बीच के अनुपात में ले जाता है , अर्थातxG(x)

x^={log(x1G(x)),,log(xnG(x))}={log(x1)log(G(x)),,log(xn)log(G(x))}

अब, उस पर विचार करें

log(G(x))=log(exp[1ni=1nlog(xi)])=E[log(x)]

इसका प्रभावी रूप से यह अर्थ है कि

x^=[log(x)E[log(x)]]=0

दूसरे शब्दों में, सीएलआर मूल्य-सीमा प्रतिबंध (जो कुछ अनुप्रयोगों के लिए अच्छा है) को हटा देता है, लेकिन योग की बाधा को दूर नहीं करता है, जिसके परिणामस्वरूप एक विलक्षण सहसंयोजक मैट्रिक्स होता है, जो प्रभावी रूप से (एम) एनोवा / रैखिक प्रतिगमन को तोड़ता है ... और बनाता है PCA आउटलेर्स के प्रति संवेदनशील (क्योंकि मजबूत सहसंयोजक अनुमान के लिए पूर्ण-रैंक मैट्रिक्स की आवश्यकता होती है)। जहां तक ​​मुझे पता है, सभी रचनाओं में केवल ILR दोनों ही मुद्दों को बिना किसी प्रमुख अंतर्निहित मान्यताओं के संबोधित करता है। स्थिति थोड़ी अधिक जटिल है, हालांकि। सीएलआर निर्देशांक का एसवीडी आपको ILR स्पेस में एक ऑर्थोगोनल आधार देता है (ILR निर्देशांक CLR में एक हाइपरप्लेन का विस्तार करता है), इसलिए आपके विचरण का अनुमान ILR और CLR के बीच भिन्न नहीं होगा (जो कि निश्चित रूप से स्पष्ट है, क्योंकि ILR और CLR दोनों isometries at पर हैं) सिंप्लेक्स)। हालांकि, ILR निर्देशांक [2] पर मजबूत सहसंयोजक आकलन के लिए तरीके हैं।

अपडेट I

बस यह स्पष्ट करने के लिए कि CLR सहसंबंध और स्थान-निर्भर तरीकों के लिए मान्य नहीं है। मान लेते हैं कि हम तीन रैखिक स्वतंत्र रूप से वितरित घटकों के एक समुदाय का 100 बार नमूना लेते हैं। सादगी के लिए, सभी घटकों को समान अपेक्षाएं (100) और संस्करण (100) हैं।

In [1]: import numpy as np

In [2]: from scipy.stats import linregress

In [3]: from scipy.stats.mstats import gmean

In [4]: def clr(x):
   ...:     return np.log(x) - np.log(gmean(x))
   ...: 

In [5]: nsamples = 100

In [6]: samples = np.random.multivariate_normal(
   ...:     mean=[100]*3, cov=np.eye(3)*100, size=nsamples
   ...: ).T

In [7]: transformed = clr(samples)

In [8]: np.corrcoef(transformed)
Out[8]: 
array([[ 1.        , -0.59365113, -0.49087714],
       [-0.59365113,  1.        , -0.40968767],
       [-0.49087714, -0.40968767,  1.        ]])

In [9]: linregress(transformed[0], transformed[1])
Out[9]: LinregressResult(
   ...:     slope=-0.5670, intercept=-0.0027, rvalue=-0.5936, 
   ...:     pvalue=7.5398e-11, stderr=0.0776
   ...: )

अपडेट II

मुझे मिली प्रतिक्रियाओं को ध्यान में रखते हुए, मुझे यह बताना आवश्यक है कि मेरे जवाब में किसी भी बिंदु पर मैंने यह नहीं कहा कि पीसीए सीएलआर-रूपांतरित डेटा पर काम नहीं करता है। मैंने कहा है कि सीएलआर सूक्ष्म रूप से पीसीए को तोड़ सकता है, जो कि आयामी कमी के लिए महत्वपूर्ण नहीं हो सकता है, लेकिन खोज डेटा विश्लेषण के लिए महत्वपूर्ण है। @Archie द्वारा उद्धृत पेपर में माइक्रोबियल पारिस्थितिकी शामिल है। कम्प्यूटेशनल जीव विज्ञान के उस क्षेत्र में पीसीए या पीसीओए विभिन्न दूरी पर डेटा में भिन्नता के स्रोतों का पता लगाने के लिए उपयोग किया जाता है। मेरे उत्तर को केवल इस संदर्भ में माना जाना चाहिए। इसके अलावा, यह कागज में ही उजागर किया गया है:

... रचनात्मक द्विप्लव [नोट: पीसीए का जिक्र] में al-विविधता विश्लेषण के लिए प्रमुख समन्वय (PCoA) भूखंडों पर कई फायदे हैं। प्राप्त परिणाम बहुत स्थिर होते हैं जब डेटा सबसेट होता है (बियान एट अल।, 2017), जिसका अर्थ है कि खोजपूर्ण विश्लेषण केवल डेटा में उपस्थिति की अनुपस्थिति रिश्तों से और न ही अत्यधिक स्पार्सिटी (वोंग एट अल।, 2016) द्वारा संचालित नहीं है; अल।, 2017)।

ग्लोर एट अल।, 2017

अद्यतन III

प्रकाशित शोध के अतिरिक्त संदर्भ (मैं अधिक संदर्भ जोड़ने के लिए सिफारिश के लिए @ नोक्स कॉक्स का धन्यवाद करता हूं):

  1. पीसीए के लिए सीएलआर का उपयोग करने के खिलाफ तर्क
  2. सहसंबंध-आधारित विधियों के लिए CLR का उपयोग करने के विरुद्ध तर्क
  3. ILR का परिचय

2
एक विलक्षण सहसंयोजक मैट्रिक्स, pca के लिए एक समस्या नहीं है!
kjetil b halvorsen

@kjetilbhalvorsen वास्तव में, पीसीए प्रति से मैट्रिक्स को पूर्ण रैंक की आवश्यकता नहीं है। तकनीकी रूप से बोलना, एक विलक्षण सहसंयोजक मैट्रिक्स केवल एक या अधिक शून्य eigenvalues ​​में परिणाम देगा। फिर भी, लोग आमतौर पर PCA को विचरण के स्रोतों का पता लगाने के लिए लागू करते हैं, जो कि जहां रचनाकारिता में किक करता है। इसीलिए मैं अपने शब्दों से सावधान रहा: "... प्रभावी रूप से PCA / ... को कई सूक्ष्म तरीकों से तोड़ता है"
एली कोरविगो

तो आप का मतलब है कि एकवचन के कारण प्रति घटक समझाया जाने वाले विचरण की मात्रा की गणना नहीं की जा सकती है? अन्य तो यह है कि, एक व्यक्ति अभी भी पीसीए को आयामीता में कमी करने के लिए प्रदर्शन कर सकता है। फिर यह एनोवा / रैखिक प्रतिगमन को कैसे प्रभावित करता है?
आर्ची

1
+1 क्योंकि उत्तर बहुत दिलचस्प है। यह आलोचना के बिना नहीं जाता है, हालांकि। आप उचित रूप से (मेरे लिए बेवकूफ हैं) ने यह नहीं बताया कि कंपोजिटल या क्ले-ट्रांसफॉर्म किए गए डेटा पर पीसीए करना "सूक्ष्म तरीकों से" (जो? कैसे?) अनुचित है। इसके अलावा, आप एक अजगर कोड दे रहे हैं, लेकिन इसके परिणाम नहीं। क्या आप इसके परिणामों को प्रदर्शित और टिप्पणी कर सकते हैं? अंत में, क्या आप पढ़ने के लिए ILR ट्रांसफ़ोटोम के बारे में एक लिंक छोड़ सकते हैं?
ttnphns

1
@ttnphns 1) जैसा कि मैंने टिप्पणियों में लिखा है, सीएलआर रचनात्‍मक समापन द्वारा शुरू किए गए विचरण-स्रोतों की विकृति को दूर नहीं करता है, खोजपूर्ण डेटा विश्लेषण को प्रभावित करता है: मजबूत सहसंयोजक आकलन के लिए पूर्ण-रैंक मैट्रिक्स की आवश्यकता होती है; 2) मुझे यकीन नहीं है कि मैं अनुसरण करता हूं, आप क्यों कहते हैं कि कोई परिणाम नहीं हैं: यह इनपुट और आउटपुट (यानी परिणाम) के साथ एक इंटरैक्टिव पायथन सत्र है; 3) मैंने ILR के लिए एक संदर्भ जोड़ा है।
एलि कोर्विगो

5

हां आप कर सकते हैं, और वास्तव में आपको चाहिए, जब आपका डेटा कंपोजिटल हो।

माइक्रोबायोलॉजी के क्षेत्र से एक समीक्षा यहां प्राप्त की जा सकती है, जो माइक्रोबायोम डेटासेट (जो प्रति परिभाषा संरचना है) का विश्लेषण करने के लिए पीसीए द्वारा पीछा सीएलआर-परिवर्तन का उपयोग करने के लिए प्रेरित करती है: https://www.frontiersin.org/articles/10.3969/fmicb .2017.02224 / पूर्ण


दुर्भाग्य से, वह कागज कई मामलों में बहुत गलत है, जो एक दया है, यह देखते हुए कि दो coauthors कंपोजिटल डेटा विश्लेषण के चैंपियन हैं।
एली कोरविगो

@EliKorvigo यह टिप्पणी अच्छी तरह से स्थापित की जा सकती है लेकिन अपने आप में यह सहायक नहीं है। यदि आप एक प्रकाशित या कम से कम सार्वजनिक आलोचना की ओर इशारा कर सकते हैं तो इस तरह की आलोचना से तस्वीर बदल जाएगी।
निक कॉक्स

@NickCox यकीन है कि, Filzmoser और Hron द्वारा एक पेपर है । यह उपर्युक्त कागज का प्रत्यक्ष आलोचक नहीं है, लेकिन यह सहसंबंध विश्लेषण के लिए सीएलआर का उपयोग करने के खिलाफ तर्क देता है, जबकि उपरोक्त पेपर सीएलआर पर आधारित उपकरणों की सिफारिश करता है।
एली कोरविगो

@NickCox मैं डॉ। पॉलोव्स्की-ग्लेन और डॉ। एगोज़कॉफ़ के लिए अपने गहरे सम्मान पर ज़ोर देना चाहूंगा, जो कि आर्ची द्वारा उल्लिखित पेपर के अंतिम दो लेखक हैं। वास्तव में, उन्होंने सीएलआर की कमियों (एगोज़क्यूप और पावलोस्की-ग्लेन, 2003) को संबोधित करने के लिए ILR की शुरुआत की है । सीएलआर का उल्लेख करते हुए वे लिखते हैं: "फिर भी, उस उप-वर्ग में ओर्थोगोनल संदर्भ सीधे तरीके से प्राप्त नहीं होते हैं"
एली कोरविगो

Pawlowsky-Glahn और Egozcue राज्य में "समग्र डेटा और उनके विश्लेषण: एक परिचय" (2006) जो clr गुणांक "कुछ फायदे हैं: अभिव्यक्ति भागों में सममित है और ये निर्देशांक Aitchison दूरियों की गणना को साधारण दूरी तक कम करते हैं। वे हैं।" द्वि-भूखंडों की गणना में उपयोगी (...)
जो।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.