मुख्य घटक विश्लेषण करने से पहले डेटा को लॉग-ट्रांसफ़ॉर्म क्यों करें?


16

यहाँ एक ट्यूटोरियल के बाद Im: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ पीसीए की बेहतर समझ हासिल करने के लिए।

ट्यूटोरियल आईरिस डेटासेट का उपयोग करता है और पीसीए से पहले एक लॉग ट्रांसफॉर्मेशन लागू करता है:

सूचना निम्न कोड में हम के रूप में [1] और सेट द्वारा सुझाए गए सतत चर के लिए एक लॉग परिवर्तन लागू कि centerऔर scaleके बराबर TRUEकॉल में करने के लिए prcompपीसीए के आवेदन करने से पहले चर मानकीकृत करने के लिए।

क्या कोई मुझे स्पष्ट अंग्रेजी में समझा सकता है कि आप पहले आइरिस डेटासेट के पहले चार कॉलम में लॉग फ़ंक्शन का उपयोग क्यों करते हैं। मैं समझता हूं कि डेटा सापेक्ष बनाने से इसका कुछ लेना-देना है लेकिन भ्रमित हूं कि लॉग, सेंटर और स्केल का वास्तव में क्या कार्य है।

उपरोक्त संदर्भ [1] वेनबल्स और रिप्ले के लिए है, एस-प्लस , धारा 11.1 के साथ आधुनिक लागू आंकड़े जो संक्षेप में कहते हैं:

डेटा भौतिक माप हैं, इसलिए एक ध्वनि प्रारंभिक रणनीति लॉग स्केल पर काम करना है। यह किया गया है।


जवाबों:


19

पीसीए सीखने के लिए आईरिस डेटा सेट एक अच्छा उदाहरण है। उस ने कहा, पहले चार स्तंभों और पंखुड़ियों की लंबाई और चौड़ाई का वर्णन करते हुए दृढ़ता से तिरछे डेटा का उदाहरण नहीं है। इसलिए लॉग-ट्रांसफ़ॉर्मिंग डेटा परिणामों को बहुत अधिक नहीं बदलता है, क्योंकि प्रिंसिपल घटकों के परिणामस्वरूप रोटेशन लॉग-ट्रांसफ़ॉर्मेशन से काफी अपरिवर्तित होता है।

अन्य स्थितियों में लॉग-ट्रांसफॉर्मेशन एक अच्छा विकल्प है।

हम एक डेटा सेट की सामान्य संरचना की जानकारी प्राप्त करने के लिए पीसीए का प्रदर्शन करते हैं। हम कुछ तुच्छ प्रभावों को छानने के लिए केंद्र, पैमाने और कभी-कभी लॉग-ट्रांसफ़ॉर्म करते हैं, जो हमारे पीसीए पर हावी हो सकता है। एक पीसीए का एल्गोरिथ्म बदले में प्रत्येक पीसी के रोटेशन का पता लगाएगा, ताकि किसी भी नमूने से पीसी तक चौकोर अवशिष्ट दूरी का योग हो। बड़े मूल्यों में उच्च उत्तोलन होता है।

आइरिस डेटा में दो नए नमूनों को इंजेक्ट करने की कल्पना करें। एक फूल 430 सेमी पंखुड़ी लंबाई और एक 0.0043 सेमी की पंखुड़ी लंबाई के साथ। दोनों फूल औसत उदाहरणों की तुलना में क्रमशः 100 गुना बड़े और 1000 गुना छोटे होते हैं। पहले फूल का लाभ बहुत बड़ा है, जैसे कि पहला पीसी ज्यादातर बड़े फूल और किसी अन्य फूल के बीच के अंतर का वर्णन करेगा। प्रजाति का क्लस्टरिंग उस एक बाह्य भाग के कारण संभव नहीं है। यदि डेटा लॉग-ट्रांसफ़ॉर्म किए गए हैं, तो निरपेक्ष मान सापेक्ष भिन्नता का वर्णन करता है। अब छोटा फूल सबसे असामान्य है। बहरहाल, यह संभव है कि दोनों में एक छवि में सभी नमूने हों और प्रजातियों का एक उचित क्लस्टर प्रदान करें। इस उदाहरण को देखें:

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

यहाँ छवि विवरण दर्ज करें

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

यहाँ छवि विवरण दर्ज करें


2
अच्छा डेमो और भूखंडों।
छायाकार

3

खैर, दूसरा जवाब एक उदाहरण देता है, जब लॉग-ट्रांसफॉर्म का उपयोग चरम मूल्यों या आउटलेर्स के प्रभाव को कम करने के लिए किया जाता है।
एक और सामान्य तर्क तब होता है, जब आप उन आंकड़ों का विश्लेषण करने की कोशिश करते हैं, जो उनके गणित की ऐसी योगात्मक रचनाओं द्वारा addititively - PCA और FA मॉडल के बजाय गुणात्मक रूप से बनाए जाते हैं । गुणकरचनाएँ भौतिक डेटा में सबसे सरल मामले में होती हैं जैसे सतह और निकायों की मात्रा (कार्यात्मक रूप से) (उदाहरण के लिए) तीन मापदंडों पर निर्भर करती है, चौड़ाई, गहराई। एक प्रारंभिक पीसीए के ऐतिहासिक उदाहरण की रचनाओं को पुन: पेश कर सकता है, मुझे लगता है कि इसे "थर्स्टन की गेंद- (या क्यूब्स ') समस्या" या पसंद है। एक बार जब मैंने उस उदाहरण के डेटा के साथ खेला था और पाया था कि लॉग-ट्रांसफ़ॉर्म किए गए डेटा ने तीन एक-आयामी उपायों के साथ मापा वॉल्यूम और सतह के डेटा की संरचना के लिए एक बहुत अच्छा और स्पष्ट मॉडल दिया था।

इस तरह के सरल उदाहरणों के अलावा, यदि हम सामाजिक अनुसंधान डेटा इंटरैक्शन पर विचार करते हैं , तो हम ususally उन्हें और साथ ही अधिक प्राथमिक वस्तुओं के गुणात्मक रूप से बनाए गए मापों के बारे में सोचते हैं। इसलिए यदि हम विशेष रूप से बातचीत को देखते हैं, तो डी-कंपोजिशन के लिए गणितीय मॉडल प्राप्त करने के लिए लॉग-ट्रांसफॉर्म एक विशेष सहायक उपकरण हो सकता है।


क्या आप कृपया कुछ संदर्भों को सूचीबद्ध कर सकते हैं जो "गुणात्मक" रचनाओं को बेहतर ढंग से समझा सकते हैं? आपका बहुत बहुत धन्यवाद!
अमात्य

1
@ अमात्य - मुझे "थर्स्टन-बॉक्स-समस्या" नहीं मिली, लेकिन क्यूब्स पर एक (जर्मन) साइट चर्चा pca, जिसमें चौड़ाई, लीन, ऊंचाई के रूप में बुनियादी वस्तुओं और सतहों और वॉल्यूम के रूप में गुणात्मक रूप से संयुक्त अतिरिक्त आइटम हैं। शायद परिभाषाओं के लिए शामिल सूत्र पर्याप्त हैं। Sgipt.org/wisms/fa/Quader/q00.htm
गोटफ्राइड हेल्स

1
आह, और मैं भूल गया - इस गो के
Gottfried Helms

@GottfriedHelms मैं अभी भी वास्तव में नहीं समझ पा रहा हूं कि अगर हम चर को मानकीकृत कर रहे हैं, तो हमें उन्हें भी रूपांतरित करने की आवश्यकता है। मैं अत्यधिक आउटलेर्स के अवांछित प्रभाव को कम करने के सामान्य सिद्धांत को समझता हूं, लेकिन अगर हम उन्हें पहले से ही मानकीकृत (केंद्रित, स्केलिंग) कर रहे हैं, तो ऐसा लगता है कि लॉग को बदलने के अलावा यह वास्तव में डेटा को विकृत कर रहा है।
यू चेन

@YCChen - कोई भी लॉग-ट्रांसफ़ॉर्मेशन गुणा कंपोज़िटिव को एडिटिव कंपोज़िशन में कनवर्ट करता है , और एडिटिव कंपोज़िशन सभी प्रकार के कंपोनेंट्स और फैक्टर एनालिसिस की बेसिक धारणा (लीनियरिटी आदि के अलावा) है। इसलिए यदि आपके डेटा में गुणात्मक रचना है, तो लॉग-ट्रांसफ़ॉर्म विचार करने लायक विकल्प होना चाहिए।
हेल्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.