क्या मैं डेटा कमी के लिए दोहराया उपायों पर एक पीसीए कर सकता हूं?


13

मेरे पास 2 संदर्भों में से प्रत्येक में 87 जानवरों पर 3 परीक्षण हैं (कुछ लापता डेटा; कोई अनुपलब्ध डेटा = 64 जानवर)। एक संदर्भ में, मैं कई विशिष्ट उपायों (समय दर्ज करने के लिए, आश्रय की ओर लौटने के समय की संख्या, आदि) तो मैं (उन्हें फोन 2 से 3 समग्र व्यवहार स्कोर कि उस संदर्भ में व्यवहार का वर्णन विकसित करना चाहते हैं, C1, C2, C3)। मैं C1सभी 3 परीक्षणों और 87 जानवरों पर एक ही बात चाहता हूं , ताकि मैं व्यवहार पर उम्र, लिंग, वंशावली और व्यक्तिगत जानवर के प्रभाव की जांच करने के लिए एक प्रतिगमन कर सकूं। फिर मैं यह जांचना चाहता हूं कि C1विशेष संदर्भ में, विशेष संदर्भ में, दूसरे संदर्भ में व्यवहार स्कोर से कैसे संबंधित है। (1 वर्ष की आयु में, संदर्भ 1 में गतिविधि संदर्भ 2 में गतिविधि की दृढ़ता से भविष्यवाणी करती है?)

यदि यह दोहराए गए उपाय नहीं थे, तो एक पीसीए अच्छी तरह से काम करेगा - एक संदर्भ के कई उपायों पर एक पीसीए करें, फिर पीसी 1 और पीसी 1 (या 2 या 2) के बीच संबंधों (स्पीयरमैन सहसंबंध) की जांच करने के लिए पीसी 1, पीसी 2 आदि का उपयोग करें। ३) दूसरे संदर्भ में। समस्या बार-बार किए जाने वाले उपाय हैं, जो छद्म मूल्यांकन में आते हैं। मेरे पास एक समीक्षक है स्पष्ट रूप से नो-गो कहते हैं, लेकिन मुझे कोई स्पष्ट संदर्भ नहीं मिल सकता है कि क्या यह डेटा कमी करते समय समस्याग्रस्त है।

मेरे तर्क इस प्रकार है: पुनरावृत्त मापन, एक समस्या नहीं है, क्योंकि जो मैं पीसीए में विशुद्ध रूप से कर रहा हूँ है वर्णनात्मक के रू-बरू मूल के उपाय। अगर मैं एफआईटीए द्वारा घोषित किया जाता है कि मैं संदर्भ 1 में मेरे "बोल्डनेस" उपाय के रूप में क्षेत्र में प्रवेश करने के लिए समय का उपयोग कर रहा था, तो मेरे पास एक संदर्भ 1 बोल्डनेस माप होगा जो सभी उम्र में सभी व्यक्तियों में तुलनीय था और कोई भी एक आंख पर बल्लेबाजी नहीं करेगा। अगर मैं फिएट द्वारा घोषणा करता हूं कि मैं समय-से-दर्ज समय-से-दूर-अंत तक का उपयोग करूंगा , वही जाता है। तो अगर मैं reductive प्रयोजनों के लिए विशुद्ध रूप से पीसीए उपयोग कर रहा हूँ, यह क्यों नहीं किया जा सकता PC1 (कि हो सकता है दर्ज खत्म+ 0.5 0.28 + 0.63 + 0.02 0.5+ 0.50.28+ 0.63+ 0.02 कुल समय ...), जो कम से कम मेरे कई उपायों द्वारा सूचित किया जाता है मेरे अनुमान के बजाय कि समय दर्ज करने के लिए एक आम तौर पर जानकारीपूर्ण और प्रतिनिधि विशेषता है?

(ध्यान दें कि मुझे उपायों की अंतर्निहित संरचना में कोई दिलचस्पी नहीं है ... मेरे प्रश्न इस बात पर हैं कि हम संदर्भ-विशिष्ट व्यवहारों की व्याख्या क्या करते हैं। "अगर मैंने संदर्भ 1 का उपयोग किया और निष्कर्ष निकाला कि हैरी अन्य जानवरों की तुलना में सक्रिय है, तो क्या मैं देख रहा हूं हैरी संदर्भ 2 में सक्रिय है? यदि वह परिवर्तन करता है जिसे हम संदर्भ 1 में गतिविधि के रूप में व्याख्या करते हैं जब वह बड़ा हो जाता है, तो क्या वह अपनी संदर्भ 2 गतिविधि भी बदल देता है?)

मैंने PARAFAC को देखा है, और मैंने SEM को देखा है, और मुझे विश्वास नहीं है कि इनमें से कोई भी तरीका मेरे नमूने के आकार के लिए बेहतर या अधिक उपयुक्त है। क्या कोई वजन कर सकता है? धन्यवाद।


क्या मैंने आपको सही समझा कि आपके पास 2 विषय-कारक हैं: 1) संदर्भ, जो कुछ प्रायोगिक स्थिति (जैसे इनडोर प्रयोग बनाम बाहरी प्रयोग), 2) परीक्षण से भिन्न है, जो कि केवल एक पुनरावृत्ति, एक प्रयास, प्रयोग का है। और आप प्रत्येक स्थिति में एक पीसीए करना चाहते हैं, लेकिन यह आपको रोक देता है कि आपने एक नहीं बल्कि कई परीक्षण किए हैं।
ttnphns

दो संदर्भ दो अलग-अलग परीक्षण हैं, और प्रत्येक में किए गए उपाय अलग-अलग हैं। उसने कहा, हां, आप मेरी स्थिति को समझते हैं।
लीनन

इस समस्या को दूर करने और सभी तीन परीक्षणों में साधनों पर एक पीसीए चलाने के बारे में क्या?
गाला

जवाबों:


7

आप मल्टीपल फैक्टर एनालिसिस में देख सकते हैं । इसे R में FactoMineR के साथ लागू किया जा सकता है।

अपडेट करें:

विस्तृत रूप से, लीनन प्रस्ताव कर रहा था - हालांकि बहुत पहले - बार-बार उपायों के साथ एक डेटासेट पर एक पीसीए का संचालन करने के लिए। अगर मैं उसके डेटासेट की संरचना को सही ढंग से समझता हूं, तो दिए गए 'संदर्भ' के लिए उसके पास एक जानवर x'विशिष्ट माप' (प्रवेश करने का समय, आश्रय की वापसी की संख्या, आदि) मैट्रिक्स है। 64 जानवरों में से प्रत्येक (जो लापता अवलोकन के बिना हैं) का तीन बार पालन किया गया था। मान लीजिए कि वह 10 'विशिष्ट उपायों' था चलो, तो वह तो पशुओं के व्यवहार पर तीन 64 × 10 मैट्रिक्स होता है (हम मैट्रिक्स कॉल कर सकते हैं X1, X2, X3)। एक साथ तीन मैट्रिसेस पर पीसीए चलाने के लिए, उसे तीन मैट्रिसेस (जैसे) को 'बाइंड' करना होगाPCA(rbind(X1,X2,X3)))। लेकिन यह इस तथ्य की अनदेखी करता है कि पहला और 64 वां अवलोकन एक ही जानवर पर है। इस समस्या को दरकिनार करने के लिए, वह तीन मैट्रिसेस को 'कॉलम बाइंड' कर सकती है और उन्हें मल्टीपल फैक्टर एनालिसिस के जरिए चला सकती है। एमएफए एक ही व्यक्ति या वस्तुओं को समय पर विभिन्न बिंदुओं पर मापा चर के कई सेट का विश्लेषण करने का एक उपयोगी तरीका है। वह एमएफए से सिद्धांत घटकों को उसी तरह से निकालने में सक्षम होगा जैसे पीसीए में लेकिन प्रत्येक जानवर के लिए एक ही समन्वय होगा। जानवरों की वस्तुओं को अब उनके तीन अवलोकनों द्वारा सीमांकित समझौता के बहुभिन्नरूपी स्थान में रखा जाएगा।

वह आर। में फैक्टोमाइन पैकेज का उपयोग करके विश्लेषण को निष्पादित करने में सक्षम होगा। उदाहरण कोड कुछ इस तरह दिखाई देगा:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

इसके अलावा, एमएफए से पहले तीन घटकों को निकालने और उन्हें कई प्रतिगमन के माध्यम से डालने के बजाय, वह एमएफए पर अपने व्याख्यात्मक चर को सीधे 'पूरक तालिकाओं' के रूप में पेश करने के बारे में सोच सकते हैं (देखें ?FactoMineR)। एक अन्य दृष्टिकोण यह होगा कि ऑब्जेक्ट के यूक्लिडियन दूरी मैट्रिक्स की गणना MFA (उदा dist1=vegdist(mfa1$ind$coord, "euc")) से निर्देशांक करें और इसे RDA के माध्यम dist1से पशु विशिष्ट चर (जैसे rda(dist1~age+sex+pedigree)शाकाहारी पैकेज का उपयोग करके) के एक फ़ंक्शन के रूप में करें ।


2
हाय काइल, आपके उत्तर के लिए धन्यवाद। हालांकि, ऐसे उत्तर जो किसी लिंक से बहुत कम आवश्यक होते हैं, या जो केवल लंबाई में एक वाक्य के बारे में होते हैं, उन्हें आमतौर पर उत्तर नहीं माना जाता है, लेकिन टिप्पणियाँ। विशेष रूप से, लिंक-केवल उत्तर लिंक-रोट से पीड़ित हैं, इसलिए उत्तर के लिए पर्याप्त जानकारी होनी चाहिए, भले ही लिंक अब काम न करे। क्या आप कृपया अपने उत्तर का विस्तार थोड़ा और कर सकते हैं, शायद बहुत संक्षिप्त रूपरेखा दे रहे हैं कि यह क्या है / यह कारक विश्लेषण से कैसे संबंधित है?
Glen_b -Reinstate मोनिका

(+1) मुझे एहसास है कि यह एक पुरानी पोस्ट है, लेकिन यह उत्तर बहुत उपयोगी है! लिंक के मरने की स्थिति में शायद संदर्भ को पूरी तरह से जोड़ा जाना चाहिए: एबडी हर्वे, विलियम्स लिन जे।, वैलेंटाइन डॉमिनिनिक। मल्टीपल फैक्टर एनालिसिस: मल्टीएबल और मल्टीब्लॉक डेटा सेट के लिए प्रमुख घटक विश्लेषण। WIREs COMP स्टेट 2013, 5: 149-179। doi: 10.1002 / wics.1246
फ्रैंस रॉडेनबर्ग

4

पीसीए का उपयोग करना आम बात है जब दोहराया उपायों का विश्लेषण करते हैं (उदाहरण के लिए, इसका उपयोग बिक्री डेटा, स्टॉक की कीमतों और विनिमय दरों का विश्लेषण करने के लिए किया जाता है) तर्क जैसा कि आप स्पष्ट करते हैं (यानी, औचित्य यह है कि पीसीए एक डेटा कमी उपकरण है जो एक हीन उपकरण नहीं है )।

एक बहुत अच्छे सांख्यिकीविद् का एक प्रकाशन है: ब्रैडलो, ईटी (2002)। " प्रिंसिपल कंपोनेंट्स एनालिसिस का उपयोग करते हुए प्रमुख विशेषताओं के लिए बार-बार माप डेटा सेट की खोज। " जर्नल ऑफ रिसर्च इन मार्केटिंग 19: 167-179।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.