2 डी पत्राचार विश्लेषण भूखंडों की व्याख्या करना


19

मैं दूर-दूर तक इंटरनेट खोज रहा हूं ... मुझे अभी तक 2 डी पत्राचार विश्लेषण भूखंडों की व्याख्या करने का एक बहुत अच्छा अवलोकन मिल गया है। किसी को अंक के बीच की दूरी की व्याख्या पर कुछ सलाह दे सकता है?

शायद एक उदाहरण से मदद मिलेगी, यहाँ एक प्लॉट है जो उन वेबसाइटों में से कई पर पाया गया है जो मैंने पत्राचार विश्लेषण पर चर्चा की है। लाल त्रिकोण आंखों के रंग का प्रतिनिधित्व करते हैं और काले डॉट्स बालों के रंग का प्रतिनिधित्व करते हैं।

वैकल्पिक शब्द

ऊपर दिए गए ग्राफ को देखकर, क्या आप इन आंकड़ों में जो कुछ देखते हैं, उसके बारे में कुछ बयान दे सकते हैं। त्रिकोण और बिंदुओं के बीच विभिन्न आयामों और संबंधों के बारे में रुचि के बिंदु?

पंक्ति-बिंदु छंद स्तंभ बिंदुओं की व्याख्या, और उदाहरण पर विशेष ध्यान देने के साथ शब्द "प्रोफाइल" का उपयोग महत्वपूर्ण होगा।


1
नीचे @ CHL उत्तम खाते के अलावा, यह भी विचार यह एक "biplot विश्लेषण" का सिर्फ रूपों के रूप में सरल सीए और पीसीए पर विचार।
ttnphns 16:12 पर

जवाबों:


24

पहले, पत्राचार विश्लेषण के मामले में तथाकथित द्विपद के निर्माण के विभिन्न तरीके हैं । सभी मामलों में, मूल विचार पंक्ति कोशिकाओं और स्तंभ कोशिकाओं के बीच "दूरी" के सर्वश्रेष्ठ 2D सन्निकटन को दिखाने का एक तरीका खोजना है। दूसरे शब्दों में, हम एक आकस्मिक तालिका की पंक्तियों और स्तंभों के बीच संबंधों के पदानुक्रम (हम "समन्वय" की भी बात करते हैं) की तलाश करते हैं।

बहुत संक्षेप में, सीए ने दो-तरफ़ा तालिका से जुड़े ची-स्क्वायर सांख्यिकीय को ऑर्थोगोनल कारकों में शामिल किया है जो पंक्ति और स्तंभ स्कोर (यानी प्रोफाइल की तालिका से गणना की गई आवृत्तियों) के बीच अलगाव को अधिकतम करते हैं। यहां, आप देखते हैं कि पीसीए के साथ कुछ संबंध हैं, लेकिन CA में बनाए गए विचरण (या मीट्रिक) का माप the , जो केवल कॉलम प्रोफाइल पर निर्भर करता है (क्योंकि यह बड़े तौर पर तौर-तरीकों को अधिक महत्व देता है सीमांत मूल्य, हम प्रारंभिक डेटा को फिर से वेट कर सकते हैं, लेकिन यह एक और कहानी है)।χ2

यहाँ एक अधिक विस्तृत जवाब है। कार्यान्वयन कि में प्रस्तावित है corresp()(में समारोह MASS) डमी कोडित मैट्रिक्स पंक्तियों और स्तंभों का प्रतिनिधित्व करने का एक SVD अपघटन के रूप में सीए के एक दृश्य से इस प्रकार है (जैसे कि , साथ कुल नमूना)। यह कैनोनिकल सहसंबंध विश्लेषण के साथ प्रकाश में है। इसके विपरीत, डेटा विश्लेषण का फ्रांसीसी स्कूल सीए को पीसीए के एक संस्करण के रूप में मानता है, जहां आप उन निर्देशों की तलाश करते हैं जो डेटा क्लाउड में "जड़ता" को अधिकतम करते हैं। यह केंद्रीकृत और स्केल्ड (मार्जिन फ्रिक्वेंसी द्वारा) दो-तरफा तालिका से गणना की गई जड़ता मैट्रिक्स को विकर्ण करके और इस नए समन्वय प्रणाली में पंक्ति और स्तंभ प्रोफाइल व्यक्त करके किया जाता है।RtC=NN

यदि आप row , और कॉलम के साथ एक तालिका पर विचार करते हैं, तो प्रत्येक पंक्ति को उसकी संगत सीमांत राशि से भारित किया जाता है, जो प्रत्येक पंक्ति से संबंधित सशर्त आवृत्तियों की एक श्रृंखला प्राप्त करता है: । सीमांत कॉलम को माध्य प्रोफ़ाइल (पंक्तियों के लिए) कहा जाता है । यह हमें निर्देशांक का एक वेक्टर देता है, जिसे एक प्रोफ़ाइल भी कहा जाता है (पंक्ति द्वारा)। कॉलम के लिए, हमारे पास । दोनों मामलों में, हम कॉलम स्थान में व्यक्तियों के रूप में पंक्ति प्रोफ़ाइल (उनके वजन ) और स्तंभ प्रोफ़ाइल (उनके वजन से संबंधित) पर विचार करेंगेi=1,,Ij=1,,Jfj|i=nij/nifi|j=nij/njIfiJfj ) पंक्ति स्थान के व्यक्तियों के रूप में। किसी भी दो व्यक्तियों के बीच निकटता की गणना करने के लिए उपयोग किया जाने वाला मीट्रिक दूरी है। उदाहरण के लिए, दो पंक्तियों के बीच और , हमारे पास हैχ2ii

dχ22(i,i)=j=1Jnnj(nijninijni)2

आप यह भी देख सकते हैं कि स्टेटिस्टिक के साथ लिंक को देख सकते हैं कि यह केवल प्रेक्षित और अपेक्षित काउंट्स के बीच की दूरी है, जहाँ अपेक्षित काउंट्स ( तहत , दो वेरिएबल्स की स्वतंत्रता) की गणना रूप में की जाती है। प्रत्येक सेल के लिए । यदि दो चर स्वतंत्र होने थे, तो पंक्ति प्रोफ़ाइल सभी समान होगी, और इसी सीमांत प्रोफ़ाइल के समान होगी। दूसरे शब्दों में, जब स्वतंत्रता होती है, तो आपकी आकस्मिक तालिका पूरी तरह से उसके मार्जिन से निर्धारित होती है।एच 0 एन मैं × n j / n ( मैं , जे )χ2H0ni×nj/n(i,j)

यदि आप पंक्ति प्रोफ़ाइल पर एक पीसीए का एहसास करते हैं (व्यक्तियों के रूप में देखा जाता है), यूक्लिडियन की जगह theक्योंकि 2 मैं j χ 2χ2दूरी, तो आप अपने सी.ए. पहली प्रमुख धुरी वह रेखा है जो सभी बिंदुओं के सबसे निकट है, और इसी आयाम से उत्पन्न प्रतिध्वनि है। आप कॉलम प्रोफाइल के साथ भी ऐसा कर सकते हैं। यह दिखाया जा सकता है कि दो दृष्टिकोणों के बीच एक समरूपता है, और अधिक विशेष रूप से कॉलम प्रोफाइल के लिए प्रमुख घटक (पीसी) पंक्ति प्रोफाइल के लिए पीसी की तुलना में एक ही eigenvalues ​​से जुड़े हैं। एक द्विध्रुवीय पर जो दिखाया गया है वह इस नई समन्वय प्रणाली में व्यक्तियों के निर्देशांक है, हालांकि व्यक्तियों को एक अलग स्मारक स्थान में दर्शाया गया है। बशर्ते प्रत्येक व्यक्ति / शालीनता को अच्छी तरह से उसके तथ्यात्मक स्थान में दर्शाया गया हो (आप को देख सकते हैंcos21 प्रमुख अक्ष के साथ मोडैलिटी, जो सहसंबंध / संघ का एक उपाय है), आप अपनी आकस्मिक तालिका के तत्वों और के बीच निकटता की व्याख्या भी कर सकते हैं (जैसा कि आपके के अवशेषों को देखकर किया जा सकता है) स्वतंत्रता की परीक्षा, उदा )।ijχ2chisq.test(tab)$expected-chisq.test(tab)$observed

आपके CA की कुल जड़ता (= eigenvalues ​​का योग) द्वारा विभाजित आँकड़ा है (जो Pearson's )। n φ 2χ2nϕ2

वास्तव में, वहाँ कई संकुल है कि आप में समारोह उपलब्ध की तुलना में बढ़ाया सीए के साथ उपलब्ध करा सकता है MASS: पैकेज ade4 , FactoMineR , anacor , और सीए

नवीनतम वह है जो आपके विशिष्ट चित्रण के लिए उपयोग किया गया था, और जर्नल ऑफ़ स्टैटिस्टिकल सॉफ्टवेयर में एक पेपर प्रकाशित किया गया था, जो इसके अधिकांश कार्यों को स्पष्ट करता है: R में पत्राचार विश्लेषण, दो- और तीन-आयामी ग्राफिक्स के साथ: ca पैकेज

तो, आंख / बालों के रंगों पर आपके उदाहरण को कई तरीकों से पुन: पेश किया जा सकता है:

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

सभी मामलों में, हम परिणामी द्विपद में जो कुछ पढ़ते हैं, वह मूल रूप से है (मैं अपनी व्याख्या को उस 1 अक्ष पर सीमित करता हूं, जो अधिकांश जड़ता को समझाता है):

  • पहला अक्ष प्रकाश और गहरे बालों के रंग के बीच और नीले और भूरे रंग की आंखों के बीच स्पष्ट विरोध को उजागर करता है;
  • गोरे बालों वाले लोगों की आंखें भी नीली होती हैं, और काले बालों वाले लोग भूरी आँखें वाले होते हैं।

फ्रांस में ल्योन से जैव सूचना विज्ञान प्रयोगशाला पर डेटा विश्लेषण पर बहुत सारे अतिरिक्त संसाधन हैं । यह ज्यादातर फ्रेंच में है, लेकिन मुझे लगता है कि यह आपके लिए बहुत अधिक समस्या नहीं होगी। निम्नलिखित दो हैंडआउट पहली शुरुआत के रूप में दिलचस्प होने चाहिए:

अंत में, जब आप वेरिएबल्स के पूर्ण डिसऑनजेक्टिव (डमी) कोडिंग पर विचार करते हैं, तो आपको कई पत्राचार विश्लेषण मिलते हैं ।k


1
@ ब्रैंडन दोनों अक्षों के लिए 1 अक्ष "प्रभुत्व" (प्रकाश -> अंधेरा) की एक धुरी है, लेकिन हम यह भी देख सकते हैं कि पहली धुरी नीली और हरी आंखों को भूरी और हेज़ेल आंखों का विरोध करती है (उनके निर्देशांक विपरीत संकेतों के हैं) और लाल बाल / हरी आँख संयोजन - जो कि काफी असामान्य है - ज्यादातर 2 कारक अक्ष में योगदान देता है। जैसा कि यह अक्ष केवल कुल जड़ता का 9.5% समझाता है, बल्कि दृढ़ निष्कर्ष निकालना (esp। Wr। आनुवंशिक परिकल्पना) को बनाना मुश्किल है।
chl

1
@Brandon दो और संदर्भ (इस बार अंग्रेजी में): PBIL पाठ्यक्रम ( j.mp/cHZT7X ) और माइकल फ्रेंडली के संसाधन ( j.mp/cYHyVn + vcdऔर vcdExtraR संकुल, बाद वाला एक अच्छा चिह्न सहित)।
chl

2
@ ब्रेंडन हाँ, एक चर = अपने चर के लिए एक श्रेणी। आपके 2 वें प्रश्न के लिए, corअक्ष के साथ चुकता सहसंबंध है, और ctrयोगदान है (इसे% के रूप में पढ़ने के लिए 10 से विभाजित किया जाना है)। तो "लाल बाल" दूसरी धुरी की जड़ता का 55.1% योगदान देता है। एक निश्चित अर्थ में मैंने FactoMineR आउटपुट को अधिक "सहज" पाया ( CA(tab, graph=FALSE)$row$contribआपको सीधे% देता है)।
chl

1
@chl: वाह, किसी के लिए जो सीसीए या "फ्रेंच तरीके" के बारे में कुछ नहीं जानता है, यह एक महान पढ़ा गया था! बहुत धन्यवाद। मुझे यह कुछ गुगली के
ars

1
@ars (+1) लिंक के लिए धन्यवाद (इस मोनोग्राफ के बारे में नहीं पता था, यह दिलचस्प लग रहा है)। हाल के घटनाक्रमों के लिए मेरी सबसे अच्छी सिफारिशें वास्तव में जान दे लीव और इन दो पुस्तकों से सभी पत्र हैं: मल्टीपल कॉरेस्पॉन्डेंस एनालिसिस और संबंधित तरीके ग्रीनकैरे , और जियोमेट्रिक डेटा विश्लेषण: कॉरेस्पॉन्डेंस एनालिसिस से लेकर ली रूलेक्स और रौनेट (फ्रेंच तरीके) से संरचित डेटा विश्लेषण तक ।
chl
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.