पहले, पत्राचार विश्लेषण के मामले में तथाकथित द्विपद के निर्माण के विभिन्न तरीके हैं । सभी मामलों में, मूल विचार पंक्ति कोशिकाओं और स्तंभ कोशिकाओं के बीच "दूरी" के सर्वश्रेष्ठ 2D सन्निकटन को दिखाने का एक तरीका खोजना है। दूसरे शब्दों में, हम एक आकस्मिक तालिका की पंक्तियों और स्तंभों के बीच संबंधों के पदानुक्रम (हम "समन्वय" की भी बात करते हैं) की तलाश करते हैं।
बहुत संक्षेप में, सीए ने दो-तरफ़ा तालिका से जुड़े ची-स्क्वायर सांख्यिकीय को ऑर्थोगोनल कारकों में शामिल किया है जो पंक्ति और स्तंभ स्कोर (यानी प्रोफाइल की तालिका से गणना की गई आवृत्तियों) के बीच अलगाव को अधिकतम करते हैं। यहां, आप देखते हैं कि पीसीए के साथ कुछ संबंध हैं, लेकिन CA में बनाए गए विचरण (या मीट्रिक) का माप the , जो केवल कॉलम प्रोफाइल पर निर्भर करता है (क्योंकि यह बड़े तौर पर तौर-तरीकों को अधिक महत्व देता है सीमांत मूल्य, हम प्रारंभिक डेटा को फिर से वेट कर सकते हैं, लेकिन यह एक और कहानी है)।χ2
यहाँ एक अधिक विस्तृत जवाब है। कार्यान्वयन कि में प्रस्तावित है corresp()
(में समारोह MASS
) डमी कोडित मैट्रिक्स पंक्तियों और स्तंभों का प्रतिनिधित्व करने का एक SVD अपघटन के रूप में सीए के एक दृश्य से इस प्रकार है (जैसे कि , साथ कुल नमूना)। यह कैनोनिकल सहसंबंध विश्लेषण के साथ प्रकाश में है। इसके विपरीत, डेटा विश्लेषण का फ्रांसीसी स्कूल सीए को पीसीए के एक संस्करण के रूप में मानता है, जहां आप उन निर्देशों की तलाश करते हैं जो डेटा क्लाउड में "जड़ता" को अधिकतम करते हैं। यह केंद्रीकृत और स्केल्ड (मार्जिन फ्रिक्वेंसी द्वारा) दो-तरफा तालिका से गणना की गई जड़ता मैट्रिक्स को विकर्ण करके और इस नए समन्वय प्रणाली में पंक्ति और स्तंभ प्रोफाइल व्यक्त करके किया जाता है।आरटीसी= एनएन
यदि आप row , और कॉलम के साथ एक तालिका पर विचार करते हैं, तो प्रत्येक पंक्ति को उसकी संगत सीमांत राशि से भारित किया जाता है, जो प्रत्येक पंक्ति से संबंधित सशर्त आवृत्तियों की एक श्रृंखला प्राप्त करता है: । सीमांत कॉलम को माध्य प्रोफ़ाइल (पंक्तियों के लिए) कहा जाता है । यह हमें निर्देशांक का एक वेक्टर देता है, जिसे एक प्रोफ़ाइल भी कहा जाता है (पंक्ति द्वारा)। कॉलम के लिए, हमारे पास । दोनों मामलों में, हम कॉलम स्थान में व्यक्तियों के रूप में पंक्ति प्रोफ़ाइल (उनके वजन ) और स्तंभ प्रोफ़ाइल (उनके वजन से संबंधित) पर विचार करेंगेi = 1 , … , मैंj = 1 , … , Jचजे | मैं= एनमैं जे/ एनमैं ⋅चमैं | जे= एनमैं जे/ एन⋅ जेमैंचमैं ⋅जेf⋅j ) पंक्ति स्थान के व्यक्तियों के रूप में। किसी भी दो व्यक्तियों के बीच निकटता की गणना करने के लिए उपयोग किया जाने वाला मीट्रिक दूरी है। उदाहरण के लिए, दो पंक्तियों के बीच और , हमारे पास हैχ2ii′
d2χ2(i,i′)=∑j=1Jnn⋅j(nijni⋅−ni′jni′⋅)2
आप यह भी देख सकते हैं कि स्टेटिस्टिक के साथ लिंक को देख सकते हैं कि यह केवल प्रेक्षित और अपेक्षित काउंट्स के बीच की दूरी है, जहाँ अपेक्षित काउंट्स ( तहत , दो वेरिएबल्स की स्वतंत्रता) की गणना रूप में की जाती है। प्रत्येक सेल के लिए । यदि दो चर स्वतंत्र होने थे, तो पंक्ति प्रोफ़ाइल सभी समान होगी, और इसी सीमांत प्रोफ़ाइल के समान होगी। दूसरे शब्दों में, जब स्वतंत्रता होती है, तो आपकी आकस्मिक तालिका पूरी तरह से उसके मार्जिन से निर्धारित होती है।एच 0 एन मैं ⋅ × n ⋅ j / n ( मैं , जे )χ2H0ni⋅×n⋅j/n(i,j)
यदि आप पंक्ति प्रोफ़ाइल पर एक पीसीए का एहसास करते हैं (व्यक्तियों के रूप में देखा जाता है), यूक्लिडियन की जगह theक्योंकि 2 मैं j χ 2χ2दूरी, तो आप अपने सी.ए. पहली प्रमुख धुरी वह रेखा है जो सभी बिंदुओं के सबसे निकट है, और इसी आयाम से उत्पन्न प्रतिध्वनि है। आप कॉलम प्रोफाइल के साथ भी ऐसा कर सकते हैं। यह दिखाया जा सकता है कि दो दृष्टिकोणों के बीच एक समरूपता है, और अधिक विशेष रूप से कॉलम प्रोफाइल के लिए प्रमुख घटक (पीसी) पंक्ति प्रोफाइल के लिए पीसी की तुलना में एक ही eigenvalues से जुड़े हैं। एक द्विध्रुवीय पर जो दिखाया गया है वह इस नई समन्वय प्रणाली में व्यक्तियों के निर्देशांक है, हालांकि व्यक्तियों को एक अलग स्मारक स्थान में दर्शाया गया है। बशर्ते प्रत्येक व्यक्ति / शालीनता को अच्छी तरह से उसके तथ्यात्मक स्थान में दर्शाया गया हो (आप को देख सकते हैंcos21 प्रमुख अक्ष के साथ मोडैलिटी, जो सहसंबंध / संघ का एक उपाय है), आप अपनी आकस्मिक तालिका के तत्वों और के बीच निकटता की व्याख्या भी कर सकते हैं (जैसा कि आपके के अवशेषों को देखकर किया जा सकता है) स्वतंत्रता की परीक्षा, उदा )।ijχ2chisq.test(tab)$expected-chisq.test(tab)$observed
आपके CA की कुल जड़ता (= eigenvalues का योग) द्वारा विभाजित आँकड़ा है (जो Pearson's )। n φ 2χ2nϕ2
वास्तव में, वहाँ कई संकुल है कि आप में समारोह उपलब्ध की तुलना में बढ़ाया सीए के साथ उपलब्ध करा सकता है MASS
: पैकेज ade4 , FactoMineR , anacor , और सीए ।
नवीनतम वह है जो आपके विशिष्ट चित्रण के लिए उपयोग किया गया था, और जर्नल ऑफ़ स्टैटिस्टिकल सॉफ्टवेयर में एक पेपर प्रकाशित किया गया था, जो इसके अधिकांश कार्यों को स्पष्ट करता है: R में पत्राचार विश्लेषण, दो- और तीन-आयामी ग्राफिक्स के साथ: ca पैकेज ।
तो, आंख / बालों के रंगों पर आपके उदाहरण को कई तरीकों से पुन: पेश किया जा सकता है:
data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab
library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)
library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))
library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib
library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))
सभी मामलों में, हम परिणामी द्विपद में जो कुछ पढ़ते हैं, वह मूल रूप से है (मैं अपनी व्याख्या को उस 1 अक्ष पर सीमित करता हूं, जो अधिकांश जड़ता को समझाता है):
- पहला अक्ष प्रकाश और गहरे बालों के रंग के बीच और नीले और भूरे रंग की आंखों के बीच स्पष्ट विरोध को उजागर करता है;
- गोरे बालों वाले लोगों की आंखें भी नीली होती हैं, और काले बालों वाले लोग भूरी आँखें वाले होते हैं।
फ्रांस में ल्योन से जैव सूचना विज्ञान प्रयोगशाला पर डेटा विश्लेषण पर बहुत सारे अतिरिक्त संसाधन हैं । यह ज्यादातर फ्रेंच में है, लेकिन मुझे लगता है कि यह आपके लिए बहुत अधिक समस्या नहीं होगी। निम्नलिखित दो हैंडआउट पहली शुरुआत के रूप में दिलचस्प होने चाहिए:
अंत में, जब आप वेरिएबल्स के पूर्ण डिसऑनजेक्टिव (डमी) कोडिंग पर विचार करते हैं, तो आपको कई पत्राचार विश्लेषण मिलते हैं ।k