द्विआधारी डेटा पर प्रमुख घटक विश्लेषण या कारक विश्लेषण करना


29

मेरे पास बड़ी संख्या में हां / ना में कोई डेटासेट है। क्या मैं इस प्रकार के डेटा के लिए मुख्य घटकों (पीसीए) या किसी अन्य डेटा कटौती विश्लेषण (जैसे कारक विश्लेषण) का उपयोग कर सकता हूं? कृपया सलाह दें कि मैं SPSS का उपयोग करके ऐसा कैसे कर सकता हूं।


1
आपने विशेष रूप से भेदभावपूर्ण विश्लेषण के विरोध में पीसीए पर क्या विचार किया?
19 Sim में क्रिस Simokat

जवाबों:


38

पीसीए या फैक्टर विश्लेषण में द्विबीजपत्री या द्विआधारी चर का प्रश्न शाश्वत है। "यह गैरकानूनी है" से लेकर "यह ठीक है" के लिए ध्रुवीय राय हैं, "कुछ भी हो सकता है जैसे आप कर सकते हैं लेकिन आपको बहुत अधिक कारक मिलेंगे"। मेरी अपनी वर्तमान राय इस प्रकार है। सबसे पहले, मैं मानता हूं कि बाइनरी मनाया चर अवरोही है और यह निरंतर के रूप में किसी भी तरह से इलाज करने के लिए अनुचित है। क्या यह असतत चर कारक या प्रमुख घटक को जन्म दे सकता है?

  • कारक विश्लेषण (एफए)। परिभाषा के अनुसार कारक एक सतत अव्यक्त है जो देखने योग्य चर ( 1 , 2 ) को लोड करता है । नतीजतन, उत्तरार्द्ध कारक द्वारा पर्याप्त लोड होने पर निरंतर (या अंतराल, अधिक व्यावहारिक रूप से बोलने वाला) नहीं हो सकता है। इसके अलावा, एफए, अपने रैखिक प्रतिगामी प्रकृति के कारण, मानता है कि बाकी - लोड नहीं - भाग, जिसे यूनीकनेस कहा जाता है, या तो निरंतर है, और इसलिए यह आता है कि थोड़ा-थोड़ा लोड होने पर भी अवलोकन योग्य चर निरंतर होना चाहिए। इस प्रकार, द्विआधारी चर एफए में खुद को कानून नहीं बना सकते हैं। हालांकि, कम से कम दो तरीके हैं दौर: (ए) मान लें कि dichotomies के रूप में मोटे तौर पर अंतर्निहित चर जारी है और tetrachoric के साथ एफए करते हैं - बजाय पीयर्सन - सहसंबंध; (बी) मान लें कि कारक एक द्विगुणित चर को नहीं, बल्कि रैखिक रूप से, लेकिन तार्किक रूप से लोड करता है और रैखिक एफए के बजाय अव्यक्त विशेषता विश्लेषण (उर्फ आइटम रिस्पांस सिद्धांत) करता है। और अधिक पढ़ें

  • प्रधान घटक विश्लेषण (पीसीए)। एफए के साथ बहुत आम होने के बावजूद, पीसीए एक मॉडलिंग नहीं है, बल्कि केवल एक सारांश विधि है। घटक वैरिएबल अर्थों में वैरिएबल को लोड नहीं करते हैं क्योंकि कारक वैरिएबल लोड करते हैं। पीसीए में, घटक चर और चर लोड घटकों को लोड करते हैं। यह समरूपता है क्योंकि पीसीए प्रति एसई अंतरिक्ष में चर-अक्षों का एक रोटेशन मात्र है। द्विआधारी चर अपने स्वयं के द्वारा एक घटक के लिए सच्ची निरंतरता प्रदान नहीं करेंगे - चूंकि वे निरंतर नहीं हैं, लेकिन पीसीए-रोटेशन के कोण से छद्मकोटिविटी प्रदान की जा सकती है जो किसी भी दिखाई दे सकती है। इस प्रकार पीसीए में, और एफए के विपरीत, आप विशुद्ध रूप से निरंतर आयामों (घुमाए गए कुल्हाड़ियों) को विशुद्ध रूप से द्विआधारी चर (अनट्रेटेड कुल्हाड़ियों) के साथ प्राप्त कर सकते हैं - कोण निरंतरता का कारण है1

    (0,0)2

बाइनरी डेटा के एफए या पीसीए के बारे में कुछ संबंधित प्रश्न: 1 , 2 , 3 , 4 , 5 , 6 । वहाँ के उत्तर संभावित रूप से मेरे से अलग राय व्यक्त कर सकते हैं।


1स्तर संस्थाएँ - अंकों या श्रेणियों के रूप में चरों के लिए - प्रिंसिपल एक्सिस स्पेस में उनके निर्देशांक वास्तव में वैध रूप से बड़े पैमाने के मान हैं। लेकिन बाइनरी डेटा के डेटा बिंदुओं (डेटा मामलों) के लिए नहीं , - उनके "स्कोर" छद्म निरंतर मूल्य हैं: आंतरिक उपाय नहीं, बस कुछ ओवरले निर्देशांक।


21

बाइनरी डेटा का उदाहरण (बस दो चर का एक साधारण मामला):

यहां छवि विवरण दर्ज करें

नीचे दिए गए स्कैटरप्लॉट्स डेटा को थोड़ा घबराते हुए (आवृत्ति को रेंडर करने के लिए) बताते हैं और मुख्य घटक कुल्हाड़ियों को दिखाते हैं क्योंकि उन पर घटक स्कोर को प्रभावित करने वाले विकर्ण रेखाएं [उन स्कोर, मेरे दावे के अनुसार छद्म निरंतर मूल्य हैं]। हर चित्र पर बायाँ प्लॉट मूल से "कच्चे" विचलन के आधार पर पीसीए को प्रदर्शित करता है, जबकि दायां प्लॉट पीसीए को स्केल्ड (विकर्ण = इकाई) विचलन के आधार पर प्रदर्शित करता है।

1) पारंपरिक PCA (0,0)मूल को डेटा माध्य (सेंटीरोइड) में डालता है । बाइनरी डेटा के लिए, माध्य संभव डेटा मान नहीं है। हालांकि, यह गुरुत्वाकर्षण का भौतिक केंद्र है। पीसीए इसके बारे में परिवर्तनशीलता को अधिकतम करता है।

(यह भी मत भूलना, कि एक बाइनरी वेरिएबल माध्य और विचरण में कड़ाई से एक साथ बंधे हैं, वे हैं, इसलिए, "एक बात" बोलने के लिए, बाइनरी वैरिएबल्स का मानकीकरण / स्केलिंग, अर्थात्, पीसीए कर रहे हैं सहसंबंधों के आधार पर सहानुभूति नहीं) वर्तमान उदाहरण, इसका मतलब यह होगा कि आप अधिक संतुलित चर लगाते हैं - अधिक विचरण करना - पीसीए को अधिक तिरछे चरों की तुलना में अधिक प्रभावित करना।)

यहां छवि विवरण दर्ज करें

2) आप गैर-डेटा डेटा में पीसीए कर सकते हैं, अर्थात मूल (0,0)स्थान पर जाने दें (0,0)। यह MSCP ( X'X/n) मैट्रिक्स पर या cosine समानता मैट्रिक्स पर PCA है । PCA, नो-एट्रीब्यूट अवस्था से प्रोट्यूएबिलिटी को अधिकतम करता है।

यहां छवि विवरण दर्ज करें

3) आप मूल (0,0)मैनहट्टन की सबसे छोटी राशि के डेटा बिंदु पर लेट सकते हैं, इससे अन्य सभी डेटा बिंदुओं पर - L1 मेडॉइड। मेडॉइड, आमतौर पर, सबसे "प्रतिनिधि" या "विशिष्ट" डेटा बिंदु के रूप में समझा जाता है। इसलिए, पीसीए एटिपिकलिटी (आवृत्ति के अलावा) को अधिकतम करेगा। हमारे डेटा में, एल 1 मेडॉयड (1,0)मूल निर्देशांक पर गिर गया ।

यहां छवि विवरण दर्ज करें

4) या (0,0)डेटा निर्देशांक पर मूल डालते हैं जहां आवृत्ति उच्चतम - बहुभिन्नरूपी मोड है। यह (1,1)हमारे उदाहरण में डेटा सेल है। PCA जूनियर मोड द्वारा अधिकतम (द्वारा संचालित किया जाएगा) होगा।

यहां छवि विवरण दर्ज करें

5) उत्तर के शरीर में यह उल्लेख किया गया था कि द्विआधारी चर के लिए कारक विश्लेषण करने के लिए टेट्राकोरिक सहसंबंध एक ध्वनि मामला है। PCA के बारे में भी यही कहा जा सकता है: आप tetrachoric सहसंबंधों के आधार पर PCA कर सकते हैं । हालांकि, इसका मतलब है कि आप एक द्विआधारी चर के भीतर एक अंतर्निहित सतत चर का समर्थन कर रहे हैं।


2
Takane और डे Leeuw,: द्विआधारी वस्तुओं और आईआरटी मॉडल (1- और 2-पी एल) पर एफए के बीच संबंध के बारे में, यहां दो लेख है कि दिलचस्प हो सकता है कर रहे हैं वस्तु प्रतिक्रया और discretized चर का कारक विश्लेषण के बीच के रिश्ते पर , Psychometrika ( 1987) 52 (3): 393; और हाल ही में एक, कामता और बॉयर, ए ए रिलेशन ऑन रिलेशन ऑन फैक्टर एनालिटिक एंड आइटम रिस्पॉन्स थ्योरी मॉडल , एसईएम (2008) 15: 136।
chl
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.