मेरे पास बड़ी संख्या में हां / ना में कोई डेटासेट है। क्या मैं इस प्रकार के डेटा के लिए मुख्य घटकों (पीसीए) या किसी अन्य डेटा कटौती विश्लेषण (जैसे कारक विश्लेषण) का उपयोग कर सकता हूं? कृपया सलाह दें कि मैं SPSS का उपयोग करके ऐसा कैसे कर सकता हूं।
मेरे पास बड़ी संख्या में हां / ना में कोई डेटासेट है। क्या मैं इस प्रकार के डेटा के लिए मुख्य घटकों (पीसीए) या किसी अन्य डेटा कटौती विश्लेषण (जैसे कारक विश्लेषण) का उपयोग कर सकता हूं? कृपया सलाह दें कि मैं SPSS का उपयोग करके ऐसा कैसे कर सकता हूं।
जवाबों:
पीसीए या फैक्टर विश्लेषण में द्विबीजपत्री या द्विआधारी चर का प्रश्न शाश्वत है। "यह गैरकानूनी है" से लेकर "यह ठीक है" के लिए ध्रुवीय राय हैं, "कुछ भी हो सकता है जैसे आप कर सकते हैं लेकिन आपको बहुत अधिक कारक मिलेंगे"। मेरी अपनी वर्तमान राय इस प्रकार है। सबसे पहले, मैं मानता हूं कि बाइनरी मनाया चर अवरोही है और यह निरंतर के रूप में किसी भी तरह से इलाज करने के लिए अनुचित है। क्या यह असतत चर कारक या प्रमुख घटक को जन्म दे सकता है?
कारक विश्लेषण (एफए)। परिभाषा के अनुसार कारक एक सतत अव्यक्त है जो देखने योग्य चर ( 1 , 2 ) को लोड करता है । नतीजतन, उत्तरार्द्ध कारक द्वारा पर्याप्त लोड होने पर निरंतर (या अंतराल, अधिक व्यावहारिक रूप से बोलने वाला) नहीं हो सकता है। इसके अलावा, एफए, अपने रैखिक प्रतिगामी प्रकृति के कारण, मानता है कि बाकी - लोड नहीं - भाग, जिसे यूनीकनेस कहा जाता है, या तो निरंतर है, और इसलिए यह आता है कि थोड़ा-थोड़ा लोड होने पर भी अवलोकन योग्य चर निरंतर होना चाहिए। इस प्रकार, द्विआधारी चर एफए में खुद को कानून नहीं बना सकते हैं। हालांकि, कम से कम दो तरीके हैं दौर: (ए) मान लें कि dichotomies के रूप में मोटे तौर पर अंतर्निहित चर जारी है और tetrachoric के साथ एफए करते हैं - बजाय पीयर्सन - सहसंबंध; (बी) मान लें कि कारक एक द्विगुणित चर को नहीं, बल्कि रैखिक रूप से, लेकिन तार्किक रूप से लोड करता है और रैखिक एफए के बजाय अव्यक्त विशेषता विश्लेषण (उर्फ आइटम रिस्पांस सिद्धांत) करता है। और अधिक पढ़ें ।
प्रधान घटक विश्लेषण (पीसीए)। एफए के साथ बहुत आम होने के बावजूद, पीसीए एक मॉडलिंग नहीं है, बल्कि केवल एक सारांश विधि है। घटक वैरिएबल अर्थों में वैरिएबल को लोड नहीं करते हैं क्योंकि कारक वैरिएबल लोड करते हैं। पीसीए में, घटक चर और चर लोड घटकों को लोड करते हैं। यह समरूपता है क्योंकि पीसीए प्रति एसई अंतरिक्ष में चर-अक्षों का एक रोटेशन मात्र है। द्विआधारी चर अपने स्वयं के द्वारा एक घटक के लिए सच्ची निरंतरता प्रदान नहीं करेंगे - चूंकि वे निरंतर नहीं हैं, लेकिन पीसीए-रोटेशन के कोण से छद्मकोटिविटी प्रदान की जा सकती है जो किसी भी दिखाई दे सकती है। इस प्रकार पीसीए में, और एफए के विपरीत, आप विशुद्ध रूप से निरंतर आयामों (घुमाए गए कुल्हाड़ियों) को विशुद्ध रूप से द्विआधारी चर (अनट्रेटेड कुल्हाड़ियों) के साथ प्राप्त कर सकते हैं - कोण निरंतरता का कारण है
बाइनरी डेटा के एफए या पीसीए के बारे में कुछ संबंधित प्रश्न: 1 , 2 , 3 , 4 , 5 , 6 । वहाँ के उत्तर संभावित रूप से मेरे से अलग राय व्यक्त कर सकते हैं।
स्तर संस्थाएँ - अंकों या श्रेणियों के रूप में चरों के लिए - प्रिंसिपल एक्सिस स्पेस में उनके निर्देशांक वास्तव में वैध रूप से बड़े पैमाने के मान हैं। लेकिन बाइनरी डेटा के डेटा बिंदुओं (डेटा मामलों) के लिए नहीं , - उनके "स्कोर" छद्म निरंतर मूल्य हैं: आंतरिक उपाय नहीं, बस कुछ ओवरले निर्देशांक।
बाइनरी डेटा का उदाहरण (बस दो चर का एक साधारण मामला):
नीचे दिए गए स्कैटरप्लॉट्स डेटा को थोड़ा घबराते हुए (आवृत्ति को रेंडर करने के लिए) बताते हैं और मुख्य घटक कुल्हाड़ियों को दिखाते हैं क्योंकि उन पर घटक स्कोर को प्रभावित करने वाले विकर्ण रेखाएं [उन स्कोर, मेरे दावे के अनुसार छद्म निरंतर मूल्य हैं]। हर चित्र पर बायाँ प्लॉट मूल से "कच्चे" विचलन के आधार पर पीसीए को प्रदर्शित करता है, जबकि दायां प्लॉट पीसीए को स्केल्ड (विकर्ण = इकाई) विचलन के आधार पर प्रदर्शित करता है।
1) पारंपरिक PCA (0,0)
मूल को डेटा माध्य (सेंटीरोइड) में डालता है । बाइनरी डेटा के लिए, माध्य संभव डेटा मान नहीं है। हालांकि, यह गुरुत्वाकर्षण का भौतिक केंद्र है। पीसीए इसके बारे में परिवर्तनशीलता को अधिकतम करता है।
(यह भी मत भूलना, कि एक बाइनरी वेरिएबल माध्य और विचरण में कड़ाई से एक साथ बंधे हैं, वे हैं, इसलिए, "एक बात" बोलने के लिए, बाइनरी वैरिएबल्स का मानकीकरण / स्केलिंग, अर्थात्, पीसीए कर रहे हैं सहसंबंधों के आधार पर सहानुभूति नहीं) वर्तमान उदाहरण, इसका मतलब यह होगा कि आप अधिक संतुलित चर लगाते हैं - अधिक विचरण करना - पीसीए को अधिक तिरछे चरों की तुलना में अधिक प्रभावित करना।)
2) आप गैर-डेटा डेटा में पीसीए कर सकते हैं, अर्थात मूल (0,0)
स्थान पर जाने दें (0,0)
। यह MSCP ( X'X/n
) मैट्रिक्स पर या cosine समानता मैट्रिक्स पर PCA है । PCA, नो-एट्रीब्यूट अवस्था से प्रोट्यूएबिलिटी को अधिकतम करता है।
3) आप मूल (0,0)
मैनहट्टन की सबसे छोटी राशि के डेटा बिंदु पर लेट सकते हैं, इससे अन्य सभी डेटा बिंदुओं पर - L1 मेडॉइड। मेडॉइड, आमतौर पर, सबसे "प्रतिनिधि" या "विशिष्ट" डेटा बिंदु के रूप में समझा जाता है। इसलिए, पीसीए एटिपिकलिटी (आवृत्ति के अलावा) को अधिकतम करेगा। हमारे डेटा में, एल 1 मेडॉयड (1,0)
मूल निर्देशांक पर गिर गया ।
4) या (0,0)
डेटा निर्देशांक पर मूल डालते हैं जहां आवृत्ति उच्चतम - बहुभिन्नरूपी मोड है। यह (1,1)
हमारे उदाहरण में डेटा सेल है। PCA जूनियर मोड द्वारा अधिकतम (द्वारा संचालित किया जाएगा) होगा।
5) उत्तर के शरीर में यह उल्लेख किया गया था कि द्विआधारी चर के लिए कारक विश्लेषण करने के लिए टेट्राकोरिक सहसंबंध एक ध्वनि मामला है। PCA के बारे में भी यही कहा जा सकता है: आप tetrachoric सहसंबंधों के आधार पर PCA कर सकते हैं । हालांकि, इसका मतलब है कि आप एक द्विआधारी चर के भीतर एक अंतर्निहित सतत चर का समर्थन कर रहे हैं।