मैं कंप्यूटर साइंस में ग्रेजुएट स्टूडेंट हूं। मैं एक शोध परियोजना के लिए कुछ खोजपूर्ण कारक विश्लेषण कर रहा हूं। मेरे सहकर्मी (जो परियोजना का नेतृत्व कर रहे हैं) एसपीएसएस का उपयोग करते हैं, जबकि मैं आर का उपयोग करना पसंद करता हूं। यह तब तक महत्वपूर्ण नहीं था जब तक कि हम दो सांख्यिकीय पैकेजों के बीच एक बड़ी विसंगति की खोज नहीं करते।
हम निष्कर्षण विधि के रूप में प्रिंसिपल एक्सिस फैक्टरिंग का उपयोग कर रहे हैं (कृपया ध्यान दें कि मैं पीसीए और कारक विश्लेषण के बीच के अंतर से अच्छी तरह परिचित हूं, और यह कि हम पीसीए का उपयोग नहीं कर रहे हैं , कम से कम जानबूझकर नहीं)। मैंने जो पढ़ा है, उससे यह आर प्रलेखन के अनुसार , "प्रिंसिपल एक्सिस" विधि के अनुरूप होना चाहिए, और या तो एसपीएसएस में "प्रिंसिपल एक्सिस फैक्टरिंग" या "अनवॉन्टेड कम से कम वर्ग" । हम एक तिरछा घूमने की विधि (विशेष रूप से, प्रोमोक्स ) का उपयोग कर रहे हैं क्योंकि हम सहसंबद्ध कारकों की अपेक्षा करते हैं, और पैटर्न मैट्रिक्स की व्याख्या कर रहे हैं ।
आर और एसपीएसएस में दो प्रक्रियाओं को चलाने से, प्रमुख अंतर हैं। पैटर्न मैट्रिक्स अलग-अलग लोडिंग देता है। हालांकि यह चर संबंधों को कम या ज्यादा समान कारक देता है, लेकिन संबंधित लोडिंग के बीच 0.15 का अंतर होता है, जो लगता है कि निष्कर्षण विधि और प्रोमाक्स घुमाव के सिर्फ एक अलग कार्यान्वयन से उम्मीद की जाएगी। हालांकि, यह सबसे चौंकाने वाला अंतर नहीं है।
कारकों द्वारा समझाया गया संचयी विचरण SPSS परिणामों में लगभग 40% और R परिणामों में 31% है। यह एक बहुत बड़ा अंतर है, और मेरे सहयोगियों ने आर के बजाय SPSS का उपयोग करना चाहा है। मुझे इससे कोई समस्या नहीं है, लेकिन एक अंतर जो मुझे बड़ा लगता है कि हम कुछ गलत तरीके से व्याख्या कर रहे हैं, जो एक समस्या है।
पानी को और भी अधिक गंदा करते हुए, SPSS ने विभिन्न प्रकार के व्याख्या किए गए विचरणों की रिपोर्ट की, जब हम कम से कम वर्ग फैक्टरिंग चलाते हैं। इनिशियल आइजनवेल्यूज द्वारा समझाया गया विचरण का अनुपात 40% है, जबकि एक्सट्रेक्शन सूम्स ऑफ स्क्वॉयर लोडिंग (एसएसएल) से समझाया गया विचरण का अनुपात 33% है। इससे मुझे लगता है कि प्रारंभिक आइगेनवेल्यूज़ देखने के लिए उपयुक्त संख्या नहीं है (मुझे संदेह है कि यह रोटेशन से पहले समझाया गया विचरण है, हालांकि यह इतना बड़ा है जो मुझसे परे है)। इससे भी अधिक भ्रामक, SPSS रोटेशन एसएसएल को भी दिखाता है, लेकिन व्याख्या किए गए विचरण के प्रतिशत की गणना नहीं करता है (SPSS मुझे बताता है कि सहसंबंधित कारक होने का मतलब है कि मैं कुल विचरण को खोजने के लिए SSL को जोड़ नहीं सकता, जो कि मैंने जो गणित देखा है उससे समझ में आता है)। आर से सूचित एसएसएल इनमें से किसी से भी मेल नहीं खाता है, और आर मुझे बताता है कि यह कुल विचरण के 31% का वर्णन करता है। R का एसएसएल रोटेशन एसएसएल से सबसे अधिक निकटता से मेल खाता है। मूल सहसंबंध मैट्रिक्स से आर के eigenvalues SPSS से प्रारंभिक Eigenvalues से मेल खाते हैं।
इसके अलावा, कृपया ध्यान दें कि मैंने अलग-अलग तरीकों का उपयोग करके खेला है, और यह कि SPSS के ULS और PAF, R के PA विधि के सबसे निकटतम हैं।
मेरे विशिष्ट प्रश्न:
- कारक विश्लेषण कार्यान्वयन के साथ आर और एसपीएसएस के बीच मुझे कितना अंतर चाहिए?
- एसपीएसएस से स्क्वॉयर लोडिंग में से कौन सी रकम की मुझे इंटरप्रिटेशन, इनिशियल इगेंवल्यूस, एक्सट्रैक्शन या रोटेशन चाहिए?
- क्या कोई अन्य समस्या है जिसे मैंने अनदेखा किया होगा?
SPSS और R के लिए मेरी कॉल इस प्रकार हैं:
SPSS:
FACTOR
/VARIABLES <variables>
/MISSING PAIRWISE
/ANALYSIS <variables>
/PRINT INITIAL KMO AIC EXTRACTION ROTATION
/FORMAT BLANK(.35)
/CRITERIA FACTORS(6) ITERATE(25)
/EXTRACTION ULS
/CRITERIA ITERATE(25)
/ROTATION PROMAX(4).
आर:
library(psych)
fa.results <- fa(data, nfactors=6, rotate="promax",
scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)