क्या हमेशा मौजूद होने पर अधिक कारकों को निकालना बेहतर होता है?


11

मुख्य घटक विश्लेषण के विपरीत, कारक विश्लेषण मॉडल के समाधान आवश्यक रूप से नेस्टेड नहीं हैं। अर्थात्, पहले कारक के लिए लोडिंग (उदाहरण के लिए) जरूरी नहीं होगा जब केवल पहला कारक निकाला जाता है जब पहला कारक होता है।

इसे ध्यान में रखते हुए, एक ऐसे मामले पर विचार करें, जहाँ आपके पास कई ऐसे परिवर्तनशील चरों का समूह है जो अत्यधिक सहसंबद्ध हैं और (उनकी सामग्री के सैद्धांतिक ज्ञान से) एक ही कारक द्वारा संचालित होना चाहिए। कल्पना कीजिए कि खोजकर्ता कारक विश्लेषण करता है (आप जो भी पसंद करते हैं मीट्रिक: समानांतर विश्लेषण, डरावना साजिश, eigen मान> 1, आदि) दृढ़ता से सुझाव देते हैं कि कारक हैं: एक बड़ा प्राथमिक कारक, और एक छोटा माध्यमिक कारक। आप पहले पहलू के लिए प्रतिभागियों के मूल्यों का अनुमान (और, कारक अंक प्राप्त करने के लिए) के लिए फ़ैक्टर चर का उपयोग करने में रुचि रखते हैं। इस परिदृश्य में, क्या यह बेहतर होगा:2

  1. केवल कारक निकालने के लिए एक कारक मॉडल को फिट करें , और कारक स्कोर (आदि) प्राप्त करें, या1
  2. दोनों कारकों को निकालने के लिए एक कारक मॉडल फिट करें , कारकों के लिए कारक स्कोर प्राप्त करें, लेकिन दूसरे कारक के लिए स्कोर को दूर करें / अनदेखा करें?

जो भी बेहतर अभ्यास है, क्यों? क्या इस मुद्दे पर कोई शोध है?


निकालने के लिए कारकों की संख्या का चयन करते समय किसी को केवल पूर्व-विश्लेषणात्मक हेयुरिस्टिक उपकरणों पर भरोसा नहीं करना चाहिए। सहसंबंधों का पुनरुत्पादन (कितना बेहतर है जब आप 1 के बजाय 2 कारकों को निकालते हैं?) इस और उस समाधान में सहसंबंध अवशिष्ट कैसे वितरित किए जाते हैं? (वे आम तौर पर वर्दी या सामान्य, कोई लंबी / मोटी दाएं पूंछ के बारे में नहीं होना चाहिए)। यदि डेटा सामान्य हैं, तो लोडिंग के फिट और st.errors के परीक्षण कम्प्यूटेशनल (एमएल निष्कर्षण के साथ) हैं। उस सबकी व्याख्या के आधार पर, कोई यह तय कर सकता है कि वर्तमान मामले में (1) या (2) तरीका बेहतर है या नहीं।
ttnphns

(प्रतियोगिता।) अंत में, केवल नए नमूने / पुष्टिकरण एफए अंत तक दुविधा का न्याय कर सकते हैं। हालांकि एक धारणा है। यदि दूसरा कारक वास्तव में कमजोर है (निष्कर्षण के बाद छोटा एसएस लोडिंग) तो मैं दो समाधानों की उम्मीद नहीं करता (और इसलिए कारक 1 का कारक स्कोर) बहुत भिन्न होने के लिए। (मैं इसे बहुत आत्मविश्वास के बिना कह रहा हूं क्योंकि मैं ओवरहाल के बिना टिप्पणी कर रहा हूं। लेकिन, तार्किक रूप से, अगर कारक विमान लाइन में पतित होने के लिए तैयार है, तो परिणाम लगभग लाइन के साथ ही होना चाहिए ...)
ttnphns

क्यू शीर्षक Is is always better to extract more factors when they exist?बहुत स्पष्ट नहीं है। यह हमेशा बेहतर है के रूप में कई मौजूद है। आपके द्वारा उल्लिखित विश्लेषण के बहुभिन्नरूपी और गैर-नेस्टेड प्रकृति के कारण दोनों "अव्यवस्थित" सत्य "अव्यक्त संरचना को कम या ज्यादा करना। समस्या यह है कि हमें पता नहीं है कि हमारे डेटा में कितने कारक हैं। और क्या इन आंकड़ों में आबादी जितनी है।
ttnphns

1
@ttnphns, आपकी पिछली टिप्पणी सवाल के दिल में उतर जाती है, मुझे लगता है। मान लें कि आपको जो भी तरीके पसंद हैं वह आपको आश्वस्त करते हैं कि वास्तव में 2 कारक हैं, जिनमें से 1 में लगभग सभी साझा संस्करण के लिए खाते हैं, और एक ताजा नमूने पर सीएफए सहित। फिट w / 2 लापरवाही से बेहतर है, लेकिन बेहतर है। इस मुद्दे को उजागर करने के लिए यह एक नकली और विरोधाभासी उदाहरण है। अंतर्निहित मुद्दा बस के रूप में अच्छी तरह से 5. में से 2 का उपयोग कर किया जा सकता है
फिर से बहाल करते मोनिका - गुंग

1
सवाल यह है कि चूंकि समाधान निहित नहीं हैं, कौन सा दृष्टिकोण आपको अव्यक्त चर पर प्रत्येक प्रतिभागी के स्कोर का बेहतर अनुमान देता है, और क्यों? क्या केवल 1 पक्षपाती का उपयोग कर रहा है, क्या यह वास्तविक मूल्य से अलग है, या दोनों? क्या ऐसा होता है क्योंकि केवल 1 का उपयोग करना "अंडरफिटिंग" है? इसका सबसे सही मतलब क्या है? क्या विकृति की प्रकृति को चिह्नित करना संभव है? वैकल्पिक रूप से, मैंने उम्मीद की हो सकती है कि केवल 1 निकालने से विश्लेषण को 1 पर जितना संभव हो उतना सटीक स्वतंत्रता प्राप्त करने की अपनी सभी डिग्री पर ध्यान केंद्रित करने की अनुमति मिलती है।
गूँग - मोनिका

जवाबों:


5

मनोवैज्ञानिक परीक्षण उपकरणों का निर्माण करते समय आप जिस मुद्दे पर बात कर रहे हैं, वह 'लगभग एकरूपता' विषय है, जिसकी चर्चा 80 के दशक में काफी पहले की गई है। प्रेरणा अतीत में मौजूद थी क्योंकि चिकित्सक अपने आइटमों के लिए पारंपरिक आइटम प्रतिक्रिया सिद्धांत (आईआरटी) मॉडल का उपयोग करना चाहते थे, और उस समय ये आईआरटी मॉडल केवल विशेष रूप से असमान लक्षणों को मापने के लिए सीमित थे। इसलिए, परीक्षण बहुआयामी एक उपद्रव होने की आशंका थी जो (उम्मीद) से बचा जा सकता है या अनदेखा किया जा सकता है। यह भी कारक विश्लेषण में समानांतर विश्लेषण तकनीकों (ड्रसगो और पार्सन्स, 1983) और डीईटीटी विधियों के निर्माण का कारण बना।

अतिरिक्त लक्षणों / कारकों की अनदेखी के परिणाम, स्पष्ट रूप से डेटा को गलत मॉडल फिट करने के अलावा (यानी, संभावित मिसफिट के बारे में जानकारी की अनदेखी; हालांकि यह निश्चित रूप से तुच्छ हो सकता है), यह है कि प्रमुख कारक पर लक्षण अनुमान पक्षपाती हो जाएगा। इसलिए कम कुशल है। ये निष्कर्ष निश्चित रूप से इस बात पर निर्भर करते हैं कि अतिरिक्त लक्षणों के गुण कैसे हैं (जैसे, क्या वे प्राथमिक आयाम के साथ सहसंबद्ध हैं, क्या उनके पास मजबूत लोडिंग है, कितने क्रॉस-लोडिंग हैं, आदि), लेकिन सामान्य विषय यह है कि माध्यमिक अनुमान प्राथमिक विशेषता स्कोर प्राप्त करने के लिए कम प्रभावी होगा। मिस-फिटिड यूनिडायरेक्शनल मॉडल और एक द्वि-कारक मॉडल के बीच तुलना के लिए यहां तकनीकी रिपोर्ट देखें ; तकनीकी रिपोर्ट ठीक वैसी ही प्रतीत होती है जैसी आप उसके बाद करते हैं।

व्यावहारिक दृष्टिकोण से, सूचना मानदंडों का उपयोग करना सबसे इष्टतम मॉडल का चयन करते समय सहायक हो सकता है, साथ ही सामान्य रूप से मॉडल-फिट आंकड़े (RMSEA, CFI, आदि) क्योंकि बहुआयामी जानकारी की अनदेखी के परिणाम डेटा पर समग्र फिट को नकारात्मक रूप से प्रभावित करेंगे। । लेकिन निश्चित रूप से, हाथ में डेटा के लिए एक अनुचित मॉडल का उपयोग करने के लिए समग्र मॉडल फिट केवल एक संकेत है; यह पूरी तरह से संभव है कि अनुचित कार्यात्मक रूपों का उपयोग किया जाता है, जैसे कि गैर-रैखिकता या एकरसता की कमी, इसलिए संबंधित वस्तुओं / चर का हमेशा निरीक्षण किया जाना चाहिए।

यह भी देखें :

Drasgow, F. and Parsons, CK (1983)। बहुआयामी डेटा के लिए यूनिडायरेक्शनल आइटम रिस्पांस थ्योरी मॉडल का अनुप्रयोग। एप्लाइड साइकोलॉजिकल मेजरमेंट, 7 (2), 189-199।

Drasgow, F. & Lissak, RI (1983)। संशोधित समानांतर विश्लेषण: dichotomously रन आइटम प्रतिक्रियाओं की अव्यक्त-आयामीता की जांच करने के लिए एक प्रक्रिया। जर्नल ऑफ़ एप्लाइड साइकोलॉजी, 68, 363-373।

लीवेंट किरकिसी, त्से-ची ह्सु, और लीपा यू (2001)। मद पैरामीटर का अनुमान कार्यक्रम की गतिशीलता असमानता और सामान्यता की मान्यताओं के लिए। एप्लाइड साइकोलॉजिकल मेजरमेंट, 25 (2), 146-162।


इसे जोड़ने के लिए धन्यवाद। यह वही लगता है जो मैं कर रहा हूं।
गूँग - मोनिका

क्या मैं सही ढंग से समझता हूं कि शीर्षक प्रश्न का आपका उत्तर "हां" है?
अमीबा

2
@ आम तौर पर, मैं यह कहूंगा कि हाँ, या इससे भी अधिक, जिसमें अतिरिक्त जानकारी भी शामिल होनी चाहिए या सख्त असंयमितता को लागू करने से बेहतर होना चाहिए। ज्ञात बहुआयामीता को अनदेखा करना बहुत समस्याग्रस्त हो सकता है, लेकिन निश्चित रूप से कई कारक इसके लिए योगदान करेंगे। संरचना के बारे में अतिरिक्त जानकारी सहित एकमात्र समय खराब हो सकता है जब नमूना आकार अतिरिक्त मापदंडों का अनुमान लगाने के लिए बहुत छोटा है; इसलिए, पूर्वाग्रह-दक्षता व्यापार-बंद। लेकिन, अगर सैंपल साइज़ में कोई समस्या नहीं है, तो मैं कहूंगा कि अतिरिक्त जानकारी शामिल करने से बहुत कम है (लेकिन खोने के लिए बहुत कुछ नहीं)।
दार्शनिकों

1

यदि आप वास्तव में दूसरे कारक का उपयोग नहीं करना चाहते हैं, तो आपको बस एक-कारक मॉडल का उपयोग करना चाहिए। लेकिन मैं आपकी टिप्पणी से हैरान हूं कि यदि आप दूसरे कारक का उपयोग करते हैं तो पहले कारक के लिए लोडिंग बदल जाएगी।

आइए पहले उस बयान से निपटें। यदि आप कारकों को निकालने के लिए प्रमुख घटकों का उपयोग करते हैं और कारक रोटेशन का उपयोग नहीं करते हैं, तो लोडिंग नहीं बदलेगी - शायद स्केलिंग (या पूर्ण फ़्लिपिंग के अधीन): यदि एक कारक है, तो इसे व्यक्त करने का एक वैध तरीका है कुंआ)। यदि आप अधिकतम संभावना निष्कर्षण और / या कारक घुमाव का उपयोग करते हैं, तो लोडिंग आपके द्वारा निकाले गए कारकों की संख्या पर निर्भर हो सकता है।- xxx

अगला, रोटेशन के प्रभावों की व्याख्या के लिए। मैं ड्राइंग में अच्छा नहीं हूं, इसलिए मैं आपको शब्दों का उपयोग करके समझाने की कोशिश करूंगा। मैं मान लूंगा कि आपका डेटा (लगभग) सामान्य है, ताकि कारक स्कोर भी लगभग सामान्य हो। यदि आप एक कारक निकालते हैं, तो आपको एक आयामी सामान्य वितरण मिलता है, यदि आप दो कारक निकालते हैं, तो आपको एक द्विभाजित सामान्य वितरण मिलता है।

एक द्विभाजित वितरण का घनत्व लगभग टोपी की तरह बोलता हुआ दिखता है, लेकिन सटीक आकार स्केलिंग के साथ-साथ सहसंबंध गुणांक पर भी निर्भर करता है। तो चलिए मान लेते हैं कि प्रत्येक घटक में दो घटक होते हैं। असंबद्ध मामले में, आपको एक अच्छा सोम्ब्रेरो मिलता है, जिसमें स्तर घटता है जो मंडलियों की तरह दिखता है। एक तस्वीर यहाँ है । सहसंबंध टोपी को "स्क्वाश" करता है, जिससे यह नेपोलियन टोपी की तरह दिखता है ।

मान लेते हैं कि आपके मूल डेटा सेट में तीन आयाम थे और यू उस में से दो कारकों को निकालना चाहते हैं। आइए हम भी सामान्यता के साथ रहें। इस मामले में घनत्व एक चार आयामी वस्तु है, लेकिन स्तर घटता तीन आयामी है और कम से कम कल्पना की जा सकती है। असंबद्ध मामले में स्तर घटता गोलाकार होते हैं (सॉकर बॉल की तरह)। सहसंबंध की उपस्थिति में, स्तर घटता फिर से विकृत हो जाएगा, एक फुटबॉल में, शायद एक अधूरा एक, ताकि सीम में मोटाई अन्य दिशाओं में मोटाई से छोटी हो।

यदि आप पीसीए का उपयोग करके दो कारकों को निकालते हैं, तो आप फुटबॉल को पूरी तरह से एक दीर्घवृत्त में समतल कर देते हैं (और आप दीर्घवृत्त के प्रत्येक डेटा बिंदु को प्रोजेक्ट करते हैं)। अनारक्षित पहला कारक दीर्घवृत्त के लंबे अक्ष से मेल खाता है, दूसरा कारक इसके लिए लंबवत है (यानी, लघु अक्ष)। रोटेशन तब कुछ अन्य उपयोगी मानदंडों को पूरा करने के लिए इस दीर्घवृत्त के भीतर एक समन्वय प्रणाली चुनता है।

यदि आप सिर्फ एक कारक को निकालते हैं, तो रोटेशन असंभव है, लेकिन आपको गारंटी दी जाती है कि निकाले गए पीसीए कारक दीर्घवृत्त के धुरी से मेल खाते हैं।


2
मैं इस जवाब से हैरान हूं। मुख्य घटक विश्लेषण के विपरीत , प्रश्न स्पष्ट रूप से कारक विश्लेषण के बारे में पूछता है ।
अमीबा

कारकों को निकालने के दो तरीके हैं: प्रमुख घटक, या अधिकतम संभावना। मैंने इस पर कोई आँकड़ा नहीं किया है, लेकिन मेरा मानना ​​है कि प्रिंसिपल कंपोनेंट मेथड का उपयोग अधिक बार किया जाता है।
user3697176

3
बहुत सारे अलग-अलग तरीके हैं, दो से अधिक। प्रधान अक्ष, एमएल, मिनारे, भारित वर्ग, और अधिक - मैं यहां विशेषज्ञ नहीं हूं। पीसीए शायद कभी-कभी (शायद ही कभी!) भी कारक निष्कर्षण की एक विधि माना जाता है, लेकिन यह काफी मैला है - यह वास्तव में नहीं होना चाहिए। यह एक अलग मॉडल फिट बैठता है।
अमीबा

आपका पहला वाक्य मेरे प्रश्न को संबोधित करता है। इसके बारे में अधिक सुनना अच्छा होगा और यह सही क्यों हो सकता है। कारकों को निकालने के तरीकों के बारे में, @amoeba सही है: पीसीए और पीएएफ आम थे जब अन्य एल्गोरिदम अच्छी तरह से विकसित या लागू करने में मुश्किल नहीं थे। उन्हें अब व्यापक रूप से हीन माना जाता है। R's fa()eg ने वर्षों से उनका उपयोग नहीं किया है। अन्य तरीकों से गैर-नेस्टेड समाधान निकलेंगे, जो w / सॉफ्टवेयर और एफए डेटासेट को सत्यापित करना आसान है। तुलनात्मकता के लिए, आप दोनों समाधानों पर विचार कर सकते हैं। एफडब्ल्यूआईडब्ल्यू, मैं परिचित डब्ल्यू / गोलाकार और अण्डाकार एमवीएन वितरण का विचार हूं।
गूँग - मोनिका

1
@gung, एक टिप्पणी। पीएएफ विधि गैर-नेस्टेड समाधान भी देती है। यह एक बोना फाइड एफए विधि है (एक विधि के रूप में पीसीए पर आधारित) और, मुझे लगता है, अभी भी व्यापक रूप से उपयोग किया जाता है।
ttnphns

1

आप दो मॉडल (यूनिडायरेक्शनल मॉडल और आपके EFA परिणामों से जुड़े दो आयाम मॉडल) को चलाने के लिए लावाँ या MPlus जैसी किसी चीज़ का उपयोग क्यों नहीं करेंगे (विभिन्न सूचनाओं के सापेक्ष और निरपेक्ष फिट सूचकांकों की तुलना करें, यानी, AIC और BIC,) RMSEA, SRMR, CFI / TLI)? ध्यान दें कि यदि आप इस सड़क से नीचे जाते हैं, तो आप ईएफए के लिए पीसीए का उपयोग नहीं करना चाहेंगे, बल्कि प्रमुख कारक। किसी को वास्तव में माप से संबंधित एक पूर्ण संरचनात्मक समीकरण में CFA को एम्बेड करना होगा।

संपादित करें: मैं जिस दृष्टिकोण पर विचार करने के लिए कह रहा हूं, वह यह पता लगाने के बारे में है कि वास्तव में कितने अव्यक्त चर वस्तुओं के सेट की व्याख्या करते हैं। यदि आप बड़े कारक का सबसे अच्छा अनुमान प्राप्त करना चाहते हैं, तो मैं सीएफए मॉडल से बेहतर, जो भी हो, के साथ कारक स्कोर का उपयोग करने के लिए वोट करूंगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.