कारक विश्लेषण में बाइनरी चर के लिए पियरसन सहसंबंधों (टेट्राकोरिक लोगों के बजाय) की गणना के खतरे क्या हैं?


10

मैं शिक्षा के खेल पर शोध करते हैं, और मेरे मौजूदा परियोजनाओं में से कुछ से डेटा का उपयोग कर शामिल BoardGameGeek (BGG) और VideoGameGeek (VGG) खेल के डिजाइन तत्वों के बीच संबंधों (यानी, "द्वितीय विश्व युद्ध में सेट", "रोलिंग पासा शामिल है" जांच करने के लिए ) और उन खेलों की खिलाड़ी रेटिंग (यानी, 10 में से स्कोर)। इनमें से प्रत्येक डिज़ाइन तत्व बीजीजी या वीजीजी सिस्टम में एक टैग के साथ मेल खाता है, इसलिए प्रत्येक तत्व अनिवार्य रूप से एक द्विध्रुवीय चर है। एक गेम में प्रत्येक टैग के लिए 1 होता है जो इसके लिए डेटाबेस में मौजूद होता है, और प्रत्येक टैग के लिए 0 जो मौजूद नहीं है।

इनमें से दर्जनों टैग हैं, इसलिए मैं गेम डिज़ाइन में पैटर्न को कैप्चर करने वाली "शैलियों" की प्रबंधनीय संख्या के साथ आने के लिए खोज कारक कारक (ईएफए) का उपयोग करना चाहता हूं । कई स्रोतों परामर्श, मैं समझता हूँ कि जब मैं के साथ काम कर रहा हूँ दिचोतोमोउस चर, मैं चाहिए उपयोग करने के लिए polychoric सहसंबंध ( tetrachoric के बजाय, विशेष रूप से यहाँ) पियर्सन वाले जब मेरे कारकों के साथ आ (वहाँ भी अन्य विकल्प की तरह अव्यक्त विशेषता विश्लेषण कर रहे हैं वहाँ से बाहर है, लेकिन यह वह है जिसे मैं अभी खोज रहा हूं)।

जिज्ञासा से बाहर, मैं कारकों के दो सेट के साथ आया, एक पियर्सन सहसंबंधों का उपयोग कर रहा है और दूसरा पॉलीकोरिक सहसंबंधों का उपयोग कर रहा है (प्रत्येक बार कारकों की एक ही संख्या)। मेरी समस्या यह है कि पियर्सन सहसंबंधों का उपयोग करके गणना किए गए कारक बहुत अधिक समझ में आते हैं और पॉलीकोरिक सहसंबंधों का उपयोग करके गणना किए गए कारकों की तुलना में व्याख्या करना आसान है। दूसरे शब्दों में, कारकों के पहले सेट से "शैली" सहज ज्ञान युक्त होती है और मेरी समझ से मेल खाती है कि खेल आमतौर पर कैसे डिजाइन किए जाते हैं; यह कारकों के दूसरे सेट के लिए मामला नहीं है।

एक तरफ, मैं यह सुनिश्चित करना चाहता हूं कि मैं उन परीक्षणों की मान्यताओं को पूरा करूं जो मैं उपयोग कर रहा हूं, भले ही इससे मेरे परिणाम कम सुंदर हों। दूसरी ओर, मुझे लगता है कि कारक विश्लेषण और (अधिक मोटे तौर पर) मॉडल-निर्माण के लक्ष्य का हिस्सा कुछ उपयोगी के साथ आना है, और अधिक उपयोगी जानकारी तब सामने आ रही है जब मैं "नियमों को तोड़ रहा हूं।" क्या इस परीक्षण की मान्यताओं का उल्लंघन करने के लिए पर्याप्त उपयोगी मॉडल की आवश्यकता है? वास्तव में पॉलीकोरिक के बजाय पियर्सन सहसंबंधों का उपयोग करने के परिणाम क्या हैं?


1
अंतर्निहित बहुभिन्नरूपी सामान्यता की धारणा तीन से अधिक या इतने आयामों के डेटा के साथ इतनी मजबूत है कि पॉलीकोरिक सहसंबंध उस भावना को बनाने से रोकते हैं। पॉलीकोरिक सहसंबंधों के साथ मॉडल प्रक्षेपीकरण की डिग्री सबसे अधिक संभावना है कि आपके विश्लेषण को बेकार कर देती है। मुझे यकीन नहीं है कि आपको पहली बार उन सहसंबंधों की आवश्यकता क्यों है, हालांकि: यदि आपके पास एक स्पष्ट परिणाम चर (रेटिंग) और व्याख्यात्मक चर (डिजाइन सुविधाओं) का एक गुच्छा है, तो आपको कारक विश्लेषण नहीं, बल्कि प्रतिगमन विश्लेषण की आवश्यकता है।
StasK

@StasK प्रतिगमन विश्लेषण है मेरी अंतिम लक्ष्य है, लेकिन मैं 100 से अधिक व्याख्यात्मक चर है और एक अधिक प्रबंधनीय संख्या के लिए है कि कम करने के लिए करना चाहते हैं।
स्पेंसर ग्रीनहाल

इसके अलावा, ऐसी समस्याओं के लिए वर्गीकरण अपने आप में एक लक्ष्य है।
पेरे

जवाबों:


7

रैखिक फैक्टर विश्लेषण सैद्धांतिक रूप से , केवल निरंतर चर के लिए तार्किक है । यदि चर निरंतर नहीं हैं, लेकिन उदाहरण के लिए, द्विबीजपत्री हैं, तो आपके लिए एक तरीका पीछे के सतत चर को स्वीकार करना होगा और यह घोषणा करना होगा कि देखे गए चर द्विअर्थी अंतर्निहित या सत्य हैं। आप एक बाहरी "ट्यूटर" के बिना एक पैमाने पर एक द्विगुणित चर की मात्रा निर्धारित नहीं कर सकते हैं, लेकिन आप अभी भी उन सहसंबंधों का अनुमान लगा सकते हैं, जो तब होते जब आपके चर अभी तक नहीं किए गए थे और सामान्य रूप से वितरित "मूल" थे। और यह है टेट्राकोरिक हैसहसंबंध (या पॉलीकोरिक, यदि द्विआधारी के स्थान पर आपके पास क्रमिक चर हैं)। तो, Phi सहसंबंधों के स्थान पर टेट्राकोरिक सहसंबंधों (अवर पीयरसन सहसंबंधों) का उपयोग करना (द्विअर्थी डेटा के साथ पियरसन सहसंबंधों का अवलोकन करना) एक तार्किक कार्य है।

r=1rr, लेकिन द्विबीजपत्री चर में यह प्रभाव सबसे तेज होता है, क्योंकि बहुत कम मान लेने के लिए।) तो, उनके मैट्रिक्स में phi सहसंबंधों को असमान रूप से अपवित्र के रूप में देखा जा सकता है, जो dototomous चर में विषम वितरण के कारण होता है; आप नहीं जानते कि क्या एक सहसंबंध दूसरे "सही मायने में" से बड़ा है या इन दो जोड़े चर में अलग-अलग कट बिंदुओं के कारण है। निकालने के लिए कारकों की संख्या (निम्नलिखित मानदंड जैसे कि कैसर के "eigenvalue> 1") को फुलाया जाएगा: कुछ निकाले गए "कारक" असमानता का परिणाम, कट बिंदुओं की विविधता, - मूल अव्यक्त कारक नहीं। यह व्यावहारिक कारण है कि क्यों नहीं phi सहसंबंधों का उपयोग करें (कम से कम उनके कच्चे - nonrescaled) रूप में।

सिमुलेशन / बिनिंग अध्ययनों में सबूत है कि मैट्रिक्स में कई मजबूत (> 0.7) सहसंबंध हैं, तो टेट्राकोरिक सहसंबंधों के आधार पर कारक विश्लेषण बिगड़ता है। टेट्राकोरिक सहसंबंध आदर्श नहीं है: यदि सहसंबंधी अंतर्निहित चर के कट-पॉइंट विपरीत हैं (और इसलिए डायकोटोमस में सीमांत वितरण तिरछे तिरछे हैं), जबकि अंतर्निहित एसोसिएशन मजबूत है, टेट्राचोरिक गुणांक इसे और अधिक overestimates करता है। यह भी ध्यान दें कि tetrachoric सहसंबंध मैट्रिक्स जरूरी नहीं कि बड़े नमूनों में सकारात्मक semidefinite है और इस प्रकार सुधार ("स्मूथिंग") की आवश्यकता हो सकती है। फिर भी, यह सादे पियरसन (फी) गुणांकों पर कारक विश्लेषण करने से कई बेहतर तरीके से माना जाता है।

लेकिन बाइनरी डेटा पर कारक विश्लेषण आखिर क्यों होता है ? अव्यक्त विशेषता / IRT ("लॉजिस्टिक" कारक विश्लेषण का एक रूप) और एकाधिक पत्राचार विश्लेषण (यदि आप अपने द्विआधारी चर को नाममात्र श्रेणियों के रूप में देखते हैं) सहित अन्य विकल्प हैं।

यह सभी देखें:


यह भी जाँचें आँकड़े ।stackexchange.com
219814/
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.