पीसीए / एफए से बनाए गए कई प्रमुख घटकों या कारकों से एक एकल सूचकांक बनाना


15

मैं अपने शोध के लिए आवश्यक सूचकांक बनाने के लिए प्रधान घटक विश्लेषण (पीसीए) का उपयोग कर रहा हूं। मेरा प्रश्न यह है कि पीसीए के माध्यम से गणना किए गए प्रमुख घटकों का उपयोग करके मुझे कैसे एक सूचकांक बनाना चाहिए।

उदाहरण के लिए, मैंने पीसीए का उपयोग करने के बाद 3 प्रमुख घटकों को बनाए रखने का फैसला किया और मैंने इन 3 प्रमुख घटकों के लिए स्कोर की गणना की। प्रत्येक उत्तरदाता के लिए, इन 3 अंकों में से एक एकल सूचकांक बनाने के लिए उपयुक्त तरीके क्या हैं?

  • क्या समग्र मान रखने के लिए 3 गणना किए गए अंकों को जोड़ना प्रासंगिक है?
  • या इस तरह के मूल्य के लिए 3 स्कोर औसत करने के लिए?
  • या मुझे केवल पहला मुख्य घटक (सबसे मजबूत) रखना चाहिए और सूचकांक के रूप में इसके स्कोर का उपयोग करना चाहिए?

वैकल्पिक रूप से, कोई भी फैक्टर एनालिसिस (एफए) का उपयोग कर सकता है, लेकिन एक ही सवाल रहता है: कई कारकों के आधार पर एकल इंडेक्स कैसे बनाया जाए?


4
पीसी परिभाषा से असंबद्ध हैं। इसलिए, चर के रूप में, वे किसी भी तरह से एक दूसरे की जानकारी की नकल नहीं करते हैं। इसका मतलब है कि उनमें से एकल मूल्य (समग्र चर) बनाने का कोई कारण नहीं है। या, कभी-कभी उन्हें गुणा करना ब्याज का बन सकता है, शायद - लेकिन योग या औसत नहीं।
ttnphns

3
मैं @ttnphns से सहमत हूं: आपके पहले दो विकल्प बहुत मायने नहीं रखते हैं, और तीन पीसी को एक इंडेक्स में "संयोजन" करने का पूरा प्रयास गलत लगता है। अपने सूचकांक के रूप में 1 पीसी लें या पूरी तरह से कुछ अलग दृष्टिकोण का उपयोग करें।
अमीबा का कहना है कि मोनिका

2
@ttnphns असंबद्ध, स्वतंत्र नहीं। पीसी के दौरान बार-बार निरर्थक जानकारी हो सकती है, सिर्फ रैखिक रूप से नहीं।
conjectures

1
@amoeba अनुस्मारक के लिए धन्यवाद। मैंने टैग्स और इसके अंश के लिए आंकड़े.स्टैकएक्सचेंज . com / tags / valuation / info पर तैयार किए हैं
whuber

1
@ttnphns क्या आप अपनी टिप्पणी के आधार पर यहां एक उत्तर पोस्ट करने पर विचार करेंगे? मैंने यहां केवल एक इनाम शुरू किया है क्योंकि इस प्रश्न के रूपांतर दिखाई देते हैं और हम उन्हें डुप्लिकेट के रूप में बंद नहीं कर सकते हैं क्योंकि कहीं भी कोई संतोषजनक जवाब नहीं है।
अमीबा का कहना है कि मोनिका

जवाबों:


11

यह उत्तर जानबूझकर गैर-गणितीय है और गैर-सांख्यिकीविद मनोवैज्ञानिक (कहना) की ओर उन्मुख है, जो पूछता है कि क्या वह प्रत्येक प्रतिवादी के लिए "समग्र सूचकांक" स्कोर प्राप्त करने के लिए विभिन्न कारकों के योग / औसत कारक स्कोर कर सकता है।

कुछ चरों के स्कोर के औसत या औसत से मान लिया जाता है कि चर एक ही आयाम के हैं और फंगस वाले उपाय हैं। (प्रश्न में, "चर" घटक या कारक स्कोर हैं , जो बात को नहीं बदलते हैं, क्योंकि वे चर के उदाहरण हैं।)

यहाँ छवि विवरण दर्ज करें

वास्तव में (छवि 1), उत्तरदाताओं 1 और 2 को समान रूप से एटिपिकल के रूप में देखा जा सकता है (यानी 0 से विचलित, डेटा सेंटर या स्केल उत्पत्ति का स्थान), दोनों का मतलब समान स्कोर और ( 1.2 + .4 ) / 2 = .8 । मान .8 वैधता की सीमा के रूप में मान्य है, निर्माण X + Y के लिए पूरी तरह से के रूप में यह एक्स - वाई के लिए था(.8+.8)/2=.8(1.2+.4)/2=.8.8X+YXYअलग से। सहसंबंधित चर, एक ही आयाम का प्रतिनिधित्व करते हुए, एक ही विशेषता के बार-बार माप के रूप में और उनके अंकों के अंतर या गैर-तुल्यता को यादृच्छिक त्रुटि के रूप में देखा जा सकता है। / औसत स्कोर के बाद से यादृच्छिक त्रुटियों एक दूसरे को रद्द करने के लिए उम्मीद कर रहे हैं इसलिए यह राशि के warranded है spe में

ऐसा नहीं है यदि और Y एक ही "आयाम" को देखने के लिए पर्याप्त सहसंबंध नहीं रखते हैं। तब के लिए, एक प्रतिवादी के विचलन / atypicality को मूल (छवि 2) से यूक्लिडियन दूरी द्वारा अवगत कराया जाता है।XY

यहाँ छवि विवरण दर्ज करें

उत्तरदाताओं 1 और 2: respond के लिए यह दूरी अलग हैऔर.82+.821.131.22+.421.26X=.8Y=.8X=0Y=0

wXXi+wYYiXYwXwYसभी उत्तरदाताओं के लिए स्थिर हैं i, जो दोष का कारण है। एक प्रतिवादी के द्विभाजित विचलन से संबंधित करने के लिए - एक सर्कल या दीर्घवृत्त में - उसके अंकों पर निर्भर भार को पेश किया जाना चाहिए; इयूक्लिडियन दूरी पहले माना जाता है वास्तव में मूल्यों पर निर्भर है वजन के साथ इस तरह के भारित योग का एक उदाहरण। और अगर आपके लिए यह महत्वपूर्ण है कि आप चर के असमान रूपांतरों को शामिल करें (उदाहरण के लिए, मुख्य घटक, जैसे कि प्रश्न में) तो आप भारित यूक्लिडियन दूरी की गणना कर सकते हैं, वह दूरी जो अंजीर में लम्बी हो जाने के बाद अंजीर 2 पर मिलेगी।

|.8|+|.8|=1.6|1.2|+|.4|=1.6X=.8Y=.81.60

(आप यह कह सकते हैं कि "मैं सभी डेटा स्कोर को सकारात्मक बना दूंगा और अच्छे विवेक के साथ योग (या औसत) की गणना करूँगा क्योंकि मैंने मैनहटन को चुना है", लेकिन कृपया सोचें - क्या आप मूल रूप से मूल रूप से स्थानांतरित करने के लिए सही हैं? प्रमुख घटक या कारक, उदाहरण के लिए, इस स्थिति के तहत निकाले गए डेटा को माध्य के लिए केंद्रित किया गया है, जो अच्छी समझ में आता है। अन्य मूल ने अन्य घटकों / कारकों को अन्य स्कोर के साथ उत्पन्न किया होगा। नहीं, अधिकांश समय आप मूल के साथ नहीं खेल सकते हैं - लोकस। "विशिष्ट प्रतिवादी" या "शून्य-स्तरीय विशेषता" के रूप में - जैसा कि आप खेलने के लिए फैंसी हैं।)

योग करने के लिए , यदि समग्र निर्माण का उद्देश्य कुछ "शून्य" या विशिष्ट स्थान के सापेक्ष प्रतिक्रियाशील पदों को प्रतिबिंबित करना है, लेकिन चर शायद ही सभी सहसंबंधी हैं, उस मूल से कुछ प्रकार की स्थानिक दूरी, और न कि मतलब (या योग), भारित या बिना चुने हुए को चुना जाना चाहिए।

यदि आप एक ही चीज़ को मापने के लिए वैकल्पिक मोड के रूप में (असंबद्ध) चर को देखने का निर्णय लेते हैं, तो इसका मतलब (योग) समझ में आएगा । इस तरह से आप जानबूझकर वेरिएबल्स की अलग प्रकृति को अनदेखा कर रहे हैं। दूसरे शब्दों में, आप अंजीर में अंजीर को छोड़ दो। अंजीर के पक्ष में 1: आप "भूल जाते हैं" कि चर स्वतंत्र हैं। फिर - योग या औसत करें। उदाहरण के लिए, "भौतिक कल्याण" और "भावनात्मक कल्याण" पर स्कोर औसत हो सकता है, इसी तरह "स्थानिक बुद्धि" और "मौखिक बुद्धि" पर स्कोर। इस प्रकार का विशुद्ध रूप से व्यावहारिक, अनुमोदित व्यंग्यात्मक कंपोजिट्स को बैटरी इंडेक्स (परीक्षण या प्रश्नावली का एक संग्रह) कहा जाता है जो असंबंधित चीजों या सहसंबद्ध चीजों को मापता है जिनके सहसंबंधों को हम "बैटरी" कहते हैं। बैटरी इंडेक्स केवल तभी समझ में आता है जब स्कोर में एक ही दिशा होती है (जैसे कि धन और भावनात्मक स्वास्थ्य दोनों को "बेहतर" ध्रुव के रूप में देखा जाता है)। संकीर्ण तदर्थ सेटिंग्स के बाहर उनकी उपयोगिता सीमित है।

यदि चर संबंधों के बीच में हैं - तो वे काफी हद तक सहसंबद्ध हैं, फिर भी उन्हें एक दूसरे के डुप्लिकेट, विकल्प के रूप में देखने के लिए पर्याप्त रूप से पर्याप्त नहीं है, हम अक्सर उनके मूल्यों को भारित तरीके से जोड़ते हैं (या औसत)। फिर इन वज़न को सावधानीपूर्वक डिज़ाइन किया जाना चाहिए और उन्हें प्रतिबिंबित करना चाहिए, यह या इस तरह, सहसंबंध। यह हम क्या करते हैं, उदाहरण के लिए, पीसीए या कारक विश्लेषण (एफए) के माध्यम से जहां हम विशेष रूप से घटक / कारक स्कोर की गणना करते हैं। यदि आपके चर स्वयं पहले से ही घटक या कारक स्कोर हैं (जैसे ओपी प्रश्न यहाँ कहते हैं) और वे सहसंबद्ध हैं (तिरछा घूमने की वजह से), तो आप उन्हें (या सीधे लोडिंग मैट्रिक्स) को दूसरे क्रम के पीसीए / एफए में पा सकते हैं। वज़न और दूसरा-क्रम पीसी / कारक प्राप्त करें जो आपके लिए "समग्र सूचकांक" की सेवा देगा।

लेकिन अगर आपके घटक / कारक स्कोर असंबद्ध या कमजोर रूप से सहसंबद्ध थे, तो कोई भी सांख्यिकीय कारण नहीं है कि न तो उन्हें स्पष्ट रूप से और न ही वज़न का अनुमान लगाकर। इसके बजाय कुछ दूरी का उपयोग करें। दूरी के साथ समस्या यह है कि यह हमेशा सकारात्मक होता है: आप कह सकते हैं कि एक प्रतिवादी कितना असामान्य है, लेकिन यह नहीं कह सकता कि क्या वह "ऊपर" या "नीचे" है। लेकिन यह वह मूल्य है जो आपको मल्टी-ट्रिट स्पेस से सिंगल इंडेक्स की मांग के लिए भुगतान करना होगा। यदि आप दोनों विचलन चाहते हैं और ऐसे स्थान पर हस्ताक्षर करते हैं, तो मैं कहूंगा कि आप बहुत अधिक मेहनती हैं।

अंतिम बिंदु में, ओपी पूछता है कि क्या केवल एक के स्कोर को लेना सही है, इसके विचरण के संबंध में सबसे मजबूत चर - इस उदाहरण में - 1 प्रमुख घटक - केवल प्रॉक्सी के रूप में, "सूचकांक" के लिए। यह समझ में आता है कि क्या पीसी बाकी पीसी की तुलना में बहुत मजबूत है। हालांकि कोई भी पूछ सकता है "अगर यह इतना मजबूत है, तो आपने इसे केवल एकमात्र क्यों नहीं निकाला / बनाए रखा?"।


0

Http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf से समय श्रृंखला लिंक से पीसीए का उपयोग करके समग्र सूचकांक बनाना

पृष्ठ 19 पर उस लेख में, लेखक चुने गए कारकों द्वारा बताए गए कुल भिन्नता के लिए प्रत्येक कारक द्वारा बताए गए भिन्नता के अनुपात का उपयोग करके एक गैर-मानकीकृत सूचकांक (NSI) बनाने का एक तरीका बताते हैं। यह NSI तब सामान्यीकृत किया गया था।


6
पृष्ठ 19 पर वह खंड बिल्कुल संदिग्ध, समस्याग्रस्त सेब और संतरे जोड़ने का काम करता है जो अमीबा और मेरे द्वारा उपरोक्त टिप्पणियों के खिलाफ चेतावनी दी गई थी। एक सूचकांक में असंबद्ध चर का योग शायद ही कोई सांख्यिकीय अर्थ है।
tnnphns

1
कभी-कभी हम निर्माण / तराजू / परीक्षण जोड़ते हैं जो असंबद्ध होते हैं और विभिन्न चीजों को मापते हैं। यह बैटरी इंडेक्स होगा (ऐसे परीक्षण जिन्हें काफी भिन्न / असंबद्ध माना जाता है, "बैटरी" कहलाते हैं)। एक बैटरी इंडेक्स में कुछ स्थानीय व्यावहारिक समझ हो सकती है, हालांकि इसमें लगभग एक सांख्यिकीय अर्थ का अभाव है, जैसा कि पिछली टिप्पणी में कहा गया है।
ttnphns


-1 जो ​​ऊपर लिखा गया है उसके कारण।
अमीबा का कहना है कि मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.