सतत और श्रेणीबद्ध चरों के मिश्रण वाले डेटासेट पर प्रमुख घटक विश्लेषण लागू किया जा सकता है?


147

मेरे पास एक डेटासेट है जिसमें निरंतर और श्रेणीबद्ध डेटा दोनों हैं। मैं पीसीए का उपयोग करके विश्लेषण कर रहा हूं और सोच रहा हूं कि विश्लेषण के हिस्से के रूप में श्रेणीबद्ध चर को शामिल करना ठीक है या नहीं। मेरी समझ यह है कि पीसीए केवल निरंतर चर पर लागू किया जा सकता है। क्या वो सही है? यदि इसे श्रेणीबद्ध डेटा के लिए उपयोग नहीं किया जा सकता है, तो उनके विश्लेषण के लिए क्या विकल्प मौजूद हैं?



ResearchGate पर एक चर्चा है: researchgate.net/post/Should_I_use_PCA_with_categorical_data
GoingMyWay

जवाबों:


87

यद्यपि बाइनरी डेटा पर लागू एक पीसीए परिणाम प्राप्त करने वालों के लिए तुलनीय होगा मल्टीपल कॉरेस्पोंडेंस एनालिसिस (कारक स्कोर और eigenvalues ​​रैखिक रूप से संबंधित हैं), मिश्रित डेटा प्रकारों से निपटने के लिए अधिक उपयुक्त तकनीक हैं, अर्थात् मिश्रित डेटा में मल्टीपल फैक्टर विश्लेषण उपलब्ध हैं। FactoMineR आर पैकेज ( AFDM())। यदि आपके चर को वर्णनात्मक विशेषताओं के संरचित सबसेट के रूप में माना जा सकता है, तो मल्टीपल फैक्टर विश्लेषण ( MFA()) भी एक विकल्प है।

श्रेणीगत चरों के साथ चुनौती यह है कि भाज्य श्रेणियों में चर श्रेणियों और व्यक्तियों के बीच की दूरी को दर्शाने के लिए एक उपयुक्त तरीका खोजा जाए। इस समस्या को दूर करने के लिए, आप प्रत्येक चर के गैर-रेखीय परिवर्तन की तलाश कर सकते हैं - चाहे वह नाममात्र, अध्यादेशीय, बहुपद या संख्यात्मक हो - इष्टतम स्केलिंग के साथ। इसमें अच्छी तरह से समझाया गया है R: पैकेज होमल ऑप्टिमल स्केलिंग के लिए Gifi मेथड्स , और इसी R पैकेज होमल्स में एक कार्यान्वयन उपलब्ध है ।


2
chl, सूचक के लिए धन्यवाद FADM के लिए। हालांकि मैं सोच रहा था: एक बार जब मैं एक डेटा सेट (obj <- FADM (x)) पर एफएडीएम लागू करता हूं, तो मैं ट्रांसफॉर्म किए गए डेटा सेट को आसानी से एक्सेस कर सकता हूं: ओब्ज $ इंड $ कॉर्ड। हालाँकि, यदि मैं उसी परिवर्तन को किसी अन्य डेटा सेट पर लागू करना चाहता हूं, तो मैं ऐसा कैसे कर सकता हूं? (यह उदाहरण के लिए आवश्यक है, अगर मेरे पास एक ट्रेन सेट है, और मुझे इस ट्रेन सेट से "प्रमुख घटक" मिलते हैं, और फिर उन "प्रमुख घटकों" के माध्यम से परीक्षण सेट को देखना चाहते हैं)। प्रलेखन वास्तव में इस पर स्पष्ट नहीं है, और कागज जिस फ़ंक्शन पर आधारित है वह फ्रेंच में है।
कैसंड्रा

इस बारे में: Although a PCA applied on binary data would yield results comparable to those obtained from a Multiple Correspondence Analysisक्या हम (एन -1) डमी बायनेरिज़ के संग्रह में नाममात्र श्रेणीगत चर (एन कार्डिनैलिटी के साथ कह सकते हैं) को परिवर्तित नहीं कर सकते हैं और फिर इस डेटा पर पीसीए प्रदर्शन कर सकते हैं? (मैं समझता हूं कि अधिक उपयुक्त तकनीकें हैं)
ज़ुर्बर्ब

31

एक Google खोज "असतत चर के लिए pca" एस। कोलेनिकोव (@StasK) और जी। एंजिल्स द्वारा यह अच्छा अवलोकन देता है । Chl उत्तर में जोड़ने के लिए, पीसी विश्लेषण वास्तव में सहसंयोजक मैट्रिक्स के eigenvectors का विश्लेषण है। तो समस्या यह है कि "सही" सहसंयोजक मैट्रिक्स की गणना कैसे करें। एक दृष्टिकोण पॉलीकोरिक सहसंबंध का उपयोग करना है


(+1) लिंक के लिए धन्यवाद। विषम सहसंबंध मैट्रिक्स ( पॉलीकोर पैकेज hetcor()से उदाहरण देखें ) पर विचार करना भी संभव है । बशर्ते वीसी मैट्रिक्स एसडीपी है, यह काम करना चाहिए - ज्यादातर फैक्टर विश्लेषण की भावना में। नाममात्र चर डमी कोडित हो सकते हैं।
chl

@StasK, kudos :) ऐसा लगता है कि न केवल मुझे यह बात उपयोगी लगी, अन्यथा यह गुगली खोज में शीर्ष पर नहीं होता। यह प्रश्न समय-समय पर पॉप अप होता है, इसलिए शायद आप हमारे सामुदायिक ब्लॉग के लिए इसके बारे में एक ब्लॉग पोस्ट करना चाहते हैं?
mpiktas

@StasK, मैंने सिंहावलोकन के लेखकों का उल्लेख करने के लिए पोस्ट को संपादित किया है। मेरा प्रारंभिक इरादा यह प्रदर्शित करना था कि Google पर खोज करने से अच्छे उत्तर मिल सकते हैं, इसलिए यहां पूछने की कोई स्पष्ट आवश्यकता नहीं है। लेकिन यह लेखकों का हवाला नहीं देने का बहाना नहीं है, जो इंटरनेट की अस्थिरता को देखते हैं।
mpiktas

1
@mpiktas, धन्यवाद। इस कार्य से उत्पन्न अर्थशास्त्रियों के उद्देश्य से एक वास्तविक लेख था: dx.doi.org/10.1111/j.1475-4991.2008.00309.x , हालांकि संपादकों ने हमें इतना कटौती करने के लिए कहा कि मैं काम के लिए पेपर पढ़ने का सुझाव देता हूं। सूचना, और प्रकाशित एक का हवाला देते हैं।
StasK

9

मैं सुझाव दूंगा कि लाइनिंग और कोइज़ पर एक नज़र डालें, 2012 " CATPCA के साथ गैर रेखीय प्रमुख घटक विश्लेषण: एक ट्यूटोरियल ", व्यक्तित्व मूल्यांकन का जर्नल ; 94 (1)।

सार

यह लेख नॉनलाइनियर प्रिंसिपल कंपोनेंट्स एनालिसिस (NLPCA) के लिए एक ट्यूटोरियल के रूप में स्थापित किया गया है, जो व्यवस्थित रूप से रीडर को Rorschach Inkblot Test द्वारा व्यक्तित्व मूल्यांकन पर वास्तविक डेटा का विश्लेषण करने की प्रक्रिया के माध्यम से मार्गदर्शन करता है। NLPCA रैखिक PCA का अधिक लचीला विकल्प है जो विभिन्न प्रकार के माप स्तर के साथ संभवतः गैर-संबंधित संबंधित चर के विश्लेषण को संभाल सकता है। विधि विशेष रूप से नाममात्र (गुणात्मक) और क्रमिक (जैसे, लिकर्ट-प्रकार) डेटा का विश्लेषण करने के लिए अनुकूल है, संभवतः संख्यात्मक डेटा के साथ संयुक्त। SPSS में श्रेणियाँ मॉड्यूल से CATPCA का कार्यक्रम विश्लेषण में उपयोग किया जाता है, लेकिन विधि विवरण को आसानी से अन्य सॉफ्टवेयर पैकेजों में सामान्यीकृत किया जा सकता है।


4

मुझे अभी तक किसी के पोस्ट पर टिप्पणी करने का विशेषाधिकार नहीं मिला है, इसलिए मैं अपनी टिप्पणी को एक अलग उत्तर के रूप में जोड़ रहा हूं, इसलिए कृपया मेरे साथ रहें।

@Martin F ने जो टिप्पणी की, उस पर जारी रखते हुए, हाल ही में मैं nonlinear PCAs के साथ आया था। मैं नॉनक्लियर पीसीएएस में एक संभावित विकल्प के रूप में देख रहा था जब डेटा के स्पार्सर के रूप में एक निरंतर चर वितरण का एक सतत चर वितरण दृष्टिकोण होता है (यह आनुवांशिकी में बहुत बार होता है जब चर की मामूली एलील आवृत्ति कम और कम हो जाती है और आप छोड़ दिए जाते हैं। बहुत कम संख्या के साथ, जिसमें आप वास्तव में एक सतत चर के वितरण को सही नहीं ठहरा सकते हैं और आपको वितरण संबंधी मान्यताओं को एक अध्यादेशीय चर या श्रेणीगत चर बनाकर ढीला करना होगा।) गैर रेखीय PCA इन दोनों को संभाल सकता है लेकिन बाद में। आनुवंशिकी संकाय में सांख्यिकीय उस्तादों के साथ चर्चा, सर्वसम्मति से कहा गया था कि नॉनलाइनर पीसीए का अधिक बार उपयोग नहीं किया जाता है और उन पीसीए के व्यवहार का अभी तक बड़े पैमाने पर परीक्षण नहीं किया गया है (हो सकता है कि वे केवल आनुवंशिकी क्षेत्र की बात कर रहे हों, इसलिए कृपया इसे नमक के दाने के साथ लें)। वास्तव में यह एक आकर्षक विकल्प है। मुझे उम्मीद है कि मैंने चर्चा में 2 सेंट (सौभाग्य से प्रासंगिक) जोड़ा है।


आपके उत्तर का स्वागत करते हुए, मंदार। क्या आप CATPCA विधि द्वारा नॉनलाइनियर PCA या किसी अन्य nonlinear PCA (क्या विधि, तब) का जिक्र कर रहे हैं। यह भी ध्यान दें कि द्विआधारी चर के लिए, CATPCA, बेकार या तुच्छ है, क्योंकि एक द्विगुणित पैमाने को ... Dichotomous के अलावा अन्य मात्रा निर्धारित नहीं किया जा सकता है!
tnnphns

थैंक यू @ttnphns। मैं बाइनरी चर के बारे में बाइनरी चर के बारे में आपकी बात से सहमत हूं, कोई भी धारणा मायने नहीं रखती है। अन्यथा मैं वास्तव में "इंट्रोडक्शन टू नॉनलाइनियर पीसीए" [लिंक] ( openaccess.leidenuniv.nl/bitstream/handle/1887/12386/… ) से एक पुस्तक अध्याय का जिक्र कर रहा था । यह मुख्य रूप से CATPCA को संदर्भित करता है और SAS से PRINQUAL पैकेज।
मंदर

2

ऐसी समस्याओं के लिए हाल ही में विकसित दृष्टिकोण है: सामान्यीकृत निम्न रैंक मॉडल

इस तकनीक का उपयोग करने वाले कागजात में से एक को डेटा फ़्रेम पर पीसीए भी कहा जाता है ।


पीसीए इस तरह पेश किया जा सकता है:

n

nएक्स^Y^

एक्स^,Y^आरजीमैंnएक्स,Y-एक्सYएफ2

एफ2


यह नए विचार की तुलना में अधिक सुदृढ़ीकरण लगता है। Gifi के लिए खोजें!
kjetil b halvorsen

आप बिल्कुल सही नहीं हैं, ऐसा लगता है कि GLRM एक सामान्यीकरण है (वास्तव में मैंने जो पेपर लिंक किया है वह जिफी पैकेज पेपर का हवाला देता है)।
याकूब बार्टिसुक

1

PCAmixdata# रैस्टैट्स पैकेज :

मात्रात्मक और गुणात्मक चर के मिश्रण के लिए प्रमुख घटक विश्लेषण, ऑर्थोगोनल रोटेशन और कई कारक विश्लेषण लागू करता है।

विगनेट से उदाहरण निरंतर और श्रेणीगत आउटपुट दोनों के लिए परिणाम दिखाता है

यहां छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.