क्या पीसीए बूलियन (बाइनरी) डेटा प्रकारों के लिए काम करेगा?


38

मैं उच्च आदेश प्रणालियों की गतिशीलता को कम करना चाहता हूं और अधिकांश कोवरियन को अधिमानतः 2 आयामी या 1 आयामी क्षेत्र पर कब्जा करना चाहता हूं। मैं समझता हूं कि यह प्रमुख घटक विश्लेषण के माध्यम से किया जा सकता है, और मैंने कई परिदृश्यों में पीसीए का उपयोग किया है। हालांकि, मैंने इसे बूलियन डेटा प्रकारों के साथ उपयोग नहीं किया है, और मैं सोच रहा था कि क्या इस सेट के साथ पीसीए करना सार्थक है। उदाहरण के लिए, दिखावा करें कि मेरे पास गुणात्मक या वर्णनात्मक मीट्रिक हैं, और मैं "1" असाइन करता हूं यदि वह मीट्रिक उस आयाम के लिए मान्य है, और "0" यदि यह नहीं है (बाइनरी डेटा)। इसलिए, उदाहरण के लिए, आप स्नो व्हाइट में सात बौनों की तुलना करने की कोशिश कर रहे हैं। हमारे पास है:

Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy और Happy, और आप उन्हें गुणों के आधार पर व्यवस्थित करना चाहते हैं, और ऐसा किया है:

(Lactose Intoleranटी एचnआर आरएलएलटीएलटीमैंसीडब्ल्यूएलटीyडीसी1011डीपीy0000बीरोंयूएल1011जीआरयूमीटरपीy1111एसnzy0110एसएलपीy1000एचपीपीy1100)

तो उदाहरण के लिए बैशफुल लैक्टोज असहिष्णु है और ए ऑनर रोल पर नहीं। यह एक विशुद्ध रूप से काल्पनिक मैट्रिक्स है, और मेरे वास्तविक मैट्रिक्स में कई अधिक वर्णनात्मक कॉलम होंगे। मेरा सवाल यह है कि क्या अब भी इस मैट्रिक्स पर पीसीए करना उचित होगा, जो व्यक्तियों के बीच समानता खोजने का एक साधन है?


1
यह प्रश्न (लगभग) उस एक का डुप्लिकेट है । पीसीए बाइनरी / बूलियन डेटा पर किया जा सकता है, लेकिन ऐसे डेटा पर कारक विश्लेषण (पीसीए सहित) करना "जैसे कि यह एफए है" समस्याग्रस्त है
tnnphns

1
पीसीए पर द्विआधारी डेटा जैसे कि आपका ("वर्तमान" बनाम "अनुपस्थित") सामान्य रूप से चर को केंद्रित किए बिना प्रदर्शन किया जाएगा क्योंकि मूल 0. के अलावा मूल (संदर्भ बिंदु) का सुझाव देने का कोई कारण नहीं है, इसलिए सहसंयोजक के बजाय- या सहसंबंध आधारित पीसीए हम SSCP- या कोसाइन-आधारित पर पहुंचते हैं । इस तरह का विश्लेषण बहुत समान है, लगभग कई पत्राचार विश्लेषण (= समरूपता विश्लेषण) के बराबर है जो आपके लिए पसंद हो सकता है।
tnnphns

a means of finding the similarity between individuals। लेकिन यह कार्य एक क्लस्टर विश्लेषण के लिए है, पीसीए के लिए नहीं।
tnnphns

संक्षिप्त उत्तर: रैखिक PCA (यदि इसे आयाम में कमी तकनीक के रूप में लिया गया है और कारक विश्लेषण के रूप में अव्यक्त चर तकनीक नहीं है) का उपयोग स्केल (मीट्रिक) या बाइनरी डेटा के लिए किया जा सकता है। सादे (रैखिक) पीसीए का उपयोग नहीं किया जाना चाहिए, हालांकि, आर्डिनल डेटा या नाममात्र डेटा के साथ - जब तक कि इन आंकड़ों को मीट्रिक या बाइनरी (जैसे डमी) किसी तरह से चालू नहीं किया जाता है।
ttnphns

@ttnphns PCA को क्लस्टर वैरिएबल के रूप में देखा जा सकता है। इसके अलावा, पीसीए और क्लस्टर विश्लेषण का उपयोग अनुक्रम में
एंटोनी

जवाबों:


12

मैं आपको श्रेणीबद्ध चर डेटा (इसमें बाइनरी शामिल है) से स्वचालित संरचना निष्कर्षण के लिए एक अपेक्षाकृत हाल ही में तकनीक का सुझाव देना चाहूंगा। विधि को दक्षिणी कैलिफोर्निया विश्वविद्यालय से ग्रेग वैन स्टील से कोरेक्स कहा जाता है। यह विचार एंट्रोपी उपायों के आधार पर कुल सहसंबंध की धारणा का उपयोग करने के लिए है। यह अपनी सादगी के कारण अपील कर रहा है और बड़ी संख्या में हाइपरपरमेटर्स की कोई ट्यूनिंग नहीं है।

पदानुक्रमित अभ्यावेदन के बारे में कागज (सबसे हाल का, पिछले उपायों के शीर्ष पर बनाता है)। http://arxiv.org/pdf/1410.7404.pdf


1
@AlvinNunez आपका स्वागत है! अजगर कार्यान्वयन GitHub github.com/gregversteeg/CorEx पर पाया जा सकता है, वास्तव में अपने डेटा को प्राप्त करने के लिए आसान है और देखें कि क्या निकलता है।
व्लादिस्लाव्स डोवलगेक्स

13

आप मल्टीपल कॉरेस्पॉन्डेंस एनालिसिस (MCA) का भी इस्तेमाल कर सकते हैं, जो प्रिंसिपल कंपोनेंट एनालिसिस का एक एक्सटेंशन है, जब विश्लेषण किए जाने वाले वेरिएबल क्वांटिटेटिव (जो आपके बाइनरी वैरिएबल्स के साथ यहां होता है) के बजाय कंजोरिकल होते हैं। उदाहरण के लिए देखें हसन एट अल। (2010) , या आब्दी और वैलेंटाइन (2007) । MCA (और पीसी पर पदानुक्रमित क्लस्टरिंग) करने के लिए एक उत्कृष्ट आर पैकेज FactoMineR है


1
एक दिलचस्प जवाब, मैं इसके साथ सहमत हूँ। यदि आप अधिक विस्तार से inflation of the feature spaceऔर क्यों यह पीसीए में होता है और एमसीए में नहीं होता है, तो इसकी बड़ी संपत्ति होगी।
tnnphns

मैंने इस inflation of the feature spaceघटना को गलत समझा । ऐसा लगता है कि सीए से एमसीए में जाने के दौरान खेल में आ रहा है, लेकिन पीसीए का एक अंतर्निहित मुद्दा नहीं है। जब आप यह टिप्पणी पढ़ेंगे तो मैं अपना उत्तर निकालने जा रहा हूँ। मुझे यह एहसास दिलाने के लिए धन्यवाद।
एंटोनी

मुझे नहीं लगता कि आपको उत्तर निकालना होगा। MCA मेरे लिए सही विकल्पों में से एक है, और आपका उत्तर सही है।
ttnphns

मैंने जवाब वापस जोड़ दिया क्योंकि मुझे लगता है कि एमसीए यहां मददगार हो सकता है, लेकिन मैंने फीचर स्पेस की मुद्रास्फीति के बारे में चर्चा को हटा दिया क्योंकि यह प्रासंगिक नहीं लग रहा था
एंटोनी

बाइनरी डेटा पर एमसीए का परिणाम एक पीसीओए के परिणाम से अलग कैसे होगा, जो जैक्सकार्ड या साधारण मिलान जैसे द्विआधारी डेटा के लिए उपयुक्त दूरी के साथ होता है?
एमुद्रक

9

यदि आप पीसीए को एक खोजी तकनीक के रूप में सोचते हैं, तो आप चर के बीच संबंधों की कल्पना करने का एक तरीका दे सकते हैं (और मेरी राय में यह इसके बारे में सोचने का एकमात्र तरीका है) तो हाँ, कोई कारण नहीं है कि आप बाइनरी में नहीं डाल सकते हैं चर। उदाहरण के लिए, यहां आपके डेटा का एक द्विपद है

यहाँ छवि विवरण दर्ज करें

यह यथोचित उपयोगी लगता है। उदाहरण के लिए, आप देख सकते हैं कि डॉक और बैशफुल बहुत समान हैं; एचआर तीन अन्य चर के विपरीत नहीं है; नींद और छींक बहुत ही असंतुष्ट हैं, आदि।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.