गैर-गौसियन डेटा का पीसीए


20

मेरे पास पीसीए के बारे में त्वरित प्रश्न हैं:

  • क्या पीसीए मान लेता है कि डेटासेट गॉसियन है?
  • क्या होता है जब मैं एक पीसीए को अंतर्निहित गैर-रैखिक डेटा पर लागू करता हूं?

एक डेटासेट को देखते हुए, प्रक्रिया को पहले सामान्यीकृत करना है, 1 से विचरण सेट करें, एक SVD लें, रैंक कम करें, और अंत में डेटासेट को नए कम-रैंक स्थान में मैप करें। नई जगह में, प्रत्येक आयाम अधिकतम विचरण के "दिशा" से मेल खाता है।

  • लेकिन क्या नए स्थान में उस डेटासेट का संबंध हमेशा शून्य है, या क्या यह केवल डेटा के लिए सही है जो स्वाभाविक रूप से गॉसियन है?

मान लीजिए कि मेरे पास दो डेटासेट हैं, "ए" और "बी", जहां "ए" एक गौसियन से लिए गए यादृच्छिक रूप से सैंपल किए गए बिंदुओं से मेल खाती है, जबकि "बी" दूसरे वितरण से यादृच्छिक रूप से सैंपल किए गए बिंदुओं से मेल खाती है (पॉइसन कहते हैं)।

  • PCA (A) PCA (B) से तुलना कैसे करता है?
  • नए स्थान के बिंदुओं को देखकर, मैं यह कैसे निर्धारित करूंगा कि पीसीए (ए) एक गौसियन से नमूना किए गए बिंदुओं से मेल खाती है, जबकि पीसीए (बी) एक पॉइसन से नमूना किए गए बिंदुओं से मेल खाती है?
  • "ए" 0 में बिंदुओं का सहसंबंध है?
  • क्या "बी" में बिंदुओं का सहसंबंध भी 0 है?
  • इससे भी महत्वपूर्ण बात, क्या मैं "सही" प्रश्न पूछ रहा हूं?
  • क्या मुझे सहसंबंध को देखना चाहिए, या कोई अन्य मीट्रिक है जिसे मुझे विचार करना चाहिए?

2
इस पत्र में पीसीए की मान्यताओं पर परिशिष्ट देखें ।
१27:

जवाबों:


17

आपके पास पहले से ही यहां कुछ अच्छे उत्तर हैं (+1 दोनों @ Cam.Davidson.Pilon & @MichaelChernick के लिए)। मुझे इस मुद्दे के बारे में सोचने में मदद करने वाले कुछ बिंदुओं को बाहर निकालने दें।

सबसे पहले, पीसीए सहसंबंध मैट्रिक्स पर काम करता है। इस प्रकार, यह मुझे महत्वपूर्ण प्रश्न लगता है कि क्या यह आपके डेटा के बारे में सोचने में मदद करने के लिए सहसंबंध मैट्रिक्स का उपयोग करने के लिए समझ में आता है। उदाहरण के लिए, पियर्सन उत्पाद-पल सहसंबंध दो चर के बीच रैखिक संबंध का आकलन करता है ; यदि आपके चर संबंधित हैं, लेकिन रैखिक रूप से नहीं, तो संबंध संबंध की ताकत को अनुक्रमित करने के लिए एक आदर्श मीट्रिक नहीं है। ( यहाँ सह-संबंध और गैर-सामान्य डेटा के बारे में CV पर एक अच्छी चर्चा है।)

दूसरा, मुझे लगता है कि पीसीए के साथ क्या हो रहा है यह समझने का सबसे आसान तरीका है कि आप बस अपनी कुल्हाड़ियों को घुमा रहे हैं। आप निश्चित रूप से अधिक चीजें कर सकते हैं, और दुर्भाग्य से पीसीए कारक विश्लेषण के साथ भ्रमित हो जाता है (जो निश्चित रूप से अधिक चल रहा है)। फिर भी, बिना किसी घंटी और सीटी के सादे पुराने पीसीए के बारे में सोचा जा सकता है:

  • आपके पास ग्राफ पेपर की शीट पर दो आयामों में कुछ बिंदु हैं;
  • आपके पास उस पर खींची गई ऑर्थोगोनल कुल्हाड़ियों के साथ एक पारदर्शिता है, और मूल में एक पिनहोल;
  • आप पारदर्शिता की उत्पत्ति (यानी, पिनहोल) पर और अपने पेंसिल की नोक को पिनहोल के माध्यम से उस स्थान पर रखने के लिए डालते हैं; (एक्स¯,y¯)
  • तब आप पारदर्शिता को तब तक घुमाते हैं जब तक कि बिंदु (जब मूल के बजाय पारदर्शिता के अक्ष के अनुसार अनुक्रमित हो) असंबंधित हो।

यह पीसीए के लिए एक आदर्श रूपक नहीं है (उदाहरण के लिए, हमने 1 के रूपांतरों को पुनर्विक्रय नहीं किया है)। लेकिन क्या लोगों को मूल विचार देता है। बिंदु अब उस छवि का उपयोग करने के बारे में सोचने के लिए है कि परिणाम क्या दिखता है यदि डेटा के साथ शुरू करने के लिए गॉसियन नहीं थे; इससे आपको यह तय करने में मदद मिलेगी कि यह प्रक्रिया करने लायक थी या नहीं। उम्मीद है की वो मदद करदे।


2
+1 (बहुत समय पहले)। मुझे लगता है कि इस धागे में यह सबसे अच्छा जवाब है, आशा है कि यह सबसे अधिक उत्थान करने वाला एक और उत्थान करेगा। मुझे एक पारदर्शिता के साथ पीसीए को समझाने का आपका तरीका पसंद है, यह अच्छा है।
अमीबा का कहना है कि मोनिका

वैसे, आपके इस जवाब ने हमारे विशाल आम आदमी पीसीए धागे में मेरे हालिया जवाब को प्रेरित किया : मैंने उन एनिमेटेड जिफों को बनाया है, जो आपके पारदर्शिता के अनुरूप हैं।
अमीबा का कहना है कि मोनिका

यह एक महान जवाब है, @amoeba। यह इससे बहुत बेहतर है।
गूँज - मोनिका

13

मैं आंशिक समाधान दे सकता हूं और आपके लिए एक उत्तर दिखा सकता हूं दूसरा अनुच्छेदw1w2एक्सw1एक्सw2एक्स

सीv(एक्सw1,एक्सw2)=[(एक्सw1)टी(एक्सw2)]-[एक्सw1]टी[एक्सw2]
wमैंएक्स
w1टी[एक्सटीएक्स]w2=वीआर(एक्स)w1टीw2=0
wमैंवीआर(एक्स)

एक्सएक्सwएक्सएक्सw

α


7

पीसीए में कोई रैखिकता या सामान्यता नहीं है। यह विचार केवल ऑर्थोगोनल घटकों में एक पी-डायमेंशनल डेटासेट में भिन्नता को विघटित करने के लिए है जो कि विचरण की मात्रा के अनुसार क्रमबद्ध हैं।


2
सही लेकिन "ऑर्थोगोनल घटकों में एक पी-डायमेंशनल डेटासेट में भिन्नता को कम करना" तब बहुत उपयोगी नहीं होता है जब ऑर्थोगोनाइजेशन के बाद से चर के बीच गैर-रेखीय निर्भरता आमतौर पर होती है ताकि आप तर्क दे सकें कि आयाम असंबंधित हैं (जो है) यह भी सवाल के गाऊसी भाग से संबंधित है)। जब आप पीसीए कर रहे हैं और सामान्य तरीके से परिणामों की व्याख्या करने की योजना बना रहे हैं, तो एक अंतर्निहित धारणा है कि डेटा एक कम आयामी रैखिक उप-वर्ग में रहता है ।
मैक्रों

2
@ मैक्रो बिल्कुल नहीं। मैं कहूंगा कि अंतर्निहित धारणा यह है कि कम से कम अधिकांश परिवर्तनशीलता और इसलिए डेटा का पैटर्न कुछ कम आयामी स्थान में केंद्रित है। मैं ऑर्थोगोनल घटकों के साथ एक 2-आयामी अंतरिक्ष में बहुत अच्छी तरह से एक परबोला देख सकता हूं। मुझे लगता है कि गैर-रेखीय आकृतियों को दो या तीन आयामों में देखा जा सकता है। यदि डेटा एक बहुभिन्नरूपी गॉसियन गड़बड़ी से आता है, तो कुछ उप-बिंदुओं में अंक एक दीर्घवृत्त बादल की तरह दिखना चाहिए। दिलचस्प होने के लिए वितरण को उच्च पीसी के उप-स्थान में इसके दृश्य के लिए एक दीर्घवृत्ताकार की तरह नहीं देखना पड़ता है।
माइकल आर। चेरनिक

4
मैं इसे थोड़ा क्वालिफाई करूंगा। एसवीडी द्वारा शास्त्रीय पीसीए या पीसीए में कोई सामान्य धारणा नहीं है। हालांकि, गायब डेटा के साथ पीसीए की गणना करने के लिए ईएम एल्गोरिदम सामान्यता और रैखिकता का अनुमान लगाएगा।
जॉन

जबकि पीसीए के लिए शास्त्रीय सड़क को किसी भी धारणा की आवश्यकता नहीं है, इसके समाधान के लिए एक और सड़क है जो इस माप शोर के साथ संभाव्य पीसीए है।
बायरज

3

यहाँ पेज 7 पढ़ना:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

वे ध्यान दें कि पीसीए मानता है कि हम जो कुछ भी समझा रहे हैं उसका वितरण एक मतलब (शून्य) और अकेले विचरण द्वारा वर्णित किया जा सकता है, जो वे कहते हैं कि केवल सामान्य वितरण हो सकता है।

(कैम के जवाब के अलावा मूल रूप से, लेकिन मेरे पास टिप्पणी करने के लिए पर्याप्त प्रतिष्ठा नहीं है:)


1
श्लेंस के ट्यूटोरियल के लिए आपके द्वारा दिया गया लिंक ट्यूटोरियल के संस्करण 1 में है, लेकिन संस्करण 3.02 (अंतिम संस्करण?) अब उपलब्ध है, और यह विशिष्ट बिंदु हटा दिया गया था। साथ ही, इस सवाल के बारे में भी यही पूछा गया।
ओरेन मिलमैन

0

जहाँ तक मुझे पता है, पीसीए डेटा की सामान्यता को नहीं मानता है। लेकिन अगर इसे सामान्य रूप से वितरित किया जाता है (अधिक सामान्य अर्थ में, सममित रूप से वितरित), तो परिणाम अधिक मजबूत होता है। जैसा कि अन्य लोग कहते हैं, कुंजी यह है कि पीसीए पियर्सन सहसंबंध गुणांक मैट्रिक्स पर आधारित है, जिनमें से अनुमान आउटलेर्स और तिरछी वितरण से प्रभावित है। तो कुछ विश्लेषण में शामिल हैं, जैसे कि सांख्यिकीय परीक्षण या पी-मूल्य, तो आपको इस बात की अधिक परवाह करनी चाहिए कि क्या सामान्यता संतुष्ट है; लेकिन खोजपूर्ण विश्लेषण जैसे अन्य अनुप्रयोगों में, आप इसका उपयोग कर सकते हैं लेकिन केवल व्याख्या करते समय ध्यान रखें।


-1

डेटा कहने वाले अन्य लोगों से सहमत "सामान्य रूप से" वितरित किया जाना चाहिए। यदि आप इसे बदलते हैं तो कोई भी वितरण सामान्य वितरण के साथ ओवरलैप होगा। यदि आपका वितरण सामान्य नहीं है, तो आपके द्वारा प्राप्त किए गए परिणाम सामान्य होने पर मामले की तुलना में हीन होंगे, जैसा कि यहां कुछ ने बताया है ...

  • जरूरत पड़ने पर आप अपने वितरण को बदल सकते हैं।
  • आप PCA का विकल्प चुन सकते हैं और इसके बजाय स्वतंत्र घटक विश्लेषण (ICA) का उपयोग कर सकते हैं।

यदि आप पहले उत्तर में संदर्भ पढ़ते हैं, तो परिशिष्ट अनुभाग में यह कहा गया है कि धारणा एक सामान्य वितरण है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.