पीसीए में कम विचरण घटक, क्या वे वास्तव में सिर्फ शोर हैं? क्या इसके लिए परीक्षण करने का कोई तरीका है?


18

मैं यह तय करने की कोशिश कर रहा हूं कि पीसीए के एक घटक को बरकरार रखा जाएगा या नहीं। यहाँ या यहाँ जैसे वर्णित और तुलना की गई, eigenvalue के परिमाण के आधार पर, एक गजियन मानदंड हैं

हालाँकि, मेरे आवेदन में मुझे पता है कि बड़े (st) eigenvalue की तुलना में छोटा (est) eigenvalue छोटा होगा और परिमाण के आधार पर मानदंड सभी छोटे (est) को अस्वीकार कर देंगे। यह वह नहीं है जिसकी मुझे चाहत है। मुझे इसमें क्या दिलचस्पी है: क्या कोई विधि ज्ञात है जो वास्तविक स्वदेशी के वास्तविक संगत घटक को ध्यान में रखती है, इस अर्थ में: क्या यह वास्तव में "सिर्फ" शोर है जैसा कि सभी पाठ्यपुस्तकों में निहित है, या संभावित "कुछ" है ब्याज छोड़ दिया? यदि यह वास्तव में शोर है, तो इसे हटा दें, अन्यथा इसे रखें, चाहे आइगेनवैल्यू के परिमाण को।

क्या पीसीए में घटकों के लिए किसी प्रकार की स्थापित यादृच्छिकता या वितरण परीक्षण है जिसे मैं खोजने में असमर्थ हूं? या किसी को इस कारण से पता है कि यह एक मूर्खतापूर्ण विचार होगा?

अपडेट करें

हिस्टोग्राम (हरा) और दो उपयोग के मामलों में घटकों का सामान्य सन्निकटन (नीला): एक बार शायद वास्तव में शोर, एक बार शायद "सिर्फ" शोर (हाँ, मान छोटे होते हैं, लेकिन शायद यादृच्छिक नहीं)। सबसे बड़ा एकवचन मान ~ 160 है दोनों मामलों में, सबसे छोटा यानी यह विलक्षण मान 0.0xx है - किसी भी कट-ऑफ के तरीकों के लिए बहुत छोटा है।

मैं जो देख रहा हूं वह इसे औपचारिक बनाने का एक तरीका है ...

शायद वास्तव में "सिर्फ" शोर शायद शोर नहीं है लेकिन दिलचस्प बिट्स हो सकते हैं


2
आपके द्वारा मांगे जाने वाले गुणों में से कई परीक्षण आपके लिए "सिग्नल" से "शोर" को भेद करने का प्रयास करते हैं।
whuber

2
मुझे हाल ही में एक समान प्रश्न में दिलचस्पी है, लेकिन एक विशिष्ट स्थिति में जब आपके पास प्रत्येक डेटा बिंदु के लिए कई माप होते हैं। देखें पीसीए घटकों की संख्या का चयन जब प्रत्येक डेटा बिंदु के लिए कई नमूने उपलब्ध हैं । शायद यह आपके मामले पर भी लागू होता है?
अमीबा का कहना है कि मोनिका

पीसी पर वितरण संबंधी परीक्षणों का उपयोग उनकी यादृच्छिकता के बारे में निर्णय लेने के लिए एक बहुत ही दिलचस्प विचार के रूप में किया जाता है (जो मैंने कभी नहीं देखा है); आईसीए में ऐसा ही कुछ किया जाता है, जो विशेष रूप से अधिकतम गैर-गौसियन घटकों के लिए दिखता है। पीसीए कर रहा है और फिर "बहुत गॉसियन" घटकों को त्यागने के लिए आईसीए का स्वाद है और यह वास्तव में काम कर सकता है!
अमीबा का कहना है कि मोनिका

जवाबों:


20

एक छोटे प्रिंसिपल कंपोनेंट (पीसी) की यादृच्छिकता का परीक्षण करने का एक तरीका यह है कि इसे शोर के बजाय एक संकेत की तरह माना जाए: यानी, इसके साथ ब्याज के दूसरे चर की भविष्यवाणी करने का प्रयास करें। यह अनिवार्य रूप से प्रमुख घटक प्रतिगमन (पीसीआर) है

आर2एस

  • पीसी 1, 3, 4, 6, 7 और 8 कुल 9 ( स्मिथ एंड कैंपबेल, 1980 ) का उपयोग कर एक केमिकल इंजीनियरिंग मॉडल
  • मानसून मॉडल का उपयोग करते हुए पीसी 8, 2, और 10 (महत्व के क्रम में) 10 में से ( कुंग और शरीफ, 1980 )
  • 6 (हिल, फमबी, और जॉनसन, 1977) में से पीसी 4 और 5 का उपयोग कर एक आर्थिक मॉडल

ऊपर सूचीबद्ध उदाहरणों में पीसी को उनके आइजनवेल्स के क्रमबद्ध आकार के अनुसार क्रमांकित किया गया है। जोलिफ (1982) एक क्लाउड मॉडल का वर्णन करता है जिसमें अंतिम घटक सबसे अधिक योगदान देता है। वह निष्कर्ष निकालता है:

उपरोक्त उदाहरणों से पता चला है कि पिछले कुछ प्रमुख घटकों के लिए प्रमुख घटक प्रतिगमन में महत्वपूर्ण होने के लिए अस्पष्ट या विचित्र डेटा को खोजना आवश्यक नहीं है। बल्कि ऐसा लगता है कि इस तरह के उदाहरण व्यवहार में सामान्य हो सकते हैं। हिल एट अल। (१ ९ should and) प्रमुख घटकों के चयन के लिए रणनीतियों की गहन और उपयोगी चर्चा करें जो हमेशा के लिए विचरण के आधार पर चयन के विचार को हमेशा के लिए दफन कर देना चाहिए। दुर्भाग्य से ऐसा हुआ नहीं लगता है, और विचार शायद 20 साल पहले की तुलना में अब अधिक व्यापक है।

एसएस

(पी-1)Y

एक्स

मैं @Scortchi को यह जवाब देना चाहता हूं, जिन्होंने पीसीआर में पीसी चयन के बारे में मेरी अपनी गलतफहमी को दूर किया, जिसमें कुछ बहुत ही उपयोगी टिप्पणियां भी शामिल हैं: " जोलीफे (2010) पीसी के चयन के अन्य तरीकों की समीक्षा करता है।" यह संदर्भ आगे के विचारों को देखने के लिए एक अच्छी जगह हो सकती है।

संदर्भ

- गनस्ट, आरएफ, और मेसन, आरएल (1977)। प्रतिगमन में बायस्ड अनुमान: माध्य चुकता त्रुटि का उपयोग करके मूल्यांकन। जर्नल ऑफ़ द अमेरिकन स्टेटिस्टिकल एसोसिएशन, 72 (359), 616-628।
- हादी, एएस, और लिंग, आरएफ (1998)। प्रिंसिपल कंपोनेंट्स रिग्रेशन के इस्तेमाल पर कुछ सावधानी बरतें। द अमेरिकन स्टेटिस्टिशियन, 52 (1), 15-19। Http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf से लिया गया ।
- हॉकिन्स, डीएम (1973)। प्रमुख घटक विश्लेषण द्वारा वैकल्पिक प्रतिगमन की जांच पर। अनुप्रयुक्त सांख्यिकी, 22 (3), 275–286।
- हिल, आरसी, फॉम्बी, टीबी, और जॉनसन, एसआर (1977)। प्रमुख घटक प्रतिगमन के लिए घटक चयन मानदंड।सांख्यिकी में संचार - सिद्धांत और तरीके, 6 (4), 309334।
- हॉटेलिंग, एच। (1957)। कारक विश्लेषण के लिए नए बहुभिन्नरूपी सांख्यिकीय तरीकों के संबंध। ब्रिटिश जर्नल ऑफ स्टेटिकल साइकोलॉजी, 10 (2), 69-79।
- जैक्सन, ई। (1991)। प्रिंसिपल घटकों के लिए एक उपयोगकर्ता गाइड । न्यूयॉर्क: विली।
- जोलिफ, आईटी (1982)। प्रतिगमन में प्रमुख घटकों के उपयोग पर ध्यान दें। एप्लाइड सांख्यिकी, 31 (3), 300-303। Http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTododinamica20072008/Biblio/Articoli/PCR%20vecchio%2082 से पुनर्प्राप्त किया गया ।
- जोलिफ, आईटी (2010)।प्रमुख घटक विश्लेषण (दूसरा संस्करण)। स्प्रिंगर।
- कुंग, ईसी, और शरीफ, टीए (1980)। पूर्ववर्ती ऊपरी वायु स्थितियों के साथ भारतीय ग्रीष्मकालीन मानसून की शुरुआत का प्रतिगमन पूर्वानुमान। एप्लाइड मौसम विज्ञान के जर्नल, 19 (4), 370380। Http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf से लिया गया।
- लोट, डब्ल्यूएफ (1973)। न्यूनतम-वर्ग प्रतिगमन पर प्रमुख घटक प्रतिबंधों का इष्टतम सेट। सांख्यिकी में संचार - सिद्धांत और तरीके, 2 (5), 449–464।
- मेसन, आरएल, और गनस्ट, आरएफ (1985)। प्रतिगमन में प्रमुख घटकों का चयन करना। सांख्यिकी और संभाव्यता पत्र, 3 (6), 299–301।
- मासी, डब्ल्यूएफ (1965)। खोजपूर्ण सांख्यिकीय अनुसंधान में प्रमुख घटक प्रतिगमन। जर्नल ऑफ़ द अमेरिकन स्टेटिस्टिकल एसोसिएशन, 60 (309), 234-256। Http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Bililding_termo_identification/IdentificazioneTotodinamica20072008/Biblio/Articoli/PCR%20vecchio%20 से पुनर्प्राप्त किया गया ।
- स्मिथ, जी।, और कैम्पबेल, एफ। (1980)। कुछ रिज प्रतिगमन विधियों की एक आलोचना। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन, 75 (369), 74–81। Https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf से लिया गया ।


4
... और इस बात की कोई गारंटी नहीं है कि आपकी समस्या को हल करने के लिए आपको जिस प्रभाव की आवश्यकता है, वह अन्य प्रभावों से बड़ा है, जो सिर्फ शोर-शराबे हैं। हाथ में समस्या। मैंने देखा है कि 95% विचलन कुछ भौतिक प्रभावों के कारण शोर था ...
cbeleites मोनिका

3
बहुत अच्छी समीक्षा, लेकिन (फिर से वक्रोक्ति करने के लिए खेद है) गति हादी और लिंग, प्रतिक्रिया के लिए अपने मजबूत रिश्ते के आधार पर एक प्रतिगमन में बनाए रखने के लिए पीसी का चयन करना उतना ही खतरनाक है जितना कि प्रतिक्रिया के लिए उनके मजबूत रिश्ते के आधार पर मूल भविष्यवक्ताओं का चयन करना। क्रॉस-सत्यापन आवश्यक और संकोचन बेहतर है। व्यक्तिगत रूप से मैं पीसीए के विवेकपूर्ण उपयोग के साथ-साथ विषय-वस्तु के ज्ञान के साथ भविष्यवाणियों पर डेटा की कमी, प्रतिक्रिया के लिए अंधा करना पसंद करूंगा, जैसे कि एक ही चीज़ को मापने वाले भविष्यवक्ताओं के समूहों के पहले पीसी का उपयोग करना, या चर क्लस्टर द्वारा निर्धारित।
Scortchi - को पुनः स्थापित मोनिका

2
+1 (बहुत समय पहले) इस उत्तर के लिए, लेकिन अब इस थ्रेड की समीक्षा करने के बाद, मुझे यह कहना होगा कि यह उत्तर मूल प्रश्न का लगभग बिल्कुल भी उत्तर नहीं देता है: ओपी पूछ रहा था कि क्या घटकों को जज करने के लिए किसी भी वितरण संबंधी परीक्षणों का उपयोग किया जा सकता है उनकी यादृच्छिकता। ओपी को मेरी आखिरी टिप्पणी भी देखें
अमीबा का कहना है कि मोनिका

2

@Nick Stauner के उत्तर में जोड़ते समय, जब आप उप-क्लस्टर क्लस्टरिंग से निपट रहे होते हैं, तो PCA अक्सर खराब समाधान होता है।

पीसीए का उपयोग करते समय, एक व्यक्ति सबसे अधिक eigenvalues ​​वाले eigenvectors के बारे में चिंतित होता है, जो उन दिशाओं का प्रतिनिधित्व करते हैं जिनके लिए डेटा को सबसे अधिक बढ़ाया जाता है। यदि आपके डेटा में छोटे उप-स्थान शामिल हैं, तो PCA पूरी तरह से उन्हें अनदेखा कर देगा, क्योंकि वे समग्र डेटा संस्करण में ज्यादा योगदान नहीं देते हैं।

तो, छोटे eigenvectors हमेशा शुद्ध शोर नहीं होते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.