कार्यात्मक प्रमुख घटक विश्लेषण (FPCA): यह सब क्या है?


21

कार्यात्मक प्रमुख घटक विश्लेषण (FPCA) एक ऐसी चीज है जिस पर मैं लड़खड़ा गया हूं और कभी समझ में नहीं आया। यह सब किस बारे मे है?

शांग, 2011 द्वारा "कार्यात्मक प्रमुख घटक विश्लेषण का एक सर्वेक्षण" देखें , और मैं उद्धृत कर रहा हूं:

पीसीए "आयामीता के अभिशाप" (बेलमैन 1961) के कारण कार्यात्मक डेटा के विश्लेषण में गंभीर कठिनाइयों में चलता है। "आयामीता का अभिशाप" उच्च आयामी स्थान में डेटा स्पार्सिटी से उत्पन्न होता है। यहां तक ​​कि अगर पीसीए के ज्यामितीय गुण वैध रहते हैं, और यहां तक ​​कि संख्यात्मक तकनीक भी स्थिर परिणाम प्रदान करती हैं, तो नमूना कोवरियन मैट्रिक्स कभी-कभी जनसंख्या सहसंयोजक मैट्रिक्स का एक खराब अनुमान है। इस कठिनाई को दूर करने के लिए, एफपीसीए पीसीए की तुलना में नमूना सहसंयोजक संरचना की जांच करने का एक बहुत अधिक जानकारीपूर्ण तरीका प्रदान करता है [...]

मुझे यह बिलकुल समझ में नहीं आया। इस पत्र का वर्णन क्या है? क्या पीसीए को "आयाम के अभिशाप" जैसी स्थितियों से निपटने के लिए अंतिम तरीका नहीं माना जाता है?

जवाबों:


7

वास्तव में, जैसा कि आप सवाल में कहते हैं और जैसा कि @tdc अपने जवाब में कहता है, अत्यंत उच्च आयामों के मामले में भले ही पीसीए के ज्यामितीय गुण वैध बने रहें, कोवरियन मैट्रिक्स अब वास्तविक जनसंख्या सहसंयोजक का अच्छा अनुमान नहीं है।


एक बहुत ही दिलचस्प पेपर "fMRI डेटा का कार्यात्मक प्रिंसिपल घटक विश्लेषण" ( पीडीएफ ) है, जहां वे विचरण की कल्पना करने के लिए कार्यात्मक पीसीए का उपयोग करते हैं:

... अन्य खोजी तकनीकों में, उद्देश्य एक प्रारंभिक मूल्यांकन प्रदान करना है जो डेटा को एक उपयुक्त मॉडल चुनने से पहले "खुद के लिए बोलने" का मौका देगा। [...]

कागज में वे बताते हैं कि उन्होंने वास्तव में यह कैसे किया है, और सैद्धांतिक तर्क भी प्रदान करते हैं:

इस दृष्टिकोण का निर्णायक लाभ आधार फ़ंक्शन सेट के विकल्प में मान्यताओं के एक सेट को निर्दिष्ट करने और फिट द्वारा कम से कम त्रुटि में होने की संभावना में होता है। ये धारणाएँ पूर्ववर्ती will ned हेमोडायनामिक फ़ंक्शन के विशिष्ट of कटेशन और एफ-मास्किंग में घटनाओं या परिस्थितियों के एक सेट से कमजोर होंगी, इस प्रकार प्रक्रिया के खोजकर्ता चरित्र को संरक्षित करती हैं; हालाँकि, मान्यताओं को सामान्य पीसीए की भिन्नता को दूर करने के लिए पर्याप्त कठोर हो सकता है।


मैं एफपीसीए के पीछे के तर्क को समझने के लिए संघर्ष कर रहा हूं; मैंने आपके द्वारा उद्धृत किए गए कागज को देखा, लेकिन अभी भी उलझन में है। सेटिंग यह है कि डेटा मैट्रिक्स आकार का है जिसमें लंबाई की देखी गई समय श्रृंखला है । पीसीए के साथ एक कोविरियस मैट्रिक्स का पहला लॉन्ग आइजनवेक्टर मिल सकता है ; दावा है कि यह बहुत शोर होगा। FPCA समाधान आधार कार्यों ( ) के साथ हर बार श्रृंखला को अनुमानित करने के लिए है , और फिर पीसीए को आधार फ़ंक्शन स्थान में प्रदर्शन करते हैं। सही बात? यदि हां, तो यह हर बार श्रृंखला को सुचारू करने और फिर मानक पीसीए चलाने से कैसे अलग है? एक विशेष नाम क्यों? एन टी » एन टी कश्मीर कश्मीर « टीn×tntntkkt
अमीबा का कहना है कि मोनिका

इसके बारे में थोड़ा और पढ़ने के बाद, मैंने अपना जवाब पोस्ट करने का फैसला किया। शायद आपकी रुचि होगी। मैं निश्चित रूप से किसी भी अतिरिक्त अंतर्दृष्टि की सराहना करूंगा।
अमीबा का कहना है कि मोनिका

24

मुझे "कार्यात्मक पीसीए" एक अनावश्यक रूप से भ्रमित धारणा लगता है। यह बिल्कुल अलग चीज नहीं है, यह मानक पीसीए है जिसे समय श्रृंखला में लागू किया जाता है।

एफपीसीए उन स्थितियों को संदर्भित करता है जब प्रत्येक अवलोकन एक टाइम सीरीज़ (यानी "फ़ंक्शन") टाइम पॉइंट पर मनाया जाता है, जिससे कि संपूर्ण डेटा मैट्रिक्स आकार का हो। आमतौर पर , जैसे किसी के पास समय बिंदुओं पर बार श्रृंखला का नमूना हो सकता है । विश्लेषण का बिंदु कई "ईजेन-टाइम-सीरीज़" (लंबाई का भी ), अर्थात कोवरियन मैट्रिक्स के आइगेनवेक्टर्स को ढूंढना है, जो कि देखे गए समय श्रृंखला के "विशिष्ट" आकार का वर्णन करेंगे।टी एन × टी टी » n 20 1000 टीntn×ttn201000t

एक निश्चित रूप से यहां मानक पीसीए लागू कर सकता है। जाहिरा तौर पर, आपके उद्धरण में लेखक चिंतित है कि परिणामी ईजन-टाइम-सीरीज़ बहुत शोर होगी। यह वास्तव में हो सकता है! इससे निपटने के दो स्पष्ट तरीके होंगे (ए) पीसीए करने के बाद परिणामी ईजन-टाइम-सीरीज़ को सुचारू करना, या (बी) पीसीए करने से पहले मूल समय श्रृंखला को सुचारू करना।

एक कम स्पष्ट, अधिक फैंसी, लेकिन लगभग बराबर दृष्टिकोण, प्रत्येक मूल समय श्रृंखला को आधार कार्यों के साथ अनुमानित करता है, प्रभावी रूप से से तक की को कम करता है । तब व्यक्ति PCA कर सकता है और समान आधार कार्यों द्वारा सन्निकट eigen-time-series प्राप्त कर सकता है। यह वही है जो आमतौर पर एफपीसीए ट्यूटोरियल में देखता है। एक आम तौर पर चिकनी आधार कार्यों (गाऊसी, या फूरियर घटकों) का उपयोग करेगा, जहां तक ​​मैं देख सकता हूं यह अनिवार्य रूप से ऊपर मस्तिष्क-मृत सरल विकल्प (बी) के बराबर है।टी केktk

एफपीसीए पर ट्यूटोरियल आमतौर पर असीम आयामीता के कार्यात्मक स्थानों के लिए पीसीए को सामान्यीकृत करने की लंबी चर्चा में जाते हैं, लेकिन उस की व्यावहारिक प्रासंगिकता पूरी तरह से मुझसे परे है , क्योंकि व्यवहार में कार्यात्मक डेटा हमेशा शुरू करने के लिए विवेकहीन होते हैं।

यहाँ एक उदाहरण रामसे और सिल्वरमैन से लिया है "कार्यात्मक डेटा विश्लेषण" पाठ्यपुस्तक, जो लगता है होना करने के लिए FPCA सहित "कार्यात्मक डेटा विश्लेषण" पर निश्चित मोनोग्राफ:

रामसे और सिल्वरमैन, एफपीसीए

कोई यह देख सकता है कि पीसीए को "विवेकाधीन डेटा" (अंक) पर करने से फ़ॉइर बेस (लाइनों) में संबंधित कार्यों पर एफपीसीए करने के रूप में व्यावहारिक रूप से एक ही चीज़ मिलती है। बेशक कोई पहले असतत पीसीए कर सकता है और फिर उसी फूरियर के आधार पर एक फ़ंक्शन फिट कर सकता है; यह कमोबेश एक ही परिणाम देगा।

पुनश्च। इस उदाहरण में जो साथ एक छोटी संख्या । शायद इस मामले में लेखक "कार्यात्मक पीसीए" के रूप में देखते हैं, जिसके परिणामस्वरूप 12 अलग-अलग बिंदुओं के विपरीत "फ़ंक्शन", "चिकनी वक्र" होना चाहिए। लेकिन यह तुच्छ रूप से प्रक्षेप करके और फिर परिणामी ईजन-टाइम-सीरीज़ को सुचारू करके हो सकता है। फिर, ऐसा लगता है कि "कार्यात्मक पीसीए" एक अलग चीज नहीं है, यह सिर्फ पीसीए का एक अनुप्रयोग है। n > tt=12n>t


2
अनपेक्षित रूप से नमूना किए गए प्रक्षेपवक्र (जैसे। अनुदैर्ध्य डेटा) के मामले में FPCA " इंटरपोलिंग और फिर परिणामी ईजन-टाइम-सीरीज़ को चौरसाई करने " की तुलना में बहुत अधिक शामिल है । उदाहरण के लिए, भले ही किसी को कुछ स्वदेशी मिल जाए, लेकिन स्पार्स डेटा के प्रक्षेपण स्कोर की गणना अच्छी तरह से परिभाषित नहीं है; उदाहरण के लिए देखें: याओ एट अल। JASA 2005. घनी नियमित रूप से सैंपल प्रक्रियाओं के लिए दी गई FPCA प्रभावी रूप से शीर्ष पर कुछ चिकनाई दंड के साथ PCA है।
us --r11852

धन्यवाद, @ usεr11852 (+1)। मुझे इसे फिर से देखने के लिए समय निकालने की आवश्यकता है। मैं आपके द्वारा संदर्भित पेपर को देखने और इस उत्तर पर वापस जाने का प्रयास करूंगा।
अमीबा का कहना है कि

@amoeba, यह सब लगभग असतत फूरियर रूपांतरण से संबंधित है, जहां आप एक जटिल लहर / समय-श्रृंखला के घटक तरंगों को पुनर्प्राप्त करते हैं?
रसेल रिची

9

मैंने जिम रामसे के साथ एफडीए पर कई वर्षों तक काम किया, इसलिए मैं शायद @ अमीबा के जवाब में कुछ स्पष्टीकरण जोड़ सकता हूं। मुझे लगता है कि एक व्यावहारिक स्तर पर, @amoeba मूल रूप से सही है। कम से कम, यह निष्कर्ष है कि मैं अंततः एफडीए का अध्ययन करने के बाद पहुंचा। हालांकि, एफडीए फ्रेमवर्क एक दिलचस्प सैद्धांतिक अंतर्दृष्टि देता है कि क्यों eigenvectors को चौरसाई करना सिर्फ एक कीचड़ से अधिक है। यह पता चलता है कि फ़ंक्शन स्पेस में ऑप्टिमाइज़ेशन, एक आंतरिक उत्पाद के अधीन है जिसमें एक चिकनाई दंड होता है, आधार स्प्लिन का एक परिमित आयामी समाधान देता है। FDA अनंत आयामी फ़ंक्शन स्थान का उपयोग करता है, लेकिन विश्लेषण के लिए अनंत आयामों की आवश्यकता नहीं होती है। यह गाऊसी प्रक्रियाओं या एसवीएम में कर्नेल चाल की तरह है। यह वास्तव में कर्नेल ट्रिक की तरह है।

रामसे का मूल कार्य उन स्थितियों से निपटता है जहां डेटा में मुख्य कहानी स्पष्ट है: कार्य अधिक या कम रैखिक, या अधिक या कम आवधिक हैं। मानक पीसीए के प्रमुख eigenvectors बस कार्यों के समग्र स्तर और रैखिक प्रवृत्ति (या साइन फ़ंक्शन) को प्रतिबिंबित करेंगे, मूल रूप से हमें बता रहे हैं कि हम पहले से ही क्या जानते हैं। दिलचस्प विशेषताएं अवशेषों में निहित हैं, जो अब सूची के शीर्ष से कई eigenvectors हैं। और चूंकि प्रत्येक बाद वाले आइगेनवेक्टर को पिछले वाले को ऑर्थोगोनल होना पड़ता है, ये निर्माण विश्लेषण की कलाकृतियों पर अधिक से अधिक निर्भर करते हैं और डेटा की प्रासंगिक विशेषताओं पर कम होते हैं। कारक विश्लेषण में, परोक्ष कारक रोटेशन का उद्देश्य इस समस्या को हल करना है। रामसे का विचार घटकों को घुमाने का नहीं था, लेकिन यह इस तरह से रूढ़िवाद की परिभाषा को बदलने के लिए है जो विश्लेषण की आवश्यकताओं को बेहतर ढंग से प्रतिबिंबित करेगा। इसका मतलब यह था कि यदि आप आवधिक घटकों से संबंधित थे, तो आप इसके आधार पर सुचारू होंगेD3DD2

किसी को आपत्ति हो सकती है कि ओएलएस के साथ चलन को हटाना और उस ऑपरेशन के अवशेषों की जांच करना सरल होगा। मुझे कभी भी यह विश्वास नहीं था कि एफडीए का मूल्यवर्धन विधि की विशाल जटिलता के लायक था। लेकिन एक सैद्धांतिक दृष्टिकोण से, इसमें शामिल मुद्दों पर विचार करने के लायक है। डेटा के लिए हम जो कुछ भी करते हैं वह चीजों को गड़बड़ कर देता है। मूल डेटा स्वतंत्र होने पर भी, OLS के अवशेष सहसंबद्ध होते हैं। एक टाइम सीरीज़ को स्मूथ करने से उन ऑटोकॉर्लेशन का पता चलता है जो रॉ सीरीज़ में नहीं थे। एफडीए का विचार यह सुनिश्चित करना था कि प्रारंभिक अवशेषों से हमें जो अवशेष मिले वे रुचि के विश्लेषण के अनुकूल थे।

आपको यह याद रखना होगा कि एफडीए की शुरुआत 80 के दशक की शुरुआत में हुई थी जब स्पलाइन फ़ंक्शन सक्रिय अध्ययन के तहत थे - ग्रेस वहाबा और उनकी टीम के बारे में सोचें। मल्टीवेरिएट डेटा के कई दृष्टिकोण तब से उभरे हैं - जैसे कि एसईएम, विकास वक्र विश्लेषण, गॉसियन प्रक्रियाएं, स्टोचैस्टिक प्रक्रिया सिद्धांत में आगे के विकास और कई और। मुझे यकीन नहीं है कि एफडीए प्रश्नों को संबोधित करने के लिए सबसे अच्छा तरीका है। दूसरी ओर, जब मैं एफडीए होने के लिए क्या प्रयोजन के आवेदन देखता हूं, तो मुझे अक्सर आश्चर्य होता है कि क्या लेखक वास्तव में समझते हैं कि एफडीए क्या करने की कोशिश कर रहा था।


+1। उफ़, मैंने अब तक केवल आपके उत्तर पर ध्यान दिया है, और केवल संयोग से (किसी और ने मेरे उत्तर के तहत एक टिप्पणी छोड़ दी है और मैंने नीचे स्क्रॉल किया है)। योगदान के लिए बहुत बहुत धन्यवाद! मुझे लगता है कि मुझे इस पर थोड़ा और पढ़ने के लिए और यह सोचने के लिए समय चाहिए कि आपने कर्नेल ट्रिक से समानता के बारे में क्या कहा। यह उचित लगता है।
अमीबा का कहना है कि

5

मैं एफपीसीए के बारे में निश्चित नहीं हूं, लेकिन एक बात याद रखना, यह है कि अत्यधिक उच्च आयामों में, बहुत अधिक "स्पेस" है, और अंतरिक्ष के भीतर अंक समान रूप से वितरित होने लगते हैं (यानी सब कुछ बाकी सब से दूर है)। इस बिंदु पर सहसंयोजक मैट्रिक्स अनिवार्य रूप से एक समान दिखना शुरू हो जाएगा, और शोर के प्रति बहुत संवेदनशील होगा। इसलिए यह "सच" सहसंयोजक का एक बुरा अनुमान बन जाता है। शायद एफपीसीए इसे किसी भी तरह गोल कर देता है, लेकिन मुझे यकीन नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.