क्या पीसीए को समय श्रृंखला डेटा के लिए लागू किया जा सकता है?


22

मैं समझता हूं कि मूल घटक विश्लेषण (पीसीए) मूल रूप से क्रॉस अनुभागीय डेटा के लिए लागू किया जा सकता है। क्या पीसीए को समय श्रृंखला डेटा के लिए प्रभावी रूप से समय श्रृंखला चर के रूप में निर्दिष्ट करके और सामान्य रूप से पीसीए चलाने के लिए इस्तेमाल किया जा सकता है? मैंने पाया है कि डायनेमिक PCA पैनल डेटा के लिए काम करता है और Stata में कोडिंग को पैनल डेटा के लिए डिज़ाइन किया गया है न कि टाइम सीरीज़ के लिए। क्या कोई विशिष्ट प्रकार का पीसीए है जो समय श्रृंखला डेटा पर काम करता है?

अपडेट करें।मुझे विस्तार से बताएं।

मैं वर्तमान में भारत में इन्फ्रास्ट्रक्चर के लिए एक सड़क, रेल मार्ग की लंबाई, बिजली उत्पादन की क्षमता, टेलीफोन उपभोक्ताओं की संख्या आदि के साथ एक सूचकांक का निर्माण कर रहा हूं। मेरे पास 1 देश के लिए 22 वर्षों के दौरान 12 चर हैं। हालांकि मैंने समय श्रृंखला और यहां तक ​​कि पैनल डेटा पर पीसीए लागू करने वाले कागजात की समीक्षा की है, पीसीए को क्रॉस सेक्शनल डेटा के लिए डिज़ाइन किया गया है जो आईआईडी धारणा को मानता है। पैनल और क्रॉस अनुभागीय डेटा इसका उल्लंघन करता है और पीसीए इसमें समय श्रृंखला आयाम को ध्यान में नहीं रखता है। मैंने डायनेमिक पीसीए को केवल पैनल डेटा पर ही लागू होते देखा है। मैं जानना चाहता हूं कि क्या कोई विशिष्ट पीसीए है जिसे समय श्रृंखला पर लागू किया जाता है या वर्ष के साथ स्थिर पीसीए चलाने के रूप में परिभाषित किया जाता है जैसे समय श्रृंखला चर काम करेगी?


2
विलक्षण स्पेक्ट्रम विश्लेषण (SSA) को अक्सर समय श्रृंखला के लिए PCA कहा जाता है। en.wikipedia.org/wiki/Singular_spectrum_analysis
व्लादिस्लाव डोभालगस

1
कृपया साइडबार में दाईं ओर (->) के कुछ पदों की समीक्षा करें जो पीसीए और समय श्रृंखला दोनों को संदर्भित करते हैं। यदि कोई आपके प्रश्न का उत्तर देता है, तो कृपया इसे टिप्पणियों में यहां लिंक करें, लेकिन यदि कोई नहीं करता है, तो आप उन विशिष्ट तरीकों की व्याख्या कर सकते हैं जिनमें आपका मुद्दा उन में से किसी से भिन्न है।
Glen_b -रिटनेट मोनिका

उनमें से कोई भी समय श्रृंखला पर pca के प्रश्न का उत्तर नहीं देता है। विषय पर विशिष्ट प्रश्न या तो विज्ञान से संबंधित हैं या अनुत्तरित हैं।
निशा साइमन

5
पीसीए, डेटा परिवर्तन, आयामीता में कमी, अन्वेषण और विज़ुअलाइज़ेशन टूल के रूप में, कोई धारणा नहीं बनाता है। आप इसे किसी भी डेटा पर चला सकते हैं, समय श्रृंखला डेटा सहित। वास्तव में, पीसीए को अक्सर समय श्रृंखला डेटा के लिए लागू किया जाता है (कभी-कभी इसे "कार्यात्मक पीसीए" कहा जाता है, कभी-कभी नहीं)। मुझे यह भी पता नहीं है कि "डायनेमिक पीसीए" और "स्टेटिक पीसीए" का क्या मतलब होना चाहिए; चिंता न करें और मानक पीसीए का उपयोग करें।
अमीबा का कहना है कि मोनिका

आप कार्यात्मक पीसीए का उपयोग करने पर विचार कर सकते हैं जो विशेष रूप से समय श्रृंखला के लिए डिज़ाइन किया गया है। R में FDA पैकेज ने fPCA को लागू किया। आप बहुभिन्नरूपी fPCA पा सकेंगे।
ऐनी

जवाबों:


8

एक दृष्टिकोण स्थिरता सुनिश्चित करने के लिए अपने 12 चर के पहली बार अंतर लेने के लिए हो सकता है। फिर 12 × 12 की गणना करें12×12 सहसंयोजक मैट्रिक्स की और उस पर पीसीए प्रदर्शन करें। यह पूरे समय की अवधि में औसत पीसीए का कुछ प्रकार होगा, और कुछ भी नहीं कहेगा कि अलग-अलग टाइमलैग एक दूसरे को कैसे प्रभावित करते हैं। लेकिन यह एक अच्छा शुरुआती बिंदु हो सकता है।

यदि आप समय डोमेन को डिकम्पोज करने में रुचि रखते हैं, तो मैं एसएसए की जांच करूंगा जैसा कि टिप्पणियों में सुझाया गया है।

जब आप श्रृंखला (ग्रहण) स्थिर होते हैं तो एक एकल सहसंयोजक मैट्रिक्स सार्थक होता है। यदि आपका डेटा 1 या उच्चतर के क्रम से एकीकृत है, जैसा कि मुझे संदेह है कि वे हो सकते हैं, तो एक एकल सहसंयोजक मैट्रिक्स का अनुमान लगातार परिणाम नहीं देगा। एक यादृच्छिक चलना उदाहरण 1 के क्रम के लिए एकीकृत है, और दो यादृच्छिक चलने के अनुमानित सहसंयोजक उनके सह-आंदोलन के बारे में कुछ नहीं कहते हैं, यहां सह-एकीकरण है विश्लेषण की आवश्यकता है।

जैसा कि टिप्पणियों में सुझाव दिया गया है कि पीसीए अपने आप में स्थिरता की परवाह नहीं करता है ताकि आप पीसीए को किसी भी सकारात्मक अर्ध-निश्चित मैट्रिक्स को खिला सकें और पीसी अपघटन एक पीसीए-अर्थ में ठीक हो जाएगा।

लेकिन अगर आपका अनुमानित सहसंयोजक मैट्रिक्स डेटा के बारे में कुछ भी सार्थक का प्रतिनिधित्व नहीं करता है, तो पीसीए, निश्चित रूप से, या तो नहीं होगा।


1
+1। "पहली बार अंतर" से आपका क्या मतलब है?
अमीबा का कहना है कि मोनिका

मेरा मतलब है कि पहला अंतर है, इसलिए प्रत्येक के लिए बारह x का मैं x_t - x_t-1 करूंगा।
डफौ

तो आप प्रत्येक समय श्रृंखला के समय व्युत्पन्न पर पीसीए करने का सुझाव देते हैं, जैसा कि स्वयं समय श्रृंखला के विपरीत है। यह तो दिलचस्प है; यह आपका पहला सुझाव क्यों होगा?
अमीबा का कहना है कि मोनिका

दो कारणों के लिए: 1) सहसंयोजक अनुमान के अनुरूप होने के लिए, सामान्य क्रॉस सेक्शनल अनुमान दो यादृच्छिक चर स्वतंत्र और पहचान के रूप में वितरित करने के लिए है (आईआईडी)। यह नमूना मूल्य को अपेक्षित मूल्य के अभिसरण को सुनिश्चित करता है, जिसे बड़ी संख्या का कानून (एलएलएन) कहा जाता है। समय श्रृंखला के विश्लेषण में दो स्टोकेस्टिक प्रक्रियाओं की धारणा को आईआईडी होना प्रतिबंधक है। तो यह स्टेशनरिटी (कई अलग-अलग प्रकारों) की धारणा के साथ बदल दिया जाता है। एलएलएन को धारण करने और दो श्रृंखलाओं के अनुरूप होने के लिए सहसंयोजक अनुमान के लिए संयुक्त रूप से स्थिर वितरण की आवश्यकता होती है।
डफऊ

यदि प्रत्येक स्टोकेस्टिक प्रक्रिया staionary है तो (मैं सबसे सकारात्मक हूं) वे संयुक्त रूप से स्थिर हैं, इसलिए सहसंयोजक अनुमान समझ में आता है। समय श्रृंखला "अधिक स्थिर" बनाने के लिए पहले अंतर अर्थमिति में एक मानक तकनीक है। और यहां से अनुमान और पीसीए सीधे आगे है। तो संक्षेप में, क्योंकि यह आसान है :-) .... ठीक है कोई दूसरा कारण नहीं था ..
डफऊ

2

हाँ, समय श्रृंखला पर पीसीए वित्तीय इंजीनियरिंग (मात्रात्मक वित्त) और न्यूरोलॉजी में हर समय किया जाता है।

वित्तीय इंजीनियरिंग में, डेटा मैट्रिक्स का निर्माण स्तंभों में संपत्ति (जैसे, स्टॉक) के साथ किया जाता है जो सुविधाओं का प्रतिनिधित्व करते हैं, और दिन के अंत (या वस्तुओं) का प्रतिनिधित्व करने वाली पंक्तियों के अंत-दिन के व्यापार के लिए। इस प्रकार, डेटा मैट्रिक्सएक्सटी×पी है टी पंक्तियाँ और पीकॉलम। हालाँकि, लॉग-रिटर्न पर ध्यान दें,आरटी=लॉग(पीटी)-लॉग(पीटी-1)=लॉग(पीटी/पीटी-1)का उपयोग किया जाता है, क्योंकि दैनिक कीमतें लॉग-सामान्य रूप से वितरित की जाती हैं - यानी, सही पूंछ के साथ तिरछा। चूँकि 250 कार्य दिवस / वर्ष हैं, इसलिए 1000 दिनों का डेटा प्राप्त करना उचित है जो 4 वर्षों के व्यापार का प्रतिनिधित्व करता है। चूंकि एक ही यूनिट (उदाहरण के लिए USD) का उपयोग आमतौर पर दैनिक लॉग-प्राइस रिटर्न के लिए किया जाता है,पी×पीसुविधाओं के लिए सहसंयोजक मैट्रिक्स का उपयोग eigendecomposition के लिए किया जाता है। अन्यथा, यदि विभिन्न मुद्राओं का उपयोग किया जाता है, तो सहसंबंध मैट्रिक्स का उपयोग ईगेंडेकोम्पोजिशन के लिए किया जाता है, क्योंकि सहसंबंध मीन-शून्य स्तंभों को मानकीकृत करता हैएक्स। परिसंपत्तियों पर पीसीए चलाने के दौरान, आप देख सकते हैं कि कौन से स्टॉक किस पीसी पर लोड होते हैं, एक प्रकार का क्लस्टरिंग दृष्टिकोण, या अन्य विश्लेषणों में इनपुट के लिए पीसी स्कोर का उपयोग करते हैं। PCA भी चलाया जाता हैटी×टीदिनों के लिए सहसंयोजक मैट्रिक्स, पंक्तियों में संपत्ति के साथ, एक दिन में एक ही पीसी में एक साथ सहसंबंध बनाने के लिए, क्योंकि सामान्य विचार यह है कि दिन निरर्थक हो सकते हैं - और जब एक तंत्रिका नेटवर्क में डेटा खिलाते हैं, तो आप नहीं चाहते हैं डेटा पंक्तियों को निरर्थक या सहसंबद्ध होने के लिए सुविधाएँ (आप चाहते हैं कि वे ऑर्थोगोनल हों), क्योंकि तंत्रिका जाल सहसंबंध सीखने में समय बर्बाद करेगा। यह दृष्टिकोण हालांकि ऑटोकैरेलेशन पर ध्यान केंद्रित नहीं करता है।

क्वांटिटेटिव फाइनेंस में, पहले से (मार्कोवित्ज़ियन) पोर्टफोलियो ऑप्टिमाइज़ेशन को बेहतर बनाने के लिए कई संपत्तियों के लिए कोवरियनस (सहसंबंध) मैट्रिक्स के आईजेन्यूअल में शोर कटऑफ को खोजने में एक बड़ी दिलचस्पी है, क्योंकि आप एक पोर्टफोलियो चाहते हैं जो "कुशल फ्रंटियर" पर बैठता है। "उन संपत्तियों के साथ जो असंबद्ध हैं। यह दृष्टिकोण मार्शेंको-पास्तुर कानून और अनुपात का शोषण करता हैγ=टी/n डेटा मैट्रिक्स का एक्स Eigenvalue घनत्व फिटिंग के लिए, और शोर कटऑफ को खोजने के रूप में जाना जाता है λ+, ऊपर जो eigenvalues ​​संकेत का प्रतिनिधित्व करते हैं, और नीचे eigenvalues ​​शोर का प्रतिनिधित्व करते हैं। एक बार जब शोर eigenvalues ​​की पहचान की जाती है, तो नया डेटासेट (बहुभिन्नरूपी) पीसी डेटा पर मूल डेटा के प्रतिगमन पर आधारित होता है, जो शोर eigenvectors का प्रतिनिधित्व करता है,Y=एफnβ, and the residuals are then used as the denoised dataset, i.e., X^=YY^. Wealth values (cumulative return) from portfolios constructed using weights derived from the new dataset (residuals) have been shown to be much greater than without using this approach. Last, there's also a basic method to remove the "market effect" or widespread correlation among stock returns by regressing the asset data on the first PC representing the major (greatest) eigenvalue, Y=f1β, and pulling back the residuals to represent the new data, which will have the widespread market correlation removed. (since the first PC always represents stocks with high multicollinearity). This approach addresses market sentiment hinged to "herd-mentality."

न्यूरोलॉजी में, एक ईईजी से प्राप्त विभिन्न तरंग दैर्ध्य बैंड में एक्शन पोटेंशिअल के लिए पीसीए समय-श्रृंखला पर चलाया जाता है। ऑर्थोगोनल (असंबद्ध) पीसी स्कोर वैक्टर में एक्शन पोटेंशिअल को ट्रांसफॉर्म करना और पीसी को अन्य विश्लेषणों में इनपुट करना प्राथमिक साधन है, जिसके द्वारा व्यवहारिक आनुवांशिकी के लिए जटिल लक्षणों के सांख्यिकीय आनुवंशिक मॉडलिंग में सांख्यिकीय शक्ति को बढ़ाया गया था (जैसे कि द्वि-ध्रुवीय, नवीनता के लिए फेनोटाइप्स) चाहना, स्किज़ोटाइप, सिज़ोफ्रेनिया अक्सर ओवरलैप)। बड़े ऑस्ट्रेलियाई आनुवांशिक जुड़वां अध्ययन व्यवहार आनुवांशिकी में इन अतिव्यापी लक्षणों को पार्स करने में सहायक थे, क्योंकि यदि समान जुड़वाँ के बीच रोग अंतर होते हैं जो एक साथ पाले जाते हैं (एक ही घर में बड़े होते हैं), तो कारण का अनुमान अलग-अलग वातावरणों में संपर्क में आने पर हो सकता है वे अपने समान आनुवंशिकी के बजाय पुराने थे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.