विभिन्न लंबाई की समय श्रृंखला के लिए एसवीडी की गतिशीलता में कमी


13

मैं एक विलक्षण कमी तकनीक के रूप में एकवचन मूल्य अपघटन का उपयोग कर रहा हूं।

Nआयाम के वैक्टर को देखते हुए D, यह विचार असंबद्ध आयामों के एक परिवर्तित स्थान में सुविधाओं का प्रतिनिधित्व करने के लिए है, जो महत्व के घटते क्रम में इस स्थान के आइजनवेक्टर्स में डेटा की अधिकांश जानकारी को संघनित करता है।

अब मैं इस प्रक्रिया को समय श्रृंखला डेटा पर लागू करने का प्रयास कर रहा हूं। समस्या यह है कि सभी अनुक्रमों की लंबाई समान नहीं है, इस प्रकार मैं वास्तव में num-by-dimमैट्रिक्स का निर्माण नहीं कर सकता और एसवीडी लागू कर सकता हूं । मेरा पहला विचार एक num-by-maxDimमैट्रिक्स का निर्माण करके और शून्य रिक्त स्थान को शून्य के साथ मैट्रिक्स को पैड करना था , लेकिन अगर यह सही तरीका है तो मुझे यकीन नहीं है।

मेरा सवाल यह है कि आप विभिन्न लंबाई के समय की श्रृंखला में आयामी कमी का एसवीडी दृष्टिकोण कैसे करते हैं? वैकल्पिक रूप से ईगेंसस्पेस प्रतिनिधित्व के किसी अन्य समान तरीके आमतौर पर समय श्रृंखला के साथ उपयोग किए जाते हैं?

विचार बताने के लिए MATLAB कोड का एक टुकड़ा नीचे दिया गया है:

X = randn(100,4);                       % data matrix of size N-by-dim

X0 = bsxfun(@minus, X, mean(X));        % standarize
[U S V] = svd(X0,0);                    % SVD
variances = diag(S).^2 / (size(X,1)-1); % variances along eigenvectors

KEEP = 2;                               % number of dimensions to keep
newX = U(:,1:KEEP)*S(1:KEEP,1:KEEP);    % reduced and transformed data

(मैं ज्यादातर MATLAB में कोडिंग कर रहा हूं, लेकिन मैं आर / पायथन / .. पढ़ने के लिए पर्याप्त आरामदायक हूं)


अच्छा प्रश्न! मुझे लगता है कि आप शीर्षक में सुधार कर सकते हैं, कहीं न कहीं "लापता डेटा" या "अलग-अलग लंबाई की श्रृंखला" जैसे कुछ हो सकते हैं।
रॉबिन जिरार्ड

1
मैं इसे "लापता डेटा" नहीं कहूंगा, शायद "एसवीडी की गतिशीलता में विभिन्न लंबाई की श्रृंखला के लिए कमी"?
एमरो

1
मुझे वह शीर्षक पसंद है जिसे आप प्रस्तावित करते हैं!
रॉबिन जिरार्ड

1
यह जानने में भी मदद मिलेगी कि श्रृंखला अलग-अलग लंबाई की क्यों होती है। उदाहरण के लिए, यदि वे लिखावट कार्य के दौरान एक पेंसिल के प्रक्षेपवक्र का प्रतिनिधित्व करते हैं, तो एक अंक लिखते समय एक्स विस्थापन कहते हैं, तो आप समय श्रृंखला को संरेखित करना चाह सकते हैं ताकि वे समान लंबाई के हों। यह जानना भी महत्वपूर्ण है कि आप किस प्रकार की भिन्नता को बनाए रखने में रुचि रखते हैं, और आप क्या नहीं हैं।
vqv

जवाबों:


5

मैट्रिक्स कम्प्लीशन नामक शोध का एक बहुत नया क्षेत्र है , जो शायद आप चाहते हैं। इमैनुएल कैंडीस के इस व्याख्यान में एक बहुत अच्छा परिचय दिया गया है


वेब साइट VideoLecture के लिए +1, मुझे नहीं पता था, क्या आपने वीडियो व्याख्यान के बारे में प्रश्न में इसका उल्लेख किया था?
रॉबिन जिरार्ड

मैं केवल इस सामग्री के बारे में हाल ही में पढ़ रहा हूं। मैं वास्तव में विषय पर Candes और ताओ की हाल ही में कागज की तरह arxiv.org/abs/0903.1476
रॉबी McKilliam

2

शून्य से भरना बुरा है। अतीत से टिप्पणियों का उपयोग करते हुए रेज़मैपलिंग के साथ भरने का प्रयास करें।


+1 प्रतिकृति / रीसैम्पलिंग निश्चित रूप से शून्य-पैडिंग से बेहतर है .. फिर भी मैं इंतजार करूंगा और देखूंगा कि क्या कोई अन्य विचार है :)
अमरो 4'10

2

बस एक विचार: आपको अपनी समस्या के लिए पूर्ण एसवीडी की आवश्यकता नहीं हो सकती है। बता दें कि M = USV * n मैट्रिक्स द्वारा आपके d का SVD है ( यानी , टाइम सीरीज़ कॉलम हैं)। आयाम में कमी को प्राप्त करने के लिए आप मैट्रिसेस वी और एस का उपयोग करेंगे । आप उन्हें M * M = V (S * S) V * विकर्ण करके पा सकते हैं । हालाँकि, क्योंकि आप कुछ मानों को याद कर रहे हैं, आप M * M की गणना नहीं कर सकते । फिर भी, आप इसका अनुमान लगा सकते हैं। इसकी प्रविष्टियां M के स्तंभों के उत्पादों के योग हैं। किसी भी एसएसपी की गणना करते समय, लापता मूल्यों को शामिल करने वाले जोड़ों को अनदेखा करें। प्रत्येक उत्पाद को लापता मानों को ध्यान में रखते हुए पुनर्विक्रय करें: अर्थात, जब भी SSP में nk जोड़े शामिल होते हैं, इसे n / (nk) द्वारा पुनर्विक्रय करें। यह प्रक्रिया M * M का "उचित" अनुमानक है और आप वहां से आगे बढ़ सकते हैं। यदि आप कट्टरता प्राप्त करना चाहते हैं, तो शायद कई प्रतिरूपण तकनीकें या मैट्रिक्स कंप्लीशन मदद करेंगे।

(यह कई सांख्यिकीय पैकेजों में किया जा सकता है, जो ट्रांसपोज़ किए गए डेटासेट के युग्मक सहसंयोजक मैट्रिक्स की गणना करके और पीसीए या कारक विश्लेषण को लागू करने के लिए किया जाता है।)


MTM

यह एक अच्छा बिंदु है, लेकिन परिणाम इतना बुरा नहीं हो सकता है। एक उम्मीद क्या है कि एम * एम का अनुमान सही मूल्य के करीब है कि eigenvalues ​​का गड़बड़ी काफी छोटा है। इस प्रकार, सबसे बड़े प्रतिजन के अनुरूप आइगेंसस्पेस के लिए अनुमान लगाकर, आप सही समाधान के केवल एक मामूली गड़बड़ी को प्राप्त करते हैं, फिर भी मांग के बाद आयाम में कमी प्राप्त करते हैं। शायद सबसे बड़ी समस्या एल्गोरिथम हो सकती है: चूंकि आप अब अर्धचालकता नहीं मान सकते हैं, इसलिए आपको आइगेंस सिस्टम को खोजने के लिए अधिक सामान्य-उद्देश्य वाले एल्गोरिथ्म का उपयोग करने की आवश्यकता हो सकती है।
whuber

1

आप 'शॉर्ट' सीरीज़ के लिए यूनीवर्स टाइम सीरीज़ मॉडल का अनुमान लगा सकते हैं और भविष्य में उन्हें सभी सीरीज़ को 'सीरीज़' में बदल सकते हैं।


एक्सट्रपलेशन में भरे हुए हिस्से में चिकनापन शामिल होगा जो मौजूदा हिस्से में मौजूद नहीं है। आपको यादृच्छिकता को जोड़ना होगा ... इसलिए resampling (और एक्सट्रपलेशन पर रीमैपिंग एक अच्छा विचार प्रतीत होता है)
रॉबिन जिरार्ड

मॉडल को बाहर निकालने के लिए त्रुटि शब्द के नमूने की आवश्यकता होगी जो वांछित यादृच्छिकता को प्रेरित करेगा।

IMO दोनों सुझाव मौजूदा लोगों से भविष्य के मूल्यों की भविष्यवाणी करने के लिए उबलते हैं (एआर / एआरएमए मॉडल शायद?)। मुझे लगता है कि मैं अभी भी एक समाधान की उम्मीद कर रहा हूं जिसमें नमूनाकरण मूल्य शामिल नहीं हैं (इस प्रकार त्रुटि को पेश करने की संभावना) .. इसके अलावा ऐसे मॉडल का अनुमान अपने आप में आयामी कमी का एक रूप है :)
एमरो

1

मैं आपके उदाहरण कोड से कुछ भ्रमित हूं, क्योंकि ऐसा लगता है कि आप Vचर को संगणना से गिरा देते हैं newX। क्या आप Xकम रैंक वाले उत्पाद के रूप में मॉडलिंग करना चाहते हैं, या क्या आप कम कॉलम स्पेस में रुचि रखते हैं X? बाद के मामले में, मुझे लगता है कि EM-PCA दृष्टिकोण काम करेगा। आप लापता मानों के साथ प्रोबेलिस्टिक पीसीए शीर्षक के तहत मैटलैब कोड पा सकते हैं ।

hth,


मैं एक्स के एक कम-रैंक सन्निकटन की गणना करने की कोशिश नहीं कर रहा हूं, बल्कि एक परिवर्तित एक्स। आप देखते हैं कि मेरा लक्ष्य शोर अनुक्रमों को फ़िल्टर करना नहीं है, बल्कि एक कम आयामीता के साथ एक प्रतिनिधित्व खोजने के लिए (वर्गीकरण / समय श्रृंखला के क्लस्टरिंग के लिए उपयोग किया जाना है) ) ... क्या आप EM-PCA दृष्टिकोण पर थोड़ा विस्तार कर सकते हैं?
अमरो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.