समय-श्रृंखला डेटा पर पीसीए की व्याख्या कैसे करें?


19

मैं एक हालिया जर्नल लेख में "क्लस्टर कंप्यूटिंगमैन एट अल के साथ पैमाने पर मानचित्रण मस्तिष्क गतिविधि" शीर्षक से हाल ही में पीसीए के उपयोग को समझने की कोशिश कर रहा हूं , ( लैब वेबसाइट पर उपलब्ध मुफ्त पीडीएफ )। वे समय श्रृंखला डेटा पर पीसीए का उपयोग करते हैं, और मस्तिष्क का नक्शा बनाने के लिए पीसीए भार का उपयोग करते हैं।

डेटा परीक्षण औसत इमेजिंग डेटा, एक मैट्रिक्स (बुलाया के रूप में जमा है अखबार में) के साथ voxels (या इमेजिंग स्थानों मस्तिष्क में) समय अंक (एक भी की लंबाई मस्तिष्क को उत्तेजना)। n× टीY^n×टी^

वे SVD का उपयोग करते हैं जिसके परिणामस्वरूप ( मैट्रिक्स का संकेत होता है )।वीवी

Y^=यूएसवी
वीवी

लेखक कहते हैं कि

मुख्य घटक ( के कॉलम ) लंबाई वैक्टर हैं , और स्कोर ( के कॉलम ) लंबाई (स्वर की संख्या ) के वैक्टर हैं , जो दिशा पर प्रत्येक स्वर के प्रक्षेपण का वर्णन करते हैं। इसी घटक द्वारा दिए गए, वॉल्यूम पर अनुमानों का निर्माण, अर्थात पूरे मस्तिष्क के नक्शे।टी यू एनवीटी^यूn

तो पीसी लंबाई वैक्टर हैं । मैं कैसे व्याख्या कर सकता हूं कि "पहला मुख्य घटक सबसे अधिक विचरण को समझाता है" जैसा कि आमतौर पर पीसीए के ट्यूटोरियल में व्यक्त किया गया है? हमने कई अत्यधिक सहसंबद्ध टाइम-सीरीज़ के मैट्रिक्स के साथ शुरुआत की - मूल मैट्रिक्स में एक एकल पीसी टाइम सीरीज़ कैसे विचरण करती है? मैं "विविध-धुरी के बिंदुओं के गॉसियन क्लाउड के पूरे" घुमाव को समझता हूं, लेकिन यह अनिश्चित है कि यह समय-श्रृंखला से कैसे संबंधित है। क्या लेखकों द्वारा मतलब है दिशा जब वे राज्य: "स्कोर (के स्तंभों ) लंबाई की वैक्टर हैंटी^ एनयूn (स्वरों की संख्या), संबंधित घटक द्वारा दी गई दिशा पर प्रत्येक स्वर की प्रक्षेपण का वर्णन करते हुए? "एक प्रमुख घटक समय पाठ्यक्रम की एक दिशा कैसे हो सकती है?

सिद्धांत घटकों 1 और 2 के रैखिक संयोजनों और संबंधित मस्तिष्क मानचित्र से परिणामी बार श्रृंखला का एक उदाहरण देखने के लिए , XY प्लॉट में डॉट्स पर निम्नलिखित लिंक और माउस पर जाएं।

फ्रीमैन एट अल।

मेरा दूसरा प्रश्न प्रिंसिपल कंपोनेंट स्कोर का उपयोग करके बनाए गए (राज्य-स्थान) प्रक्षेपवक्र से संबंधित है

ये पहले 2 स्कोर लेने ( "optomotor" उदाहरण मैं ऊपर उल्लिखित है के मामले में) के द्वारा बनाई गई और अलग-अलग परीक्षणों समीकरण द्वारा प्रिंसिपल उपस्पेस में (परीक्षण औसतन मैट्रिक्स ऊपर वर्णित बनाने के लिए इस्तेमाल) परियोजना कर रहे हैं:

जे=यूY

जैसा कि आप लिंक की गई फिल्मों द्वारा देख सकते हैं, राज्य अंतरिक्ष में प्रत्येक ट्रेस संपूर्ण रूप से मस्तिष्क की गतिविधि का प्रतिनिधित्व करता है।

क्या कोई व्यक्ति राज्य अंतरिक्ष फिल्म के प्रत्येक "फ्रेम" के लिए अंतर्ज्ञान प्रदान कर सकता है, क्योंकि यह उस आंकड़े की तुलना में है जो पहले 2 पीसी के स्कोर के XY भूखंड को जोड़ता है। एक्सवाई राज्य-स्थान में 1 स्थिति में होने के लिए प्रयोग के 1 परीक्षण के लिए दिए गए "फ्रेम" और दूसरी स्थिति में होने के लिए एक और परीक्षण का क्या मतलब है? फिल्मों में XY प्लॉट स्थिति मेरे प्रश्न के पहले भाग में उल्लिखित लिंक्ड फिगर में सिद्धांत घटक निशान से कैसे संबंधित हैं?

फ्रीमैन एट अल।


1
+1 मैंने आपके प्रश्न को संपादित किया, इस पर एक नज़र डालें कि टेक्स समीकरणों को यहाँ प्रारूपित कैसे किया जा सकता है। इसके अलावा, मैं कागज को अच्छी तरह से जानता हूं, इसलिए बाद में जवाब दूंगा।
अमीबा का कहना है कि मोनिका

1
यह वही नहीं है जो ओपी चाहता है, लेकिन समय-श्रृंखला डेटा से लिए जाने पर प्रमुख घटकों की व्याख्या करने में आसान हो सकता है, जैसा कि मैं हर समय ऐसा करता हूं। मैं आमतौर पर पीसीए को एक करुणेन-लोवेव विस्तार के रूप में व्याख्या करना पसंद करता हूं: किसी दिए गए समय श्रृंखला, (अलग समय-श्रृंखला जिसे आप पीसीए लागू करते हैं) को व्यक्त करते हुए, असंबद्ध समय श्रृंखला (यानी, प्रमुख घटकों) के रैखिक संयोजन के रूप में। इस मामले में प्रत्येक समय श्रृंखला का वजन covariance मैट्रिक्स से प्राप्त eigenvectors द्वारा दिया जाता है। एक्सटी
नेस्टर

1
(मेरी बात और अधिक गहराई से देखने के लिए इसे देखें: astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf )
Néstor

1
मैंने आपके प्रश्न में कुछ स्क्रीनशॉट जोड़े जिन्हें आप संदर्भित कर रहे थे।
अमीबा का कहना है कि

आपने चित्रों को कैसे जोड़ा?
स्टेटहैकर

जवाबों:


16

Q1: पीसी समय श्रृंखला और "अधिकतम विचरण" के बीच क्या संबंध है?

डेटा है कि वे विश्लेषण कर रहे हैं टी से प्रत्येक के लिए डेटा बिंदुओं n तो एक ही है कि के रूप में के बारे में सोच सकते हैं, न्यूरॉन्स टी में डेटा बिंदुओं n आयामी अंतरिक्ष अनुसंधान एन । यह "अंकों का एक बादल" है, इसलिए पीसीए राशियों का प्रदर्शन अधिकतम विचरण की दिशाओं को खोजने के लिए किया जाता है, जैसा कि आप अच्छी तरह से जानते हैं। मैं इन निर्देशों को कॉल करना पसंद करता हूं (जो सहसंयोजक मैट्रिक्स के eigenvectors हैं) "प्रिंसिपल एक्सिस", और इन दिशाओं पर डेटा के अनुमान "प्रमुख घटक"।टी^nटी^nआरn

जब समय श्रृंखला विश्लेषण करने, इस तस्वीर को केवल इसके कि अंक सार्थक आदेश दिया जाता है, या क्रमांकित (से है करने के लिए टी ), के रूप में केवल एक अव्यवस्थित होने का विरोध संग्रह अंक की। जिसका अर्थ है कि यदि हम एक एकल न्यूरॉन की फायरिंग दर लेते हैं (जो आर एन में एक समन्वय है ), तो इसके मूल्यों को समय के एक समारोह के रूप में प्लॉट किया जा सकता है। इसी तरह, अगर हम एक पीसी (जिसमें से एक प्रक्षेपण ले आर एन पर कुछ लाइन), तो यह भी है टी मूल्यों और समय के एक समारोह के रूप में साजिश रची जा सकता है। इसलिए यदि मूल विशेषताएं समय श्रृंखला हैं, तो पीसी भी समय श्रृंखला हैं।1टी^आरnआरnटी^

मैं ऊपर @ नेस्टर की व्याख्या से सहमत हूं: प्रत्येक मूल विशेषता को तब पीसी के रैखिक संयोजन के रूप में देखा जा सकता है, और जैसा कि पीसी एक दूसरे के बीच असंबंधित होते हैं, कोई भी उन्हें आधार कार्यों के रूप में सोच सकता है कि मूल विशेषताएं विघटित हो जाती हैं। यह फूरियर विश्लेषण की तरह थोड़ा सा है, लेकिन साइन और कोजाइन का निश्चित आधार लेने के बजाय, हम इस विशेष डेटासेट के लिए "सबसे उपयुक्त" आधार पा रहे हैं, इस अर्थ में कि सबसे अधिक विचरण के लिए पहले पीसी खाते हैं, आदि।

यहां "अधिकांश विचरण के लिए लेखांकन" का अर्थ है कि यदि आप केवल एक आधार फ़ंक्शन (समय श्रृंखला) लेते हैं और इसके साथ अपनी सभी विशेषताओं का अनुमान लगाने की कोशिश करते हैं, तो पहला पीसी सबसे अच्छा काम करेगा। इसलिए यहां मूल अंतर्ज्ञान यह है कि पहला पीसी एक आधार फ़ंक्शन समय श्रृंखला है जो सभी उपलब्ध समय श्रृंखला को सबसे अच्छा फिट बैठता है, आदि।


फ्रीमैन एट अल में यह मार्ग क्यों है। इतना अधिक भ्रामक?

फ्रीमैन एट अल। डेटा मैट्रिक्स का विश्लेषण Y पंक्तियों में चर (यानी न्यूरॉन्स) के साथ (!), स्तंभों में नहीं। ध्यान दें कि वे पंक्ति साधनों को घटाते हैं, जो समझ में आता है क्योंकि चर आमतौर पर पीसीए से पहले केंद्रित होते हैं। तब वे प्रदर्शन SVD: Y = यू एस वीशब्दावली मैं ऊपर की वकालत का उपयोग करना, के स्तंभों यू प्रमुख कुल्हाड़ियों (में निर्देश हैं आर एन ) और के स्तंभों एस वी प्रमुख घटकों (लंबाई के समय श्रृंखला रहे हैं टी )।Y^

Y^=यूएसवी
यूआरnएसवीटी^

वह वाक्य जो आपने फ्रीमैन एट अल से उद्धृत किया था। वास्तव में काफी भ्रामक है:

प्रिंसिपल घटकों (के स्तंभों ) लंबाई की वैक्टर हैं टी , और स्कोर (के स्तंभों यू ) लंबाई की वैक्टर हैं n (voxels की संख्या), इसी घटक द्वारा दिए गए दिशा पर प्रत्येक वॉक्सेल के प्रक्षेपण का वर्णन , मात्रा पर अनुमान बनाने, यानी पूरे मस्तिष्क के नक्शे।वीटी^यूn

सबसे पहले, कॉलम पीसी नहीं हैं, लेकिन पीसी यूनिट इकाई के मानदंड तक सीमित हैं। दूसरा, यू के कॉलम स्कोर नहीं हैं, क्योंकि "स्कोर" का मतलब आमतौर पर पीसी होता है। तीसरा, "संबंधित घटक द्वारा दी गई दिशा" एक गूढ़ धारणा है। मैं लगता है कि वे चित्र यहाँ फ्लिप और के बारे में सोचने के लिए सुझाव n में अंक टी आयामी अंतरिक्ष, ताकि अब प्रत्येक न्यूरॉन एक डेटा बिंदु (और नहीं एक चर) है। वैचारिक रूप से यह एक बहुत बड़ा परिवर्तन लगता है, लेकिन गणितीय रूप से इसमें लगभग कोई अंतर नहीं होता है, केवल एकमात्र परिवर्तन होने के कारण प्रमुख अक्ष और [इकाई-मानक] प्रमुख घटक स्थान बदलते हैं। इस मामले में, इसके बाद के संस्करण (से मेरे पीसी टी लंबी समय श्रृंखला) प्रमुख कुल्हाड़ियों, यानी बन जाएगावीयूnटी^टी^दिशाओं , और को इन दिशाओं (सामान्यीकृत स्कोर?) पर सामान्यीकृत अनुमानों के रूप में माना जा सकता है।यू

मुझे यह बहुत भ्रामक लगता है और इसलिए मैं उनके शब्दों की पसंद को नजरअंदाज करने का सुझाव देता हूं, लेकिन केवल सूत्रों को देखें। इस बिंदु पर मैं उन शर्तों का उपयोग करता रहूंगा, जैसा कि मैं उन्हें पसंद करता हूं, न कि फ्रीमैन एट अल। उन्हें इस्तेमाल करें।


Q2: राज्य अंतरिक्ष प्रक्षेपवक्र क्या हैं?

वे एकल-परीक्षण डेटा लेते हैं और इसे पहले दो प्रमुख अक्षों, यानी के पहले दो स्तंभों पर प्रोजेक्ट करते हैं )। आप मूल डेटा के साथ किया था, तो Y , आप दो पहले प्रिंसिपल घटकों वापस मिलेगा। फिर, एक मुख्य अक्ष पर प्रक्षेपण एक प्रमुख घटक, यानी एक है टी लंबी समय श्रृंखला।यूY^टी^

Yटी^

Y


मैंने इस सवाल को नीचे टिप्पणी के रूप में पूछा, लेकिन शायद @amoeba मदद कर सकता है? क्या पहला प्रमुख घटक वेट वेक्टर सिर्फ माध्य समय श्रृंखला है जो सभी स्वरों में ढह रहा है? यदि यह मतलब होता है, तो यह व्यक्तिगत डेटा के निशान के लिए सबसे छोटे स्कोर के परिणामस्वरूप होगा। -
स्टेटहैकर 13

1
संक्षिप्त उत्तर नहीं है , यह आमतौर पर औसत समय श्रृंखला नहीं है, हालांकि कई मामलों में यह काफी करीब हो सकता है। एक उदाहरण के रूप में, समय श्रृंखला के एक संग्रह के बारे में सोचें जो सभी अलग-अलग ढलानों (सकारात्मक और नकारात्मक) के साथ सीधी रेखाएं हैं जो सभी शून्य से गुजर रही हैं। फिर औसत समय श्रृंखला निरंतर शून्य के आसपास है। लेकिन पहला पीसी मजबूत रैखिक रेखा होगा। BTW, मुझे लगता है कि यह एक उत्कृष्ट प्रश्न है और यदि आप अधिक विवरण और / या आंकड़े चाहते हैं, तो कृपया इसे (फिर से) एक अलग प्रश्न के रूप में पूछें। बस फ्रीमैन एट अल के बारे में इस प्रश्न के किसी भी हिस्से की नकल न करें; उन्हें अलग करें।
अमीबा का कहना है कि मोनिका

(या किसी और की प्रतिक्रिया में रुचि रखते हैं) - Q2 के संबंध में, आपको "दो [पीसी] पहले" [प्रत्येक परीक्षण] प्रोजेक्ट "से क्या मतलब है।" गणितीय रूप से यह बहुत स्पष्ट है कि U लंबाई n voxels का एक वेक्टर है, और जब लंबाई n मैट्रिक्स Y से गुणा किया जाता है तो हम 1 2 पीसी पर आयामी कमी प्राप्त करते हैं। क्या आप यू के स्कोर के मैट्रिक्स (यानी पहले 2 पीसी से प्रत्येक स्वर की दूरी) के संबंध में अंतर्ज्ञान प्रदान कर सकते हैं। क्या मैं ऊपर के 1 चित्र के 2 आयामी भूखंड में प्रत्येक स्वर की स्थिति के प्रक्षेपण के 2-डी औसत के रूप में जम्मू के प्रत्येक समय-बिंदु के बारे में सोच सकता हूं?
स्टेटहैकर

यूयू

एसवी

1

पीवीटी^

Y^n×t^Un×nVt^×t^

दूसरे प्रश्न के संबंध में। दिया गया समीकरण है

जे=यूटीY

जे×टी

टीटी^जे

टी^

मैंने पहले रंग पद्धति से निपटा नहीं है, और मुझे उस पहलू पर टिप्पणी करने के लिए आश्वस्त होने से पहले थोड़ा समय लगेगा। मैंने पाया चित्र 4 सी के लिए समानता पर भ्रामक टिप्पणी के रूप में रंग वहाँ प्रति प्राप्त voxel प्रतिगमन द्वारा प्राप्त की है। जबकि अंजीर 6 में प्रत्येक ट्रेस एक पूर्ण-छवि आर्टिफैक्ट है। जब तक मैं सीधा नहीं लगाता हूं मुझे लगता है कि यह उस समय खंड में उत्तेजना की दिशा है जैसा कि चित्र में टिप्पणी के अनुसार है।


ऊपर दिया गया पहला आंकड़ा हर बार प्रस्तुत समान दृश्य उत्तेजना के साथ एक प्रयोग को संदर्भित करता है। उन आंकड़ों के लिए एक अलग आंकड़ा और फिल्म है। ऊपर दिया गया दूसरा आंकड़ा एक अलग प्रयोग को संदर्भित करता है जिसमें उत्तेजना अलग-अलग झुकावों के साथ दृश्य उत्तेजनाएं हैं, ऊपर दिए गए 2 के आंकड़े में निशान बस दृश्य उत्तेजनाओं को अलग करने के अनुरूप हैं।
स्टेटहैकर

Yटी^ \ n

वीएस
जे=यूY
यू

मैंने चीजों को फिर से व्यवस्थित किया है। माफी माँगता हूँ, इससे पहले कि मैं कुछ और छाँटता, उससे बचा हुआ था।
अनुमान

आपकी सभी मदद का धन्यवाद। क्या पहला प्रमुख घटक वेट वेक्टर सिर्फ माध्य समय श्रृंखला है जो सभी स्वरों में ढह रहा है? यदि यह मतलब होता है, तो यह व्यक्तिगत डेटा के निशान के लिए सबसे छोटे स्कोर के परिणामस्वरूप होगा।
स्टेटहैकर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.