क्या प्रिंसिपल कंपोनेंट एनालिसिस का इस्तेमाल स्टॉक की कीमतों / गैर-स्थिर डेटा पर किया जा सकता है?


10

मैं किताब, मशीन लर्निंग फॉर हैकर्स में दिए गए एक उदाहरण को पढ़ रहा हूं । मैं पहले उदाहरण पर विस्तार से बताऊंगा और फिर अपने प्रश्न के बारे में बात करूंगा।

उदाहरण :

25 शेयर की कीमतों के 10 वर्षों के लिए एक डेटासेट लेता है। 25 शेयर की कीमतों पर पीसीए चलाता है। डॉव जोन्स इंडेक्स के साथ प्रमुख घटक की तुलना करता है। पीसी और डीजेआई के बीच बहुत मजबूत समानता देखने को मिलती है!

मुझे जो समझ में आया है, वह उदाहरण एक खिलौना की तरह अधिक है जो मेरे जैसे नए लोगों की मदद करने के लिए एक टूल पीसीए कितना प्रभावी है!

हालांकि, एक अन्य स्रोत से पढ़ने पर , मैं देखता हूं कि शेयर की कीमतें गैर-स्थिर हैं और शेयर की कीमतों पर चल रहा पीसीए बेतुका है। जिन स्रोतों से मैंने शेयर की कीमतों के लिए कोवरियन और पीसीए की गणना करने के विचार का पूरी तरह से उपहास किया है।

प्रश्न :

  1. उदाहरण इतनी अच्छी तरह से कैसे काम किया? शेयर की कीमतों और डीजेआई के पीसीए एक दूसरे के बहुत करीब थे। और डेटा 2002-2011 की शेयर कीमतों से वास्तविक डेटा है।

  2. क्या कोई मुझे स्थिर / गैर-स्थिर डेटा पर पढ़ने के लिए कुछ अच्छे संसाधन की ओर इशारा कर सकता है? मैं एक प्रोग्रामर हूं। मेरे पास एक अच्छी गणित पृष्ठभूमि है। लेकिन मैंने 3 साल तक गंभीर गणित नहीं किया है। मैंने रैंडम वॉक आदि जैसे सामान के बारे में फिर से पढ़ना शुरू कर दिया है।

जवाबों:


10

यह टुकड़ा आंशिक रूप से मूल प्रश्न और @ जोनेगिल के उत्तर में टिप्पणियों में उठाए गए कुछ सवालों के जवाब देने का काम करता है।

वित्तीय (लघुगणकीय) रिटर्न * लगभग (हालांकि अक्सर कुछ सशर्त विषमलैंगिकता होती है) - जबकि कीमतें लगभग यादृच्छिक रूप से चलती हैं। की इस धारणा के तहत मैं मैं d अवलोकन, प्रमुख घटक विश्लेषण सीधे नमूना से जनसंख्या (यानी नमूना प्रिंसिपल घटकों जनसंख्या प्रिंसिपल घटकों का आकलन होगा) को सामान्यीकृत करेगा, लेकिन यह गैर- i के तहत नहीं हो सकता है मैं d टिप्पणियों - इस धागे को देखेंमैंमैंमैंमैंमैंमैं। यही कारण है कि कीमतों के बजाय पीसीए (लॉगरिदमिक) रिटर्न को चलाने के लिए यह समझ में आता है।

Ruey S. Tsay ने वित्तीय समय श्रृंखला के अर्थमितीय मॉडल से अवशिष्ट पर पीसीए चलाने के लिए तर्क दिया है, क्योंकि अवशिष्ट को आम तौर पर माना जाता है मैं d मुझे लगता है कि इस विचार को उनके "मल्टीवेरेट टाइम सीरीज़ एनालिसिस विद आर एंड फाइनेंशियल एप्लिकेशन" पाठ्यपुस्तक में कुछ जगह शामिल किया जा सकता है (उन्होंने मुझे इस विचार को व्यक्तिगत रूप से समझाया, इसलिए मुझे यकीन नहीं है कि यह कहाँ लिखा है)।मैंमैं

* कीमत पर लघुगणक वापसी के रूप में परिभाषित किया गया है आर : = लॉग ( पी टी ) - लॉग ( पी टी - 1 ) = लॉग पी टीपीटी । लघुगणक रिटर्न प्रतिशत रिटर्न के स्थान पर सुविधा के लिए उपयोग किया जाता हैr':=पीटी-पीटी-1आर: =लॉग(पीटी)-लॉग(पीटी-1)=लॉगपीटीपीटी-1 । लघुगणक रिटर्न सुविधाजनक सुविधा है जो आपको योग सकता हैपर कुल लघुगणक लाभ दिलाने के लिए अलग-अलग लघुगणक रिटर्नअवधि है, जबकि यह प्रतिशत रिटर्न के लिए नहीं रखता है। अपेक्षाकृत छोटे प्रतिशत रिटर्न (जो वित्त में आम है) के लिए, लॉगरिदमिक लगभग समान प्रतिशत रिटर्न देता है क्योंकि लॉगरिदम में लगभग एक इकाई ढलान होती है।आर': =पीटी-पीटी-1पीटी-1


1
(टीमैं)लॉग(टीमैं+1)(टीमैं)

1
@amoeba, मैंने एक त्वरित स्पष्टीकरण जोड़ा और अब इसे छोड़ना होगा। मुझे उम्मीद है कि मैंने वहां बहुत सारी गलतियां नहीं कीं। यदि कोई और समस्या है तो मैं कल वापस आऊंगा।
रिचर्ड हार्डी

1
धन्यवाद। अब मैं देखता हूं कि रिटर्न (लघुगणक रिटर्न) मूल रूप से कीमतों के लघुगणक का व्युत्पन्न (पहला अंतर) है। इसलिए यदि यह दावा किया जाता है कि रिटर्न आईआईडी है और लॉग प्राइस यादृच्छिक चलता है, तो यह समझ में आता है। हालाँकि, मैं अभी भी डॉव जोन्स के उदाहरण से हैरान हूं और आगे किसी स्पष्टीकरण की सराहना करूंगा।
अमीबा

6

मैं इस प्रकार के विश्लेषण को पेशेवर रूप से चलाता हूं और पुष्टि कर सकता हूं कि वे वास्तव में उपयोगी हैं। लेकिन कृपया सुनिश्चित करें कि आप रिटर्न की कीमतों का विश्लेषण करते हैं। यह भी समालोचना के माध्यम से समालोचना द्वारा उजागर किया गया है:

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

हमारे विश्लेषण में एक विशिष्ट usecase बाजार में जगह में प्रणालीगत जोखिम की मात्रा निर्धारित करना है। बाजार में जितना अधिक सह-आंदोलन होता है, आपके पोर्टफोलियो में वास्तव में एक विविधीकरण उतना ही कम होता है। यह, उदाहरण के लिए, पहले प्रमुख घटक द्वारा वर्णित विचरण की मात्रा द्वारा निर्धारित किया जा सकता है। जो कि पहले आइगेनवैल्यू के मूल्य के समान है।

वित्तीय डेटा के लिए, एक आम तौर पर समय के साथ एक चलती खिड़की की जांच करता है। क्षय कारक के कुछ रूप जो पुरानी टिप्पणियों को कम करते हैं, उपयोगी है। दैनिक डेटा के लिए, 20-60 दिनों से कुछ भी, साप्ताहिक डेटा के लिए शायद 1-2 साल, सब आपकी आवश्यकताओं के आधार पर।

ध्यान दें कि वैश्विक वित्तीय बाजारों के लिए, दसियों या सैकड़ों-हजारों परिसंपत्तियों की कीमतों में लगातार बदलाव के साथ, एक टाइपकास्ट 100K बनाम 100K सहसंयोजक मैट्रिक्स नहीं चला सकता है। इसके बजाय, ठेठ usecase प्रति देश, प्रति क्षेत्र या अन्य अधिक सार्थक समूहों के विश्लेषण को चलाने के लिए है। वैकल्पिक रूप से अंतर्निहित कारकों (मूल्य, आकार, गुणवत्ता, क्रेडिट ....) के एक सेट से वापसी को तोड़ दें और इन पर पीसीए / सहसंयोजक विश्लेषण करें।

कुछ अच्छे लेखों में सट्टेबाजों की प्रभावी संख्या पर एटिलियो मेउची की चर्चा शामिल है: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533

, और लेडोइट और वुल्फ हनी I ने नमूना सहसंयोजक मैट्रिक्स को सिकोड़ लिया http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf

स्टेशनरी के लिए एक आर्थिक रूप से उन्मुख परिचय के लिए, इन्वेस्टोपेडिया के साथ क्यों नहीं शुरू करें। यह कठोर नहीं है, लेकिन मुख्य विचारों को बताता है।

सौभाग्य!

EDIT: 2015 के माध्यम से दैनिक रिटर्न के साथ Apple, Google और डॉव जोन्स दिखाते हुए एक 3-स्टॉक उदाहरण है। ऊपरी त्रिकोण रिटर्न का सहसंबंध दिखाता है, निचला त्रिकोण कीमतों का सहसंबंध दिखाता है।

ऊपरी त्रिकोण वापसी सहसंबंध, निचला त्रिकोण मूल्य सहसंबंध

जैसा कि देखा जा सकता है, Apple के पास रिटर्न सहसंबंध (शीर्ष दाएं 0.66) की तुलना में डॉव (नीचे बाएं 0.76) के साथ एक उच्च मूल्य-सहसंबंध है। हम इससे क्या सीख सकते हैं? बहुत ज्यादा नहीं। Google का Apple (-0.28) और Dow (-0.27) दोनों के साथ नकारात्मक मूल्य सहसंबंध है। फिर, उससे बहुत कुछ सीखना नहीं है। हालाँकि, वापसी सहसंबंध हमें बताते हैं कि Apple और Google दोनों के पास डॉव (0.66 और 0.5% क्रमशः) के साथ एक उच्च संबंध है। यह हमें एक पोर्टफोलियो में संपत्ति के सह-आंदोलन (मूल्य-परिवर्तन) के बारे में कुछ बताता है। यह उपयोगी जानकारी है।

मुख्य बिंदु यह है कि हालांकि मूल्य सहसंबंध आसानी से गणना की जा सकती है, यह दिलचस्प नहीं है। क्यों? क्योंकि एक शेयर की कीमत अपने आप में दिलचस्प नहीं है। हालांकि, मूल्य परिवर्तन बहुत दिलचस्प है।


क्या आप प्रश्न के मुख्य भाग पर अधिक विस्तार कर सकते हैं जो कीमतों बनाम रिटर्न का उपयोग करने के बीच अंतर के बारे में है? मैं समझता हूं कि कीमतों का उपयोग करते समय, सहसंबंध मैट्रिक्स गैर-स्टेशनरिटी से प्रभावित होगा; उदाहरण के लिए, यदि सभी मूल्य रैखिक रूप से बढ़ते हैं, तो सभी सहसंबंध दृढ़ता से सकारात्मक होंगे। पहला, यह बुरा क्यों है? विशेष रूप से यह देखते हुए कि डॉव जोन्स अनिवार्य रूप से एक औसत मूल्य है और यह भी बढ़ेगा (पीसी 1 के रूप में)। दूसरा, रिटर्न का उपयोग कैसे करना चाहिए? AFAIK "रिटर्न" पड़ोसी बिंदुओं के लॉग अनुपात हैं; यह क्यों सार्थक है और यह डॉव जोन्स से कैसे संबंधित है?
अमीबा

आपके जानकारीपूर्ण उत्तर के लिए धन्यवाद। लेकिन यह मेरे सवाल का जवाब नहीं है। मैं यह समझना चाहता हूं कि मूल्य का विश्लेषण पुस्तक में सेट किए गए डेटा के लिए बहुत अच्छी तरह से क्यों काम कर रहा है? और अमीबा ने बहुत सारे वैध सवाल उठाए हैं।
क्लॉडियस

1
@ क्लॉडियस: कीमतों पर पीसीए, डॉव जोन्स के समान कुछ देता है जो कि औसत कीमत है, बिल्कुल भी आश्चर्य की बात नहीं है। मैं बल्कि सोच रहा हूं कि रिटर्न पर पीसीए बेहतर फिट क्यों पैदा करता है। शायद जॉन स्पष्ट करने में सक्षम होंगे।
अमीबा

1
मैंने हैकरों के लिए ML में चलाए जाने वाले वास्तविक कोड को नहीं देखा है, लेकिन जब भी कोई कहता है कि वे कीमतों का विश्लेषण करते हैं, तो 100 में से 99 बार वे वास्तव में जो विश्लेषण करते हैं वह लॉग-रिटर्न है। उदाहरण के लिए, आज डॉव 162 अंक नीचे है, जबकि एप्पल 0.88 डॉलर नीचे है। न केवल संख्या बहुत भिन्न हैं, वे एक अलग पैमाने पर भी हैं, सूचकांक बनाम पैसा। लेकिन pct के संदर्भ में 0.91% और 0.75% तुलनीय हैं और जिन संख्याओं के साथ आप काम करना चाहते हैं। कुछ विश्लेषण के लिए, कोई माध्य को घटाकर डेटा को डी-ट्रेंड कर सकता है। लघु अवधि के वित्तीय समय में अक्सर इस बात को नजरअंदाज किया जाता है, कोई चलन नहीं है।
जॉन एगिल

1
@amoeba, To (आंशिक रूप से) टिप्पणियों में उठाए गए प्रश्नों का उत्तर देते हैं, रिटर्न लगभग iid होते हैं जबकि कीमतें लगभग यादृच्छिक होती हैं। प्रिंसिपल घटकों में आईड प्रेक्षणों की धारणा के तहत उनके अच्छे गुण हैं। यही कारण है कि कीमतों के बजाय रिटर्न पर पीसीए चलाने के लिए यह समझ में आता है। Ruey S. Tsay ने पीसीए को वित्तीय समय श्रृंखला के अर्थमितीय मॉडल से अवशिष्ट पर चलाने के लिए तर्क दिया है, क्योंकि अवशेषों को आम तौर पर iid माना जाता है मुझे लगता है कि उनके "मल्टीवेरेटरी टाइम एनालिसिस विद आर एंड फाइनेंशियल एप्लिकेशन" पाठ्यपुस्तक में कुछ जगह शामिल हो सकती है।
रिचर्ड हार्डी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.