आइसक्रीम बिक्री बनाम तापमान के इस पीसीए भूखंड को समझना


9

मैं तापमान बनाम आइसक्रीम की बिक्री का एक डमी डेटा ले रहा हूं और 2 श्रेणियों (पूरी तरह से डमी) को अलग करने के लिए के मीन्स (एन क्लस्टर्स = 2) का उपयोग करके इसे वर्गीकृत किया गया है।

अब मैं इस डेटा पर एक प्रिंसिपल कंपोनेंट एनालिसिस कर रहा हूँ और मेरा लक्ष्य यह समझना है कि मैं क्या देख रहा हूँ। मुझे पता है कि पीसीए का उद्देश्य आयामीता को कम करना है (जाहिर है कि इस मामले में नहीं) और तत्वों का विचरण। लेकिन आप नीचे पीसीए प्लॉट को कैसे पढ़ते हैं, यानी आप पीसीए प्लॉट में तापमान बनाम आइसक्रीम के बारे में क्या कहानी बता सकते हैं ? 1st (X) और 2nd (Y) PC का क्या मतलब है?

यहाँ छवि विवरण दर्ज करें


1
यह एक टिप्पणी होनी चाहिए, लेकिन मेरे पास अपर्याप्त प्रतिनिधि है। नीचे दिया गया लिंक पीसीए पर एक उत्कृष्ट ट्यूटोरियल है। विशेष रूप से, खिलौना उदाहरण "एक तस्वीर के साथ समझने के लिए पर्याप्त सरल" और "पर्याप्त जटिल है कि इसे भविष्य की समस्याओं में एक सादृश्य के रूप में इस्तेमाल किया जा सकता है" के बीच एक अच्छा संतुलन बनाता है। मुझे लगता है कि इसे पढ़कर यह स्पष्ट हो सकता है कि पीसीए आपके लिए क्या कर सकता है और क्या नहीं। cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
जेसन

जवाबों:


18

मुझे पता है कि पीसीए उद्देश्य आयामीता को कम करना है

ऐसा अक्सर लोग मानते हैं, लेकिन वास्तव में पीसीए एक ऑर्थोगोनल आधार पर आपके डेटा का एक प्रतिनिधित्व है। यह आधार अभी भी आपके मूल डेटा के समान ही है। कुछ भी नहीं खोया ... अभी तक। आयामी कमी का हिस्सा पूरी तरह से आप पर निर्भर है। पीसीए यह सुनिश्चित करता है कि आपके नए प्रक्षेपण के शीर्ष आयाम सबसे अच्छे आयाम हैं, जिन्हें संभवतः आपके डेटा के रूप में दर्शाया जा सकता है। सबसे अच्छा मतलब क्या है? यहीं समझाया गया विचरण अंदर आता है।

जाहिर है इस मामले में नहीं

मुझे उस पर यकीन नहीं होगा! आपके दूसरे प्लॉट से, दृष्टिगत रूप से ऐसा लगता है कि आपके डेटा की बहुत सारी जानकारी क्षैतिज रेखा पर प्रक्षेपित की जा सकती है। यह मूल आयाम के बजाय 1 आयाम है, जो 2 आयामों में था! स्पष्ट रूप से आप कुछ जानकारी खो देते हैं क्योंकि आप Y- अक्ष निकाल रहे हैं, लेकिन क्या यह जानकारी हानि आपको स्वीकार्य है, क्या आपका कॉल है।

वहाँ तो मैं उन्हें बाहर की जाँच करने के लिए प्रोत्साहित करते हैं क्या पीसीए साइट पर है से संबंधित प्रश्नों की एक टन कर रहे हैं यहाँ , यहाँ , यहाँ या यहाँ । यदि आपके पास इसके बाद अन्य प्रश्न हैं, तो कृपया उन्हें पोस्ट करें और मुझे मदद करने में खुशी होगी।

आपके वास्तविक प्रश्न के रूप में:

क्या कहानी है जो आप पीसीए प्लॉट में तापमान बनाम आइसक्रीम के बारे में बता सकते हैं?

चूंकि नए निर्देशांक कुल्हाड़ियों मूल निर्देशांक का एक रैखिक संयोजन है, तो ... मूल रूप से कुछ भी नहीं! PCA आपको एक उत्तर देगा जैसे (संख्याएँ बनी):

पीसी1=2.5×आइसक्रीम-3.6×तापमानपीसी2=-1.5×आइसक्रीम+0.6×तापमान

क्या यह आपके लिए उपयोगी है? शायद। लेकिन मुझे नहीं लगता :)

संपादित

मैं इस संसाधन को जोड़ूंगा जो मुझे लगता है कि सहायक है क्योंकि इंटरैक्टिव चार्ट शांत हैं।

फिर से एडिट किया गया

यह स्पष्ट करने के लिए कि सबसे अच्छा का क्या अर्थ है:

पीसीए उन आयामों को खोजने की कोशिश करता है जो डेटा पर अनुमान लगाए जाने पर सबसे अधिक विचरण करते हैं। मान लें कि आपके डेटा में आयाम हैं, तो पहले PC आपके डेटा में किसी भी अन्य आयाम की तुलना में अधिक विचरण को समझा सकता है। यही कारण है कि मैं सबसे अच्छा मतलब है । आपके लिए यह उपयोगी है या नहीं, यह दूसरी बात है।n>


6
इसके अलावा, चर को मापना सुनिश्चित करें। अन्यथा बिक्री (बहुत अधिक संख्या) बहुसंख्यक विचरण की व्याख्या करेगी। शायद इसलिए आपके पीसी में इकाइयाँ इतनी अलग हैं।
फिलिप '

अच्छा जवाब है, लेकिन आपका कथन "... आपके डेटा का संभवतः सबसे अच्छा kk आयाम हो सकता है ..." शायद सामान्यीकृत है। दो वर्गों को अलग करने के लिए अधिकतम भिन्नता की दिशा आवश्यक नहीं है। किसी तरह, यह अक्सर अच्छी तरह से काम करता है, लेकिन इसलिए नहीं कि पीसीए किसी विशेष उद्देश्य के लिए सबसे अच्छा विकल्प बनाने के लिए कुछ भी करता है।
वेन

"वास्तव में पीसीए एक ऑर्थोगोनल आधार पर आपके डेटा का एक प्रतिनिधित्व है।" मैं इस तथ्य से लगातार आश्चर्यचकित हूं कि बहुत से लोग इस बिंदु को नहीं समझते ...
3x89g2

5

इलान आदमी के अच्छे उत्तर के लिए मैं जोड़ूंगा कि आपके प्रमुख घटकों की काफी सीधी व्याख्या है, हालांकि इस सरल 2 डी मामले में यह बहुत कुछ नहीं जोड़ता है जो कि हम व्याख्या कर सकते थे बस स्कैल्पलॉट को देखकर।

पहला पीसी एक समशीतोष्ण और आइसक्रीम की खपत के लिए एक भारित राशि है (एक रेखीय संयोजन है, जहां दोनों coficients सकारात्मक हैं)। दाईं ओर आपके पास गर्म दिन होते हैं जहां बहुत सारी आइसक्रीम बेची जाती है, और बाईं ओर आपके पास ठंडे दिन होते हैं जहां कम आइसक्रीम बेची जाती है। वह पीसी आपके अधिकांश विचरण और उन समूहों के बारे में बताता है जो आपको मिले थे।

दूसरा पीसी मापता है कि कैसे तापमान और आइसक्रीम की खपत पहले पीसी द्वारा रेखांकित करीबी रैखिक संबंध से दूर जाती है। ग्राफ के ऊपरी भाग में हमारे पास उसी तापमान के अन्य दिनों की तुलना में अधिक बिकने वाले आइसक्रीम के साथ दिन होते हैं और निचले हिस्से के दिनों में तापमान के अनुसार अपेक्षा से कम आइसक्रीम बेची जाती है। वह पीसी केवल विचरण का थोड़ा सा हिस्सा बताता है।

यही है, हम प्रमुख घटकों से एक कहानी बता सकते हैं, हालांकि सिर्फ दो चर के साथ यह वही कहानी है जिसे हम पीसीए के बिना देख सकते थे। अधिक चर के साथ पीसीए अधिक उपयोगी हो जाता है क्योंकि यह उन कहानियों को बताता है जो अन्यथा नोटिस करना कठिन होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.