एक विश्वविद्यालय के असाइनमेंट के हिस्से के रूप में, मुझे डेटा प्री-प्रोसेसिंग को काफी विशाल, मल्टीवीरेट (> 10) कच्चे डेटा सेट पर संचालित करना होगा। मैं शब्द के किसी भी अर्थ में एक सांख्यिकीविद् नहीं हूं, इसलिए मैं थोड़ा उलझन में हूं कि क्या चल रहा है। अग्रिम में क्षमा याचना संभवत: एक सहज सरल प्रश्न है - मेरे सिर की कताई विभिन्न उत्तरों को देखने के बाद और आँकड़े-बोलने के माध्यम से मिटाने की कोशिश करती है।
मैंने पढ़ा है कि:
- पीसीए मुझे अपने डेटा की गतिशीलता को कम करने की अनुमति देता है
- ऐसा गुण / आयामों को विलय / हटाने से होता है जो बहुत सहसंबंधित करते हैं (और इस प्रकार थोड़ा अनावश्यक हैं)
- यह covariance डेटा पर eigenvectors पाकर ऐसा करता है (एक अच्छा ट्यूटोरियल के लिए धन्यवाद जो मैंने इसे सीखने के लिए किया है)
जो माहान है।
हालांकि, मैं वास्तव में यह देखने के लिए संघर्ष कर रहा हूं कि मैं इसे व्यावहारिक रूप से अपने डेटा पर कैसे लागू कर सकता हूं। उदाहरण के लिए (यह नहीं है डेटा सेट मैं का उपयोग किया जाएगा, लेकिन एक सभ्य उदाहरण लोगों पर एक प्रयास के साथ काम कर सकते हैं), मैं की तरह कुछ के साथ एक डेटा सेट के लिए गए थे, तो ...
PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score
1 1 2 5 7 60 75
2 1 3 8 2 70 85
3 2 2 6 6 50 77
... ... ... ... ... ... ...
मुझे बिल्कुल यकीन नहीं है कि मैं किसी भी परिणाम की व्याख्या कैसे करूंगा।
मैंने जो ऑनलाइन ट्यूटोरियल देखे हैं उनमें से अधिकांश मुझे पीसीए का एक बहुत ही गणितीय दृष्टिकोण दे रहे हैं। मैंने इसमें कुछ शोध किए हैं और इनके माध्यम से पीछा किया है - लेकिन मुझे अभी भी पूरी तरह से यकीन नहीं है कि मेरे लिए इसका क्या मतलब है, जो डेटा के इस ढेर से कुछ अर्थ निकालने की कोशिश कर रहा है जो मेरे पास है।
बस अपने डेटा पर पीसीए का प्रदर्शन करना (एक आँकड़े पैकेज का उपयोग करना) संख्याओं के एक NxN मैट्रिक्स (जहां एन मूल आयामों की संख्या है) से बाहर निकलता है, जो मेरे लिए पूरी तरह से ग्रीक है।
मैं पीसीए कैसे कर सकता हूं और मूल आयामों के संदर्भ में मुझे जो कुछ भी मिल सकता है उसे एक तरह से ले सकता हूं?