मेरे पास 19 चरों के 1000+ नमूने का डेटासेट है। मेरा उद्देश्य अन्य 18 चर (बाइनरी और निरंतर) के आधार पर एक द्विआधारी चर की भविष्यवाणी करना है। मुझे पूरा विश्वास है कि 6 पूर्वानुमानित चर द्विआधारी प्रतिक्रिया के साथ जुड़े हुए हैं, हालांकि, मैं डेटासेट का विश्लेषण करना चाहूंगा और अन्य संघों या संरचनाओं की तलाश करूंगा जो मुझे याद आ रहे हों। ऐसा करने के लिए, मैंने पीसीए और क्लस्टरिंग का उपयोग करने का निर्णय लिया।
पीसीए को सामान्यीकृत डेटा पर चलाने पर, यह पता चलता है कि विचरण के 85% को बनाए रखने के लिए 11 घटकों को रखा जाना चाहिए। जोड़ीदार की साजिश रचकर मुझे यह मिलता है:
मुझे यकीन नहीं है कि आगे क्या है ... मुझे pca में कोई महत्वपूर्ण पैटर्न नहीं दिखता है और मैं सोच रहा हूं कि इसका क्या मतलब है और अगर यह इस तथ्य के कारण हो सकता है कि कुछ चर द्विआधारी हैं। 6 क्लस्टर के साथ एक क्लस्टरिंग एल्गोरिथ्म चलाने से मुझे निम्नलिखित परिणाम मिलते हैं जो कि वास्तव में सुधार नहीं है हालांकि कुछ बूँदें बाहर (पीले वाले) लगती हैं।
जैसा कि आप शायद बता सकते हैं, मैं पीसीए का विशेषज्ञ नहीं हूं, लेकिन कुछ ट्यूटोरियल देखे और कैसे उच्च आयामी अंतरिक्ष में संरचनाओं की एक झलक पाने के लिए यह शक्तिशाली हो सकता है। प्रसिद्ध MNIST अंकों (या IRIS) डेटासेट के साथ यह बहुत अच्छा काम करता है। मेरा सवाल यह है: पीसीए से अधिक समझ बनाने के लिए मुझे अब क्या करना चाहिए? क्लस्टरिंग कुछ भी उपयोगी नहीं लगता है, मैं यह कैसे कह सकता हूं कि पीसीए में कोई पैटर्न नहीं है या मुझे पीसीए डेटा में पैटर्न खोजने के लिए आगे क्या प्रयास करना चाहिए?