A1। क्या है डायमेंशनिटी में कमी: अगर आप मैट्रिक्स में डेटा के बारे में सोचते हैं, जहां पंक्तियाँ इंस्टेंसेस हैं और कॉलम एट्रिब्यूट्स (या फीचर्स) हैं, तो डायनेमिकिटी रिडक्शन कम कॉलम वाले नए मैट्रिक्स में इस डेटा मैट्रिक्स को मैप कर रहा है। विज़ुअलाइज़ेशन के लिए, यदि आप प्रत्येक मैट्रिक्स-कॉलम (विशेषता) को फ़ीचर स्पेस में एक आयाम के रूप में सोचते हैं, तो डायमेंशन की कमी उच्च डायमेंशनल स्पेस (अधिक कॉलम) से निम्न डायमेंशनल सब-स्पेस (कम कॉलम) तक के इंस्टेंस का प्रक्षेपण है।
इस परिवर्तन के लिए विशिष्ट उद्देश्य (1) कम्प्यूटेशनल जटिलता को कम करते हुए डेटा मैट्रिक्स में जानकारी को संरक्षित करना है; (2) डेटा में विभिन्न वर्गों की पृथक्करण क्षमता में सुधार करना।
ए 2। सुविधा चयन या सुविधा निष्कर्षण के रूप में आयाम में कमी: मैं सर्वव्यापी आइरिस डेटासेट का उपयोग करूंगा , जो यकीनन डेटा विज्ञान का 'हैलो वर्ल्ड' है। संक्षेप में, आइरिस डेटासेट में 3 कक्षाएं और 4 विशेषताएँ (कॉलम) हैं। मैं 4 से 2 तक आइरिस डेटासेट की गतिशीलता को कम करने के कार्य के लिए सुविधा चयन और निष्कर्षण का वर्णन करूँगा।
मैं इस डेटासेट के जोड़ी-वार सह-विचरण की गणना करता हूं, जिसे पायथन में पुस्तकालय का उपयोग करके सीबोर्न कहा जाता है। कोड है: sns.pairplot (आईरिस, ह्यू = "प्रजाति", मार्कर = ["ओ", "एस", "डी"]) मुझे जो आंकड़ा मिलता है
वह है
मैं उन विशेषताओं (2 आयामों) की जोड़ी का चयन कर सकता हूं जो प्रदान करते हैं Iris डेटासेट में 3 वर्गों (प्रजातियों) के बीच सबसे बड़ी जुदाई। यह सुविधा-चयन का मामला होगा।
अगला अप फीचर निष्कर्षण है। इस के साथ, मैं आइरिस के 4-आयामी सुविधा स्थान को एक नए 2-आयामी उप-स्थान पर पेश कर रहा हूं, जो मूल स्थान के साथ संरेखित अक्ष नहीं है। ये नई विशेषताएँ हैं। वे आम तौर पर मूल उच्च आयामी अंतरिक्ष में वितरण पर आधारित होते हैं। सबसे लोकप्रिय तरीका प्रिंसिपल कंपोनेंट एनालिसिस है, जो मूल स्थान में ईजेनवेक्टर्स की गणना करता है।
जाहिर है, हम केवल एक रैखिक और वैश्विक प्रक्षेपण का उपयोग करने के लिए प्रतिबंधित नहीं हैं, जो कि Eigenvectors पर आधारित एक उप-स्थान पर है। हम गैर-रैखिक प्रक्षेपण विधियों का भी उपयोग कर सकते हैं। यहां तंत्रिका नेटवर्क
का उपयोग करते हुए गैर-रैखिक पीसीए का एक उदाहरण है
पिछले उदाहरण में विशेषताएँ (आयाम) निकाले गए हैंतंत्रिका नेटवर्क का उपयोग कर मूल 4 विशेषताओं से। आप पीसीआईए के विभिन्न स्वादों के साथ आईरिस डेटासेट के लिए प्रयोग कर सकते हैं ।
सारांश: सुविधा चयन के लिए प्रदर्शन में सुविधा निष्कर्षण के तरीके बेहतर हो सकते हैं, लेकिन विकल्प आवेदन द्वारा पूर्वनिर्धारित है। फ़ीचर एक्सट्रैक्शन से विशेषताएँ आम तौर पर भौतिक व्याख्या खो देती हैं, जो हाथ में काम के आधार पर एक मुद्दा हो सकता है या नहीं हो सकता है। उदाहरण के लिए, अगर आप महंगा सेंसर के साथ एक बहुत ही महंगा डेटा संग्रह कार्य डिजाइन और विशेषताओं पर बचत करने की जरूरत है (अलग सेंसर की संख्या), तो आपको सभी उपलब्ध सेंसर का उपयोग एक छोटे से पायलट नमूना इकट्ठा करने और उसके बाद करना चाहते हैं का चयन करें जो कि बड़े डेटा संग्रह कार्य के लिए सबसे अधिक जानकारीपूर्ण हैं।