आयामीता में कमी क्या है? फीचर चयन और निष्कर्षण के बीच अंतर क्या है?


58

विकिपीडिया से,

आयाम में कमी या आयाम में कमी विचाराधीन यादृच्छिक चर की संख्या को कम करने की प्रक्रिया है, और इसे फीचर चयन और सुविधा निष्कर्षण में विभाजित किया जा सकता है।

सुविधा चयन और सुविधा निष्कर्षण के बीच अंतर क्या है?

एक प्राकृतिक भाषा प्रसंस्करण कार्य में आयामी कमी का एक उदाहरण क्या है?

जवाबों:


51

सीधे शब्दों में कहें:

  • सुविधा का चयन: आप मूल सुविधा सेट के सबसेट का चयन करते हैं; जबकि
  • सुविधा निष्कर्षण: आप मूल सुविधा सेट से सुविधाओं का एक नया सेट बनाते हैं।

फ़ीचर एक्सट्रैक्शन के उदाहरण: इमेज में कंट्रोल्स की निकासी, किसी टेक्स्ट से डिग्राम का एक्सट्रैक्शन, बोले गए फोन की रिकॉर्डिंग से फोनमेन्स की निकासी आदि।

फ़ीचर निष्कर्षण में सुविधाओं का परिवर्तन शामिल होता है, जो अक्सर प्रतिवर्ती नहीं होता है क्योंकि कुछ जानकारी आयामीता में कमी की प्रक्रिया में खो जाती है।


2
ये दोनों फीचर इंजीनियरिंग की श्रेणी में आते हैं, क्योंकि वे मैन्युअल रूप से सुविधाओं का निर्माण या चयन करते हैं। आयाम में कमी में आम तौर पर परिवर्तन या डेटा के कुछ अन्य गणितीय पुन: प्रतिनिधित्व शामिल होते हैं
ragingSloth

1
@ragingSloth, मुझे लगता है कि पहले एक निश्चित रूप से सुविधा का चयन है - और इंजीनियरिंग की सुविधा नहीं है। जबकि इमेज और टेक्स्ट प्रोसेसिंग उदाहरण वास्तव में फीचर इंजीनियरिंग लगते हैं
अलेक्सई ग्रिगोरोव

जिस तरह से मैंने इसे पाया, कुछ फीचर अर्क के लिए आप अभी भी मूल आयामों को फिर से बना सकते हैं। लेकिन सुविधा चयन के लिए, कोई पुनर्निर्माण नहीं है, क्योंकि आपने बेकार आयामों को हटा दिया है।
बॉब

16

आयाम की कमी आमतौर पर एक आधार या गणितीय प्रतिनिधित्व का चयन करती है जिसके भीतर आप अपने डेटा के भीतर अधिकांश लेकिन सभी विवरणों का वर्णन नहीं कर सकते हैं, जिससे संबंधित जानकारी को बनाए रखा जा सकता है, जबकि इसका प्रतिनिधित्व करने के लिए आवश्यक जानकारी की मात्रा को कम कर सकता है। इस सहित लेकिन सीमित नहीं करने के लिए तकनीक की एक किस्म है PCA, ICAऔर Matrix Feature Factorization। ये मौजूदा डेटा लेंगे और इसे सबसे अधिक भेदभावपूर्ण घटकों तक कम कर देंगे। ये सभी आपको कम, अधिक भेदभावपूर्ण विशेषताओं के साथ अपने डेटासेट में अधिकांश जानकारी का प्रतिनिधित्व करने की अनुमति देते हैं।

फ़ीचर सेलेक्शन हाथ की सुविधाओं का चयन है जो अत्यधिक भेदभावपूर्ण हैं। यह विश्लेषण की तुलना में फीचर इंजीनियरिंग के साथ बहुत अधिक है, और डेटा वैज्ञानिक के हिस्से पर अधिक काम करने की आवश्यकता है। यह समझने की आवश्यकता है कि जो भी पूर्वानुमान आप बना रहे हैं, और जो नहीं हैं, उसमें आपके डेटासेट के कौन से पहलू महत्वपूर्ण हैं। फ़ीचर निष्कर्षण में आमतौर पर नई सुविधाएँ उत्पन्न करना शामिल होता है जो मौजूदा विशेषताओं के कंपोज़िट होते हैं। ये दोनों तकनीकें फीचर इंजीनियरिंग की श्रेणी में आती हैं। यदि आप सबसे अच्छे परिणाम प्राप्त करना चाहते हैं, तो आमतौर पर फीचर इंजीनियरिंग महत्वपूर्ण है, क्योंकि इसमें ऐसी जानकारी बनाना शामिल है जो आपके डेटासेट में मौजूद नहीं हो सकती है, और आपके सिग्नल को शोर अनुपात में बढ़ा सकती है।


2
मैं अधिकांशतः सहमत हूं, सटीक रूप से: फ़ीचर चयन की आवश्यकता हाथ से नहीं है, यह स्वचालित हो सकता है। उदाहरण के लिए लास्सो विधि ( en.wikipedia.org/wiki/Least_squares#Lasso_method ) देखें।
जौर्की

मैं आपके Dimensionality Reductionक्लॉज़ से सहमत हूं लेकिन Feature Engineeringउपयोग पर थोड़ा अलग है - जो मैंने देखा है उससे केवल Feature Extraction : Feature Selectionअलग से माना जाता है। यह शब्दावली में सिर्फ एक अंतर है।
23

7

जैसा कि @damienfrancois उत्तर सुविधा में चयन सुविधाओं के सबसेट को चुनने के बारे में है। तो एनएलपी में यह विशिष्ट शब्दों के एक सेट का चयन होगा (एनएलपी में विशिष्ट यह है कि प्रत्येक शब्द शब्द की आवृत्ति के बराबर मूल्य के साथ एक विशेषता का प्रतिनिधित्व करता है या टीएफ / आईडीएफ या इसी तरह के आधार पर कुछ अन्य वजन)।

आयाम में कमी नए फीचर स्पेस की शुरूआत है जहां मूल सुविधाओं का प्रतिनिधित्व किया जाता है। नया स्थान निम्न आयाम का है जो मूल स्थान है। पाठ के मामले में एक उदाहरण हैशिंग ट्रिक होगी जहां पाठ का एक टुकड़ा कुछ बिट्स (जैसे 16 या 32) या बाइट्स के वेक्टर में कम हो जाता है। आश्चर्यजनक बात यह है कि अंतरिक्ष की ज्यामिति संरक्षित है (पर्याप्त बिट्स दी गई है), इसलिए दस्तावेजों के बीच की सापेक्ष दूरी मूल स्थान की तरह ही रहती है, इसलिए आप अनबाउंड (और बड़ी संख्या) से निपटने के लिए बिना मानक मशीन सीखने की तकनीक को तैनात कर सकते हैं। ) पाठ में पाए गए आयाम।


5

फ़ीचर चयन कुछ सांख्यिकीय अंकों के आधार पर कुछ सुविधाओं को चुनने के बारे में है, लेकिन फ़ीचर निष्कर्षण तकनीक का उपयोग डेटा से कुछ दूसरी परत की जानकारी निकालने के लिए कर रहा है जैसे कि फूरियर रूपांतरण का उपयोग करके सिग्नल की दिलचस्प आवृत्तियों।

[x1,...,xn]


उपलब्ध उत्तरों में से यह एक सबसे अच्छा मैच है जो मैंने कई डेटा साइंस और एमएल प्लेटफ़ॉर्म टीमों में देखा है
javadba

3

डेमियन के उत्तर को पूरा करने के लिए, एनएलपी में आयामीता में कमी का एक उदाहरण एक विषय मॉडल है , जहां आप एक वेक्टर द्वारा दस्तावेज़ का प्रतिनिधित्व करते हैं जो इसके घटक विषयों के वजन का संकेत देते हैं।


2

एक उचित समीक्षा और परिभाषा के लिए आप आयाम रिडक्शन बनाम वैरिएबल चयन पर एक नज़र डाल सकते हैं , पुस्तक एक्सट्रैक्शन फ़ाउंडेशन और एप्लिकेशन फ़ीचर निष्कर्षण भी दो चरणों में विघटित हो जाता है: सुविधा निर्माण और सुविधा चयन।


2

A1। क्या है डायमेंशनिटी में कमी: अगर आप मैट्रिक्स में डेटा के बारे में सोचते हैं, जहां पंक्तियाँ इंस्टेंसेस हैं और कॉलम एट्रिब्यूट्स (या फीचर्स) हैं, तो डायनेमिकिटी रिडक्शन कम कॉलम वाले नए मैट्रिक्स में इस डेटा मैट्रिक्स को मैप कर रहा है। विज़ुअलाइज़ेशन के लिए, यदि आप प्रत्येक मैट्रिक्स-कॉलम (विशेषता) को फ़ीचर स्पेस में एक आयाम के रूप में सोचते हैं, तो डायमेंशन की कमी उच्च डायमेंशनल स्पेस (अधिक कॉलम) से निम्न डायमेंशनल सब-स्पेस (कम कॉलम) तक के इंस्टेंस का प्रक्षेपण है। आयामीता में कमी उप-प्रक्षेपण है इस परिवर्तन के लिए विशिष्ट उद्देश्य (1) कम्प्यूटेशनल जटिलता को कम करते हुए डेटा मैट्रिक्स में जानकारी को संरक्षित करना है; (2) डेटा में विभिन्न वर्गों की पृथक्करण क्षमता में सुधार करना।

ए 2। सुविधा चयन या सुविधा निष्कर्षण के रूप में आयाम में कमी: मैं सर्वव्यापी आइरिस डेटासेट का उपयोग करूंगा , जो यकीनन डेटा विज्ञान का 'हैलो वर्ल्ड' है। संक्षेप में, आइरिस डेटासेट में 3 कक्षाएं और 4 विशेषताएँ (कॉलम) हैं। मैं 4 से 2 तक आइरिस डेटासेट की गतिशीलता को कम करने के कार्य के लिए सुविधा चयन और निष्कर्षण का वर्णन करूँगा।

मैं इस डेटासेट के जोड़ी-वार सह-विचरण की गणना करता हूं, जिसे पायथन में पुस्तकालय का उपयोग करके सीबोर्न कहा जाता है। कोड है: sns.pairplot (आईरिस, ह्यू = "प्रजाति", मार्कर = ["ओ", "एस", "डी"]) मुझे जो आंकड़ा मिलता है आइरिस जोड़ी-कथानक वह है मैं उन विशेषताओं (2 आयामों) की जोड़ी का चयन कर सकता हूं जो प्रदान करते हैं Iris डेटासेट में 3 वर्गों (प्रजातियों) के बीच सबसे बड़ी जुदाई। यह सुविधा-चयन का मामला होगा।

अगला अप फीचर निष्कर्षण है। इस के साथ, मैं आइरिस के 4-आयामी सुविधा स्थान को एक नए 2-आयामी उप-स्थान पर पेश कर रहा हूं, जो मूल स्थान के साथ संरेखित अक्ष नहीं है। ये नई विशेषताएँ हैं। वे आम तौर पर मूल उच्च आयामी अंतरिक्ष में वितरण पर आधारित होते हैं। सबसे लोकप्रिय तरीका प्रिंसिपल कंपोनेंट एनालिसिस है, जो मूल स्थान में ईजेनवेक्टर्स की गणना करता है। एसवीडी का उपयोग करते हुए पीसीए जाहिर है, हम केवल एक रैखिक और वैश्विक प्रक्षेपण का उपयोग करने के लिए प्रतिबंधित नहीं हैं, जो कि Eigenvectors पर आधारित एक उप-स्थान पर है। हम गैर-रैखिक प्रक्षेपण विधियों का भी उपयोग कर सकते हैं। यहां तंत्रिका नेटवर्क गैर-रैखिक पीसीए एनएन का उपयोग करके का उपयोग करते हुए गैर-रैखिक पीसीए का एक उदाहरण है पिछले उदाहरण में विशेषताएँ (आयाम) निकाले गए हैंतंत्रिका नेटवर्क का उपयोग कर मूल 4 विशेषताओं से। आप पीसीआईए के विभिन्न स्वादों के साथ आईरिस डेटासेट के लिए प्रयोग कर सकते हैं ।

सारांश: सुविधा चयन के लिए प्रदर्शन में सुविधा निष्कर्षण के तरीके बेहतर हो सकते हैं, लेकिन विकल्प आवेदन द्वारा पूर्वनिर्धारित है। फ़ीचर एक्सट्रैक्शन से विशेषताएँ आम तौर पर भौतिक व्याख्या खो देती हैं, जो हाथ में काम के आधार पर एक मुद्दा हो सकता है या नहीं हो सकता है। उदाहरण के लिए, अगर आप महंगा सेंसर के साथ एक बहुत ही महंगा डेटा संग्रह कार्य डिजाइन और विशेषताओं पर बचत करने की जरूरत है (अलग सेंसर की संख्या), तो आपको सभी उपलब्ध सेंसर का उपयोग एक छोटे से पायलट नमूना इकट्ठा करने और उसके बाद करना चाहते हैं का चयन करें जो कि बड़े डेटा संग्रह कार्य के लिए सबसे अधिक जानकारीपूर्ण हैं।


1

स्किट-लर्न और टेन्सरफ्लो के साथ हैंड्स-ऑन मशीन लर्निंग से निकाला गया

  1. डेटा की सफाई: आउटलेर्स (वैकल्पिक) को ठीक करें या निकालें। लापता मान भरें (जैसे, शून्य, माध्य, माध्य ...) या उनकी पंक्तियों (या स्तंभों) को छोड़ दें।
  2. सुविधा चयन (वैकल्पिक): उन विशेषताओं को छोड़ दें जो कार्य के लिए कोई उपयोगी जानकारी प्रदान नहीं करती हैं।
  3. फ़ीचर इंजीनियरिंग, जहाँ उपयुक्त हो: निरंतर सुविधाओं को त्यागें। विघटित विशेषताएं (जैसे, श्रेणीबद्ध, दिनांक / समय, आदि)। सुविधाओं (जैसे, लॉग (x), sqrt (x), x ^ 2, आदि) के होनहार परिवर्तन जोड़ें। होनहार नई सुविधाओं में सुविधाएँ।
  4. फ़ीचर स्केलिंग: सुविधाओं को मानकीकृत या सामान्य करें।

0

यहाँ पर कई महान जवाब, विशेष रूप से, @ डेमियनफ्रैंकोइस का जवाब बहुत ही सामान्य रूप से सामान्य विचार को दर्शाता है।

हालाँकि, मैं रिलेशनल या टाइम-सीरीज डेटा के लिए फीचर इंजीनियरिंग का कोई उदाहरण नहीं देखता। उस स्थिति में, डेटा वैज्ञानिक आमतौर पर रिश्तों में और समय के साथ सांख्यिकीय पैटर्न निकालते हैं। उदाहरण के लिए, भविष्य में ईकॉमर्स डेटाबेस में ग्राहक क्या करेंगे, इसकी भविष्यवाणी करने के लिए, कोई व्यक्ति औसत ऐतिहासिक खरीद राशि, या पूर्व खरीद की आवृत्ति जैसी मात्रा निकाल सकता है।

मैंने इस विषय पर एक टुकड़ा लिखा, जो कई उदाहरणों के साथ और अधिक विस्तार से यहाँ दिया गया है: https://www.featurelabs.com/blog/feature-engineering-vs-feature-selection/


0

मुझे रिवर्स ऑर्डर से शुरू करना चाहिए जो कि निष्कर्षण की सुविधा है और इसके लिए सुविधा चयन और आयामीता में कमी की आवश्यकता क्यों है।

फीचर निष्कर्षण के उपयोग के साथ शुरू करना जो मुख्य रूप से वर्गीकरण प्रयोजनों के लिए है। वर्गीकरण एक निर्णय लेने की प्रक्रिया है जिस पर श्रेणी विशेष वस्तु का है। इसके दो चरण i) प्रशिक्षण चरण हैं, जहाँ दिए गए डेटा या ऑब्जेक्ट्स को उनके गुणों को कुछ प्रक्रिया (सुविधा निष्कर्षण) ii) परीक्षण चरण का उपयोग करके सीखा जाता है, जहां अज्ञात वस्तु को पिछले (प्रशिक्षण) चरण में सीखी गई विशेषताओं का उपयोग करके वर्गीकृत किया जाता है।

सुविधा निष्कर्षण जैसा कि नाम से पता चलता है कि डेटा उद्देश्य अंतर्निहित पैटर्न को खोजने के लिए है। यह अंतर्निहित पैटर्न जो उस संबंधित डेटा की विशेषता के रूप में टर्म है। फ़ीचर निष्कर्षण के लिए विभिन्न तरीके मौजूद हैं जैसे कि सपोर्ट वेक्टर मशीन (SVM)।

अब, फीचर एक्सट्रैक्शन को ऐसी सुविधाएँ उत्पन्न करनी चाहिए जो होनी चाहिए

  • मजबूत
  • विशेषक
  • सुविधाओं का इष्टतम सेट

फ़ीचर चयन: डेटा के एक विशिष्ट सेट को एकल फीचर या सुविधाओं के सेट द्वारा प्रस्तुत किया जा सकता है। वर्गीकरण प्रक्रिया में, एक प्रणाली को कम से कम दो वर्गों के लिए प्रशिक्षित किया जाता है। तो प्रशिक्षण प्रणाली या तो एकल सुविधा या सुविधाओं का सेट उत्पन्न करेगी। इन विशेषताओं में ऊपर वर्णित गुण होने चाहिए।

समस्या तब आती है जब प्रत्येक वर्ग के लिए एक सुविधा सेट होती है और कुछ विशेषताओं के बीच सहसंबंध होता है। इसका तात्पर्य उन सहसंबंधी विशेषताओं में से है जो प्रतिनिधित्व के लिए एक या कुछ पर्याप्त हैं और यही वह जगह है जहाँ फीचर चयन चित्र के लिए आता है। इसके अलावा, इन सुविधाओं को फीचर सेट मेमोरी की आवश्यकता में वृद्धि के साथ संग्रहीत करने की आवश्यकता भी बढ़ जाती है।

इसके बाद आयाम में कमी आती है जो कि फीचर चयन प्रक्रिया का हिस्सा नहीं है। यह सुविधाओं के इष्टतम सेट को चुनने की प्रक्रिया है जो डेटा का सबसे अच्छा वर्णन करता है। इसके लिए कई तकनीकें हैं जैसे कि प्रमुख घटक विश्लेषण, स्वतंत्र घटक विश्लेषण, और मैट्रिक्स कारककरण आदि।


-3

उदाहरण के लिए ... यदि आपके पास एक कृषि भूमि है, तो उस भूमि के एक विशेष क्षेत्र का चयन करने से सुविधा का चयन होगा। यदि आपका उद्देश्य उस क्षेत्र में प्रभावित पौधों को खोजने के लिए है, तो यू एक विशेष विशेषता के आधार पर प्रत्येक संयंत्र का निरीक्षण करने की आवश्यकता है जो कि आम है प्रत्येक संयंत्र में असामान्यताएं खोजने के लिए ... इसके लिए आप सुविधा निष्कर्षण पर विचार करेंगे। इस उदाहरण में मूल कृषि भूमि आयामीता में कमी से मेल खाती है।


नहीं, इसका विशेष रूप से स्थानिक डेटा से कोई लेना-देना नहीं है। यह लौकिक, अनुपात-लौकिक, और अन्य प्रकार के डेटा पर भी लागू होता है।
एमरे
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.