फ़ीचर चयन बनाम फ़ीचर निष्कर्षण। कब किसका उपयोग करना है?


16

फ़ीचर निष्कर्षण और फ़ीचर चयन अनिवार्य रूप से डेटा की गतिशीलता को कम करते हैं, लेकिन फ़ीचर निष्कर्षण भी डेटा को अधिक वियोज्य बनाता है, अगर मैं सही हूं।

कौन सी तकनीक दूसरे पर पसंद की जाएगी और कब?

मैं सोच रहा था, क्योंकि सुविधा चयन मूल डेटा को संशोधित नहीं करता है और यह गुण है, मुझे लगता है कि आप सुविधा चयन का उपयोग करेंगे जब यह महत्वपूर्ण है कि जिन विशेषताओं पर आप प्रशिक्षण ले रहे हैं वे अपरिवर्तित रहें। लेकिन मैं सोच भी नहीं सकता कि आप ऐसा कुछ क्यों चाहते हैं ..

जवाबों:


18

Toros द्वारा दिए गए उत्तर में जोड़ना,

ये (गोलियों के नीचे देखें) तीन काफी समान हैं लेकिन सूक्ष्म अंतर के साथ -: (संक्षिप्त और याद रखने में आसान)

  • सुविधा निष्कर्षण और सुविधा इंजीनियरिंग : मॉडलिंग के लिए उपयुक्त सुविधाओं में कच्चे डेटा का परिवर्तन;

  • सुविधा परिवर्तन : एल्गोरिथ्म की सटीकता में सुधार करने के लिए डेटा का परिवर्तन;

  • सुविधा का चयन : अनावश्यक सुविधाओं को हटाना।

बस उसी का एक उदाहरण जोड़ने के लिए,

फ़ीचर निष्कर्षण और इंजीनियरिंग (हम उनसे कुछ निकाल सकते हैं)

  • ग्रंथ (ngrams, word2vec, tf-idf आदि)
  • छवियां (CNN'S, ग्रंथ, q और a)
  • भू-स्थानिक डेटा (अक्षांश, लंबा आदि)
  • दिनांक और समय (दिन, माह, सप्ताह, वर्ष, रोलिंग आधारित)
  • समय श्रृंखला, वेब, आदि
  • आयामी न्यूनीकरण तकनीक (PCA, SVD, Eigen-Faces आदि)
  • शायद हम क्लस्टरिंग (DBSCAN आदि) का उपयोग कर सकते हैं
  • .....(और बहुत सारे)

फ़ीचर ट्रांस्फ़ॉर्मेशन (उन्हें बदलने का मतलब है)

  • सामान्यीकरण और परिवर्तन वितरण (स्केलिंग)
  • सहभागिता
  • लापता मूल्यों में भरना (मंझला भरना आदि)
  • .....(और बहुत सारे)

सुविधा चयन (इन चयनित सुविधाओं पर अपना मॉडल बनाना)

  • सांख्यिकीय दृष्टिकोण
  • मॉडलिंग द्वारा चयन
  • ग्रिड खोज
  • परिणाम का सत्यापन करना
  • .....(और बहुत सारे)

उम्मीद है की यह मदद करेगा...

दूसरों द्वारा साझा किए गए लिंक को देखें। वे काफी अच्छे हैं ...


उसके लिए +1 का अच्छा तरीका।
Toros91

इस समुदाय को
आदित्य

1
यह सच है कि आदमी, मैं अक्टूबर, 2017 से एक सदस्य हूं। मैंने बहुत सी चीजें सीखी हैं। आशा है कि आपके लिए भी ऐसा ही हो। मैं आपके उत्तर पढ़ रहा हूं, वे अच्छे हैं। बीटीडब्ल्यू को उस चीज के लिए खेद है जो आप एसओ पर गए थे। मैं पूरी बात नहीं देख सकता था, लेकिन जैसा कि नील स्लेटर ने कहा था कि आपने अपने कूल को अंत तक बनाए रखा। कीप आईटी उप! हम अभी भी जाने के लिए एक लंबा रास्ता तय करना है। :)
तोरोस 91

ऐसा क्या आदेश है जिसमें इन पर कार्रवाई की जानी चाहिए? डेटा सफाई और डेटा विभाजन के अलावा। 5 में से कौन सा पहला कदम है?
टेक्नाज़ी

डेटा विभाजन बहुत अंत में किया जाता है जब आप यह सुनिश्चित करते हैं कि डेटा मॉडलिंग के लिए भेजे जाने के लिए तैयार है ... और इसके अलावा ऊपर वर्णित चीजों के लिए ऐसा कोई आदेश नहीं है क्योंकि वे काफी बार ओवरलैप करते हैं (फीचर निष्कर्षण, फीचर इंजीनियरिंग, फ़ीचर ट्रांसफ़ॉर्मेशन।) लेकिन फ़ीचर सिलेक्शन निश्चित रूप से डेटा को ट्रेन में विभाजित करने के बाद किया जाता है, क्योंकि बशर्ते कि आप अपने मॉडल मेट्रिक या किसी वैलिडेशन डेटासेट के बराबर चीज़ का इस्तेमाल कर रहे हों (क्रॉस परफ़ॉर्मेंस के लिए परफॉर्मेंस मापने के लिए) या कुछ बराबर हो, तो आप इसे शुरू कर सकते हैं। स्तंभों को गिराना और
आदित्य

5

जैसा कि आदित्य ने कहा, 3 फीचर-संबंधित शब्द हैं जो कभी-कभी एक-दूसरे के साथ भ्रमित होते हैं। मैं उनमें से हर एक को सारांश स्पष्टीकरण देने की कोशिश करूंगा:

  • फ़ीचर निष्कर्षण: डेटा से उन सुविधाओं का सृजन जो एक ऐसे प्रारूप में हैं जिनका प्रत्यक्ष रूप से विश्लेषण करना मुश्किल है / जो सीधे तुलना करने योग्य नहीं हैं (जैसे चित्र, समय-श्रंखला, आदि) समय-श्रृंखला के उदाहरण में, कुछ सरल सुविधाएँ हो सकती हैं उदाहरण: समय-श्रृंखला की अवधि, अवधि, माध्य मान, एसटीडी, आदि।
  • फ़ीचर परिवर्तन: पुराने के आधार पर नए बनाने के लिए मौजूदा सुविधाओं का परिवर्तन। आयामी कमी के लिए एक बहुत लोकप्रिय तकनीक का उपयोग किया जाता है प्रिंसिपल कंपोनेंट एनालिसिस (pca) जो कुछ ओर्थोगोनल परिवर्तन का उपयोग करता है ताकि वैरिएबल के प्रारंभिक सेट के आधार पर रैखिक गैर-सहसंबद्ध चर का एक सेट का उत्पादन किया जा सके।
  • फ़ीचर चयन: मौजूदा सुविधाओं के एक सेट से, लक्ष्य चर पर उच्चतम "महत्व" / प्रभाव के साथ सुविधाओं का चयन। यह विभिन्न तकनीकों के साथ किया जा सकता है: जैसे रैखिक प्रतिगमन, निर्णय पेड़, "महत्व" भार (जैसे फिशर स्कोर, रिलीफ) की गणना।

यदि केवल एक चीज जिसे आप प्राप्त करना चाहते हैं, वह मौजूदा डेटासेट में आयामीता में कमी है, तो आप सुविधा परिवर्तन या सुविधा चयन विधियों का उपयोग कर सकते हैं। लेकिन अगर आपको उन विशेषताओं की भौतिक व्याख्या जानने की जरूरत है जिन्हें आप "महत्वपूर्ण" के रूप में पहचानते हैं या आप अपने विश्लेषण के लिए एकत्र किए जाने वाले डेटा की मात्रा को सीमित करने की कोशिश कर रहे हैं (आपको सुविधा परिवर्तन के लिए सभी प्रारंभिक सेट सुविधाओं की आवश्यकता है), तब केवल सुविधा चयन ही काम कर सकता है।

आप नीचे दिए गए लिंक में फ़ीचर चयन और आयामी कमी पर अधिक जानकारी पा सकते हैं :


4

मुझे लगता है कि वे 2 अलग चीजें हैं,

सुविधा चयन से शुरू करें :

इस तकनीक का उपयोग उन विशेषताओं को चुनने के लिए किया जाता है जो लक्ष्य चर का सबसे अधिक विवरण देते हैं (लक्ष्य चर के साथ सहसंबंध है)। यह परीक्षण डेटा पर मॉडल लागू होने से ठीक पहले चलाया जाता है।

इसे बेहतर तरीके से समझाने के लिए आइए एक उदाहरण से जानें: 10 फ़ीचर और 1 टारगेट वेरिएबल हैं, 9 फीचर्स में टार्गेट वेरिएबल का 90% और 10 फीचर्स मिलकर 91% टार्गेट वेरिएबल बताते हैं। इसलिए 1 वैरिएबल में बहुत फर्क नहीं हो रहा है इसलिए आप मॉडलिंग से पहले इसे हटा देते हैं (यह व्यवसाय के लिए भी व्यक्तिपरक है)। मुझे प्रिडिक्टर इंपोर्टेंस भी कहा जा सकता है।

अब फ़ीचर एक्सट्रैक्शन के बारे में बात करते हैं ,

जिसका उपयोग Unsupervised Learning, Images में कंट्रोस का निष्कर्षण, एक टेक्स्ट से Bi-gr का निष्कर्षण, बोले गए टेक्स्ट की रिकॉर्डिंग से फोनमेन्स का निष्कर्षण करने के लिए किया जाता है। जब आप डेटा के बारे में कुछ भी नहीं जानते हैं जैसे कोई डेटा डिक्शनरी नहीं है, तो बहुत सी विशेषताएं जिसका अर्थ है कि डेटा समझने योग्य प्रारूप में नहीं है। फिर आप कुछ विशेषताओं को प्राप्त करने के लिए इस तकनीक को लागू करने का प्रयास करते हैं जो कि अधिकांश डेटा की व्याख्या करता है। फ़ीचर निष्कर्षण में सुविधाओं का एक परिवर्तन शामिल होता है, जो अक्सर प्रतिवर्ती नहीं होता है क्योंकि कुछ जानकारी आयामी कमी की प्रक्रिया में खो जाती है।

आप सुविधाओं को निकालने के लिए दिए गए डेटा पर फ़ीचर एक्सट्रैक्शन लागू कर सकते हैं और फिर सब्मिट का चयन करने के लिए लक्ष्य चर के संबंध में फ़ीचर चयन लागू कर सकते हैं जो अच्छे परिणामों के साथ एक अच्छा मॉडल बनाने में मदद कर सकता है।

बेहतर समझ के लिए आप इन लिंक -1 , लिंक -2 से गुजर सकते हैं ।

हम उन्हें R, पायथन, SPSS में लागू कर सकते हैं।

अगर कोई और स्पष्टीकरण चाहिए तो मुझे बताएं।


3

दोनों बहुत अलग हैं: फीचर चयन वास्तव में आयामों को कम करता है, लेकिन सुविधा निष्कर्षण आयाम जोड़ता है जो अन्य विशेषताओं से गणना की जाती है।

पैनल या टाइम सीरीज़ डेटा के लिए, आम तौर पर डेटाइम वेरिएबल होता है, और कोई उस तारीख पर ही निर्भर वेरिएबल को प्रशिक्षित नहीं करना चाहता है, जो भविष्य में नहीं होता है। इसलिए आपको डेटाइम: फीचर को खत्म करना चाहिए।

दूसरी ओर, कार्यदिवस / सप्ताहांत का दिन बहुत प्रासंगिक हो सकता है, इसलिए हमें कार्यदिवस से कार्यदिवस की स्थिति की गणना करने की आवश्यकता है: सुविधा निष्कर्षण।


0

मशीन लर्निंग प्रोजेक्ट की सफलता का एक महत्वपूर्ण हिस्सा सुविधाओं को प्रशिक्षित करने का एक अच्छा सेट लेकर आ रहा है। फीचर इंजीनियरिंग नामक इस प्रक्रिया में शामिल हैं:

• फीचर का चयन: मौजूदा सुविधाओं के बीच प्रशिक्षित करने के लिए सबसे उपयोगी सुविधाओं का चयन।
• फीचर निष्कर्षण: एक अधिक उपयोगी एक का उत्पादन करने के लिए मौजूदा सुविधाओं के संयोजन (जैसा कि हमने पहले देखा था, आयामीता एल्गोरिदम मदद कर सकता है)।
• नए डेटा को इकट्ठा करके नई सुविधाओं का निर्माण

उद्धरण: "साइकिट-लर्न के साथ मशीन लर्निंग पर एक हाथ, केरस और टेन्सरफ्लो - ऑरेली गेरन"

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.