डोमेन-अज्ञेय फीचर इंजीनियरिंग जो अर्थ अर्थ को बरकरार रखती है?


12

फ़ीचर इंजीनियरिंग अक्सर मशीन लर्निंग का एक महत्वपूर्ण घटक है ( 2010 में केडीडी कप जीतने के लिए इसका भारी उपयोग किया गया था )। हालाँकि, मुझे लगता है कि ज्यादातर इंजीनियरिंग तकनीकों की सुविधा है

  • अंतर्निहित विशेषताओं के किसी भी सहज अर्थ को नष्ट करना या
  • किसी विशेष डोमेन या विशेष प्रकार की सुविधाओं के लिए बहुत विशिष्ट हैं।

पूर्व का एक क्लासिक उदाहरण प्रमुख घटक विश्लेषण होगा। मुझे यह प्रतीत होता है कि किसी भी विषय-वस्तु के जानकारों के पास उन विशेषताओं को मुख्य घटकों में परिवर्तित करने से सुविधाओं का विनाश हो जाएगा।

कॉन्ट्रास्ट कि "महीने के दिन" और "सप्ताह के दिन" के लिए तारीखों को सुविधाओं में बदलने की एक सरल तकनीक के साथ। नई विशेषताओं में अंतर्निहित अर्थ अभी भी बरकरार है, लेकिन जाहिर है कि यह विशेष तकनीक केवल तिथियों के लिए लागू होती है, न कि मनमानी सुविधाओं के लिए।

क्या ऐसी कोई सुविधा निकाय तकनीक है जो मनमाने ढंग से डोमेन (या कम से कम विविध प्रकार के डोमेन) पर लागू होने के दौरान अंतर्निहित विशेषताओं के अर्थ को नष्ट नहीं करती है?


2
पीसीए को कभी-कभी सुविधाओं के लिए सहज अर्थ खोजने के लिए उपयोग किया जा सकता है - उदाहरण के लिए eigenfaces
tdc

क्या आप मन में मौजूद डेटा के (और) उदाहरण दे सकते हैं? यदि आप अपने आवेदन के बारे में अधिक विशिष्ट हो सकते हैं (यहां तक ​​कि कुछ मनमाने उदाहरण भी) तो (अधिक) सटीक उत्तर देना आसान होगा।
१।

1
@Dov अच्छी तरह से पूरे बिंदु यह है कि (आदर्श रूप से) मैं ऐसा कुछ चाहूंगा जो किसी भी संरचित, सारणीबद्ध डेटासेट के लिए काम कर सके (जिसमें डेटापॉइंट और विशेषताएं हैं)। तो यह बिक्री डेटा, वित्तीय डेटा, ड्रग डिस्कवरी डेटा, बेसबॉल डेटा, आदि हो सकता है
माइकल मैकगोवन

जवाबों:


7

मैं एक अपघटन विधि से अवगत हूं (लेकिन शायद और भी हैं ...) जो आपके द्वारा वर्णित परिदृश्यों में उपयोगी हो सकता है। यह 2D-PCA की तरह है - एक उच्च क्रम अपघटन विधि जहां अपघटन (अर्थात कारक) का कुछ अर्थ होता है। आप उदाहरण देख सकते हैं और इसके बारे में यहां और यहां पढ़ सकते हैं और यहां प्रयास कर सकते हैं


+ कृपया मुझे क्षमा करें कि मैं एक देशी अंग्रेजी वक्ता नहीं हूं :)
डो।

मुझे जो बताया गया था, उससे पीसीए का अंतिम चरण प्रिंसिपल इटोमेननेट के लिए अर्थ खोजने का प्रयास होना चाहिए।
जेबी

5

रीस्ट्रिक्टेड बोल्ट्जमैन मशीन का उपयोग करने वाले हाल के गहरे शिक्षण विधियों ने कई डेटा प्रकारों (ऑडियो, चित्र, पाठ) पर अच्छी विशेषताएं दिखाई हैं।

चूंकि ये विधियां एक जनरेटिव मॉडल बनाती हैं, आप अक्सर मॉडल से वास्तव में अच्छे नमूने उत्पन्न कर सकते हैं।

Hinton के प्रकाशनों की जाँच करें। http://www.cs.toronto.edu/~hinton/

ये विधियां पूरी तरह से सामान्य नहीं हैं (प्रत्येक डेटा पर समान कोड चलाएं), लेकिन अंतर्निहित मॉडल आमतौर पर समान है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.