गहरी शिक्षा का उपयोग करके सुविधा का चयन?


9

मैं गहरे मॉडल का उपयोग करके प्रत्येक इनपुट सुविधा के महत्व की गणना करना चाहता हूं।

लेकिन मुझे गहरी सीखने - गहरी सुविधा चयन का उपयोग करके फीचर चयन के बारे में केवल एक पेपर मिला । वे प्रत्येक फ़ीचर से जुड़ी नोड्स की एक परत सीधे पहली छिपी हुई परत से पहले डालते हैं।

मैंने सुना है कि इस तरह के काम के लिए गहरे विश्वास नेटवर्क (डीबीएन) का उपयोग किया जा सकता है। लेकिन मुझे लगता है कि, डीबीएन पीसीए जैसी सुविधाओं का केवल सार (क्लस्टर) प्रदान करता है, इसलिए हालांकि यह प्रभावी रूप से आयाम को कम कर सकता है, मुझे आश्चर्य है कि यदि प्रत्येक सुविधा के महत्व (वजन) की गणना करना संभव है।

क्या डीबीएन के साथ फीचर के महत्व को शांत करना संभव है? और क्या गहरी सीखने का उपयोग करके फीचर चयन के लिए अन्य ज्ञात विधियां हैं?

जवाबों:


10

एक दृष्टिकोण जिसे आप लगभग किसी भी भविष्यवाणी मॉडल के लिए ले सकते हैं वह है कि पहले अपने मॉडल को प्रशिक्षित करें और इसकी सटीकता का पता लगाएं, फिर एक इनपुट के लिए इसमें कुछ शोर जोड़ें और सटीकता को फिर से जांचें। प्रत्येक इनपुट के लिए इसे दोहराएं और देखें कि शोर भविष्यवाणियों को कैसे खराब करता है। यदि कोई इनपुट महत्वपूर्ण है तो शोर के कारण होने वाली अतिरिक्त अनिश्चितता हानिकारक होगी।

याद रखें कि शोर के विचरण को प्रश्न में इनपुट के प्रसरण के समानुपाती होना चाहिए।

बेशक शोर यादृच्छिक है और आप नहीं चाहते कि एक इनपुट यादृच्छिक प्रभाव के कारण महत्वहीन दिखाई दे। यदि आपके पास कुछ प्रशिक्षण उदाहरण हैं, तो प्रत्येक प्रशिक्षण उदाहरण के लिए सटीकता में परिवर्तन की बार-बार गणना पर विचार करें, जिसमें हर बार एक नया शोर जोड़ा जाता है।

टिप्पणियों के जवाब में:

यह विश्लेषण पूरी तरह से एक चर को हटाकर भी किया जा सकता है लेकिन इसमें शोर जोड़ने की तुलना में कुछ डाउनसाइड हैं।

  • मान लीजिए कि आपका एक इनपुट निरंतर है, यह एक पूर्वाग्रह की तरह कार्य करता है, इसलिए इसकी भविष्यवाणी में कुछ भूमिका है लेकिन यह आपकी जानकारी को जोड़ता है। यदि आपने इस इनपुट को पूरी तरह से हटा दिया है, तो भविष्यवाणी कम सटीक हो जाएगी क्योंकि पेसेप्ट्रॉन गलत पूर्वाग्रह प्राप्त कर रहे हैं। इससे इनपुट दिखता है जैसे यह भविष्यवाणी के लिए महत्वपूर्ण है, भले ही इसमें कोई जानकारी न हो। शोर जोड़ने से यह समस्या नहीं होगी। यह पहला बिंदु कोई समस्या नहीं है यदि आपने शून्य इनपुट के लिए सभी इनपुट को मानकीकृत किया है।

  • यदि दो इनपुट सहसंबद्ध हैं तो एक इनपुट की जानकारी दूसरे के बारे में जानकारी देती है। एक मॉडल को अच्छी तरह से प्रशिक्षित किया जा सकता है यदि आपने सहसंबंधित इनपुटों में से केवल एक का उपयोग किया है तो आप चाहते हैं कि विश्लेषण यह पता करे कि एक इनपुट सहायक नहीं है। यदि आपने अभी इनपुट में से एक को हटा दिया है, तो पहले किए गए बिंदु की तरह, भविष्यवाणी सटीकता बहुत कम हो जाएगी जो इंगित करती है कि यह महत्वपूर्ण है। हालाँकि, शोर जोड़ने से यह समस्या नहीं होगी।


2
ह्यूज, मैं फीचर को हटाकर ऐसा करने से परिचित हूं। शोर के साथ फीचर को बदलने के क्या फायदे हैं?
DaL

@ मेरा मतलब यह नहीं था कि सुविधा को पूरी तरह से शोर के साथ बदल दिया जाना चाहिए, बस कुछ शोर को जोड़ा जाना चाहिए। एक विशेषता को हटाने से महत्वहीन विशेषताएं महत्वपूर्ण हो सकती हैं यदि उनके पास शून्य-शून्य का मतलब है या यदि वे अन्य चर के साथ सहसंबद्ध हैं। मैंने समझाने के लिए अपना उत्तर संपादित किया है।
ह्यूग

टिप्पणी के लिये आपका धन्यवाद। लेकिन वास्तव में मेरे पास कई फीचर सेट (इनपुट्स) हैं और उनमें से कई सहसंबद्ध हैं। इस मामले में, शायद कम्प्यूटेशनल समय n के करीब होगा! जैसा कि मुझे संयोजनों पर विचार करने की आवश्यकता है। इसलिए मैं डीप लर्निंग-बेस्ड मॉडल लागू करना चाहता हूं जो कि कॉम्प्लेक्स फीचर कॉम्बिनेशन पर विचार कर सके।
z991

@ z991 मल्टीवीरेबल लीनियर रिग्रेशन में वैसी ही समस्या हो सकती है जो वैरिएबल के साथ हो सकती है जो पूरी तरह से सहसंबद्ध नहीं है। अक्सर हम प्रत्येक चर को एक समय में एक परिचय देते हैं या सभी चर का उपयोग करते हैं और उन्हें एक बार में हटा देते हैं। बस सबसे अच्छा संयोजन की गणना करने का कोई तरीका नहीं है। यदि यह रैखिक प्रतिगमन के लिए हल नहीं किया गया है तो आपको एनएन के लिए कोई समाधान नहीं मिलेगा। आप एक ही दृष्टिकोण ले सकते हैं और एक बार में चर हटा सकते हैं और n से बच सकते हैं! गणना।
ह्यूज

1
@ हैग टिप्पणी के लिए धन्यवाद। मैं आपसे सहमत हुँ। लेकिन जो मैं वास्तव में जानना चाहता था, वह यह था कि गहरी शिक्षा, या तंत्रिका नेटवर्क के साथ प्रत्येक विशेषता के महत्व की गणना कैसे की जाए। चूंकि वे कई फीचर एक्सट्रैक्ट (छिपी हुई परतें) का उपयोग करते हैं, इसलिए मेरे लिए फीचर महत्व का विश्लेषण करना मुश्किल था। प्रत्येक विशेषता के पूरे वजन की गणना करना संभव है, लेकिन यह काफी जटिल और समय लेने वाला लगता है। लिंक किए गए पेपर ने एक एकल रैखिक परत का उपयोग किया और मुझे लगता है कि यह एक अच्छा विचार है। मैं नेटवर्क पर फीचर के महत्व का विश्लेषण करने के लिए अन्य बेहतर तरीकों को जानना चाहता था।
14:99 पर z991

2

शायद इस पेपर की जाँच करें: https://arxiv.org/pdf/1712.08645.pdf

वे सुविधाओं को रैंक करने के लिए ड्रॉपआउट का उपयोग करते हैं।

... इस काम में हम इनपुट फीचर लेयर पर ड्रॉपआउट कॉन्सेप्ट का उपयोग करते हैं और संबंधित फीचर वार ड्रॉपआउट रेट को ऑप्टिमाइज़ करते हैं। चूंकि प्रत्येक सुविधा को स्टोकेस्टिक रूप से हटा दिया जाता है, इसलिए हमारा तरीका बैगिंग (हो, 1995) की सुविधा के समान प्रभाव पैदा करता है और कोरसैटेड सुविधाओं को रैंक करने के लिए अन्य गैर-बैगिंग विधियों जैसे कि LASSO से बेहतर है। हम अपने तरीके की तुलना रैंडम फॉरेस्ट (RF), LASSO, ElasticNet, सीमांत रैंकिंग और DNN में कई तकनीकों को महत्व देने के लिए करते हैं जैसे डीप फीचर सिलेक्शन और विभिन्न हेयुरेटिक्स ...


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.