गहरी सीख: मुझे कैसे पता चलेगा कि कौन से चर महत्वपूर्ण हैं?

20

तंत्रिका नेटवर्क लिंगो के संदर्भ में (y = वजन * x + पूर्वाग्रह) मुझे कैसे पता चलेगा कि कौन से चर दूसरों की तुलना में अधिक महत्वपूर्ण हैं?

मेरे पास 10 इनपुट के साथ एक तंत्रिका नेटवर्क है, 20 नोड्स के साथ 1 छिपी हुई परत, और 1 आउटपुट परत है जिसमें 1 नोड है। मुझे यकीन नहीं है कि कैसे पता चलता है कि कौन से इनपुट चर अन्य चर की तुलना में अधिक प्रभावशाली हैं। मैं सोच रहा हूं कि यदि कोई इनपुट महत्वपूर्ण है, तो उसका पहली परत से अत्यधिक भारित संबंध होगा, लेकिन वजन सकारात्मक या नकारात्मक हो सकता है। इसलिए मैं जो कुछ भी कर सकता हूं वह इनपुट के भार का पूर्ण मूल्य है और उन्हें योग करें। अधिक महत्वपूर्ण निविष्टियाँ अधिक मात्रा में होंगी।

इसलिए उदाहरण के लिए, यदि बालों की लंबाई इनपुट में से एक है, तो इसमें अगली परत में प्रत्येक नोड के लिए 1 कनेक्शन होना चाहिए, इसलिए 20 कनेक्शन (और इसलिए 20 वजन)। क्या मैं प्रत्येक वजन का पूर्ण मूल्य ले सकता हूं और उन्हें एक साथ जोड़ सकता हूं?

— user1367204
स्रोत

3

आप निश्चित रूप से ऐसा कर सकते हैं, लेकिन यह स्पष्ट नहीं है कि वास्तव में इसका मतलब क्या है "इसके अलावा सभी कनेक्शन पर इस चर के लिए सभी भार का योग"। इसे "महत्व" कहना पूरी तरह से मनमाना है।

— मैथ्यू

1

मैं बस ऐसी कोई जानकारी चाहता हूं जो एक चर के महत्वपूर्ण का सुझाव दे, और मुझे लगता है कि यह एक अच्छा तरीका हो सकता है।

— user1367204 23

16

आप जो वर्णन करते हैं वह वास्तव में तंत्रिका-शुद्ध आदानों के महत्व को निर्धारित करने का एक मानक तरीका है। ध्यान दें कि इसके लिए काम करने के लिए, हालांकि, इनपुट चर को किसी तरह से सामान्य किया जाना चाहिए। अन्यथा इनपुट वैरिएबल से संबंधित वज़न जो बड़े मान रखते हैं, आनुपातिक रूप से छोटे होंगे। विभिन्न सामान्यीकरण योजनाएं हैं, उदाहरण के लिए एक चर के माध्य को घटाना और इसके मानक विचलन द्वारा विभाजित करना। यदि चर को पहले स्थान पर सामान्य नहीं किया गया था, तो आप महत्वपूर्ण गणना में स्वयं भार पर एक सुधार कर सकते हैं, जैसे कि चर के मानक विचलन द्वारा गुणा करना।

। $I_i = \sigma_i\sum\limits_{j = 1}^{n_\text{hidden}}\left|w_{ij}\right|$

यहाँ का मानक विचलन है वें इनपुट, है वें इनपुट के महत्व, है वजन जोड़ने करने के लिए वें इनपुट पहली परत में वें छिपा नोड, और संख्या है पहली परत में छिपे हुए नोड्स के। $\sigma_i$ $i$ $I_i$ $i$ $w_{ij}$ $i$ $j$ $n_\text{hidden}$

एक और तकनीक है, इनपुट पर औसतन प्रश्न में इनपुट के संबंध में न्यूरल-नेट मैपिंग के व्युत्पन्न का उपयोग करना।

$I_i = \sigma_i\left\langle\left|\frac{dy}{dx_i}\right|\right\rangle$

यहाँ , वें इनपुट है, आउटपुट है और इनपुट के वेक्टर के संबंध में अपेक्षा मान लिया जाता है । $x_i$ $i$ $y$ $\mathbf{x}$

— सैम मारिनेली
स्रोत

क्या यह काम करेगा यदि मैं केवल इनपुट और पहली छिपी परत के बीच कनेक्शन का उपयोग करता हूं (बजाय सभी छिपी परतों का उपयोग करने के)?

— user1367204

आपको केवल पहली छिपी हुई परत का उपयोग करना चाहिए। एक परत के बाद, दूसरे वज़न एक इनपुट से दूसरे से अधिक नहीं बंधे हैं। मैंने इसे स्पष्ट करने के लिए उत्तर को थोड़ा संपादित किया।

— सैम मारिनेली

मुझे एक और दृष्टिकोण याद आया और उसने उत्तर में जोड़ा।

— सैम मारिनेली

11

कुछ हद तक प्रभावी लेकिन प्रभावी समाधान:

अपने इनपुट सुविधाओं में से एक के लिए एक निरंतर का उपयोग करके एक इनपुट को 'ड्रॉप' करने का प्रयास करें। फिर, प्रत्येक संभावित मामलों के लिए नेटवर्क को प्रशिक्षित करें और देखें कि आपकी सटीकता कैसे गिरती है। महत्वपूर्ण जानकारी समग्र सटीकता को सबसे बड़ा लाभ प्रदान करेगी।

— rhadar
स्रोत

यह निश्चित रूप से एक संभावना है।

— स्मॉलचेयर

6

हालांकि इसमें एक गड़बड़ी है: भले ही कोई विशेषता अत्यंत महत्वपूर्ण हो, अगर पहले से कोई अन्य सुविधा अत्यधिक सहसंबद्ध है, तो न तो आपके मानदंड से महत्वपूर्ण माना जाएगा (पहले की कमी को बाद की उपस्थिति से मुआवजा दिया जाता है, जबकि कम जानकारीपूर्ण लेकिन अधिक 'अद्वितीय' विशेषताएं इस तरह से अधिक महत्वपूर्ण दिखाई देंगी)

— फायरबग

इसे कुछ समय में

— अप्लाशन

7

$10$ $5$

उथले नेटवर्क के लिए, यह चर महत्व को परिभाषित करने का एक उदाहरण देता है।

वास्तव में गहरे नेटवर्क के लिए, लोग चर महत्व के बारे में बहुत अधिक बात नहीं करते हैं। क्योंकि इनपुट कच्चे स्तर की विशेषताएं हैं, जैसे कि एक छवि में पिक्सेल।

— हतौ दू
स्रोत

मैंने अपनी टिप्पणी को संपादित करने के लिए कहा कि मेरा क्या मतलब है। मेरा मतलब पहली परत में 20 नोड्स थे, 5 नोड्स नहीं। उथले / गहरे जालों को भेदने के लिए बढ़िया हिस्सा और धन्यवाद।

— user1367204

9

@ hxd1011 पांडित्यपूर्ण अशिष्टता नहीं है, लेकिन गहरी का अर्थ है अधिक परतों में हजारों छिपी हुई इकाइयाँ नहीं :)।

— राफेल

3

सबसे कि Ive इस बारे में पाया अलंकृत पर सूचीबद्ध है इस साइट अधिक विशेष रूप से आप देख सकते हैं इस । यदि आप केवल रैखिक मॉडल के बारे में बात करते हैं, तो आपको व्याख्या करने में सक्षम बनाने के लिए वज़न को सामान्य करना होगा, लेकिन यहां तक कि यह उल्लेखित लिंक पर इस पर अधिक भ्रामक हो सकता है। कुछ लोगों ने इनपुट्स के महत्व को समझने के लिए वेट के जटिल कार्य करने की कोशिश की (गार्सन, गेडोन और मिल्ने के) लेकिन यहां तक कि यह भ्रामक भी हो सकता है जब आप पहली बार मेरे द्वारा बताए गए लिंक को स्क्रॉल करते हैं तो आप इसके बारे में और अधिक जानकारी प्राप्त कर सकते हैं। सामान्य तौर पर मैं नमक के एक दाने के साथ परिणामों की व्याख्या करने के लिए आगे बढ़ने की सलाह दूंगा।

@ rhadar के उत्तर से सहमत होंगे, लेकिन उस इनपुट के लिए माध्य मान का उपयोग करके किसी भी निरंतर प्रयास का उपयोग करने के बजाय इसे जोड़ना चाहेंगे और नेटवर्क को पुनः प्राप्त करना न भूलें।

पुनश्च: क्षमा करें अधिक लिंक पोस्ट नहीं कर सकता या यहाँ टिप्पणी बहुत प्रतिष्ठा नहीं है।

— वैभव अरोड़ा
स्रोत

1

यह देखते हुए कि आपके पास है:

एक वर्गीकरण कार्य
एक प्रशिक्षित मॉडल
सामान्यीकृत विशेषताएं (0 से 1 के बीच)

क्या किसी ने कोशिश की है:

पक्षपात को शून्य करना
हर बार पास के रूप में एक गर्म वेक्टर की सुविधा है जहां सभी सुविधाएँ एक को छोड़कर शून्य हैं।
आउटपुट की जांच करें।

उस स्थिति में, मुझे लगता है कि आउटपुट फीचर के "महत्व" को निर्दिष्ट करने वाला एक नंबर होगा क्योंकि यह आउटपुट नेटवर्क के अंदर इस 1 सिग्नल के पथ के आउटपुट का भी प्रतिनिधित्व करेगा।

यह एक भूलभुलैया के अंदर केवल एक लाइटबल्ब को जलाने और बाहर निकलने में प्रकाश को मापने के समान है।

— ΔημΔηρΔη Παππάς
स्रोत

मुझे नहीं लगता कि इससे बहुत मदद मिलेगी। आप जो आकलन करना चाहते हैं, उस इनपुट की भिन्नता आउटपुट को कितना प्रभावित करेगी (स्वयं या अन्य विशेषताओं के साथ संयोजन में)

— elachell