तंत्रिका नेटवर्क में पूर्वाग्रह नोड का महत्व


19

मैं यह जानने के लिए उत्सुक हूं कि आधुनिक तंत्रिका नेटवर्क की प्रभावशीलता के लिए पूर्वाग्रह नोड कितना महत्वपूर्ण है। मैं आसानी से समझ सकता हूं कि यह केवल कुछ इनपुट चर के साथ उथले नेटवर्क में महत्वपूर्ण हो सकता है। हालांकि, आधुनिक तंत्रिका जाल जैसे कि गहरी शिक्षा में अक्सर यह तय करने के लिए बड़ी संख्या में इनपुट चर होते हैं कि क्या एक निश्चित न्यूरॉन ट्रिगर होता है। बस उन्हें हटाने से होगा, जैसे, LeNet5 या ImageNet पर कोई वास्तविक प्रभाव पड़ता है?


@gung - मैंने देखा है कि आपने "पूर्वाग्रह नोड" वाक्यांश का उपयोग करने के लिए शीर्षक संपादित किया है। मैं उत्सुक हूं कि आप उस शीर्षक को क्यों पसंद करते हैं? मैंने उस उपयोग को पहले कभी नहीं सुना है। इसके अलावा, यह शब्द "नोड" का उपयोग करने के लिए भ्रामक लगता है जब पूर्वाग्रह एक नेटवर्क में एक अलग नोड नहीं होता है।
पीर

2
यदि आप इसे नापसंद करते हैं, तो आप संपादन w / my माफी को वापस रोल कर सकते हैं। मैंने हमेशा सोचा था कि नाम काफी मानक था, हालांकि मैंने वर्षों में w / ANN नहीं खेला है और कुछ लोग इसे "पूर्वाग्रह न्यूरॉन" कहते हैं। एफडब्ल्यूआईडब्ल्यू, "पूर्वाग्रह" आंकड़ों / एमएल में थोड़ा अस्पष्ट है; यह आमतौर पर एक अनुमानक को संदर्भित करता है जिसका नमूना वितरण पैरामीटर के वास्तविक मूल्य पर केंद्रित नहीं होता है, या एक भविष्य कहनेवाला फ़ंक्शन / पूर्वानुमानित मूल्य जो वास्तविक फ़ंक्शन / मतलब आदि से भिन्न होता है, जबकि पूर्वाग्रह नोड का एक विशिष्ट हिस्सा है एएनएन।
गूँग - मोनिका

2
यह एक वास्तविक नोड है - कम से कम इस अर्थ में कि उनमें से कोई भी नेटवर्क में है। जैसे, इस चित्र में काले नोड्स देखें ।
गंग - मोनिका

ठीक है, यह समझ में आता है - यह सच है कि "पूर्वाग्रह" काफी अस्पष्ट है। स्पष्टीकरण के लिए धन्यवाद।
पीर

1
न्यूरॉन्स के लिए पूर्वाग्रह इकाई में सहज गोलीबारी लगती है, यह प्रकृति में होता है।
user3927612

जवाबों:


15

पूर्वाग्रह को हटाने से निश्चित रूप से प्रदर्शन प्रभावित होगा और यहाँ क्यों ...

प्रत्येक न्यूरॉन एक सरल रसद प्रतिगमन की तरह है और आप । इनपुट मानों को वज़न से गुणा किया जाता है और पूर्वाग्रह सिग्मॉइड फ़ंक्शन (टैनह आदि) में स्क्वैशिंग के प्रारंभिक स्तर को प्रभावित करता है, जिसके परिणामस्वरूप वांछित गैर-रैखिकता होती है।y=σ(Wx+b)

उदाहरण के लिए, मान लें कि आप आग में एक न्यूरॉन चाहते जब सभी इनपुट पिक्सल काले एक्स 0 । अगर कोई पूर्वाग्रह कोई बात नहीं क्या वजन है डब्ल्यू आप, दे दिया है समीकरण y = σ ( डब्ल्यू एक्स ) न्यूरॉन हमेशा होगा आग y 0.5y1x0Wy=σ(Wx)y0.5

इसलिए, पूर्वाग्रह की शर्तों को हटाकर आप अपने तंत्रिका नेटवर्क के प्रदर्शन को काफी कम कर देंगे।


2
धन्यवाद, यह कुछ समझ में आता है। मुझे लगता है कि भले ही अधिकांश आधुनिक नेट सक्रियण फ़ंक्शन के रूप में ReLU का उपयोग करते हैं (उदाहरण के कागजात। nips.cc/paper/4824-imagenet देखें ), यह तब भी प्रासंगिक हो सकता है जब सभी इनपुट पिक्सल काले होने पर नेट को आग लगाने की आवश्यकता हो। ReLU को f (x) = मैक्स (0, x) के रूप में परिभाषित किया गया है।
पीर

बिल्कुल सही! यह वही मामला है ...
यानिस असैल

4
y1x0x0y0.5

2
जबकि मैं सिद्धांत से सहमत हूं, यह इंगित करने योग्य है कि आधुनिक बड़े जाल के साथ एक ऑल-जीरो इनपुट प्राप्त करने की संभावना नगण्य है। गहरे जाल सबसे अधिक संभावना एक न्यूरॉन उत्पादन के बारे में परवाह नहीं होगा - - यह भी धारणा है कि एक शुद्ध एक 1 सक्रिय करना चाहते हैं पर निर्भर करता है इस आंशिक रूप से कारण है कि छोड़ने वालों के जाल को नियमित करने के लिए बहुत लोकप्रिय है।
मैक्स गॉर्डन

2
@MaxGordon सही है। यह उत्तर इस प्रश्न पर लागू नहीं होता है। एक बड़े नेटवर्क से पूर्वाग्रह को हटाने की कोशिश करें और आप देखेंगे कि इसमें बहुत कम अंतर है।
नील जी

10

मैं आपके प्रश्न के विशेष संदर्भ में अन्य उत्तर से असहमत हूं। हां, एक छोटे नेटवर्क में एक पूर्वाग्रह नोड मायने रखता है। हालांकि, एक बड़े मॉडल में, पूर्वाग्रह इनपुट को हटाने से बहुत कम अंतर पड़ता है क्योंकि प्रत्येक नोड अपने सभी इनपुटों के औसत सक्रियण से एक पूर्वाग्रह नोड बना सकता है, जो कि बड़ी संख्या के नियम से लगभग सामान्य होगा। पहली परत पर, ऐसा होने की क्षमता आपके इनपुट वितरण पर निर्भर करती है। उदाहरण के लिए MNIST के लिए, इनपुट की औसत सक्रियता लगभग स्थिर है।

एक छोटे नेटवर्क पर, बेशक आपको पूर्वाग्रह इनपुट की आवश्यकता होती है, लेकिन एक बड़े नेटवर्क पर, इसे हटाने से लगभग कोई फर्क नहीं पड़ता है। (लेकिन, आप इसे क्यों हटाएंगे?)


3

मैं @ NeilG के उत्तर पर टिप्पणी करता / करती हूं यदि मेरे पास पर्याप्त प्रतिष्ठा होती, लेकिन अफसोस ...

मैं इस पर नील, आपसे असहमत हूं। तुम कहो:

... इसके सभी आदानों की औसत सक्रियता, जो बड़ी संख्या के कानून द्वारा लगभग सामान्य होगी।

मैं इसके खिलाफ तर्क दूंगा, और कहूंगा कि बड़ी संख्या के कानून की आवश्यकता है कि सभी अवलोकन एक-दूसरे से स्वतंत्र हों। यह तंत्रिका जाल जैसी किसी चीज में बहुत ज्यादा नहीं है। भले ही प्रत्येक सक्रियण सामान्य रूप से वितरित किया जाता है, यदि आप एक इनपुट मान को असाधारण रूप से उच्च होने के रूप में देखते हैं, तो यह अन्य सभी इनपुट की संभावना को बदल देता है। इस प्रकार, "अवलोकन", इस मामले में, इनपुट स्वतंत्र नहीं हैं, और बड़ी संख्या का कानून लागू नहीं होता है।

जब तक मैं आपका जवाब नहीं समझ रहा हूँ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.