क्या सामान्य तंत्रिका नेटवर्क सामान्यीकरण के बिना गुणा गुणन कार्य कर सकता है?


27

मान लें कि हम सरल f = x * yडीप न्यूरल नेटवर्क का उपयोग करके सरलता के लिए प्रतिगमन करना चाहते हैं ।

मुझे याद है कि ऐसे पुनर्विक्रेता हैं जो बताते हैं कि एनएन एक हीडेन परत के साथ किसी भी फ़ंक्शन को लगभग कर सकता है, लेकिन मैंने कोशिश की है और सामान्यीकरण के बिना एनएन इस सरल गुणन में भी अनुमानित नहीं था। केवल लॉग-डेटा के सामान्यीकरण में मदद मिली m = x*y => ln(m) = ln(x) + ln(y). लेकिन यह एक धोखा की तरह दिखता है। क्या एनएन बिना लॉग-नॉर्मलाइजेशन के ऐसा कर सकता है? अनवर्स स्पष्ट रूप से (मेरे लिए) है - हां, इसलिए यह सवाल अधिक है कि ऐसे एनएन का टाइप / कॉन्फ़िगरेशन / लेआउट क्या होना चाहिए?

जवाबों:


13

एक बड़ा गुणन फ़ंक्शन ग्रेडिएंट नेट को लगभग तुरंत कुछ भयावह स्थिति में लाता है जहां इसके सभी छिपे हुए नोड्स में शून्य ढाल (तंत्रिका नेटवर्क कार्यान्वयन विवरण और सीमाओं के कारण) होता है। हम दो तरीकों का उपयोग कर सकते हैं:

  1. एक स्थिर से विभाजित करें। हम सीखने से पहले सब कुछ विभाजित कर रहे हैं और उसके बाद गुणा कर रहे हैं।
  2. लॉग-सामान्यकरण का उपयोग करें। यह इसके अलावा गुणा करता है:

    मीटर=एक्सyln(मीटर)=ln(एक्स)+ln(y)


5

इसी तरह के एक सवाल ने आज मुझे पहले से मारा, और मुझे आश्चर्य हुआ कि मुझे त्वरित उत्तर नहीं मिला। मेरा सवाल था कि एनएन के केवल समन फ़ंक्शंस हैं, वे मल्टीप्लिक्टिव फ़ंक्शंस कैसे मॉडल कर सकते हैं।

इस तरह का जवाब दिया, हालांकि यह लंबा स्पष्टीकरण था। मेरा सारांश यह होगा कि NN का फंक्शन सरफेस के बजाय फंक्शन सतह है। जो स्पष्ट है, पूर्वव्यापी…


5

एनयू रिले रिले सक्रियण फ़ंक्शन के साथ इनपुट की सीमा सीमित होने पर गुणा को अनुमानित कर सकती है। उसको याद करो relu(x) = max(x, 0)

यह पर्याप्त है अगर एनएन एक स्क्वायर फ़ंक्शन का अनुमान लगाता है g(z) = z^2, क्योंकि x*y = ((x-y)^2 - x^2 - y^2)/(-2)। राइट-हैंड साइड में सिर्फ रैखिक संयोजन और वर्ग हैं।

NN z^2एक टुकड़ा रैखिक कार्य के साथ अनुमानित कर सकता है । उदाहरण के लिए, के [0, 2]संयोजन पर xऔर relu(2(x-1))बुरा नहीं है। नीचे आंकड़ा यह कल्पना करता है। कोई विचार नहीं है अगर यह सिद्धांत से परे उपयोगी है :-) यहाँ छवि विवरण दर्ज करें


0

"एक छिपी हुई परत" न्यूरॉन्स की संख्या और उपयोग किए गए सक्रिय फ़ंक्शन के प्रकार को सीमित नहीं करती है, इसमें अभी भी एक बड़ा प्रतिनिधित्व स्थान है। इस समस्या के अस्तित्व को मान्य करने के लिए एक सरल विधि: इस समस्या को एक वास्तविक न्यूरॉन नेटवर्क के साथ प्रशिक्षित करें, प्रत्येक भार और पूर्वाग्रह को रिकॉर्ड करें, इन मापदंडों का उपयोग भविष्यवाणी वक्र की साजिश करें, इसे लक्ष्य फ़ंक्शन वक्र के साथ विपरीत करें। यह निबंध मदद कर सकता है।


0

मैं StackExchange पर एक नया सक्रिय उपयोगकर्ता होने के कारण टिप्पणी करने में असमर्थ हूँ। लेकिन मुझे लगता है कि यह एक महत्वपूर्ण सवाल है क्योंकि यह समझने के लिए अभी तक समझना बहुत मुश्किल है। सम्मान के साथ, मुझे नहीं लगता कि स्वीकृत उत्तर पर्याप्त है। यदि आप एक मानक फीड-फ़ॉर एनएन के मुख्य संचालन के बारे में सोचते हैं, तो s(W*x+b)कुछ नॉनलाइनियर सक्रियण फ़ंक्शन के लिए फॉर्म की सक्रियता के साथ s, यह वास्तव में स्पष्ट नहीं है कि एक (बहु-स्तरित) नेटवर्क में भी इससे "गुणा" कैसे किया जाए। स्केलिंग (स्वीकृत उत्तर में पहली गोली) प्रश्न को बिल्कुल भी संबोधित नहीं करता है ... किस पैमाने से? आदानों xऔर yसंभवतः प्रत्येक नमूने के लिए अलग हैं। और जब तक आप जानते हैं लॉग लेना ठीक हैआपको जो करने की आवश्यकता है, और प्रीप्रोसेसिंग में साइन इश्यू का ध्यान रखें (क्योंकि स्पष्ट रूप से लॉग को नकारात्मक इनपुट के लिए परिभाषित नहीं किया गया है)। लेकिन यह मौलिक रूप से इस धारणा के साथ नहीं है कि तंत्रिका नेटवर्क सिर्फ "सीख" सकते हैं (यह ओपी ने कहा कि एक धोखा जैसा लगता है)। मुझे नहीं लगता कि इस प्रश्न का उत्तर तब तक दिया जाना चाहिए जब तक कि यह वास्तव में मेरे से अधिक चतुर व्यक्ति द्वारा न हो!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.