गहन शिक्षा में वजन और पूर्वाग्रह क्या है?


16

मैं Tensorflow वेबसाइट से मशीन सीखना सीखना शुरू कर रहा हूँ। मैंने प्रवाह की एक बहुत ही अल्पविकसित समझ विकसित की है जो एक गहन सीखने के कार्यक्रम का अनुसरण करता है (यह विधि मुझे किताबें और बड़े लेख पढ़ने के बजाय तेजी से सीखना है)।

कुछ भ्रमित करने वाली चीजें हैं जो मुझे आई हैं, उनमें से 2 हैं:

  1. पक्षपात
  2. वजन

टेनसफ़्लो वेबसाइट पर MNIST ट्यूटोरियल में, उन्होंने उल्लेख किया है कि किसी छवि में किसी विशेष पैटर्न के अस्तित्व के प्रमाण को खोजने के लिए हमें पूर्वाग्रह और वजन की आवश्यकता होती है। मुझे समझ में नहीं आ रहा है कि बियास और वेट के लिए मूल्य कहाँ और कैसे निर्धारित किए जाते हैं?

क्या हमें इन मूल्यों को प्रदान करना है या क्या TensorFlow पुस्तकालय प्रशिक्षण डेटा सेट के आधार पर इन मूल्यों की स्वचालित रूप से गणना करता है?

इसके अलावा अगर आप गहरी शिक्षा में मेरी गति को तेज करने के बारे में कुछ सुझाव दे सकते हैं, तो यह बहुत अच्छा होगा!

Tensorflow Beginners ट्यूटोरियल


3
एक सांख्यिकीय मॉडल के मापदंडों के रूप में , उन्हें एक नुकसान फ़ंक्शन को कम करके सीखा या अनुमानित किया जाता है जो आपके डेटा पर निर्भर करता है। और यही मशीन सीखना है। यदि आप इस शैक्षणिक पद्धति का अनुसरण करते हैं तो आप बहुत से प्रश्न पूछ रहे हैं। मेरा सुझाव है कि कौरसेरा पर एक एमओओसी लेना चाहिए ताकि आप समझदार क्रम में चीजों को सीख सकें।
Emre

यह बहुत बुनियादी है, इसलिए आपको @Emre जैसे पाठ्यक्रम का सुझाव देना चाहिए।
हैलोवर्ल्ड

जवाबों:


11

गणितीय रूप से बोल रहा हूं। कल्पना कीजिए कि आप एक मॉडल हैं (कोई ऐसा नहीं है, जो 8 का आंकड़ा हो)

Y=डब्ल्यूएक्स+nमैंजीआरमैंn

तो आप क्या समझते हैं? बायस्ड यह आपके जैसे मॉडल में पूर्व-धारणा है।

वजन के लिए, तार्किक रूप से, वजन आपका ग्रेडिएंट है (रैखिक बीजगणित में),

ग्रेडिएंट क्या है? , यह रैखिक समारोह की स्थिरता है।

क्या रैखिक ढाल बहुत खड़ी (उच्च सकारात्मक मूल्य) बनाता है?

ऐसा इसलिए है क्योंकि एक्स (इनपुट) में थोड़ा बदलाव वाई अक्ष (आउटपुट) में बड़े अंतर का कारण बनता है। तो आप (अब एक मॉडल के रूप में नहीं, लेकिन एक शानदार गणितज्ञ (आपका परिवर्तन अहंकार)) या आपका कंप्यूटर इस ढाल को खोजने की कोशिश करता है, जिसे आप वजन कह सकते हैं। अंतर यह है कि आप इसे खोजने के लिए एक पेंसिल और ग्राफ बुक का उपयोग करते हैं, लेकिन ब्लैक बॉक्स रजिस्टरों के साथ अपने इलेक्ट्रॉनिक जादू करता है।

मशीन लीडिंग प्रक्रिया में, कंप्यूटर या आप डेटा बिंदुओं पर कई सीधी रेखाएँ या रेखीय कार्य खींचने की कोशिश करते हैं,

आप कई सीधी रेखाएँ खींचने की कोशिश क्यों करते हैं?

क्योंकि आपकी ग्राफ बुक / कंप्यूटर मेमोरी में, आप उस रेखा को देखने की कोशिश कर रहे हैं जो उचित रूप से फिट होती है।

मैं या कंप्यूटर उस लाइन को कैसे जानते हैं जो उचित रूप से फिट होती है?

मेरे माध्यमिक विद्यालय में, मुझे डेटा बिंदुओं के पार एक रेखा खींचना सिखाया गया, नेत्रहीन उस रेखा की जाँच करना जो पूरी तरह से सभी डेटा बिंदुओं के बीच से होकर गुजरती है। (उन AI प्रचार को भूल जाओ, हमारा दिमाग चीजों को सिर्फ घूर कर गणना कर सकता है) । लेकिन कंप्यूटर के लिए, यह डेटा बिंदुओं की ओर प्रत्येक पंक्ति के मानक विचलन और विचरण की कोशिश करता है। कम से कम विचलन वाली रेखा (कभी-कभी इसे त्रुटि फ़ंक्शन कहेंगे) को चुना गया है।

ठंडा! इसलिए और क्या होता है

उस रेखा की ढाल की गणना की जाती है, जो कहती है कि सीखने की समस्या का भार परिकलित है

Thats मशीन लर्निंग अपनी मूल समझ और एक हाई स्कूल के छात्र ग्राफिंग में अपने ग्राफबुक की साजिश रच रहे हैं


10

मैं आपके प्रश्न की टिप्पणियों से सहमत हूं कि आपको कोर्स में देखना चाहिए, हो सकता है कि एंड्रयू एनजी की मशीन लर्निंग ऑन कोर्टसेरा , जो एक उच्च माना हुआ, मुफ्त परिचयात्मक पाठ्यक्रम है। यह मशीन सीखने के मूल सिद्धांतों के बारे में एक मूल प्रश्न है। जैसे कि मैं इस उत्तर में गणित को कवर नहीं कर रहा हूं, आप उस पाठ्यक्रम सहित कई स्थानों से प्राप्त कर सकते हैं।

पूर्वाग्रह और भार के मूल्य कहाँ और कैसे निर्धारित किए जाते हैं?

वज़न और पूर्वाग्रह आपके मॉडल के सीखने योग्य पैरामीटर हैं। तंत्रिका नेटवर्क के साथ-साथ वे संबंधित मॉडल जैसे रैखिक प्रतिगमन में समान नामों के साथ दिखाई देते हैं। अधिकांश मशीन लर्निंग एल्गोरिदम में कुछ सीखने योग्य पैरामीटर शामिल हैं।

सीखने शुरू होने से पहले इन मापदंडों के मूल्यों को बेतरतीब ढंग से आरंभ किया जाता है (यह उन सभी को एकल मूल्य में परिवर्तित करना बंद कर देता है)। फिर जब प्रशिक्षण के दौरान डेटा के साथ प्रस्तुत किया जाता है, तो उन्हें उन मानों की ओर समायोजित किया जाता है जिनका सही आउटपुट होता है।

क्या हमें इन मूल्यों को प्रदान करना है या क्या TensorFlow पुस्तकालय प्रशिक्षण डेटा सेट के आधार पर इन मूल्यों की स्वचालित रूप से गणना करता है?

आपको प्रशिक्षण से पहले मूल्यों को प्रदान करने की आवश्यकता नहीं है, हालांकि आप चीजों को तय करना चाह सकते हैं जैसे कि कितने पैरामीटर होने चाहिए (तंत्रिका नेटवर्क में जो प्रत्येक परत के आकार द्वारा नियंत्रित होता है)। TensorFlow प्रशिक्षण के दौरान स्वचालित रूप से मूल्यों की गणना करता है। जब आपके पास पहले से प्रशिक्षित मॉडल है और आप इसे फिर से उपयोग करना चाहते हैं, तो आप फ़ाइल से लोड करके सीधे मान सेट करना चाहेंगे।

ट्यूटोरियल से वज़न और पूर्वाग्रह में परिवर्तन को संभालने वाला विशिष्ट कोड यह है:

train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

और इस:

sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})

पहली पंक्ति परिभाषित करती है कि वज़न और मूल्यों को कैसे बदला जाएगा। आप इसे लगभग शाब्दिक रूप में पढ़ सकते हैं "एक प्रशिक्षण फ़ंक्शन को परिभाषित करते हैं जो आपूर्ति की आपूर्ति के क्रॉस एन्ट्रापी को कम करने के लिए ढाल वंश अनुकूलक का उपयोग करता है"।

yएक्स


8

वजन - वजन कनेक्शन की ताकत है। अगर मैं इनपुट बढ़ाता हूं तो आउटपुट पर इसका कितना प्रभाव पड़ता है।

शून्य के पास वजन का मतलब है कि यह इनपुट बदलने से आउटपुट नहीं बदलेगा। कई एल्गोरिदम नेटवर्क को सरल बनाने के लिए स्वचालित रूप से उन वज़न को शून्य पर सेट करेंगे।

पूर्वाग्रह - इसका अर्थ है कि हमारी भविष्यवाणियां वास्तविक मूल्यों से कितनी दूर हैं। आम तौर पर पैरामीट्रिक एल्गोरिदम में एक उच्च पूर्वाग्रह होता है जो उन्हें सीखने में आसान बनाता है और समझने में आसान होता है लेकिन आमतौर पर कम लचीला होता है। बदले में, वे जटिल समस्याओं पर कम पूर्वानुमानात्मक प्रदर्शन करते हैं जो एल्गोरिदम पूर्वाग्रह की सरल मान्यताओं को पूरा करने में विफल होते हैं।

निम्न पूर्वाग्रह : लक्ष्य समारोह के रूप के बारे में अधिक मान्यताओं को दर्शाता है।

हाई-बिया s: लक्ष्य फ़ंक्शन के रूप के बारे में कम मान्यताओं को दर्शाता है।


2
ओपी एक तंत्रिका नेटवर्क में पूर्वाग्रह पैरामीटर के बारे में पूछ रहा था। पूर्वाग्रह के लिए आपकी परिभाषाएँ ठीक हैं, लेकिन सवाल का जवाब न दें।
नील स्लेटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.