क्या दूर की देखरेख, स्व-प्रशिक्षण, स्व-पर्यवेक्षण सीखने और कमजोर पर्यवेक्षण के बीच कोई अंतर है?


12

मैंने जो पढ़ा है:


दूर की निगरानी :

A Distant supervision algorithm usually has the following steps: 
1] It may have some labeled training data 
2] It "has" access to a pool of unlabeled data 
3] It has an operator that allows it to sample from this unlabeled 
   data and label them and this operator is expected to be noisy in its labels 
4] The algorithm then collectively utilizes the original labeled training data
    if it had and this new noisily labeled data to give the final output.

स्व-प्रशिक्षण :

यहाँ छवि विवरण दर्ज करें


सेल्फ-लर्निंग ( येट्स, अलेक्जेंडर, एट अल। "टेक्सट्रुनर: वेब पर जानकारी का निष्कर्षण खुला। मानव भाषा प्रौद्योगिकी की कार्यवाही: कम्प्यूटेशनल भाषा विज्ञान के लिए एसोसिएशन के उत्तर अमेरिकी अध्याय का वार्षिक सम्मेलन: प्रदर्शन। कम्प्यूटेशनल भाषा विज्ञान के लिए एसोसिएशन। 2007. ):

शिक्षार्थी दो चरणों में कार्य करता है। सबसे पहले, यह स्वचालित रूप से अपने स्वयं के प्रशिक्षण डेटा को सकारात्मक या नकारात्मक के रूप में लेबल करता है। दूसरा, यह एक Naive Bayes classifier को प्रशिक्षित करने के लिए इस लेबल किए गए डेटा का उपयोग करता है।


कमजोर पर्यवेक्षण (हॉफमैन, राफेल, एट अल। "अतिव्यापी संबंधों की सूचना निष्कर्षण के लिए ज्ञान-आधारित कमजोर पर्यवेक्षण।" कम्प्यूटेशनल भाषा विज्ञान के लिए एसोसिएशन की 49 वीं वार्षिक बैठक की कार्यवाही: मानव भाषा प्रौद्योगिकी-वॉल्यूम - कम्प्यूटेशनल भाषा विज्ञान के लिए एसोसिएशन, 2011। ।):

एक अधिक आशाजनक दृष्टिकोण, जिसे अक्सर "कमजोर" या "दूर" पर्यवेक्षण कहा जाता है, डेटाबेस के कंटेंट को संबंधित पाठ से मिलान करके अपने स्वयं के प्रशिक्षण डेटा बनाता है।


यह सब मेरे लिए समान लगता है, इस अपवाद के साथ कि स्व-प्रशिक्षण थोड़ा अलग लगता है कि लेबलिंग हेयुरिस्टिक प्रशिक्षित क्लासिफायर है, और लेबलिंग चरण और क्लासिफायर प्रशिक्षण चरण के बीच एक लूप है। हालांकि, याओ, लाइमिन, सेबेस्टियन रिडेल और एंड्रयू मैक्कलम। " लेबल डेटा के बिना सामूहिक क्रॉस-डॉक्यूमेंट रिलेशन एक्सट्रैक्शन। " नेचुरल लैंग्वेज प्रोसेसिंग में एम्पिरिकल मेथड्स पर 2010 सम्मेलन की कार्यवाही। कम्प्यूटेशनल भाषा विज्ञान के लिए एसोसिएशन, 2010. दावा है कि दूर पर्यवेक्षण == स्वयं प्रशिक्षण == कमजोर पर्यवेक्षण।

इसके अलावा, अन्य पर्यायवाची हैं ?


दिलचस्प सवाल। यह डेटा साइंस पर हो सकता है?
गोआजीत 21

@goangit शायद, इस वेबसाइट के एक अच्छे हिस्से की तरह;)
फ्रेंक डर्नोनकोर्ट

जवाबों:


8

आपके द्वारा दिए गए सभी अलग-अलग शब्दों के दो पहलू हैं: 1] प्रशिक्षण डेटा प्राप्त करने की प्रक्रिया 2] एल्गोरिदम जो या क्लासिफायर ट्रेन करता है।f

एल्गोरिथ्म जो प्रशिक्षण डेटा प्राप्त करने के तरीके की परवाह किए बिना को प्रशिक्षित करता है, की निगरानी की जाती है। दूर के पर्यवेक्षण, स्व-शिक्षण, आत्म-पर्यवेक्षण या कमजोर पर्यवेक्षण में अंतर, विशुद्ध रूप से झूठ है कि प्रशिक्षण डेटा कैसे प्राप्त किया जाता है।f

परंपरागत रूप से, पर्यवेक्षित शिक्षण पर किसी भी मशीन लर्निंग पेपर में, कोई भी यह पाएगा कि पेपर स्पष्ट रूप से मानता है कि प्रशिक्षण डेटा उपलब्ध है और इसकी कीमत क्या है, इसके लिए आमतौर पर यह माना जाता है कि लेबल सटीक हैं, और लेबल में कोई अस्पष्टता नहीं है। कि प्रशिक्षण डेटा में उदाहरण के लिए दिया जाता है। हालांकि, दूर के / कमजोर पर्यवेक्षण पत्रों के साथ, लोगों ने महसूस किया कि उनके प्रशिक्षण के आंकड़ों में अभेद्य लेबल हैं और वे जो आमतौर पर अपने काम में हाइलाइट करना चाहते हैं वह यह है कि वे अविकसित लेबल का उपयोग करने के स्पष्ट दोष के बावजूद अच्छे परिणाम प्राप्त करते हैं (और उनके अन्य भ्रामक तरीके हो सकते हैं) अतिरिक्त फ़िल्टरिंग प्रक्रिया इत्यादि होने से, आवेग लेबल के मुद्दे को दूर करने के लिए और आमतौर पर कागजात यह उजागर करना चाहेंगे कि ये अतिरिक्त प्रक्रियाएं महत्वपूर्ण और उपयोगी हैं)। इसने "कमजोर" शब्दों को जन्म दिया या "दूर" यह इंगित करने के लिए कि प्रशिक्षण डेटा पर लेबल imprecise हैं। ध्यान दें कि यह जरूरी नहीं कि क्लासिफायर के सीखने के पहलू को प्रभावित करे। ये लोग जिस क्लासिफायर का उपयोग करते हैं वह अभी भी स्पष्ट रूप से मानता है कि लेबल सटीक हैं और प्रशिक्षण एल्गोरिथ्म शायद ही कभी बदला गया हो।

दूसरी ओर स्व-प्रशिक्षण उस अर्थ में कुछ खास है। जैसा कि आप पहले ही देख चुके हैं, यह अपने स्वयं के क्लासिफायरियर से अपने लेबल प्राप्त करता है और सुधार के लिए प्रतिक्रिया पाश का एक सा है। आम तौर पर, हम "आगमनात्मक" एल्गोरिदम के एक बड़े दायरे के तहत पर्यवेक्षित पर्यवेक्षकों का अध्ययन करते हैं, जहां सीखा गया क्लासिफायर पूरे डेटा के बारे में प्रशिक्षण डेटा से बनाया गया एक प्रेरक इंजेक्शन है। लोगों ने एक और रूप का अध्ययन किया है, जिसे हम पारगमन का निष्कर्ष कहते हैं, जहां एक सामान्य प्रेरक निष्कर्ष एल्गोरिथ्म का आउटपुट नहीं है, लेकिन एल्गोरिथ्म सामूहिक रूप से प्रशिक्षण डेटा और परीक्षण डेटा दोनों को इनपुट के रूप में लेता है और परीक्षण डेटा पर लेबल का उत्पादन करता है। हालांकि, लोगों को लगा कि बड़े प्रशिक्षण डेटा के साथ एक क्लासिफायर प्राप्त करने के लिए आगमनात्मक अधिगम के भीतर पारगमन का उपयोग क्यों नहीं किया गया है।

उम्मीद है, मैंने आपको और भ्रमित नहीं किया है, यदि आवश्यक हो तो टिप्पणी करने और अधिक स्पष्टीकरण के लिए स्वतंत्र महसूस करें।

[१] उपयोगी हो सकता है - http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/pdf2527.pdf


धन्यवाद, आपका जवाब बहुत दिलचस्प है! स्व-शिक्षा के बारे में कैसे? दूर / कमजोर पर्यवेक्षण के रूप में ही?
फ्रेंक डेर्नोनकोर्ट

1
हाँ। मैं विशेष रूप से स्वयं सीखने और दूर / कमजोर पर्यवेक्षण के बीच अंतर नहीं देखता हूं, क्योंकि लेबल एक अशुद्ध स्रोत से अलग से प्राप्त किए जाते हैं और फिर एक पर्यवेक्षित क्लासिफायर को खिलाया जाता है।
तेनालीरामन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.