Jürgen Schmidhuber द्वारा शुरू किए गए पीढ़ी के प्रतिकूल नेटवर्क थे?


32

मैंने https://en.wikipedia.org/wiki/Generative_adversarial_networks पर पढ़ा है :

[जनक प्रतिकूल नेटवर्क] 2014 में इयान गुडफेलो एट अल द्वारा पेश किए गए थे।

लेकिन Jurgen Schmidhuber ने उस दिशा में पहले भी इसी तरह का काम करने का दावा किया है (उदाहरण के लिए, जनरेटरों के प्रतिकूल नेटवर्क ट्यूटोरियल के दौरान NIPS 2016 में कुछ बहस हुई थी: https://channel9.msdn.com/Events/Nurural-Information-Processing-Systems- सम्मेलन / तंत्रिका-सूचना-प्रसंस्करण-प्रणाली-सम्मेलन-एनआईपीएस -2016 / जनरेटिव - एडवांसरियल -नेटवर्क्स 1h03min देखें)।

क्या सार्वजनिक रूप से प्रतिकूल नेटवर्क के पीछे का विचार पहली बार सार्वजनिक रूप से जुरगेन श्मिटुबर द्वारा पेश किया गया था? यदि नहीं, तो जुरगेन श्मिधुबर के विचार कितने समान थे?


5
यहाँ रेडिट पर प्रासंगिक चर्चा , विशेष रूप से यह टिप्पणी
डगल

NIPS की घटना का एक संक्षिप्त सारांश यहां पढ़ा जा सकता है: beaandrew.github.io/deeplearning/2016/12/12/nips-2016.html
मोनिका

1
विकिपीडिया पृष्ठ के इतिहास अनुभाग को अपडेट कर दिया गया है, और मुझे लगता है कि इसमें सभी प्रासंगिक संदर्भ और एक दूसरे से उनके कनेक्शन शामिल हैं। मुझे लगता है कि यह वास्तव में काफी निष्पक्ष और पूर्ण है।
अल्बर्ट

@ अल्बर्ट अपडेट के लिए धन्यवाद!
फ्रेंक डर्नोनकोर्ट

जवाबों:


50

मैंने 2010 के ब्लॉग पोस्ट ( आर्काइव.ऑर्ग) में जेनरिक एडवरसरी नेटवर्क्स (जीएएन) के निर्धारक किस्म के मूल विचार को स्वयं प्रकाशित किया । मैंने खोज की थी, लेकिन कहीं भी ऐसा कुछ नहीं मिला, और इसे लागू करने की कोशिश करने का समय नहीं था। मैं नहीं था और अभी भी एक तंत्रिका नेटवर्क शोधकर्ता नहीं हूं और क्षेत्र में कोई संबंध नहीं है। मैं यहाँ ब्लॉग पोस्ट कॉपी-पेस्ट करूँगा:

2010-02-24

एक चर संदर्भ के भीतर लापता डेटा उत्पन्न करने के लिए कृत्रिम तंत्रिका नेटवर्क को प्रशिक्षित करने की एक विधि । चूंकि विचार को एक वाक्य में रखना मुश्किल है, मैं एक उदाहरण का उपयोग करूंगा:

एक छवि में अनुपलब्ध पिक्सेल हो सकते हैं (मान लीजिए, एक स्मज के तहत)। केवल आसपास के पिक्सल्स को जानकर कोई कैसे लापता पिक्सेल को पुनर्स्थापित कर सकता है? एक दृष्टिकोण एक "जनरेटर" तंत्रिका नेटवर्क होगा जो इनपुट के रूप में आसपास के पिक्सल को दिया जाता है, लापता पिक्सेल उत्पन्न करता है।

लेकिन ऐसे नेटवर्क को कैसे प्रशिक्षित किया जाए? एक नेटवर्क की अपेक्षा नहीं कर सकता कि वह वास्तव में लापता पिक्सेल का उत्पादन करे। उदाहरण के लिए, कल्पना करें कि लापता डेटा घास का एक टुकड़ा है। एक लॉन की छवियों के एक समूह के साथ नेटवर्क को सिखा सकता है, जिसमें कुछ हिस्सों को हटा दिया गया है। शिक्षक उस डेटा को जानता है जो गायब है, और घास के उत्पन्न पैच और मूल डेटा के बीच रूट माध्य अंतर (RMSD) के अनुसार नेटवर्क स्कोर कर सकता है। समस्या यह है कि यदि जनरेटर एक ऐसी छवि का सामना करता है जो प्रशिक्षण सेट का हिस्सा नहीं है, तो तंत्रिका नेटवर्क के लिए सभी पत्तियों, विशेष रूप से पैच के बीच में, बिल्कुल सही स्थानों पर रखना असंभव होगा। सबसे कम RMSD त्रुटि संभवतः नेटवर्क द्वारा पैच के मध्य क्षेत्र को एक ठोस रंग से भरकर प्राप्त की जाएगी जो घास की विशिष्ट छवियों में पिक्सेल के रंग का औसत है। यदि नेटवर्क ने ऐसी घास उत्पन्न करने की कोशिश की जो मानव को आश्वस्त करती है और जैसे कि उसका उद्देश्य पूरा होता है, तो RMSD मीट्रिक द्वारा एक दुर्भाग्यपूर्ण जुर्माना होगा।

मेरा विचार यह है (नीचे आंकड़ा देखें): जनरेटर के साथ एक क्लासिफायरियर नेटवर्क जो एक साथ दिया जाता है, यादृच्छिक या वैकल्पिक अनुक्रम, उत्पन्न और मूल डेटा के साथ प्रशिक्षित करें। क्लासिफायर को फिर आस-पास की छवि के संदर्भ में अनुमान लगाना होता है, कि क्या इनपुट मूल है (1) या उत्पन्न (0)। जनरेटर नेटवर्क एक साथ क्लासिफायरियर से उच्च स्कोर (1) प्राप्त करने की कोशिश कर रहा है। परिणाम, उम्मीद है, यह है कि दोनों नेटवर्क वास्तव में सरल शुरू करते हैं, और उत्पन्न और अधिक उन्नत सुविधाओं को उत्पन्न करने और पहचानने की दिशा में प्रगति करते हैं, संभवतः उत्पन्न डेटा और मूल के बीच विचार करने की मानव की क्षमता को पराजित करते हैं। यदि प्रत्येक स्कोर के लिए कई प्रशिक्षण नमूनों पर विचार किया जाता है, तो RMSD उपयोग करने के लिए सही त्रुटि मीट्रिक है,

यहाँ छवि विवरण दर्ज करें
कृत्रिम तंत्रिका नेटवर्क प्रशिक्षण सेटअप

जब मैं अंत में आरएमएसडी का उल्लेख करता हूं तो मेरा मतलब "संभावना अनुमान" के लिए त्रुटि मीट्रिक है, न कि पिक्सेल मान।

मैंने मूल रूप से 2000 (comp.dsp पोस्ट) में तंत्रिका नेटवर्क के उपयोग पर विचार करना शुरू कर दिया था ताकि अप-सैंपल (उच्च नमूना आवृत्ति के लिए पुन: व्यवस्थित) डिजिटल ऑडियो के लिए लापता उच्च आवृत्तियों का निर्माण किया जा सके, एक तरह से जो सटीक होने के बजाय आश्वस्त होगा। 2001 में मैंने प्रशिक्षण के लिए एक ऑडियो लाइब्रेरी एकत्र की। यहाँ 20 जनवरी 2006 से EFNet #musicdsp इंटरनेट रिले चैट (IRC) लॉग के भाग हैं जिसमें मैं (यार) एक अन्य उपयोगकर्ता (_Beta) के साथ विचार के बारे में बात करता हूँ:

[२२:१ 22:] <याहर> नमूनों की समस्या यह है कि अगर आपके पास पहले से ही कुछ "अप" नहीं है, तो आप क्या कर सकते हैं यदि आप परेशान हैं ...
[22:22] <तोहार> मैंने एक बार एक बड़ा संग्रह किया ध्वनियों का पुस्तकालय ताकि मैं इस सटीक समस्या को हल करने के लिए एक "स्मार्ट" एल्गो विकसित कर
सकूं [22:22] <तोहार> मैंने तंत्रिका नेटवर्क का उपयोग किया होगा
[22:22] <याहर> लेकिन मैंने काम पूरा नहीं किया: - D
[22:23] <_Beta> तंत्रिका नेटवर्क के साथ समस्या यह है कि आपके पास परिणामों की अच्छाई को मापने का कोई तरीका है
[22:24] <yehar> beta: मेरा यह विचार है कि आप "श्रोता" विकसित कर सकते हैं उसी समय जब आप "स्मार्ट अप-साउंड क्रिएटर" विकसित करते हैं
[२२:२६] <याहर> बीटा: और यह सुनने वाले को यह पता लगाना सीख जाएगा कि यह एक निर्मित या एक प्राकृतिक अप-स्पेक्ट्रम कैसे सुन रहा है। और निर्माता इस खोज को दरकिनार करने के लिए उसी समय विकसित होता है

2006 और 2010 के बीच के समय में, एक मित्र ने मेरे विचार पर एक विशेषज्ञ को आमंत्रित किया और मेरे साथ चर्चा की। उन्होंने सोचा कि यह दिलचस्प था, लेकिन कहा कि दो नेटवर्क को प्रशिक्षित करने के लिए लागत प्रभावी नहीं था जब एक एकल नेटवर्क काम कर सकता है। मुझे कभी भी यकीन नहीं हुआ कि उन्हें मूल विचार नहीं मिला या अगर उन्होंने तुरंत इसे एक एकल नेटवर्क के रूप में तैयार करने का तरीका देखा, तो शायद टोपोलॉजी में एक अड़चन के साथ इसे दो भागों में अलग करने के लिए। यह एक ऐसे समय में था जब मुझे यह भी नहीं पता था कि बैकप्रोपैजेशन अभी भी डी-फैक्टो ट्रेनिंग विधि है (यह सीखा कि 2015 के डीप ड्रीम क्रेज में वीडियो बनाना )। इन वर्षों में मैंने अपने विचार के बारे में कुछ डेटा वैज्ञानिकों और अन्य लोगों से बात की थी, जिनके बारे में मुझे लगा कि शायद दिलचस्पी हो, लेकिन प्रतिक्रिया हल्की थी।

मई 2017 में मैंने YouTube [मिरर] पर इयान गुडफेलो की ट्यूटोरियल प्रस्तुति देखी , जिसने पूरी तरह से मेरा दिन बना दिया। यह मुझे एक ही मूल विचार के रूप में दिखाई दिया, मतभेदों के साथ जैसा कि मैं वर्तमान में नीचे उल्लिखित समझता हूं, और इसे बेहतर परिणाम देने के लिए कड़ी मेहनत की गई थी। इसके अलावा उन्होंने एक सिद्धांत दिया, या एक सिद्धांत पर सब कुछ आधारित था, यह क्यों काम करना चाहिए, जबकि मैंने अपने विचार का औपचारिक विश्लेषण कभी नहीं किया। गुडफेलो की प्रस्तुति ने उन सवालों के जवाब दिए जो मेरे पास थे और बहुत कुछ।

गुडफेलो के GAN और उनके सुझाए गए एक्सटेंशन में जनरेटर में एक शोर स्रोत शामिल है। मैंने शोर स्रोत को शामिल करने के बारे में कभी नहीं सोचा, लेकिन इसके बजाय प्रशिक्षण डेटा के संदर्भ में, एक शोर वेक्टर इनपुट के बिना सशर्त GAN (cGAN) के विचार का बेहतर मिलान करना और डेटा के एक हिस्से पर वातानुकूलित मॉडल के साथ। मैथ्यू एट अल पर आधारित मेरी वर्तमान समझ 2016 यह है कि पर्याप्त इनपुट परिवर्तनशीलता होने पर उपयोगी परिणामों के लिए शोर स्रोत की आवश्यकता नहीं है। दूसरा अंतर यह है कि गुडफेलो का गण लॉग-लाइबिलिटी को कम करता है। बाद में, एक न्यूनतम वर्ग GAN (LSGAN) पेश किया गया है ( माओ एट अल। 2017) जो मेरे आरएमएसडी सुझाव से मेल खाता है। इसलिए, मेरा विचार जनरेटर के लिए एक शोर वेक्टर इनपुट के बिना एक सशर्त कम से कम वर्गों के पीढ़ी के प्रतिकूल नेटवर्क (cLSGAN) से मेल खाता है और कंडीशनिंग इनपुट के रूप में डेटा के एक हिस्से के साथ होगा। एक उत्पादक डेटा वितरण के एक सन्निकटन से जनरेटर नमूने हैं। मुझे अब पता है कि क्या है और संदेह है कि वास्तविक दुनिया का शोर इनपुट मेरे विचार से सक्षम होगा, लेकिन यह कहना नहीं है कि परिणाम उपयोगी नहीं होंगे यदि यह नहीं हुआ।

उपरोक्त वर्णित अंतर प्राथमिक कारण है कि मेरा मानना ​​है कि गुडफेलो को मेरे विचार के बारे में पता नहीं था या सुना नहीं गया था। एक और बात यह है कि मेरे ब्लॉग में कोई अन्य मशीन सीखने की सामग्री नहीं है, इसलिए यह मशीन सीखने के हलकों में बहुत सीमित जोखिम का आनंद ले सकता था।

यह हितों का टकराव है जब एक समीक्षक लेखक पर समीक्षक के अपने काम का हवाला देने का दबाव डालता है।


8
मुझे कहना होगा, मैं बहुत प्रभावित हूं। ऐसा प्रतीत होता है कि आपकी ब्लॉग पोस्ट इस विचार के लिए श्रेय की हकदार है, भले ही इयान और टीम ने इसे स्वतंत्र रूप से खोजा हो।
user2808118

2
यदि आपने अपना काम प्रकाशित किया होता, तो आप वह व्यक्ति बन सकते थे जिसने प्रतिकूल क्रांति को प्रेरित किया था। दम तोड़ देना !!
user2808118

5
@ user2808118 को प्रकाशित करने के लिए कुछ परिणामों का उत्पादन करने के लिए, उस पर काम करने की आवश्यकता होगी, न कि केवल इसके बारे में सोचकर।
ओली नीमितालो

4
मैं आपको दो बार सलाम करता हूं: पहले इसे गुडफेलो से 3 साल पहले कम से कम खोजने के लिए और दूसरा बड़े दिल के लिए इसे बहुत सकारात्मक तरीके से लेने के लिए।
फेल साइंटिस्ट

19

जब वह NIPS 2016 में GANs के लिए क्रेडिट का दावा करता है, तो Jürgen Schmidhuber पर इयान गुडफेलो का जवाब सही था? 2017-03-21 को पोस्ट किया गया:

वह वास्तव में GAN के लिए क्रेडिट का दावा नहीं कर रहा है। यह अधिक जटिल है।

आप देख सकते हैं कि उन्होंने अपने स्वयं के शब्दों में क्या लिखा था जब वह एनएआईपीएस 2014 के समीक्षक GANs पर प्रस्तुत थे: निर्यात समीक्षा, चर्चाएँ, लेखक प्रतिक्रिया और मेटा-समीक्षा ( दर्पण )

वह समीक्षक है जिसने हमें गणों का नाम बदलकर "उलटा पीएम" करने के लिए कहा है।

यहाँ वह कागज है जो मानता है कि उसे पर्याप्त रूप से स्वीकार नहीं किया जा रहा है: http: // ftp: //ftp.idsia.ch/pub/juergen/factorial.pdf ( दर्पण )

मुझे यह पसंद नहीं है कि इस तरह के मुद्दों को स्थगित करने का कोई अच्छा तरीका नहीं है। मैंने एनआईपीएस के आयोजकों से संपर्क किया और पूछा कि क्या जुरगेन के पास मेरे बारे में शिकायत दर्ज करने का कोई तरीका है और एनआईपीएस के प्रतिनिधियों की एक समिति है जो बताती है कि क्या मेरा प्रकाशन उनके साथ गलत व्यवहार करता है। उन्होंने कहा कि ऐसी कोई प्रक्रिया उपलब्ध नहीं है।

मैं व्यक्तिगत रूप से यह नहीं सोचता कि भविष्यवाणी की न्यूनता और GAN के बीच कोई महत्वपूर्ण संबंध है। मुझे GAN और अन्य एल्गोरिदम के बीच संबंध को स्वीकार करने में कभी कोई समस्या नहीं हुई है जो वास्तव में संबंधित हैं, जैसे शोर-विपरीत अनुमान और स्व-पर्यवेक्षित बूस्टिंग।

जुरगेन और मैंने पीएम और जीएएन के बीच समानता और अंतर का वर्णन करते हुए जल्द ही एक साथ एक पत्र लिखने का इरादा किया, यह मानते हुए कि हम उन लोगों पर सहमत होने में सक्षम हैं।


2
दुर्भाग्य से दो आगामी के बीच एक कागज नहीं लगता है। :-(
कंप्यूटर

@ComputerScientist हां अभी भी इंतजार कर रहा है, कोई और इसकी देखभाल कर सकता है अन्यथा :-)
फ्रेंक डर्नोनकोर्ट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.