तंत्रिका नेटवर्क को आसानी से मूर्ख क्यों बनाया जाता है?


13

मैंने एक तंत्रिका नेटवर्क को "मूर्ख" करने के लिए मैन्युअल रूप से विरोधाभासी छवियों के बारे में कुछ पेपर पढ़ा है (नीचे देखें)।

क्या यह इसलिए है क्योंकि नेटवर्क केवल सशर्त संभाव्यता मॉडल बनाते हैं ? यदि कोई नेटवर्क संयुक्त संभाव्यता को मॉडल कर सकता है , तो क्या ऐसे मामले अभी भी होंगे?p ( y , x )p(y|x)
p(y,x)

मेरा अनुमान है कि ऐसी कृत्रिम रूप से बनाई गई छवियां प्रशिक्षण डेटा से भिन्न होती हैं, इसलिए वे कम संभावना । इसलिए कम होना चाहिए भले ही ऐसी छवियों के लिए उच्च हो।p ( y , x ) p ( y | x )p(x)p(y,x)p(y|x)

अपडेट करें

मैंने कुछ जेनरिक मॉडल आज़माए हैं, यह मददगार नहीं निकला, इसलिए मुझे लगता है कि शायद यह MLE का परिणाम है?

मेरा मतलब है कि केएल विचलन का उपयोग हानि फ़ंक्शन के रूप में किया जाता है, का मान जहां छोटा है, नुकसान को प्रभावित नहीं करता है। तो एक काल्पनिक छवि के लिए जो मेल नहीं खाती है, का मान मनमाना हो सकता है।पी डी एक टी एक ( एक्स ) पी डी एक टी एक पी θpθ(x)pdata(x)pdatapθ

अपडेट करें

मुझे एक ब्लॉग मिला जिसमें कारपेंटी दिखती है

ये परिणाम छवियों, कन्वर्नेट के लिए विशिष्ट नहीं हैं, और वे डीप लर्निंग में "दोष" भी नहीं हैं।

यहाँ छवि विवरण दर्ज करें
शोषणकारी और हानिकारक व्यवहारिक उदाहरण गहरे तंत्रिका नेटवर्क को आसानी से बेवकूफ बना दिया जाता है: पहचानने योग्य छवियों के लिए उच्च आत्मविश्वास की भविष्यवाणी
यहाँ छवि विवरण दर्ज करें


यह प्रश्न सामान्य रूप से NN के बजाय DNN से प्रतीत होता है?
मैथ्यू गन

@MatthewGun मुझे यकीन नहीं है, seanv507 के जवाब के अनुसार यह एक अधिक सामान्य समस्या है।
नॉट्लू

@MattewGunn प्रतिकूल परिस्थितियों के उदाहरणों को समझाते और उनका उपयोग करते हुए - शो लॉजिस्टिक रिग्रेशन पर भी लागू होता है
seanv507

जवाबों:


10

जिस प्रकार के मॉडल का आप जिक्र कर रहे हैं, उन्हें 'जेनरेटिव' मॉडल कहा जाता है, भेदभावपूर्ण होने के विपरीत, और वास्तव में उच्च आयामी डेटा के पैमाने पर नहीं। भाषा कार्यों में एनएन की सफलताओं का एक हिस्सा एक जनरेटिव मॉडल (HMM) से एक 'अधिक' भेदभावपूर्ण मॉडल है (जैसे MEMM लॉजिस्टिक प्रतिगमन का उपयोग करता है जो प्रासंगिक डेटा को प्रभावी ढंग से उपयोग करने की अनुमति देता है https://en.wiker.org/) विकि / हिडन_मार्कोव_मॉडल # एक्सटेंशन )

मेरा तर्क है कि उन्हें मूर्ख बनाने का कारण एक अधिक सामान्य समस्या है। यह अधिक परिष्कृत तरीकों पर 'उथले' एमएल-चालित एआई का वर्तमान प्रभुत्व है। [कई पत्रों में यह उल्लेख किया गया है कि अन्य एमएल मॉडल को भी आसानी से मूर्ख बनाया जाता है - http://www.kdnuggets.com/2015/07/deep-learning-adversarial-examples-misconception.html - इयान गुडफेलो]

कई कार्यों के लिए सबसे प्रभावी 'भाषा मॉडल' 'शब्दों का बैग' है। कोई भी दावा नहीं करेगा कि यह मानव भाषा के एक सार्थक मॉडल का प्रतिनिधित्व करता है। इसकी कल्पना करना मुश्किल नहीं है कि इस प्रकार के मॉडल भी आसानी से मूर्ख बन जाते हैं।

इसी तरह कंप्यूटर विज़न कार्यों जैसे ऑब्जेक्ट रिकॉग्निशन को 'शब्दों के विजुअल बैग' द्वारा क्रांतिकारित किया गया, जिसने अधिक कम्प्यूटेशनल रूप से गहन तरीकों को उड़ा दिया (जिसे बड़े पैमाने पर डेटा सेट पर लागू नहीं किया जा सकता)।

सीएनएन मैं एक बेहतर 'शब्दों का दृश्य बैग' का तर्क दूंगा - जैसा कि आप अपनी छवियों में दिखाते हैं, गलतियां पिक्सेल स्तर / निम्न स्तर की सुविधाओं पर की जाती हैं; सभी हाइपरबोले के बावजूद छिपी हुई परतों में कोई उच्च स्तर का प्रतिनिधित्व नहीं है- (हर कोई गलतियाँ करता है, मुद्दा यह है कि एक व्यक्ति उच्च स्तर की विशेषताओं के कारण 'गलतियाँ' करेगा और एक बिल्ली के एक कार्टून को पहचान लेगा, जिसे मैं डॉन करता हूं ' टी एक एनएन विश्वास करेंगे)।

कंप्यूटर विज़न के एक अधिक परिष्कृत मॉडल का उदाहरण (जो एनएन से भी बदतर है) उदाहरण के लिए 'विकृत भाग' मॉडल है।


4

जहाँ तक मुझे पता है, अधिकांश न्यूरल नेटवर्क इनपुट इमेजेस पर आ प्राथमिकता प्राथमिकता वितरण का उपयोग नहीं करते हैं। हालाँकि आप इस तरह के प्रायिकता वितरण के लिए निर्धारित प्रशिक्षण के चयन की व्याख्या कर सकते हैं। उस दृश्य में, इन कृत्रिम रूप से उत्पन्न छवियों को परीक्षण-सेट में छवियों के रूप में उठाए जाने की संभावना नहीं है। 'संयुक्त-संभाव्यता' को मापने का एक तरीका बेतरतीब ढंग से छवियों को उत्पन्न करना और फिर उन्हें लेबल करना होगा। समस्या यह होगी कि विशाल, विशाल बहुमत का कोई लेबल नहीं होगा। इसलिए उचित उदाहरणों की संख्या प्राप्त करने के लिए बहुत अधिक समय लगेगा।


उत्तर देने के लिए धन्यवाद :) मुझे बिल्कुल यकीन नहीं है कि इसका क्या मतलब है "संयुक्त-संभावना को मापने का एक तरीका बेतरतीब ढंग से छवियों को उत्पन्न करना और फिर उन्हें लेबल करना होगा।" आप यादृच्छिक छवियों को मैन्युअल रूप से लेबल करने का मतलब है (एक अन्य श्रेणी के रूप में)। )?
नॉट्लू

1
मेरा मतलब है कि प्रत्येक पिक्सेल के RGB-मानों को बेतरतीब ढंग से उठाकर चित्र बनाना। इसका मतलब यह होगा कि आपकी पोस्ट में टॉप-राइट पांडा इमेज और टॉप-लेफ्ट "gibbon" पांडा इमेज के जेनरेट होने की समान संभावना होगी। इसके साथ समस्या यह है कि प्रत्येक पिक्सेल में 2 ^ 24 संभावित रंग हैं और उत्पन्न छवियों के विशाल बहुमत बकवास होगा। जब तक आप एक भी छवि उत्पन्न करते हैं, जिसे "पांडा" के रूप में लेबल किया जा सकता है, ब्रह्मांड चला जाएगा।
डिंपल

ओह, मैं देख रहा हूँ कि बहुत काम करने के लिए लगता है, वैसे भी धन्यवाद।
नॉट्लू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.