छवियों से अप्रयुक्त सुविधा निष्कर्षण के लिए GAN का उपयोग कैसे करें?


11

मैं समझ गया हूं कि GAN कैसे काम करता है जबकि दो नेटवर्क (जेनेरिक और भेदभावपूर्ण) एक दूसरे के साथ प्रतिस्पर्धा करते हैं। मैंने एक DCGAN (GAN के साथ विवेकाधीन विभेदक और डी-कन्वेन्शनल जनरेटर) का निर्माण किया है, जो अब MNIST डेटासेट के समान ही हस्तलिखित अंक उत्पन्न करता है।

मैंने छवियों से सुविधाओं को निकालने के लिए GAN के अनुप्रयोगों के बारे में बहुत कुछ पढ़ा है। एमएनआईएसटी हस्तलिखित डिजीटल छवियों से सुविधा निकालने के लिए मेरे प्रशिक्षित जीएएन मॉडल (एमएनआईएसटी डेटासेट पर) का उपयोग कैसे कर सकते हैं?


फीचर निष्कर्षण के लिए, मुझे 128 * 120 (यानी 64 + 32 + 16 + 8) = 15360 का फीचर आकार मिल रहा है। मुझे यकीन है कि मुझे कुछ याद आ रहा है। मेरे पास वेक्टर चुनने के बारे में एक और सवाल है। क्या मुझे सुविधा निष्कर्षण के दौरान (conv2d + batchnorm + सक्रियण) भार या केवल conv2d भार पर विचार करना चाहिए?
तन्मय डैम

जवाबों:


5

आमतौर पर सुविधाओं को निकालने के लिए, आप आउटपुट से पहले नेटवर्क की शीर्ष परत का उपयोग कर सकते हैं। अंतर्ज्ञान यह है कि ये विशेषताएं रैखिक रूप से अलग हैं क्योंकि शीर्ष परत केवल एक लॉजिस्टिक प्रतिगमन है।

GANs के लिए, आप विवेचक से सुविधाओं का उपयोग कर सकते हैं। इन विशेषताओं को एक संभावना देने के लिए माना जाता है यदि इनपुट डेटासेट, "वास्तविक चित्र" से आया है। रेडफोर्ड के DCGAN पेपर में , वे सभी विभेदक की सभी परतों का उपयोग करते हैं और CIFAR-10 के लिए अधिकतम पूलिंग लेयर एक्सट्रैक्ट फीचर्स चलाते हैं।

डीसीजीएएन द्वारा पर्यवेक्षित कार्यों के लिए सीखे गए अभ्यावेदनों की गुणवत्ता का मूल्यांकन करने के लिए, हम Imagenet-1k पर प्रशिक्षण देते हैं और फिर सभी परतों से विवेचक के विवेकी विशेषताओं का उपयोग करते हैं, प्रत्येक परतों के प्रतिनिधित्व को अधिकतम 4 × स्थानिक ग्रिड का उत्पादन करते हैं। इन सुविधाओं को तब समतल किया जाता है और 28672 आयामी वेक्टर बनाने के लिए समतल किया जाता है और एक नियमित रूप से रैखिक L2-SVM क्लासिफायर को उनके शीर्ष पर प्रशिक्षित किया जाता है।


1

केनी का जवाब सही है - यदि आप कंफ्यूज़नल डी का उपयोग कर रहे हैं , तो घने होने से पहले परतों का आउटपुट सुविधाओं के रूप में काम कर सकता है। मेरा अंतर्ज्ञान यह है कि यह AC-GAN (या इसी तरह के आर्किटेक्चर के लिए बेहतर काम करेगा, जो यह निर्धारित करता है कि यह नकली है या वास्तविक है) के अलावा D वर्गीकृत इनपुट बनाते हैं।

एक दृष्टिकोण है जिसे BiGAN कहा जाता है जो एक एनकोडर घटक को उत्पन्न करने के लिए मैप करने में सक्षम बनाता है और "जेनरेटर को इनिशियलाइज़" करने के लिए उपयोग किए गए अव्यक्त वितरण z के लिए नमूने का प्रशिक्षण देता है । लेखक दिखाते हैं कि यह प्रभावी रूप से हस्तांतरण सीखने और अन्य कार्यों के लिए एक सुविधा सेट के रूप में उपयोग किया जा सकता है।


0

जैसे कि GAN में दो भाग होते हैं - जनरेटर और डिस्क्रिमिनेटर, GAN का उपयोग करने के दो तरीके हैं जैसे फीचर एक्सट्रैक्टर:

  1. मिखाइल यूरासोव द्वारा प्रस्तुत जनरेटर आधारित तरीका।
  2. केनी द्वारा प्रस्तुत के रूप में भेदभाव आधारित तरीका।

दूसरा तरीका अधिक विवादास्पद है। कुछ अध्ययनों [1] ने सोचा कि, सहज रूप से, जैसा कि विवेचक का लक्ष्य वास्तविक नमूनों से उत्पन्न नमूनों को अलग करना है, यह सिर्फ इन दो प्रकार के नमूनों के बीच के अंतर पर ध्यान केंद्रित करेगा। लेकिन क्या समझ में आता है कि असली नमूनों के बीच अंतर है, जो बहाव के कार्यों द्वारा उपयोग किए जाने वाले नमूने हैं।

मैंने इसका अध्ययन करने की कोशिश की है, और मैंने पाया कि निकाले गए फीचर को दो ऑर्थोगोनल सबस्पेस में परिवर्तित किया जा सकता है । पहला स्थान विवेचक कार्य में योगदान देता है, जबकि दूसरा इससे मुक्त होता है। जैसा कि ज्यादातर मामलों में, उत्पन्न नमूनों से वास्तविक नमूनों को अलग करने के लिए उपयोग की जाने वाली विशेषताएं शोर हैं, दूसरी सुविधा स्थान शोर-मुक्त होगा। इस दृष्टिकोण से, हालांकि विभेदक का कार्य वास्तविक नमूनों के बीच के अंतर पर ध्यान केंद्रित नहीं करेगा, जो बहाव के कार्यों के लिए उपयोगी हैं, दूसरे उप-स्थान में निहित शोर-मुक्त विशेषताएं काम करेंगी।

[१] जोस्ट टोबियास स्प्रिंगबर्ग। Unsupervised और सेमी-सुपरवाइज्ड लर्निंग विद कंजोरिकल जेनरेटिव एडवरसियर नेटवर्क्स। arXiv: 1511.06390 [cs, stat], अप्रैल 2016। arXiv preprint arXiv: 1511.06390 [stat.ML]। इथाका, एनवाई: कॉर्नेल यूनिवर्सिटी लाइब्रेरी।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.