ग्राफ कर्नेल एसवीएम हाइपरपामेटर्स ट्यूनिंग के लिए क्या तरीके मौजूद हैं?


10

मेरे पास कुछ डेटा हैं जो एक ग्राफ । कोने दो वर्गों में से एक हैं , और मैं दो वर्गों के बीच अंतर करने के लिए एक एसवीएम प्रशिक्षण में रुचि रखता हूं। इसके लिए एक उपयुक्त कर्नेल है डिफ्यूजन कर्नेल , जहां का लाप्लासियन है और एक ट्यूनिंग पैरामीटर है।y मैं{ - 1 , 1 }G=(V,E)yi{1,1}एलK=exp(βL),LβGβ

एसवीएम को ट्यून करने से हाइपरपामेटर्स के चयन की आवश्यकता होती है, इसलिए मुझे को ट्यून करना होगापारंपरिक, हम इस समस्या के लिए पार सत्यापन का उपयोग करें, लेकिन यह है कि यहां उचित प्रतीत नहीं होता, एक शीर्ष छोड़ते हुए के बाद से से पूरे ग्राफ बदलता है, संभवतः भी संपर्क में घटकों की संख्या में वृद्धि! यदि कनेक्ट किए गए घटकों की संख्या में परिवर्तन होता है, तो कुछ कोने दूसरों से अगम्य हो जाते हैं, और हम डेटा के बहुत अलग सेट के साथ सामना कर रहे हैं, जो इसके साथ शुरू हुआ था। यही है, न केवल हम हटाए गए शीर्ष याद कर रहे हैं, बल्कि हम ग्राफ में अन्य सभी शीर्षों बारे में भी जानकारी गायब कर रहे हैं जो उस शीर्ष से सटे थे।मैं जी मैं जेθ=(β,C).iGij

क्रॉस-वैलिडेशन की मूल धारणा यह है कि हम अनुमानित करना चाहेंगे कि नए डेटा के साथ प्रस्तुत किए जाने पर मॉडल कैसा प्रदर्शन करेगा। मानक समस्याओं में, परीक्षण के लिए आपके कुछ डेटा का चूक शेष प्रशिक्षण डेटा के मूल्यों को नहीं बदलता है। हालांकि, ग्राफ डेटा के मामले में, यह स्पष्ट नहीं है कि मॉडल के लिए सीवी सेटिंग में "नया" डेटा देखने का क्या मतलब है। वर्टिकलिंग वर्ट्स या किनारों को डेटा को पूरी तरह से बदलने की क्षमता है। उदाहरण के लिए, एक ग्राफ कल्पना जो है एक सितारा ग्राफ, जिसमें एक शीर्ष है को किनारों कोने, और अन्य सभी कोने 1 बढ़त हासिल है। प्रशिक्षण डेटा निर्माण के लिए केंद्रीय शीर्ष को समझनाकश्मीर कश्मीर कश्मीर एस *S=(VS,ES)kkkSपूरी तरह से ग्राफ को डिस्कनेक्ट कर देगा, और कर्नेल मैट्रिक्स विकर्ण होगा! लेकिन निश्चित रूप से, में प्रदान किए गए इस प्रशिक्षण डेटा पर एक मॉडल को प्रशिक्षित करना संभव होगा । क्या कम स्पष्ट है इसका मतलब यह है कि फिर परिणामी मॉडल के आउट-ऑफ-सैंपल प्रदर्शन का परीक्षण करें। क्या कोई लिए कर्नेल मैट्रिक्स को फिर से जोड़ देता है , और यह भविष्यवाणी करने के लिए प्रदान करता है? एसSS

या, वैकल्पिक रूप से, क्या पूरी तरह से के कर्नेल मैट्रिक्स की गणना करके शुरू होता है और एसवीएम का अनुमान लगाने के लिए उपयोग किए जाने वाले कर्नेल मैट्रिक्स का उत्पादन करने के लिए आवश्यक पंक्तियों और स्तंभों को छोड़ देता है? यह अपनी स्वयं की वैचारिक समस्याओं को प्रस्तुत करता है, क्योंकि में केंद्रीय नोड को शामिल करने का मतलब है कि प्रत्येक शीर्ष प्रत्येक दूसरे शीर्ष से पहुंच योग्य है, और कर्नेल मैट्रिक्स घना है। क्या इस समावेशन का अर्थ यह होगा कि सिलवटों के पार सूचना रिसाव है, और क्रॉस-वैलिडेशन आउटपुट को पूर्वाग्रह करता है? एक ओर, छोड़े गए केंद्रीय नोड के बारे में डेटा अभी भी मौजूद है, क्योंकि छोड़े गए केंद्रीय नोड ग्राफ को जुड़ा हुआ बनाता है। दूसरी ओर, हम लेबल बारे में कुछ नहीं जानते हैंएस वाईSS y छोड़े गए नोड्स, इसलिए हम सहज हो सकते हैं कि हम इस तरीके से सीवी प्रदर्शन करने के लिए पर्याप्त रूप से निष्पक्ष अनुमान प्राप्त कर रहे हैं।

इस प्रकार की समस्याओं के लिए हाइपरपैरामीटर का चयन कैसे किया जाता है? क्या CV अपूर्ण-लेकिन स्वीकार्य है, या क्या हमें विशेष विधियों की आवश्यकता है? क्या मेरे संदर्भ में हाइपरपरमेटर ट्यूनिंग भी संभव है?


वर्णक्रमीय तरीकों के लिए आउट-ऑफ-सैंपल एक्सटेंशन देखें। मैंने अपनी थीसिस में छवि वर्गीकरण के लिए कुछ तकनीकों को लागू किया (अब वापस देख रहा हूं, मैंने ऐसा अलग तरीके से किया होगा)। परिणाम दिलचस्प थे लेकिन मॉडल खुद बहुत भंगुर थे और धुन के लिए आसान नहीं थे।
व्लादिस्लाव डोभालगस 21

@xeon इस साहित्य को देखने के लिए कोई सिफारिश कहाँ से शुरू होगी?
साइकोरैक्स का कहना है कि मोनिका सेप

जवाबों:


3

अस्वीकरण: मैं ग्राफ गुठली से बहुत परिचित नहीं हूं, इसलिए यह उत्तर गलत मान्यताओं पर आधारित हो सकता है। मैं सहमत हूं कि कर्नेल मैट्रिक्स की गणना करते समय लंबवत झुकाव उप-मध्य है। उस ने कहा, मुझे यकीन नहीं है कि क्रॉस-मान्यता जरूरी समस्याग्रस्त है। क्या आपका सीखने का संदर्भ पारगमन या प्रेरण है?

कुल मिलाकर, मुझे विश्वास नहीं हो रहा है कि सभी डेटा (यानी, ट्रेन और टेस्ट दोनों) के आधार पर दिए गए लिए कर्नेल मैट्रिक्स की गणना करना आवश्यक रूप से एक सूचना लीक बनाता है। यदि सभी डेटा के आधार पर कर्नेल की गणना ठीक हो जाती है, तो आप प्रशिक्षण / परीक्षण के लिए पूर्ण कर्नेल मैट्रिक्स के प्रासंगिक ब्लॉकों का उपयोग करके मॉडल को एक सामान्य सीवी-सेटअप में प्रशिक्षित कर सकते हैं।β

यह दृष्टिकोण आपको संयुक्त रूप से और ऑप्टिमाइज़ करने में सक्षम करेगा , उदाहरण के लिए Optunity जैसे पुस्तकालयों के माध्यम से , जहाँ सभी डेटा के आधार पर कर्नेल की गणना करने के लिए का उपयोग किया जाता है और का उपयोग विशेष रूप से प्रशिक्षण सिलवटों पर मॉडल को प्रशिक्षित करने के लिए किया जाता है।सी β सीβCβC


मार्क, आपके ध्यान के लिए धन्यवाद। मेरी समस्या आगमनात्मक है। मेरी वृत्ति यह है कि आपके सही हैं, और हम सभी डेटा के लिए पूर्ण कर्नेल मैट्रिक्स की गणना करते हैं और फिर सीवीएल कर्नेल का उत्पादन करने के लिए पंक्तियों और स्तंभों को छोड़ देते हैं। क्या आप इस आशय के किसी भी संदर्भ से अवगत होंगे?
साइकोरैक्स का कहना है कि मोनिका

तुरंत नहीं, लेकिन मेरे पास कुछ सहयोगी हैं जो तुलनीय समस्याओं (कर्नेल वर्णक्रमीय क्लस्टरिंग) पर काम कर रहे हैं जो मैं पूछ सकता हूं। शायद उनके पास संदर्भ और / या बेहतर विचार हैं। अधिक जानकारी होने पर अपडेट करेंगे।
मार्क क्लेसेन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.