उच्च आयामी डेटा सेट के लिए गॉसियन प्रक्रिया प्रतिगमन


10

बस यह देखना चाहता था कि क्या किसी के पास उच्च आयामी डेटा सेटों में गॉसियन प्रक्रिया प्रतिगमन (जीपीआर) को लागू करने का कोई अनुभव है। मैं विभिन्न विरल जीपीआर विधियों (जैसे विरल छद्म-इनपुट जीपीआर) में से कुछ में देख रहा हूं कि उच्च आयामी डेटा सेट के लिए क्या काम हो सकता है जहां आदर्श रूप से सुविधा चयन पैरामीटर चयन प्रक्रिया का हिस्सा है।

कागजात / कोड / या विभिन्न तरीकों की कोशिश करने पर किसी भी सुझाव की निश्चित रूप से सराहना की जाती है।

धन्यवाद।


2
जैसा कि कहा गया है, यह प्रश्न काफी अस्पष्ट है। स्व-निहित, ठोस और अच्छी तरह से प्रेरित प्रश्न यहां सबसे अधिक ध्यान और सर्वोत्तम उत्तर प्राप्त करते हैं। (उदाहरण के लिए, यदि आपके पास कोई विशेष समस्या है जिसे आप हल करने का प्रयास कर रहे हैं, तो पर्याप्त विवरण प्रदान करने पर विचार करें कि पाठक समझ सकते हैं कि आप क्या करने की कोशिश कर रहे हैं।)
कार्डिनल

जवाबों:


13

गाऊसी प्रक्रिया मॉडल आमतौर पर उच्च आयामी डेटासेट के साथ ठीक होते हैं (मैंने उन्हें माइक्रोएरे डेटा आदि के साथ उपयोग किया है)। वे हाइपर-मापदंडों के लिए अच्छे मूल्यों को चुनने में महत्वपूर्ण हैं (जो नियमित रूप से मॉडल की जटिलता को उसी तरह से नियंत्रित करते हैं जो नियमित रूप से करते हैं)।

बड़ी संख्या में नमूनों के बजाय बड़ी संख्या में नमूनों (> मेरे कंप्यूटर के लिए 4000) के साथ डेटासेट के लिए विरल तरीके और छद्म इनपुट विधियां अधिक हैं। यदि आपके पास सहसंयोजक मैट्रिक्स (एन द्वारा n जहां नमूने की संख्या है) के चोल्स्की अपघटन करने के लिए एक शक्तिशाली पर्याप्त कंप्यूटर है, तो आपको शायद इन तरीकों की आवश्यकता नहीं है।

यदि आप MATLAB उपयोगकर्ता हैं, तो मैं दृढ़ता से GPML टूलबॉक्स और रस्मुसेन और विलियम्स द्वारा पुस्तक शुरू करने के लिए अच्छे स्थानों की सिफारिश करूंगा

फिर भी, यदि आप सुविधा चयन में रुचि रखते हैं, तो मैं GPs से बचूंगा। GPs के साथ चयन की सुविधा के लिए मानक दृष्टिकोण एक स्वत: प्रासंगिक निर्धारण कर्नेल (जैसे GPML में covSEard) का उपयोग करना है, और फिर सीमांत संभावना को अधिकतम करने के लिए कर्नेल मापदंडों को ट्यून करके सुविधा चयन को प्राप्त करना है। दुर्भाग्यवश, सीमांत संभावना को ओवर-फिटिंग करने और एक मॉडल के साथ समाप्त होने की बहुत संभावना है जो एक सरल गोलाकार रेडियल आधार फ़ंक्शन (जीपीएमएल में कोवेसीसो) के साथ मॉडल की तुलना में खराब (संभवतः बहुत) प्रदर्शन करता है।

मेरा वर्तमान शोध ध्यान फिलहाल मॉडल चयन में अति-फिटिंग पर है और मैंने पाया है कि यह GPs में साक्ष्य के अधिकतमकरण के लिए एक समस्या है क्योंकि यह कर्नेल मॉडल में हाइपर-पैरानेटर्स के क्रॉस-सत्यापन आधारित अनुकूलन के लिए है, विवरण के लिए यह कागज देखें , और यह एक

गैर-रैखिक मॉडल के लिए फ़ीचर चयन बहुत मुश्किल है। अक्सर आप एक रैखिक मॉडल से चिपके रहते हैं और स्पार्सिटी या यादृच्छिक वन विधियों को प्राप्त करने के लिए L1 नियमितीकरण प्रकार के दृष्टिकोण (Lasso / LARS / Elastic net आदि) का उपयोग करके बेहतर प्रदर्शन प्राप्त करते हैं।


धन्यवाद डिकरन। मैं नियमित रूप से रैखिक मॉडल के लिए आर में glmnet को देखने की कोशिश की है। दुर्भाग्य से, मेरी भविष्यवाणियां सभी समान हैं (मुझे लगता है कि मेरे प्रशिक्षण सेट का मतलब है)। मेरे मॉडल में रैखिक मॉडल एक कठिन समय को संकेत से बाहर निकालते प्रतीत होते हैं। यही कारण है कि मैं गैर-रेखीय मॉडल की तलाश कर रहा हूं जो कई सुविधाओं / संभावित फीचर इंटरैक्शन से निपट सकता है। मुझे पूरा यकीन है कि हालांकि बहुत कुछ पूछ रहा हूँ। उस मोर्चे पर कोई सुझाव? मेरे पास P >> N समस्या नहीं है। 150 सुविधाओं का उपयोग करते हुए, 1000 उदाहरण।
tomas

हे दीकरन। यह एक बहुत ही अस्पष्ट सवाल था जो मैंने अपनी टिप्पणियों में माफ़ किया था। मैंने बोर्डों पर एक अधिक विशिष्ट प्रश्न रखा। आपकी सहायता के लिए एक बार फिर से धन्यवाद। आंकड़े.stackexchange.com/questions/30411/…
tomas

कोई समस्या नहीं है, अक्सर काम कर रहे हैं जो सवाल उन्हें जवाब देने से ज्यादा मुश्किल है! मैं अन्य प्रश्नों के लिए बाहर देखूंगा।
डिक्रान मार्सुपियल

इस उत्तर के लिए धन्यवाद। उच्च आयामी विशेषताओं के मामले में, लेकिन इतने बड़े डेटासेट (n ~ 10k d ~ 1k) नहीं हैं, क्या गणना में तेजी लाने के लिए ARD का उपयोग करना संभव है? मैं GPML टूलबॉक्स का उपयोग कर रहा हूं। क्या हम प्रासंगिक विशेषताओं पर ध्यान केंद्रित करने के लिए सहसंयोजक मैट्रिक्स को स्वचालित रूप से "स्पार्सिफाई" कर सकते हैं?
एमिल

1
" r.csail.mit.edu/papers/v8/cawley07a.html " लिंक काम नहीं कर रहा है ... क्या यह एक है? jmlr.org/papers/v8/cawley07a.html । शायद सिर्फ लिंक के बजाय पूर्ण उद्धरण जोड़ना लाभदायक होगा :-)
उत्सुक

4

आप उच्च आयामी डेटा का इलाज करने के लिए विशेष रूप से डिज़ाइन किए गए कोवरियन कार्यों का उपयोग करने का प्रयास कर सकते हैं। के माध्यम से देखो Additive सहप्रसरण समारोह पर कागज उदाहरण के लिए। उन्होंने मेरे संख्यात्मक प्रयोगों के अन्य अत्याधुनिक कोवरियन कार्यों की तुलना में बेहतर काम किया है, बल्कि बड़े इनपुट आयामों के कुछ वास्तविक आंकड़ों के साथ (लगभग)30)।

हालांकि, यदि इनपुट आयाम वास्तव में बहुत बड़ा है (से अधिक है) 100 या 200) ऐसा लगता है कि कोई भी कर्नेल विधि विफल हो जाएगी, और गॉसियन प्रक्रियाओं के प्रतिगमन के लिए कोई बहिष्करण नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.