गाऊसी प्रक्रिया मॉडल आमतौर पर उच्च आयामी डेटासेट के साथ ठीक होते हैं (मैंने उन्हें माइक्रोएरे डेटा आदि के साथ उपयोग किया है)। वे हाइपर-मापदंडों के लिए अच्छे मूल्यों को चुनने में महत्वपूर्ण हैं (जो नियमित रूप से मॉडल की जटिलता को उसी तरह से नियंत्रित करते हैं जो नियमित रूप से करते हैं)।
बड़ी संख्या में नमूनों के बजाय बड़ी संख्या में नमूनों (> मेरे कंप्यूटर के लिए 4000) के साथ डेटासेट के लिए विरल तरीके और छद्म इनपुट विधियां अधिक हैं। यदि आपके पास सहसंयोजक मैट्रिक्स (एन द्वारा n जहां नमूने की संख्या है) के चोल्स्की अपघटन करने के लिए एक शक्तिशाली पर्याप्त कंप्यूटर है, तो आपको शायद इन तरीकों की आवश्यकता नहीं है।
यदि आप MATLAB उपयोगकर्ता हैं, तो मैं दृढ़ता से GPML टूलबॉक्स और रस्मुसेन और विलियम्स द्वारा पुस्तक शुरू करने के लिए अच्छे स्थानों की सिफारिश करूंगा ।
फिर भी, यदि आप सुविधा चयन में रुचि रखते हैं, तो मैं GPs से बचूंगा। GPs के साथ चयन की सुविधा के लिए मानक दृष्टिकोण एक स्वत: प्रासंगिक निर्धारण कर्नेल (जैसे GPML में covSEard) का उपयोग करना है, और फिर सीमांत संभावना को अधिकतम करने के लिए कर्नेल मापदंडों को ट्यून करके सुविधा चयन को प्राप्त करना है। दुर्भाग्यवश, सीमांत संभावना को ओवर-फिटिंग करने और एक मॉडल के साथ समाप्त होने की बहुत संभावना है जो एक सरल गोलाकार रेडियल आधार फ़ंक्शन (जीपीएमएल में कोवेसीसो) के साथ मॉडल की तुलना में खराब (संभवतः बहुत) प्रदर्शन करता है।
मेरा वर्तमान शोध ध्यान फिलहाल मॉडल चयन में अति-फिटिंग पर है और मैंने पाया है कि यह GPs में साक्ष्य के अधिकतमकरण के लिए एक समस्या है क्योंकि यह कर्नेल मॉडल में हाइपर-पैरानेटर्स के क्रॉस-सत्यापन आधारित अनुकूलन के लिए है, विवरण के लिए यह कागज देखें , और यह एक ।
गैर-रैखिक मॉडल के लिए फ़ीचर चयन बहुत मुश्किल है। अक्सर आप एक रैखिक मॉडल से चिपके रहते हैं और स्पार्सिटी या यादृच्छिक वन विधियों को प्राप्त करने के लिए L1 नियमितीकरण प्रकार के दृष्टिकोण (Lasso / LARS / Elastic net आदि) का उपयोग करके बेहतर प्रदर्शन प्राप्त करते हैं।