मैं प्रतिगमन के लिए गॉसियन प्रक्रिया (जीपी) का उपयोग कर रहा हूं।
मेरी समस्या में यह दो या अधिक डेटा बिंदुओं के लिए काफी सामान्य है एक दूसरे के करीब होने के लिए, अपेक्षाकृत लंबाई के लिए समस्या का पैमाना। इसके अलावा, अवलोकन अत्यधिक शोर हो सकता है। कम्प्यूटेशन में तेजी लाने और माप परिशुद्धता में सुधार करने के लिए, अंक के समूहों को एक दूसरे के करीब मर्ज करना / एकीकृत करना स्वाभाविक है, जब तक कि मैं एक बड़े लंबाई के पैमाने पर भविष्यवाणियों के बारे में परवाह करता हूं।
मुझे आश्चर्य है कि ऐसा करने का एक तेज़ लेकिन अर्ध-राजसी तरीका है।
दो डेटा बिंदु पूरी तरह से ओवरलैपिंग कर रहे थे, , और प्रेक्षण शोर (यानी, संभावना) गाऊसी, संभवतः heteroskedastic लेकिन है जाना जाता है , कार्यवाही का स्वाभाविक तरीका उन्हें किसी एकल डेटा बिंदु में मर्ज करना प्रतीत होता है:
, ।
देखे गए मान जो कि देखे गए मानों का एक औसत है उनकी संबंधित सटीकता से भारित: ।
Noise जो कि अवलोकन के बराबर है: ।
हालांकि, मुझे दो बिंदुओं का विलय कैसे करना चाहिए जो करीब हैं लेकिन अतिव्यापी नहीं हैं?
मुझे लगता है कि अभी भी दो पदों का भारित औसत होना चाहिए , फिर से सापेक्ष विश्वसनीयता का उपयोग करना। तर्क एक केंद्र-जन-तर्क है (यानी, कम सटीक टिप्पणियों के ढेर के रूप में बहुत सटीक अवलोकन के बारे में सोचें)।
के लिए ऊपर के रूप में एक ही सूत्र।
अवलोकन से जुड़े शोर के लिए, मुझे आश्चर्य है कि अगर उपरोक्त सूत्र के अलावा मुझे शोर में सुधार शब्द जोड़ना चाहिए क्योंकि मैं डेटा बिंदु को चारों ओर घुमा रहा हूं। अनिवार्य रूप से, मुझे अनिश्चितता में वृद्धि मिलेगी जो कि और संबंधित है (क्रमशः, संकेत विचरण और सहसंयोजक कार्य की लंबाई के पैमाने)। मैं इस शब्द के रूप के बारे में निश्चित नहीं हूं, लेकिन मेरे पास कुछ अस्थायी विचार हैं कि कैसे इसे गणना करने का कार्य दिया जाए।
आगे बढ़ने से पहले, मैंने सोचा कि क्या वहाँ पहले से ही कुछ था; और अगर यह कार्यवाही का एक समझदार तरीका है, या बेहतर त्वरित तरीके हैं।
साहित्य में सबसे करीबी चीज मुझे मिल सकती है: ई। स्नेलसन और जेड। घ्रामणी, स्पर्स गॉसियन प्रोसेसस, जो छद्म-इनपुट , NIPS '05 का उपयोग करते हैं ; लेकिन उनकी विधि शामिल है (अपेक्षाकृत), छद्म-आदानों को खोजने के लिए एक अनुकूलन की आवश्यकता होती है।