पोस्टिंग पार mathoverflow से मेरे सवाल का कुछ आँकड़े विशेष मदद खोजने के लिए।
मैं एक भौतिक प्रक्रिया उत्पन्न करने वाले डेटा का अध्ययन कर रहा हूं जो गैर-नकारात्मक मूल्यों के साथ दो आयामों में अच्छी तरह से प्रोजेक्ट करता है। प्रत्येक प्रक्रिया में - y बिंदुओं का एक (अनुमानित) ट्रैक होता है - नीचे दी गई छवि देखें।
सैंपल ट्रैक नीले रंग के हैं, एक परेशानी का ट्रैक हरे रंग में तैयार किया गया है, और लाल रंग में खींची गई चिंता का एक क्षेत्र है:
प्रत्येक ट्रैक एक स्वतंत्र प्रयोग का परिणाम है। कई वर्षों में बीस मिलियन प्रयोग किए गए हैं, लेकिन उनमें से केवल दो हजार ही उस सुविधा का प्रदर्शन करते हैं, जिसे हम एक ट्रैक के रूप में देखते हैं। हम केवल उन प्रयोगों से चिंतित हैं जो एक ट्रैक उत्पन्न करते हैं, इसलिए हमारा डेटा सेट दो हजार ट्रैक (लगभग) है।
हम चिंता के क्षेत्र में प्रवेश करने वाले एक मनमाने ट्रैक की संभावना की गणना कैसे कर सकते हैं?
यह देखने के लिए जल्दी से पर्याप्त प्रयोगों का संचालन करना संभव नहीं है कि कितनी बार ट्रैक उत्पन्न होते हैं जो चिंता के क्षेत्र में प्रवेश करते हैं, इसलिए हमें उपलब्ध डेटा से एक्सट्रपलेशन करने की आवश्यकता है।
हमने चिंता के क्षेत्र में प्रत्येक ट्रैक से न्यूनतम दूरी तय की है, लेकिन हम असंबद्ध हैं यह एक न्यायसंगत परिणाम पैदा कर रहा है।
1) क्या एक्सट्रपलेशन के लिए इस प्रकार के डेटा के लिए एक वितरण फिट करने का एक ज्ञात तरीका है?
-या-
2) क्या ट्रैक बनाने के लिए एक मॉडल बनाने के लिए इस डेटा का उपयोग करने का एक स्पष्ट तरीका है? उदाहरण के लिए, एक बड़े स्थान पर बिंदुओं के रूप में पटरियों पर प्रमुख घटक विश्लेषण का उपयोग करें, फिर उन घटकों पर अनुमानित पटरियों के लिए एक वितरण (पियर्सन?) फिट करें।