स्थानिक डेटा के लिए फिटिंग वितरण


10

पोस्टिंग पार mathoverflow से मेरे सवाल का कुछ आँकड़े विशेष मदद खोजने के लिए।

मैं एक भौतिक प्रक्रिया उत्पन्न करने वाले डेटा का अध्ययन कर रहा हूं जो गैर-नकारात्मक मूल्यों के साथ दो आयामों में अच्छी तरह से प्रोजेक्ट करता है। प्रत्येक प्रक्रिया में - y बिंदुओं का एक (अनुमानित) ट्रैक होता है - नीचे दी गई छवि देखें।xy

सैंपल ट्रैक नीले रंग के हैं, एक परेशानी का ट्रैक हरे रंग में तैयार किया गया है, और लाल रंग में खींची गई चिंता का एक क्षेत्र है: पटरियों और चिंता का क्षेत्र

प्रत्येक ट्रैक एक स्वतंत्र प्रयोग का परिणाम है। कई वर्षों में बीस मिलियन प्रयोग किए गए हैं, लेकिन उनमें से केवल दो हजार ही उस सुविधा का प्रदर्शन करते हैं, जिसे हम एक ट्रैक के रूप में देखते हैं। हम केवल उन प्रयोगों से चिंतित हैं जो एक ट्रैक उत्पन्न करते हैं, इसलिए हमारा डेटा सेट दो हजार ट्रैक (लगभग) है।

1104

हम चिंता के क्षेत्र में प्रवेश करने वाले एक मनमाने ट्रैक की संभावना की गणना कैसे कर सकते हैं?

यह देखने के लिए जल्दी से पर्याप्त प्रयोगों का संचालन करना संभव नहीं है कि कितनी बार ट्रैक उत्पन्न होते हैं जो चिंता के क्षेत्र में प्रवेश करते हैं, इसलिए हमें उपलब्ध डेटा से एक्सट्रपलेशन करने की आवश्यकता है।

xy200

हमने चिंता के क्षेत्र में प्रत्येक ट्रैक से न्यूनतम दूरी तय की है, लेकिन हम असंबद्ध हैं यह एक न्यायसंगत परिणाम पैदा कर रहा है।

1) क्या एक्सट्रपलेशन के लिए इस प्रकार के डेटा के लिए एक वितरण फिट करने का एक ज्ञात तरीका है?

-या-

2) क्या ट्रैक बनाने के लिए एक मॉडल बनाने के लिए इस डेटा का उपयोग करने का एक स्पष्ट तरीका है? उदाहरण के लिए, एक बड़े स्थान पर बिंदुओं के रूप में पटरियों पर प्रमुख घटक विश्लेषण का उपयोग करें, फिर उन घटकों पर अनुमानित पटरियों के लिए एक वितरण (पियर्सन?) फिट करें।


1
मुझे विशेष प्रक्रिया के बारे में अधिक जानकारी नहीं देनी चाहिए, लेकिन मैं इस सवाल को अपडेट करूंगा कि डेटा कैसे एकत्र किया जाता है।
जेफ स्नाइडर

1
मैंने कोशिश करने और अधिक ठोस होने के लिए भाषा को अपडेट किया है। कल्पना कीजिए कि हम एक खुले शीर्ष तल की खिड़की पर कंकड़ फेंक रहे हैं, और हम केवल इस बात की परवाह करते हैं कि कंकड़ कैसे खिड़की के माध्यम से फर्श पर उछलते हैं। हमने लाखों कंकड़ फेंके हैं, और लगभग 2000 खिड़की से गुजरे हैं। जब एक कंकड़ खिड़की के माध्यम से जाता है तो हम फर्श पर इसकी प्रगति का ट्रैक बनाते हैं। यह देखते हुए कि एक कंकड़ खिड़की से गुजरता है, हम चिंता के क्षेत्र से गुजरने की संभावना का अनुमान लगाना चाहते हैं।
जेफ स्नाइडर

जवाबों:


1

ऐसा लगता है कि आप पटरियों के निर्माण का अनुकरण करना चाहते हैं और फिर लाल क्षेत्र में कितने ट्रैक गिरते हैं, यह देखने के लिए एक मोंटे कार्लो सिमुलेशन का संचालन करें। ऐसा करने के लिए, मैं सबसे पहले लाइनों को दो कार्यों में परिवर्तित करूँगा, एक दिशा देने वाला और दूसरा उस ट्रैक पर एक बिंदु से दूसरी दूरी तक। अब आप उन दो कार्यों से जुड़े संभाव्यता वितरण का अध्ययन कर सकते हैं। उदाहरण के लिए, आप पा सकते हैं कि यात्रा की गई दूरी एक विशिष्ट वितरण का अनुसरण करती है (सावधान रहें कि वितरण समय के साथ नहीं बदलता)। यदि या तो चर समय के साथ बदलता है, तो आपको समय श्रृंखला विश्लेषण (मेरे क्षेत्र, क्षमा करें) में तल्लीन करना होगा।

एक और विचार जो दिमाग में आता है, वह यह है कि चूंकि ज्यादातर पटरियों में धीरे-धीरे एक्सई में आंदोलन की दिशा बदल जाती है, आप पटरियों के लिए दिशा बनाम समय में बदलाव की बेहतर जांच कर सकते हैं।

आपको किसी दिए गए दिशा के साथ दिए गए xy को-ऑर्डिनेट पर शुरू होने वाले ट्रैक की संभावना का भी अनुमान लगाना होगा। आप परिणामी पीडीएफ को सुचारू करने के लिए कर्नेल घनत्व अनुमान का उपयोग करने पर विचार कर सकते हैं या, यदि यह एक वितरण का पालन करता प्रतीत होता है जिसके लिए एक विश्लेषणात्मक मॉडल है तो उस वितरण को डेटा में फिट करने के लिए अपेक्षा अधिकतमकरण का उपयोग किया जा सकता है।

मोंटे कार्लो सिमुलेशन फिर पटरियों के आकार का अनुकरण करने के लिए इन वितरणों से यादृच्छिक नमूने आकर्षित करेगा। फिर आपको बड़ी संख्या में पटरियों का अनुकरण करना होगा और देखना होगा कि वे ट्रैक लाल क्षेत्र से कितनी बार गुजरते हैं। यह हजारों या लाखों ट्रैक हो सकते हैं, आपको यह देखने के लिए प्रयोग करना होगा कि जब आप अधिक ट्रैक्स जोड़ते हैं तो वितरण बदलना बंद हो जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.