मेरे पास संयुक्त राज्य भर के मौसम स्टेशनों के नेटवर्क के लिए डेटा है। यह मुझे एक डेटा फ्रेम देता है जिसमें दिनांक, अक्षांश, देशांतर और कुछ मापा गया मान होता है। मान लें कि डेटा प्रति दिन एक बार एकत्र किया जाता है और क्षेत्रीय पैमाने के मौसम से संचालित होता है (नहीं, हम उस चर्चा में नहीं जा सकते हैं)।
मैं ग्राफिक रूप से यह दिखाना चाहता हूं कि समय और स्थान के बीच एक साथ मापा गया मान कैसे परस्पर संबंधित है। मेरा लक्ष्य उस मूल्य की क्षेत्रीय समरूपता (या उसके अभाव) को दिखाना है जिसकी जांच की जा रही है।
डेटा सेट
शुरू करने के लिए, मैंने मैसाचुसेट्स और मेन के क्षेत्र में स्टेशनों का एक समूह लिया। मैंने एक अनुक्रमणिका फ़ाइल से अक्षांश और देशांतर द्वारा साइटें चुनीं जो NOAA की FTP साइट पर उपलब्ध हैं।
सीधे आपको एक समस्या दिखाई देती है: बहुत सारी साइटें हैं जिनकी समान पहचानकर्ता हैं या वे बहुत करीब हैं। FWIW, मैं उन्हें USAF और WBAN कोड दोनों का उपयोग करके पहचानता हूं। मेटाडेटा में गहराई से देखने पर मैंने देखा कि उनके अलग-अलग निर्देशांक और ऊंचाई हैं, और एक साइट पर डेटा बंद हो जाता है और फिर दूसरे पर शुरू होता है। इसलिए, क्योंकि मुझे कोई बेहतर जानकारी नहीं है, मुझे उन्हें अलग स्टेशनों के रूप में मानना होगा। इसका मतलब यह है कि डेटा में स्टेशनों के जोड़े शामिल हैं जो एक दूसरे के बहुत करीब हैं।
प्रारंभिक विश्लेषण
मैंने कैलेंडर माह द्वारा डेटा को समूहीकृत करने की कोशिश की और फिर विभिन्न जोड़े डेटा के बीच साधारण न्यूनतम वर्गों प्रतिगमन की गणना की। मैं तब स्टेशनों को जोड़ने वाली एक पंक्ति के रूप में (नीचे) सभी जोड़ों के बीच सहसंबंध की साजिश रचता हूं। लाइन रंग OLS फिट से R2 का मान दिखाता है। इसके बाद यह आंकड़ा दिखाता है कि जनवरी, फरवरी, आदि के 30+ डेटा पॉइंट किस तरह ब्याज के क्षेत्र में विभिन्न स्टेशनों के बीच परस्पर संबंधित हैं।
मैंने अंतर्निहित कोड लिखे हैं ताकि दैनिक मतलब केवल गणना की जाए यदि हर 6 घंटे की अवधि में डेटा बिंदु हैं, इसलिए डेटा को साइटों पर तुलनीय होना चाहिए।
समस्या
दुर्भाग्य से, एक भूखंड पर समझ बनाने के लिए बहुत अधिक डेटा है। यह लाइनों के आकार को कम करके तय नहीं किया जा सकता है।
मैंने इस क्षेत्र में निकटतम पड़ोसियों के बीच सहसंबंधों की साजिश रचने की कोशिश की है, लेकिन यह बहुत जल्दी गड़बड़ हो जाता है। नीचे दिए गए पहलू उपयोग से सहसंबंध मूल्यों के बिना नेटवर्क दिखाते हैं स्टेशनों के उपसमूह से पड़ोसियों निकटतम। यह आंकड़ा सिर्फ अवधारणा का परीक्षण करने के लिए था।
नेटवर्क बहुत जटिल प्रतीत होता है, इसलिए मुझे लगता है कि मुझे जटिलता को कम करने के लिए एक तरीका निकालने की जरूरत है, या किसी प्रकार का स्थानिक कर्नेल लागू करना चाहिए।
मुझे यह भी पता नहीं है कि सहसंबंध दिखाने के लिए सबसे उपयुक्त मीट्रिक क्या है, लेकिन इरादा (गैर-तकनीकी) दर्शकों के लिए, ओएलएस से सहसंबंध गुणांक केवल समझाने के लिए सबसे सरल हो सकता है। मुझे कुछ अन्य जानकारी जैसे ढाल या मानक त्रुटि भी प्रस्तुत करने की आवश्यकता हो सकती है।
प्रशन
मैं एक ही समय में इस क्षेत्र और आर में अपना रास्ता सीख रहा हूं, और इस पर सुझाव की सराहना करूंगा:
- मैं जो करने की कोशिश कर रहा हूं, उसके लिए और अधिक औपचारिक नाम क्या है? क्या कुछ सहायक शब्द हैं जो मुझे अधिक साहित्य खोजने देंगे? मेरी खोजें एक सामान्य अनुप्रयोग होने के लिए रिक्त स्थान खींच रही हैं।
- क्या अंतरिक्ष में अलग-अलग कई डेटा सेटों के बीच सहसंबंध दिखाने के लिए अधिक उपयुक्त तरीके हैं?
- ... विशेष रूप से, ऐसे तरीके जो नेत्रहीन से परिणाम दिखाना आसान है?
- क्या इनमें से कोई आर में लागू किया गया है?
- क्या इनमें से कोई भी दृष्टिकोण स्वचालन के लिए खुद को उधार देता है?