विभिन्न प्रकार की घटनाओं (उनके 2 डी स्थान द्वारा परिभाषित) के बीच संबंध कैसे खोजें?


9

मेरे पास घटनाओं का एक डेटासेट है जो उसी समय के दौरान हुआ था। प्रत्येक घटना का एक प्रकार होता है (कुछ अलग प्रकार होते हैं, फिर कम दस) और एक स्थान, एक 2 डी बिंदु के रूप में दर्शाया जाता है।

मैं जांचना चाहूंगा कि क्या घटनाओं के प्रकार, या प्रकार और स्थान के बीच कोई संबंध है। उदाहरण के लिए, टाइप ए की घटनाएं आमतौर पर नहीं होती हैं जहां टाइप बी की घटनाएं होती हैं। या शायद किसी क्षेत्र में, प्रकार सी की ज्यादातर घटनाएं होती हैं।

इसे प्रदर्शन करने के लिए मैं किस प्रकार के टूल का उपयोग कर सकता हूं? सांख्यिकीय विश्लेषण में एक नौसिखिया होने के नाते, मेरा पहला विचार इस डेटासेट पर किसी प्रकार के पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस) का उपयोग करना था, यह देखने के लिए कि क्या प्रत्येक प्रकार के ईवेंट का अपना घटक था, या शायद कुछ उसी को साझा किया गया था (यानी सहसंबद्ध थे)?

मुझे यह उल्लेख करना होगा कि मेरा डेटासेट 500'000 अंकों के क्रम का है (x,y,type), इस प्रकार चीजों से निपटना थोड़ा कठिन हो जाता है।

EDIT: जैसा कि नीचे दिए गए जवाबों और टिप्पणियों में दिया गया है, जाने का तरीका इसे एक चिह्नित बिंदु प्रक्रिया के रूप में मॉडल करना है, और फिर आर का उपयोग सभी भारी उठाने के लिए करना है, जैसा कि इस कार्यशाला की रिपोर्ट में विवरण में बताया गया है: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html


क्या यह एक रैस्टोरेंट डेटासेट है, जैसे कि एक (संसाधित) रिमोट सेंसिटिव इमेज है, या यह एक अनियमित डेटासेट है?
whuber

ठीक है, मुझे लगता है कि आप इसे अनियमित कहेंगे: यह उन अपराधों की रिकॉर्डिंग है जो एक दिए गए महीने के दौरान यूके में हुए, यहां पर उपलब्ध हैं: पुलिस . uk / data
वूकाई

@Wookai में ब्रिटेन में 500,000,000 अपराधों एक महीने ?? क्या पुलिस इस्लील पर अराजकता प्रेस द्वारा अप्राप्त है, केवल पुलिस फाइलों में प्रकट होने के लिए? :-) मैं उस राशि के बारे में 1/100 वाँ विश्वास कर सकता था - मुश्किल से।
whuber

वाह, मुझे इस "टाइपो" के लिए वास्तव में खेद है;) यह वास्तव में 1000 गुना कम है, 500'000 अपराध ("वाहनों के अपराधों की गिनती", यानी गति टिकट, आदि ...)।
वूकाई

1
हाँ, आर जाने का रास्ता दिखता है! मुझे आर के स्पैटस्टैट मॉड्यूल पर एक कार्यशाला की बहुत पूरी रिपोर्ट मिली, जो वास्तव में मैं देख रहा हूँ: csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Waiai

जवाबों:


3

जिस प्रकार के डेटा का आप वर्णन करते हैं, उसे "चिह्नित बिंदु पैटर्न" कहा जाता है, आर में स्थानिक आंकड़ों के लिए एक कार्य दृश्य है जो इस प्रकार के विश्लेषण के लिए कई अच्छे पैकेज प्रदान करता है, जिनमें से अधिकांश संभवतः आपके द्वारा किए गए विनम्र डेटा से निपटने में सक्षम नहीं हैं। है :(

उदाहरण के लिए, टाइप ए की घटनाएं आमतौर पर नहीं होती हैं जहां टाइप बी की घटनाएं होती हैं। या शायद किसी क्षेत्र में, प्रकार सी की ज्यादातर घटनाएं होती हैं।

ये दो बिल्कुल अलग प्रकार के प्रश्न हैं: दूसरा एक प्रकार के चिह्न / घटना की स्थिति के बारे में पूछता है। इस संदर्भ में देखने के लिए Buzzwords फ़्यू इंटेंसिटी अनुमान या K-फ़ंक्शन अनुमान है यदि आप क्लस्टरिंग के पैटर्न की खोज करने में रुचि रखते हैं (एक प्रकार की समूह में एक साथ होने की घटनाएं) या प्रतिकर्षण (एक तरह की घटनाओं को अलग किया जा सकता है)। पहला विभिन्न प्रकार की घटनाओं के बीच संबंध के बारे में पूछता है। यह आमतौर पर निशान सहसंबंध कार्यों के साथ मापा जाता है।

मुझे लगता है कि डेटा को अधिक ट्रैफ़िक डेटा प्राप्त करने के लिए सबसम्प्लिमेंट करना खतरनाक है (देखें टिप्पणी @ हैमर के उत्तर पर टिप्पणी करें), लेकिन हो सकता है कि आप अपने डेटा को एकत्र कर सकें: अवलोकन विंडो को समान आकार की कोशिकाओं की प्रबंधन योग्य संख्या में विभाजित करें और घटना की गणना करें से प्रत्येक। प्रत्येक सेल को उसके केंद्र के स्थान और आपके 10 चिह्न प्रकारों के लिए 10-वेक्टर की गणना द्वारा वर्णित किया जाता है। आपको इस एकत्रित प्रक्रिया पर चिह्नित बिंदु प्रक्रियाओं के लिए मानक तरीकों का उपयोग करने में सक्षम होना चाहिए।


मैं चिह्नित बिंदु प्रक्रियाओं और कुछ संबंधित सैद्धांतिक उपकरणों से परिचित हूं, मुझे इसके बारे में पहले सोचना चाहिए था। कीवर्ड के लिए बहुत बहुत धन्यवाद, क्या आपके पास इन के लिए कुछ संकेत हैं? एकत्रीकरण विचार के लिए भी धन्यवाद, मेरे पास एक समान था, ऐसा करने की कोशिश करेंगे।
वूकाई

2
पीटर डिगल ने "मॉडल-आधारित भूस्थैतिकता" लिखा है। उनके पास इस पृष्ठ पर लंकाशायर अपराध डेटा का विश्लेषण भी है: lancs.ac.uk/staff/diggle/MADE जो आपको कुछ अच्छे विचार दे सकता है।
फाबियों 22

1

सबसे पहले, डेटासेट का आकार। मैं डेटासेट के छोटे (ट्रैक्टेबल) नमूने लेने की सलाह देता हूं (या तो बेतरतीब ढंग से एन डेटापॉइंट्स का चयन करके, या फिर एक्सवाई प्लेन में कई अपेक्षाकृत छोटे आयतों को चुनकर और उस प्लेन के अंदर आने वाले सभी पॉइंट्स को लेने के लिए और फिर इस सब्मिट पर अपनी एनालिसिस तकनीकों का सम्मान करते हुए। एक बार जब आपको विश्लेषण के रूप का पता चलता है जो काम करता है, तो आप इसे डेटासेट के बड़े हिस्से पर लागू कर सकते हैं।

पीसीए मुख्य रूप से एक आयामी कमी तकनीक के रूप में उपयोग किया जाता है; आपका डेटासेट केवल तीन आयाम हैं (जिनमें से एक श्रेणीगत है), इसलिए मुझे संदेह है कि यह यहां लागू होगा।

माटलैब या आर के साथ काम करने की कोशिश करें उन बिंदुओं की कल्पना करें जो आप एक्सवाई प्लेन में विश्लेषण कर रहे हैं (या संपूर्ण डेटा सेट के साथ काम करने पर उनका घनत्व), दोनों प्रकार के लिए और सभी प्रकार के संयुक्त, और यह देखते हुए कि क्या पैटर्न नेत्रहीन उभरता है। यह एक अधिक कठोर विश्लेषण को निर्देशित करने में मदद कर सकता है।


1
यह उपयुक्त है या नहीं, यह इस बात पर निर्भर करता है कि आप पहले से ही अपने डेटा जनरेटिंग प्रक्रिया के बारे में क्या जानते हैं या मान लेते हैं। क्षेत्र के आधार पर डेटा को सब्सक्राइब करना (यानी किसी पूर्वनिर्धारित छोटी विंडो में सभी बिंदुओं को लेना) खतरनाक हो सकता है यदि यह सजातीय नहीं है (क्योंकि एक अलग विंडो का उपयोग करने से आपके निष्कर्ष बदल गए होंगे)। एक प्रशिक्षण सेट के लिए स्थिति की परवाह किए बिना डेटा का नमूना लेना मनाया प्रक्रिया को "थिनिंग आउट" करने का प्रभाव है और ऐसे निष्कर्षों को अमान्य करता है जो आप के बारे में आकर्षित करना चाहते हैं जैसे कि निशान या क्लस्टरिंग / प्रतिकर्षण प्रक्रियाओं के बीच सहसंबंधों की सीमा।
फबियों ने

हां, मुझे पता है कि पीसीए आयामी कमी के लिए है, यही कारण है कि मैं इस बारे में उलझन में था कि मैं इसे अपने डेटासेट में कैसे लागू कर सकता हूं। विचार यह देखने के लिए था कि क्या प्रत्येक घटना प्रकार की अपनी "दिशा" थी, या यदि कुछ "समान दिशा" साझा करते थे। लेकिन मुझे लगता है कि मैं बस सहसंबंध बनाने के लिए सोच रहा था।
वूकाई
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.