क्लस्टरिंग प्रक्षेपवक्र (जीपीएस (x, y) बिंदुओं का डेटा) और डेटा का खनन करता है


14

मानव तोप के लिए कार्यालय में सिर्फ एक और दिन।

GPS डेटासेट का विश्लेषण करने पर मुझे 2 प्रश्न मिले हैं।

1) निकालने वाले प्रक्षेपवक्र मेरे पास प्रपत्र के रिकॉर्ड किए गए जीपीएस निर्देशांक का एक विशाल डेटाबेस है (latitude, longitude, date-time)। लगातार रिकॉर्ड के दिनांक-समय मूल्यों के अनुसार, मैं व्यक्ति द्वारा पीछा किए गए सभी प्रक्षेप पथ / मार्गों को निकालने की कोशिश कर रहा हूं। उदाहरण के लिए; समय से M, (x,y)जोड़े लगातार समय तक बदल रहे हैं N। बाद में N, (x,y)जोड़े में परिवर्तन कम हो जाता है, जिस बिंदु पर मैं यह निष्कर्ष निकालता हूं कि समय-समय Mपर लिया गया पथNएक प्रक्षेपवक्र कहा जा सकता है। प्रक्षेपवक्र निकालते समय क्या एक अच्छा तरीका है? क्या कोई सुप्रसिद्ध दृष्टिकोण / विधियाँ / एल्गोरिदम आप सुझा सकते हैं? क्या कोई डेटा संरचना या प्रारूप हैं जो आप मुझे उन बिंदुओं को एक कुशल तरीके से बनाए रखने के लिए सुझाव देना चाहेंगे? शायद, प्रत्येक प्रक्षेपवक्र के लिए, वेग और त्वरण का पता लगाना उपयोगी होगा?

2) प्रक्षेपवक्रों का खनन करना। एक बार जब मेरे पास सभी प्रक्षेप पथों / रास्तों को ले लिया जाता है, तो मैं उनकी तुलना / क्लस्टर कैसे कर सकता हूं? मैं जानना चाहूंगा कि यदि शुरुआत या अंत अंक समान हैं, तो मध्यवर्ती रास्ते कैसे तुलना करते हैं?

मैं 2 रास्तों / मार्गों की तुलना कैसे करूं और यह निष्कर्ष निकालूं कि वे समान हैं या नहीं। इसके अलावा, मैं एक साथ समान रास्तों को कैसे क्लस्टर करूं?

अगर आप मुझे इस मामले पर एक शोध या कुछ इसी तरह का संकेत दे सकते हैं तो मैं इसकी बहुत सराहना करूंगा।

विकास पायथन में होगा, लेकिन सभी प्रकार के पुस्तकालय सुझावों का स्वागत है।

मैं सटीक एक ही सवाल खोल रहा हूँ /programming/4910510/comparing-clustering-trajectories-gps-data-of-xy-points-and-mining-the-data इन स्टैकवेरफ़्लोवर। सोचा था कि मुझे यहाँ और उत्तर मिलेंगे ...


1
एक अच्छा जवाब इस बात पर ध्यान देगा कि आप यह विश्लेषण क्यों कर रहे हैं। आपके "व्यक्ति" क्या गतिविधियाँ कर रहे हैं? इस संदर्भ में "प्रक्षेपवक्र" से आपका क्या अभिप्राय है? आप ट्रैजेटरीज में क्यों रुचि रखते हैं? ट्रैजेटरीज के "समान" होने का क्या मतलब है ? आपकी स्पष्टीकरण उपयुक्त उत्तर सुझाएगा; स्पष्टीकरण के बिना, एक उपयुक्त उत्तर प्राप्त करना भाग्य और अनुमान का विषय होगा।
whuber

खैर, मैं व्यक्ति की दैनिक दिनचर्या का पता लगाने में दिलचस्पी रखता हूं; वह दैनिक / साप्ताहिक / मासिक आधार पर कहाँ जाती है और वहाँ जाते समय वह किन रास्तों / मार्गों का अनुसरण करती है? वह किन रास्तों पर कम ही जाती है?
मूरत

डेटाबेस में 1-2 सेकंड की आवृत्ति के साथ एक महीने के लिए लोगों के रिकॉर्ड किए गए जीपीएस बिंदु होते हैं। मुझे नहीं पता कि वे क्या कर रहे हैं; वास्तव में, यही वह है जो मुझे पता लगाने में दिलचस्पी है।
मूरत

1
@ मूरत ओके, यह अच्छा है। चलो और अधिक सटीक। जब कोई व्यक्ति किसी घर या कार्यालय में घूमता है, तो क्या आप इस बात पर विचार करेंगे कि आप स्थिर हैं या आप उन प्रक्षेप पथों को भी ट्रैक करने की कोशिश कर रहे हैं? जब आप कहते हैं कि दो प्रक्षेपवक्र "समान" हैं, तो क्या आपका मतलब है कि वे बिंदु A और B के बीच समान पथ का अनुसरण करते हैं, या वे दोनों बिंदु A से बिंदु B तक जाते हैं (शायद अलग-अलग मार्गों से, लेकिन बिना रुके), या कुछ और? BTW, क्या आपका डेटा पूर्ण है या - जैसा कि कोई अपेक्षा करेगा - क्या ऐसे समय हैं जब डेटा गायब हैं या गलत तरीके से जाना जाता है?
whuber

1
@ user5013 - माइक्रोसॉफ्ट रिसर्च ने जो प्रकाशित किया है, उस पर एक नज़र डालें। इसमें "लगभग 1.2 मिलियन किलोमीटर की कुल दूरी और 48,000+ घंटे की कुल अवधि के साथ 17,621 प्रक्षेपवक्र शामिल हैं।" research.microsoft.com/en-us/downloads/…
मूरत

जवाबों:


2

दो लेख, जिनमें आपकी रुचि होगी, क्योंकि वे आपके लिए समान प्रेरणाएँ हैं:

ह्यूमन मोबिलिटी में प्रिडिबिलिटी की सीमाएँ विज्ञान , वॉल्यूम। 327, नंबर 5968। (19 फरवरी 2010), पीपी 1018-1021।

मार्था सी। गोंजालेज, सीज़र ए। हिडाल्गो, अल्बर्ट-लासज़्लो बारबासी द्वारा व्यक्तिगत मानव गतिशीलता पैटर्न को समझनाप्रकृति , वॉल्यूम। 453, नंबर 7196. (05 जून 2008), पीपी। 779-782।

ध्यान दें कि दो अध्ययन एक ही डेटा का उपयोग करते हैं, जो आपके समान है लेकिन अंतरिक्ष या समय में सटीकता के स्तर पर नहीं है। मुझे नहीं लगता कि मैं क्या वर्णन करता हूं कि आप एक प्रक्षेपवक्र के रूप में क्या खोजना चाहते हैं, लेकिन मुझे यकीन नहीं है कि मैं इसे क्या कहूंगा। आप वास्तव में अपने "प्रक्षेपवक्र" की शुरुआत / अंत नोड्स को क्यों क्लस्टर करना चाहते हैं।


2

PySAL - पायथन स्थानिक विश्लेषण लाइब्रेरी एक अच्छी शुरुआत हो सकती है - http://code.google.com/p/pysal/

निरंकुशता निरूपण अनुभाग

स्थानिक इकाइयों के एक सेट पर विशेषता मूल्यों के गैर-यादृच्छिक पैटर्न से स्थानिक निरंकुशता संबंधित है। यह दो सामान्य रूप ले सकता है: सकारात्मक आटोक्लेरेशन जो अंतरिक्ष में मूल्य समानता को दर्शाता है, और अंतरिक्ष में नकारात्मक ऑटोकैरेलेशन या मूल्य असमानता। या तो मामले में निरंकुशता तब उत्पन्न होती है जब मनाया स्थानिक पैटर्न अंतरिक्ष में काम कर रहे एक यादृच्छिक प्रक्रिया के तहत उम्मीद से अलग होता है।

http://pysal.org/1.2/users/tutorials/autocorrelation.html

आप पॉइंट पैटर्न विश्लेषण के लिए R पुस्तकालयों http://cran.r-project.org/web/views/Spatial.html का उपयोग करने पर भी विचार कर सकते हैं ।

अन्य आर संकुल:

पशु ट्रैकिंग के लिए स्थानिक डेटा तक पहुंचने और हेरफेर करने के लिए कार्य। गति के लिए फ़िल्टर करें और पशु ट्रैक डेटा से समय बिताए गए भूखंड बनाएं।

यदि आप OSM से उपलब्ध लीनियर ट्रांसपोर्ट नेटवर्क (सड़कों / रेल) ​​के पॉइंट्स को स्नैप करते हैं, तो यह विश्लेषण को सरल बना सकता है। फिर आप इन पंक्तियों के आधार पर और दिन के विशेष समय में कितने लोग उनका उपयोग कर सकते हैं, इसके आधार पर प्रतीक बना सकते हैं।


स्वत :संबंध की जांच करने के सुझाव देने वाले प्रश्न के संदर्भ को देखते हुए इसका कोई मतलब नहीं है। क्या विशेषताओं का ऑटो-सहसंबंध?
एंडी डब्ल्यू

जीपीएस रीडिंग के लिए समय टिकट का उपयोग यह देखने के लिए किया जा सकता है कि दिन के अलग-अलग समय में किसी शहर या शहर के किन क्षेत्रों का उपयोग किया जाता है। हालांकि यह स्पष्ट नहीं है कि अगर प्राथमिक शोध यह पाया जाए कि लोग क्या करते हैं, या लोग वहां कैसे पहुंचते हैं।
geographika

इसके अलावा एक व्युत्पन्न बिंदु डेटासेट जो कि संबंधित व्यक्तियों के लिए निकटवर्ती बिंदुओं के साथ समूहीकृत और "अवधि" पैरामीटर दिया गया है, का विश्लेषण किया जा सकता है
जियोग्राफिका

आपकी पहली टिप्पणी लोगों से स्थानों तक विश्लेषण की इकाई को बदलती है। जबकि मैं मानता हूं कि सवाल कुछ अस्पष्ट है, इसमें ऐसा कुछ नहीं है जिससे ओपी क्लस्टर स्थानों पर जाना चाहता हो। मैं दूसरी टिप्पणी के लिए एक तर्क देख सकता हूं (एक बिंदु में वेग की विशेषता है)। जबकि एक दिलचस्प धारणा, यह बहुत सारगर्भित और उपन्यास है, इसलिए मुझे नहीं लगता कि यह स्थानिक ऑटो-सहसंबंध की जांच करने का सुझाव देने के लिए बहुत समझ में आता है और भ्रामक होने की संभावना है (आप उस ढांचे में बिंदुओं को क्लस्टर कर सकते हैं, संपूर्ण पथ नहीं)। मैं सहमत हूँ कि हालांकि पीसल और आर लाइब्रेरियों का हित होगा।
एंडी डब्ल्यू

2

हालांकि मैं आपके लोगों के ट्रैजेटरी या रास्तों पर ज्यादा टिप्पणी नहीं कर सकता, लेकिन मुझे लगता है कि आप क्लस्टर और टाइम अप्रोच के साथ सही रास्ते पर हैं।

मैं पिछले साल एस्री यूसी के लिए एक साथ एक स्नो लेपर्ड कंजर्वेंसी में कुछ लोगों के साथ काम करते हुए एक डेमो डाल रहा हूं, जो यहां उपलब्ध है: http://resources.arcgis.com/gallery/file/geoprocessing/details?entryID/1F9F376F-1422-24-2418 -7FBC-C359E9644702

यह दिए गए मानदंडों के आधार पर स्नो लेपर्ड्स के "फीडिंग साइट्स" (क्लस्टर) को देखता है:

  • उन बिंदुओं को कैसे समूहीकृत किया गया (एक दूसरे से दूरी)
  • अंकों की एक न्यूनतम सीमा (मेरे विश्लेषण के लिए 4+ अंक आवश्यक थे क्योंकि रीडिंग हर 12 घंटे के बारे में ली गई थी)
  • अंक अनुक्रमिक (विश्लेषण का आसान हिस्सा होना चाहिए क्योंकि उन्हें एक रैखिक क्रम में एकत्र किया जाना चाहिए)

हालांकि यह दूरी विश्लेषण करने के लिए एशरी टूल्स का उपयोग करता है, अंदर की अजगर स्क्रिप्ट आपको एक बार एक दूसरे के पास क्या बिंदु हैं, यह जानने के लिए आपको क्लस्टरिंग विचार के साथ मदद कर सकती है। (यह ग्राफ सिद्धांत का उपयोग करता है: http://en.wikipedia.org/wiki/Graph_theory )

जैसा कि अन्य उत्तरों में उल्लेख किया गया है, निर्णय लेने के लिए आवश्यक विशेषताओं को निर्धारित करने के लिए वहां से कागजात निकालता है।

विश्लेषण से अवधारणाओं पर शिथिल आधारित था: नोप, केएच, एआरए नोपफ, एमबी वॉरेन, और एमएस बॉयस। 2009. कौगर भविष्यवाणी मापदंडों के आकलन के लिए ग्लोबल पोजिशनिंग सिस्टम टेलीमेट्री तकनीकों का मूल्यांकन। जर्नल ऑफ़ वाइल्डलाइफ़ मैनेजमेंट 73: 586-597।


2

प्रक्षेपवक्र के अपने सेट पर किसी भी प्रकार की क्लस्टरिंग चलाने के लिए, आपको समानता जोड़े या प्रक्षेपवक्र जोड़े की दूरी की गणना करने का एक तरीका होना चाहिए। इसके लिए कई मौजूदा तरीके हैं, और विशेष मामलों के लिए या पारंपरिक लोगों की कमी को ठीक करने के लिए नए विकसित किए जा रहे हैं (मैं व्यक्तिगत रूप से अपने पीएचडी थीसिस के लिए एक नया काम कर रहा हूं)। प्रसिद्ध एल्गोरिदम निम्नलिखित हैं:

  • निकटतम जोड़ी की दूरी: बस बिंदु की दूरी से 2 प्रक्षेपवक्र की दूरी को परिभाषित करें जो एक दूसरे के सबसे करीब है। प्रक्षेपवक्र में समान संख्या में अंक होने चाहिए।
  • जोड़े की दूरी का योग: प्रत्येक बिंदु जोड़ी के लिए दूरी की गणना करें और उन्हें जोड़ दें। इसके अलावा केवल तभी काम करता है जब प्रक्षेपवक्र समान लंबाई के हों
  • डायनेमिक टाइम वारपिंग (DTW) की दूरी: इस एल्गोरिदम को विभिन्न बिंदुओं के मापा बिंदुओं के प्रक्षेपवक्र को संभालने के लिए विकसित किया गया था। यह बिंदु जोड़े पर काम करता है, और एक दूरी की गणना को जोड़ी दूरी गणनाओं में कई बार उपयोग करने की अनुमति देता है, अगर दूसरा एक "बहुत तेज" चल रहा है। DTW चित्रण(चित्र विकिपीडिया से )
  • सबसे लंबा सामान्य परिणाम: जैसा कि नाम से पता चलता है, यह सबसे लंबे उप-प्रक्षेप पथ की लंबाई द्वारा दो प्रक्षेपवक्रों की समानता को परिभाषित करता है जहां मूल पथ एक दूसरे के करीब यात्रा कर रहे हैं।
  • रियल सीक्वेंस (ईडीआर) पर एडिट डिस्टेंस और रियल पेनल्टी (ईआरपी) के साथ एडिट डिस्टेंस एडिट ऑपरेशंस (ऐड, रिमूव या रिप्लेस) की संख्या से समानता को परिभाषित करते हैं, जो ट्रैजेटरीज में से एक को दूसरे में बदलने के लिए आवश्यक हैं।

यदि आप इस क्षेत्र में हैं, तो मैं बहुत सारे Microsoft एशिया रिसरचर्स से "कम्प्यूटिंग ट्रैक्टरीज के साथ कम्प्यूटिंग" नामक पुस्तक की सिफारिश करता हूं।


0

यह आपके लिए भी मददगार हो सकता है:

Orellana D, Wachowicz M. पैदल यात्री गतिशीलता में आंदोलन निलंबन के पैटर्न की खोज। जियोग्र अनल। 2011; 43 (3): 241-60। PubMed PMID: 22073410।

इस ब्लॉग पर भी एक नज़र:

ideasonmovement.wordpress.com/

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.