ईएसआरआई में बड़े पैमाने पर जियोकोडिंग और प्रसंस्करण

ठीक है, इसलिए मैं इस तरह के अनौपचारिक प्रश्न / सर्वेक्षण के बारे में अनुमान लगाता हूं कि आपके ईएसआरआई दुनिया में आप कितने बड़े डेटासेट का उपयोग कर रहे हैं ...

मैं राज्यव्यापी डेटासेट बना रहा हूं और बनाए रख रहा हूं, जहां मुझे अलग-अलग हाउस स्तर पर प्रक्रिया करनी है, न कि पार्सल स्तर लेकिन हमारे सिस्टम के लिए प्रति पार्सल के कई मेलिंग पते। कई स्थानों पर मैं सड़क नेटवर्क या USPS AMS / AIS डेटा से गणना किए गए सैद्धांतिक पते का उपयोग कर रहा हूं। तो मेरी पता सूची लगभग 13.5 मिलियन पते और मासिक या त्रैमासिक रूप से बढ़ रही है।

क्या कोई भी व्यक्ति अभी पते की एक लाइव प्रणाली / ठीक से देखने की जानकारी बनाए रखता है, जो एक निरंतर डेटासेट में यह बड़ी है?

मैं सहयोग या बात करना पसंद करूंगा कि दूसरे लोग इतने बड़े डेटासेट को कैसे संभाल रहे हैं। मैं उन मुद्दों को देख रहा हूं जहां ईएसआरआई सॉफ्टवेयर को उड़ाने की कोशिश हो रही है, जब मैं चौराहों या स्थानिक जुड़ाव जैसे कार्यों को करने की कोशिश करता हूं। ईएसआरआई का कहना है कि वे इस प्रकार के मुद्दों को नहीं देखते हैं, लेकिन मेरे पास ये मुद्दे 9.3.1 से हैं, इसलिए मैं ऐसा करने वाला पहला / एकमात्र व्यक्ति नहीं हो सकता क्योंकि मैं इसे कई मशीनों में फिर से बना सकता हूं।

मेरा प्लेटफ़ॉर्म अभी डेस्कटॉप पर ESRI ArcGIS 10 है, GEOMETRY स्थानिक वस्तु का उपयोग करते हुए SQL2008 बैकएंड पर ArcSDE 9.3.1-sp1 से बात कर रहा है। इसलिए मैं वास्तव में विदेशी कुछ भी नहीं कर रहा हूं; लेकिन अभी भी मुझे लगता है कि कुछ क्षेत्रों में मैं शायद लिफाफे को आगे बढ़ा रहा हूं।

[आगे की]

मुझे यह जानने में दिलचस्पी है कि इन डेटासेट से निपटने के लिए अन्य लोग क्या कर रहे हैं। मैं एक महीने में एक लाख रिकॉर्ड के अपडाउन करने जा रहा हूं, और जब जियोकोडिंग आदि कोई समस्या नहीं है, जब आप अन्य प्रक्रियाओं को चलाना शुरू कर देते हैं और आगे के विश्लेषण के लिए डेटा को लिंक करना शुरू कर देते हैं। खैर, आप केवल_FID का उपयोग करके Intersects / Overlays / Identities से डेटा आउटपुट करते हैं और आपको इसमें शामिल होने के लिए एक पतली मध्य तालिका भी मिलती है; लेकिन जब आप उस तालिका के निर्माण को विभाजित करने और जीतने की कोशिश करना शुरू करते हैं, तो आप उन मुद्दों को हिट करना शुरू करते हैं जहां आपको अपने स्रोत डेटा को कार्य क्षेत्रों में विभाजित करने की आवश्यकता होती है, लेकिन फिर आपके पास आईडीएस को दोहराते हुए कि आप वापस विलय नहीं कर सकते हैं; इसलिए आप डेटा के छोटे ब्लॉक के साथ बचे रहते हैं जिन्हें आप आसानी से फिर से पूरा नहीं कर सकते।

उन विकल्पों के बारे में सोचना जो काउंटी-दर-काउंटी पैमाने पर डेटा को तोड़ते हैं, फिर स्थानिक विचारों का उपयोग करके इसे वापस एक साथ जोड़ने के लिए आदि ... बस उत्सुक अगर अन्य उपयोगकर्ता इतने बड़े पैमाने पर एक ही तरह की समस्याओं को देख रहे हैं, लेकिन छोटे पर पैरों के निशान।

arcgis-10.0 enterprise-geodatabase arcgis-9.3

— डी.ई.डब्ल्यू
स्रोत

ओरेकल स्पैटियल (11 जी) आर्कएसडीई में 60 मिलियन पते जियोकोडेड और आर्कगिस और वेब ऐप (आंतरिक) में विज़ुअलाइज़ किए गए। यह जियोकोड किए गए पते लेकिन फजी (मिलान न पते) यह एक अच्छा गाइड है के बारे में नहीं है scdhec.gov/gis/presentations/ESRI_Conference_08/tws/workshops/...

— Mapperz

मैं मानता हूं, जियोकोडिंग की समस्या कभी नहीं रही। मेरा मुद्दा तब बनता है जब आपके पास इतने बड़े डेटासेट होते हैं कि आपको एक निरंतर प्रक्रिया की आवश्यकता होती है जो अन्य प्रक्रियाएं बहुत कठिन हो जाती हैं। कार्य / कार्य जैसे अंतर, स्थानिक-जुड़ाव आदि, जहाँ आपको मॉडलिंग के लिए अत्यधिक सामान्य वातावरण में अन्य डेटा से जुड़ना पड़ता है।

— शाम

क्या आपका स्थानिक डेटा अनुक्रमित है? डॉक्स के अनुसार, SQL सर्वर B- ट्री इंडेक्स का उपयोग करता है। GIST अनुक्रमित के साथ PostGIS डेटाबेस में डेटा लोड करने का प्रयास करें और प्रदर्शन की तुलना करें। यह आपको बताएगा कि क्या यह SQL सर्वर समस्या है।

— शॉन

उस तरह की कोई समस्या नहीं है, लेकिन जो मैं समग्र रूप से देख रहा हूं वह यह है कि जब आप इतने सारे बिंदुओं के साथ काम कर रहे हैं, और ऐसे गहरे कार्य कर रहे हैं जो आप को अनुकूलित करने के तरीकों को देखते हैं। और मैं उत्सुक हूं कि अन्य बड़े पैमाने पर उपयोगकर्ता क्या कर रहे हैं।

— DEWright

यदि प्रश्न यह है कि ओपन-एंडेड को फिर से शुरू किया जाना चाहिए और एक सामुदायिक विकि बनाया जाना चाहिए।

— सीन

जैसा कि यह एक (पुराना) ओपन एंडेड प्रश्न है, मैं आपको एक ओपन एंडेड उत्तर दूंगा: डेटाबेस का सही तरीके से उपयोग करने से भारी मात्रा में समय बचाया जा सकता है। स्पष्ट रूप से कुछ करने का तरीका सबसे तेज़ नहीं है, उदाहरण के लिए जब मैं हाल ही में ओरेकल से बहुत सारी पंक्तियों को हटाना चाहता था, तो पता चला कि बस भेजना: delete from TABLE1 where ID = 123प्रत्येक सुविधा के लिए अविश्वसनीय रूप से धीमा था और कुछ फैंसी ओरेकल सामान मैं कर सकता हूं। इसे तीव्रता के आदेश बनाने के लिए ।

तो मूल रूप से अगर आपको एक विशेष समस्या है जो एक अड़चन है, तो विशेषज्ञों से उस अड़चन से संबंधित एक विशिष्ट प्रश्न पूछें। तो आर्कजीआईएस पक्ष के लिए जो शायद यहां (या ईएसआरआई मंचों, या आपके ईएसआरआई समर्थन) होगा, लेकिन एक डेटाबेस-साइड मुद्दे के लिए (और चीजें आमतौर पर तेज होंगी यदि आप उन्हें वहां करते हैं) तो आप http पर पूछना चाहेंगे : //www.stackoverflow.com

— जीआईएस-जोनाथन
स्रोत

इतना खुला अंत नहीं; लेकिन इस विषय को संभालने के लिए बेहतर सैद्धांतिक तरीकों की तलाश है। मेरे सबसे हाल के पथ ने मुझे मेरे अपने SQL2008 DB से बात करने के लिए अपने फजी-दिखने वाले तर्क का निर्माण किया था। ईएसआरआई इंजन पर निर्भरता को हटाकर अच्छी तरह से अनुक्रमित करने का प्रयास करने के लिए और इसे और तेज़ बनाने के लिए। चूँकि हम BING या Google के इंजनों के इन्टर्नल के बारे में पर्याप्त नहीं जान सकते हैं, हम केवल यह मान सकते हैं कि वे अपने स्वयं के बढ़िया तर्क का उपयोग करेंगे।

— DEWright

आप अपने शोध पत्र से काफी गूगल के परदे के पीछे का एक सा पता लगा सकते हैं - research.google.com/pubs/papers.html

— जीआईएस-जोनाथन