मैं अब एक वर्ष के 3/4 के लिए Postgis 2.0 का उपयोग कर रहा हूं और जब मैं वास्तव में इसका उपयोग कर रहा हूं, अत्यधिक क्वेरी प्रसंस्करण समय ने इसे मूल रूप से मेरे उपयोग के मामले के लिए अनुपयोगी बना दिया है।
मैं म्युनिसिपल डेटासेट पर भारी जियोप्रोसेसिंग करता हूं, जिसमें अक्सर कई हज़ारों मल्टीप्लगॉन होते हैं। ये मल्टीप्लगॉन कभी-कभी बहुत अनियमित रूप से आकार लेते हैं और 4 अंक से 78,000 अंक प्रति मल्टीप्लगोन में भिन्न हो सकते हैं।
उदाहरण के लिए, जब मैं ३२ ९, १५२ मल्टीप्लोगों वाले पार्सल डेटासेट को ५२५ मल्टीप्लगॉन वाले क्षेत्राधिकार डेटासेट के साथ जोड़ देता हूं, तो मुझे कुल प्राप्त समय के लिए निम्नलिखित आँकड़े मिलते हैं:
ArcGIS 10.0 (on same host with windows 7 OS): 3 minutes
Postgis:56 minutes (not including geometry pre-processing queries)
दूसरे शब्दों में, पोस्टगिस में इस चौराहे को आर्कगिस की तुलना में करने के लिए 1500% अधिक समय की आवश्यकता होती है - और यह मेरे अधिक सरल प्रश्नों में से एक है!
माना जाता है कि आर्कजीआईएस तेजी से चलने के कारणों में से एक बेहतर सूचकांक है। कुछ प्रोग्रामर्स ने हाल ही में पता लगाया कि ये इंडेक्स कैसे काम करते हैं और मैं सोच रहा हूं कि क्या किसी को पता है कि इन इंडेक्स को पोस्टगिस में कैसे बनाया जाए (या उन टेबल्स का निर्माण करें जो इंडेक्स की नकल करेंगे)। शायद इससे पोस्टगिस में अधिकांश गति मुद्दों का समाधान हो जाएगा। मैं केवल उम्मीद कर सकता हूं कि कोई रास्ता होना चाहिए, खासकर जब से आर्कगिस केवल 4 जीबी रैम का उपयोग कर सकता है, जबकि मैं अपने पोस्टगिस सर्वर के लिए 4 गुना तक उपयोग कर सकता हूं!
बेशक कई कारण हैं पोस्टगिस धीरे-धीरे चल सकते हैं, इसलिए मैं अपने सिस्टम चश्मे का एक विस्तृत संस्करण प्रदान करूंगा:
Machine: Dell XPS 8300
Processor: i7-2600 CPU @ 3.40 GHz 3.40 GHz
Memory: Total Memory 16.0 GB (10.0 GB on virtual machine)
Platform: Ubuntu Server 12.04 Virtual Box VM
Potgres Version: 9.1.4
Postgis Version: POSTGIS="2.0.1 r9979" GEOS="3.3.5-CAPI-1.7.5" PROJ="Rel. 4.8.0, 6 March 2012" GDAL="GDAL 1.9.1, released 2012/05/15" LIBXML="2.7.8" LIBJSON="UNKNOWN" TOPOLOGY RASTER
मैं पूरी स्थापना प्रक्रिया का भी विवरण देता हूं, जिसका उपयोग मैंने स्वयं वीएम के निर्माण सहित पोस्टगिस को स्थापित करने के लिए किया था ।
मैंने डिफॉल्ट फाइल में डिफ़ॉल्ट मेमोरी को 24MB से 6 जीबी तक बढ़ा दिया और पोस्टग्रेज को चलाने की अनुमति देने के लिए निम्न कमांड्स चलाए:
sudo sysctl -w kernel.shmmax=7516192768 (I know this setting is deleted every time you restart the OS)
sudo /etc/init.d/postgresql restart
जहां तक मैं बता सकता हूं कि यह प्रदर्शन के मामले में बिल्कुल ध्यान देने योग्य है।
यहाँ इस परीक्षण के लिए मेरे द्वारा उपयोग किए गए डेटा के लिंक दिए गए हैं:
- पार्सल: tcad_parcels_06142012.shp.zip से ऑस्टिन, TX के सिटी
- न्यायालय: ऑस्टिन, TX के शहर से क्षेत्राधिकार की सीमाएँ
डेटा को संसाधित करने के लिए मैंने यहां कदम उठाए हैं:
ArcGIS
- ArcMap में डेटासेट जोड़ें
- केंद्रीय टेक्सास फीट के लिए समन्वय प्रणाली सेट करें (श्रीड 2277)
- ड्रॉपडाउन मेनू से चौराहे उपकरण का उपयोग करें
PostGIS
आयात पार्सल का उपयोग कर:
shp2pgsql -c -s 2277 -D -i -I -W UTF-8 "tcad_parcels_06142012.shp" "public"."tcad_parcels_06142012" |psql -d postgis_testing -U postgres -h local_ip -p 5432
आयात अधिकार क्षेत्र का उपयोग कर:
shp2pgsql -c -s 2277 -D -i -I -W UTF-8 "jurisdictions.shp" "public"."jurisdictions" |psql -d postgis_testing -U postgres -h local_ip -p 5432
पार्सल में साफ अवैध ज्यामिति:
DROP TABLE IF EXISTS valid_parcels;
CREATE TABLE valid_parcels(
gid serial PRIMARY KEY,
orig_gid integer,
geom geometry(multipolygon,2277)
);
CREATE INDEX ON valid_parcels USING gist (geom);
INSERT INTO valid_parcels(orig_gid,geom)
SELECT
gid
orig_gid,
st_multi(st_makevalid(geom))
FROM
tcad_parcels_06142012;
CLUSTER valid_parcels USING valid_parcels_geom_idx;
क्षेत्राधिकार में साफ अवैध ज्यामिति:
DROP TABLE IF EXISTS valid_jurisdictions;
CREATE TABLE valid_jurisdictions(
gid serial PRIMARY KEY,
orig_gid integer,
geom geometry(multipolygon,2277)
);
CREATE INDEX ON valid_jurisdictions USING gist (geom);
INSERT INTO valid_jurisdictions(orig_gid,geom)
SELECT
gid
orig_gid,
st_multi(st_makevalid(geom))
FROM
jurisdictions;
CLUSTER valid_jurisdictions USING valid_jurisdictions_geom_idx;
क्लस्टर चलाएँ:
cluster;
वैक्यूम विश्लेषण चलाएं:
vacuum analyze;
साफ तालिकाओं पर प्रतिच्छेदन करें:
CREATE TABLE parcel_jurisdictions(
gid serial primary key,
parcel_gid integer,
jurisdiction_gid integer,
isect_geom geometry(multipolygon,2277)
);
CREATE INDEX ON parcel_jurisdictions using gist (isect_geom);
INSERT INTO parcel_jurisdictions(parcel_gid,jurisdiction_gid,isect_geom)
SELECT
a.orig_gid parcel_gid,
b.orig_gid jurisdiction_gid,
st_multi(st_intersection(a.geom,b.geom))
FROM
valid_parcels a, valid_jurisdictions b
WHERE
st_intersects(a.geom,b.geom);
व्याख्या चौराहे की क्वेरी का विश्लेषण करें:
Total runtime: 3446860.731 ms
Index Cond: (geom && b.geom)
-> Index Scan using valid_parcels_geom_idx on valid_parcels a (cost=0.00..11.66 rows=2 width=1592) (actual time=0.030..4.596 rows=1366 loops=525)
-> Seq Scan on valid_jurisdictions b (cost=0.00..113.25 rows=525 width=22621) (actual time=0.009..0.755 rows=525 loops=1)
Nested Loop (cost=0.00..61428.74 rows=217501 width=24213) (actual time=2.625..3445946.889 rows=329152 loops=1)
Join Filter: _st_intersects(a.geom, b.geom)
मैंने जो कुछ भी पढ़ा है, उससे मेरा चौराहा क्वेरी कुशल है और मुझे पूरी तरह से पता नहीं है कि मैं क्वेरी के लिए गलत ज्यामिति पर 56 मिनट लेने के लिए क्या गलत कर रहा हूं!