मैं अपने अजगर कोड को और अधिक कुशल बनाने के बारे में कुछ सुझावों की तलाश कर रहा हूं। आम तौर पर दक्षता मेरे लिए मायने नहीं रखती है, लेकिन मैं अब 1.5 मिलियन से अधिक अंकों के साथ अमेरिकी स्थानों की एक पाठ फ़ाइल के साथ काम कर रहा हूं। दिए गए सेटअप के साथ एक बिंदु पर संचालन चलाने के लिए लगभग 5 सेकंड लग रहे हैं; मुझे इस आंकड़े को नीचे लाने की जरूरत है।
मैं तीन अलग-अलग अजगर जीआईएस पैकेज का उपयोग अंकों पर कुछ अलग संचालन करने और एक नई सीमांकित पाठ फ़ाइल को आउटपुट करने के लिए कर रहा हूं।
- मैं एक काउंटी सीमा आकृति को पढ़ने के लिए OGR का उपयोग करता हूं और सीमा ज्यामिति तक पहुंच प्राप्त करता हूं।
- यह देखने के लिए कि कोई बिंदु इन काउंटियों में से किसी के भीतर है या नहीं।
- यदि यह एक के भीतर है, तो मैं बाउंड्री .dbf से विशेषता जानकारी खींचने के लिए पायथन शेपफाइल लाइब्रेरी का उपयोग करता हूं।
- फिर मैं दोनों स्रोतों से एक पाठ फ़ाइल के लिए कुछ जानकारी लिखता हूं।
मुझे संदेह है कि अक्षमता 2-3 स्तरीय लूप होने में निहित है ... निश्चित रूप से नहीं कि इसके बारे में क्या करना है। मैं विशेष रूप से इन 3 पैकेजों में से किसी का उपयोग करने में अनुभवी किसी के साथ मदद की तलाश कर रहा हूं, क्योंकि यह उनमें से किसी का उपयोग करने का मेरा पहला अवसर है।
import os, csv
from shapely.geometry import Point
from shapely.geometry import Polygon
from shapely.wkb import loads
from osgeo import ogr
import shapefile
pointFile = "C:\\NSF_Stuff\\NLTK_Scripts\\Gazetteer_New\\NationalFile_20110404.txt"
shapeFolder = "C:\NSF_Stuff\NLTK_Scripts\Gazetteer_New"
#historicBounds = "C:\\NSF_Stuff\\NLTK_Scripts\\Gazetteer_New\\US_Counties_1860s_NAD"
historicBounds = "US_Counties_1860s_NAD"
writeFile = "C:\\NSF_Stuff\\NLTK_Scripts\\Gazetteer_New\\NewNational_Gazet.txt"
#opens the point file, reads it as a delimited file, skips the first line
openPoints = open(pointFile, "r")
reader = csv.reader(openPoints, delimiter="|")
reader.next()
#opens the write file
openWriteFile = open(writeFile, "w")
#uses Python Shapefile Library to read attributes from .dbf
sf = shapefile.Reader("C:\\NSF_Stuff\\NLTK_Scripts\\Gazetteer_New\\US_Counties_1860s_NAD.dbf")
records = sf.records()
print "Starting loop..."
#This will loop through the points in pointFile
for row in reader:
print row
shpIndex = 0
pointX = row[10]
pointY = row[9]
thePoint = Point(float(pointX), float(pointY))
#This section uses OGR to read the geometry of the shapefile
openShape = ogr.Open((str(historicBounds) + ".shp"))
layers = openShape.GetLayerByName(historicBounds)
#This section loops through the geometries, determines if the point is in a polygon
for element in layers:
geom = loads(element.GetGeometryRef().ExportToWkb())
if geom.geom_type == "Polygon":
if thePoint.within(geom) == True:
print "!!!!!!!!!!!!! Found a Point Within Historic !!!!!!!!!!!!"
print str(row[1]) + ", " + str(row[2]) + ", " + str(row[5]) + " County, " + str(row[3])
print records[shpIndex]
openWriteFile.write((str(row[0]) + "|" + str(row[1]) + "|" + str(row[2]) + "|" + str(row[5]) + "|" + str(row[3]) + "|" + str(row[9]) + "|" + str(row[10]) + "|" + str(records[shpIndex][3]) + "|" + str(records[shpIndex][9]) + "|\n"))
if geom.geom_type == "MultiPolygon":
for pol in geom:
if thePoint.within(pol) == True:
print "!!!!!!!!!!!!!!!!! Found a Point Within MultiPolygon !!!!!!!!!!!!!!"
print str(row[1]) + ", " + str(row[2]) + ", " + str(row[5]) + " County, " + str(row[3])
print records[shpIndex]
openWriteFile.write((str(row[0]) + "|" + str(row[1]) + "|" + str(row[2]) + "|" + str(row[5]) + "|" + str(row[3]) + "|" + str(row[9]) + "|" + str(row[10]) + "|" + str(records[shpIndex][3]) + "|" + str(records[shpIndex][9]) + "|\n"))
shpIndex = shpIndex + 1
print "finished checking point"
openShape = None
layers = None
pointFile.close()
writeFile.close()
print "Done"