ओपन डेटा वितरण के लिए कौन से डेटा प्रारूप सर्वश्रेष्ठ हैं?


15

खुले डेटा वितरण पर विचार करते समय विभिन्न डेटा प्रारूपों (प्रदर्शन, फ़ाइल आकार, आदि) के पेशेवरों और विपक्ष क्या हैं?

हमारा संगठन डेटा को खुले डेटा के रूप में प्रकाशित करना चाहता है। हालाँकि, यह स्पष्ट नहीं है कि किन डेटा प्रारूपों का उपयोग करना है। बेशक, एक डेटा प्रारूप जितना अधिक 'खुला' होता है, इसका उपयोग करना उतना ही आसान होता है।

निम्नलिखित प्रकारों को ध्यान में रखते हुए, ओपन डेटा के वितरण के लिए कौन सा डेटा प्रारूप सबसे 'खुला' है और इसलिए सबसे अधिक उपयोगी है?

  • रेखापुंज डेटा (मैं सोच रहा हूँ: GeoTIFF, Erdas इमेज आईएमजी?)
  • वेक्टर डेटा (मैं सोच रहा हूं: GML, CSV, ESRI शेपफाइल, DXF?)
  • सारणीबद्ध डेटा (मैं सोच रहा हूँ: CSV?)
  • 3D डेटा (मैं सोच रहा हूं: CityGML?)
  • 3D बिंदु युग्मन / LIDAR (मैं सोच रहा हूँ: LAS?)
  • क्या मैं यहाँ कुछ भूल रहा हूँ?

इसके अलावा, अगर खुले डेटा स्वरूपों के बारे में प्रलेखन है, तो मुझे बहुत दिलचस्पी है अगर आप साझा करना चाहते हैं।


2
वेक्टर के लिए, आप जियोजन और किमी को भी समझ सकते हैं
neuhausr

1
क्या आपने यह लिंक देखा? gis.stackexchange.com/questions/61744/…

4
आपको डेटा विनिमय स्वरूपों और डेटा संग्रहण प्रारूप के बीच अंतर करने की आवश्यकता है। उदाहरण के लिए जियोजोन एक उत्कृष्ट डेटा एक्सचेंज प्रारूप है, लेकिन डेटा भंडारण प्रारूप के रूप में बेकार है। मैं मान रहा हूं कि आप केवल डेटा वितरित करने के प्रारूप (यानी डेटा एक्सचेंज) से चिंतित हैं। क्या वो सही है?
देवदत्त तेंगशे

@DevdattaTengshe: अच्छी बात है! अभी के लिए, सबसे सुविधाजनक विनिमय प्रारूप में डेटा वितरित करने का इरादा है।
मार्क वर्चुचुर जूल

प्रतिक्रिया के लिए सभी को धन्यवाद। इसके अलावा, बनाम फ़ाइल आकार का उपयोग करने के लिए फ़ाइल प्रकारों के बारे में कुछ सुझाव बहुत उपयोगी होंगे।
मार्क वर्चुचुर जूल

जवाबों:


5

वियना के खुले डेटा पहल ( http://data.wien.gv.at ) के शहर Geoserver WMS और WFS सेवाओं के माध्यम से रेखापुंज और वेक्टर जियोडाटा तक पहुँच प्रदान करने के लिए Geoserver का उपयोग करता है । इसके कई फायदे हैं: उपयोगकर्ता ऑफ़लाइन उपयोग के लिए विभिन्न स्वरूपों में डेटा डाउनलोड कर सकते हैं (जैसे जियोजोन, केएमएल, या ज़िप्ड शेपफाइल्स) या ऑनलाइन मैप्स या जीआईएस परियोजनाओं में उन्हें एम्बेड करके सेवाओं का उपयोग करें।


यह वही है जो हम यहां करते हैं: maps.gcc.tas.gov.au/data कोई कारण नहीं है कि आप गैर-स्थानिक तालिकाओं के लिए भी जियोसर्वर का उपयोग नहीं कर सकते हैं।
एलेक्स लेथ

5

सारणीबद्ध सीएसवी के लिए। एक्सेल सबसे अधिक जटिल और सबसे खराब पूरी तरह से दुर्गम पर है। पहुंच सुलभ नहीं है और पीडीएफ एक थप्पड़ है।

भू-स्थानिक उपयोग के लिए जियोजेन्सन, यह ऐसा पाठ है जो अच्छी तरह से समर्थित है और इसमें तकनीकी प्रतिबंध नहीं है जो केवल अन्य व्यवहार्य प्रारूप (आकार-प्रकार) है। जब तक आपके पास बहुत अच्छा कारण नहीं है, तब तक यह WGS84 में होना चाहिए, यह ध्यान में रखते हुए कि अधिकांश उपयोगकर्ता दूसरे राज्य में होंगे और वे देश विमान नहीं भेजेंगे।


5

मैं लगातार / सरणी डेटा (यानी रिस्ते) के लिए नेटसीडीएफ को काफी पसंद करता हूं । NetCDF के लिए नियम हैं:

  • NetCDF स्व विवरण है (यानी, डेटा परिभाषाएँ फ़ाइल हेडर के माध्यम से उपलब्ध हैं) इसलिए आपको द्वितीयक मेटाडेटा फ़ाइलों की आपूर्ति करने की आवश्यकता नहीं है
  • NetCDF4 एन-डायमेंशनल डेटा (डिस्क पर HDF5 डेटा फॉर्मेट का उपयोग करके) को स्टोर करने की अनुमति देता है, जो कि एक बोनस है क्योंकि इससे फाइलें उतनी ही बड़ी हो सकती हैं जितना आपका ओएस संभाल सकता है। यह उचित संपीड़न और डेटा तक तेजी से पहुंच के साथ आता है। ध्यान दें कि NetCDF3 एन-डायमेंशनल डेटा का समर्थन नहीं करता है, और 32-बिट सिस्टम पर फ़ाइल का आकार लगभग 2GB है।
  • नेटसीडीएफ एक खुला प्रारूप है, इसलिए डेटा को एक्सेस करना आम तौर पर आम पुस्तकालयों के माध्यम से एक समस्या नहीं है। उदाहरण के लिए, अजगर में डेटा के एक स्लाइस में पढ़ने के लिए यह बहुत सरल है
from scipy.io import netcdf
f = netcdf.netcdf_file('source.nc')
print(nc.dimensions) #take a look at the dimensions of the data
print(nc.variables)  #A dictionary containing all the variables
nc.variables["some_data"].dimensions #The dimensions this variable is in, e.g. lat, lon
out_array = nc.variables["some_data"].data
f.close() #and we're done

NetCDF4 का एकमात्र नकारात्मक पहलू जो मैं देख सकता हूं, वह मानक जीआईएस पैकेज जैसे आर्कगिस और क्यूजीआईएस में महान समर्थन नहीं है (हालांकि मुझे इस पर सही होना पसंद है!)।

EDITF का समर्थन करने वाले कुछ अन्य पैकेज संपादित करें

कुछ मानक प्रोग्रामिंग भाषाएं जो NetCDF का समर्थन करती हैं (हालांकि निष्पक्ष होना, कुछ भी जो HDF पढ़ सकते हैं NetCDF4 पढ़ सकते हैं):

गणित और आँकड़े उपयोगकर्ताओं के लिए आपके पास हैं:

विशेष रूप से जीआईएस में:

  • GDAL आपके लिए डेटा परिवर्तित करेगा
  • इसी तरह एफ.एम.ई.
  • ArcGIS NetCDF का समर्थन करता है (हालाँकि यह मेरे अनुभव में समर्थन का सर्वोत्तम स्तर नहीं है)
  • विकास में एक QGIS प्लगिन है

यदि आप एक नेटसीडीएफ फ़ाइल को जल्दी से देखना चाहते हैं तो मैं नासा से क्रॉस-प्लेटफॉर्म पैनोपली का उपयोग करूंगा। और यदि आप अधिक रुचि रखते हैं, तो UCAR Unidata में सॉफ्टवेयर की एक सूची है


NetCDF एक भयानक विकल्प है जो वास्तव में अजगर के बाहर कोई समर्थन नहीं करता है। इसका अच्छा समर्थन हो सकता है, लेकिन टिफ, पीएनजी और जेपीईजी का शाब्दिक रूप से हर भाषा में समर्थन है।
केल्विन

2
मैं दृढ़ता से असहमत हूँ। मैंने अपनी प्रतिक्रिया को ऊपर संपादित किया है जो उन पैकेजों की एक त्वरित सूची दिखाने के लिए है जो NetCDF का समर्थन करते हैं। मेरे अनुभव में यह किसी भी बहुआयामी वैज्ञानिक डेटा (जैसे खगोल विज्ञान और मौसम विज्ञान) के लिए पसंद का एक प्रारूप है। पीएनजी और टीआईएफएफ रेखापुंज डेटा को वितरित करने के लिए खराब नहीं हैं, और निश्चित रूप से डेटा को देखना आसान है, लेकिन वे बड़ी मात्रा में बहुआयामी डेटा को अच्छी तरह से स्केल नहीं करते हैं। वैज्ञानिक डेटा वितरित करने के लिए कभी भी जेपीईजी का उपयोग न करें (हालांकि यदि आप किसी को एक नक्शा भेज रहे हैं तो यह पूरी तरह से काम करता है)।
om_henners

4

में कहना चाहूंगा:

  • वेक्टर डेटा के लिए शेपफाइल्स या जीएमएल
  • 3 डी मॉडल के लिए .obj- फ़ाइलें
  • बिंदु बादल के लिए .xyz (सरल CSV)
  • सारणीबद्ध डेटा के लिए सी.एस.वी.
  • रेखापुंज डेटा के लिए GeoTIFF

ये फॉर्मेट ओपन सोर्स सॉफ्टवेयर द्वारा आसानी से पढ़े जा सकते हैं और विशिष्ट अनुप्रयोगों के लिए आवश्यक किसी अन्य प्रारूप में आसानी से बदलने योग्य हैं।

डेटा ओपन करने के लिए भी +1!


2
मुझे यह जानने में दिलचस्पी होगी कि आपने वेक्टर डेटा के लिए शेपफाइल्स और जीएमएल का सुझाव क्यों दिया है। ये दोनों ही भयानक प्रारूप हैं। GML की एकमात्र बचत अनुग्रह है, यह एक OGC प्रारूप है।
देवदत्त तेंगशे

1
शेपफाइल्स कई अनुप्रयोगों में पठनीय हैं, और समस्याओं के बिना कुछ अलग करने के लिए परिवर्तित किया जा सकता है। आप क्या सुझाव देंगे?
til_b

3
शेपफाइल्स से बचें। वे काम करते हैं, लेकिन उनकी गंभीर तकनीकी सीमाएँ हैं।
nickves

1
तो आप क्या सुझाव देते हैं कि शेपफाइल्स की तकनीकी सीमाएँ नहीं हैं?
til_b

2
@til_b GeoTIFF 'ओपन' होने के परिप्रेक्ष्य से एक अच्छा प्रारूप है। हालांकि, भंडारण के लिए (या इसे डाउनलोड के रूप में पेश करना) यह भयानक है, क्योंकि फाइलें बहुत बड़ी हो सकती हैं। क्या आप एक खुले रेखापुंज प्रारूप के बारे में जानते हैं जो दोषरहित संपीड़न प्रदान करता है?
मार्क वर्चुचुर

1

वस्तुतः यह ठीक वही सवाल opendata.SE पर आया: भू-स्थानिक डेटा जारी करने के लिए सबसे उपयोगी प्रारूप कौन से हैं?

इसलिए, उम्मीद है कि मैं वहां अपने स्वयं के उत्तर को उद्धृत करने में किसी भी नीति का उल्लंघन नहीं कर रहा हूं:

मेरा अनुभव, काफी सरकारी डेटासेट से नक्शे बनाना:

बिंदु डेटा के लिए, सीएसवी सबसे अच्छा है, जिसमें "लाट" और "लोन" कॉलम हैं। पाठ संपादकों, स्प्रेडशीट, आदि सहित कई प्रकार के उपकरणों के साथ काम करना बहुत आसान है, दो डाउनसाइड हैं:

  1. GDAL को एक .vrtसाथी फ़ाइल की आवश्यकता है ।
  2. latऔर lonस्तंभों का नामकरण पूरी तरह से मानक नहीं है। कई उपकरण बहुत उदार हैं जो वे स्वीकार करते हैं।

वरीयता के घटते क्रम में, लाइनों और बहुभुजों के लिए:

  1. GeoJSON। साथ काम करना आसान है, और टेक्स्ट एडिटर में या जियोजेन्सन के साथ संपादित करने की क्षमता है। यह एक वास्तविक बोनस है, अगर आपको खोज करने / बदलने की आवश्यकता है, तो कुछ अजीब वस्तुओं को हटा दें या एक फ़ाइल से दूसरी फ़ाइल को कॉपी और पेस्ट करें। एक और लाभ यह है कि गैर-जीआईएस डेवलपर्स इसका अर्थ बना सकते हैं। केवल वे मुद्दे जो मैंने चलाए हैं, जब कोई व्यक्ति बिंदु के बजाय मल्टीप्वाइंट के रूप में डेटा प्रदान करता है।
  2. शेपफ़ाइल। बहुत व्यापक रूप से समर्थित, लेकिन दो असुविधाजनक बिंदुओं के साथ। सबसे पहले, यह फ़ाइलों का एक संग्रह है, इसलिए आपको एक .zip के आसपास से गुजरना होगा और इसे निकालना होगा। दूसरा, क्षेत्र के नाम 10 वर्णों तक सीमित हैं। वे आपके औसत गैर-जीआईएस व्यक्ति के लिए संपादित करना कठिन हैं।
  3. KML / KMZ। इनमें कई बार अप्रासंगिक क्रॉफ़्ट (स्टाइल, आइकन, आदि) होते हैं, और विशेषताओं को कभी-कभी मिनी HTML तालिकाओं के रूप में एन्कोड किया जाता है, जिनके साथ काम करना वास्तव में कठिन होता है। कम से कम आप उन्हें Google टूल से आसानी से संपादित कर सकते हैं।

ईमानदारी से, हालांकि, सबसे अच्छा जवाब शायद "उनमें से सभी" है। सभी का पक्ष लें और CSV (यदि बिंदु) में डेटा जारी करें, GeoJSON, Zipped Shapefile और KMZ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.