पिछले प्रश्न में मैंने CSV फ़ाइलों के संपादन के लिए उपकरणों के बारे में पूछा था ।
गैविन आर डंकन मर्डोक द्वारा आर हेल्प पर एक टिप्पणी से जुड़ा हुआ है जो यह सुझाव देता है कि डेटा इंटरचेंज फॉर्मेट सीएसवी की तुलना में डेटा स्टोर करने का एक अधिक विश्वसनीय तरीका है।
कुछ अनुप्रयोगों के लिए एक समर्पित डेटाबेस प्रबंधन प्रणाली की आवश्यकता होती है। हालांकि, छोटे पैमाने पर डेटा विश्लेषण परियोजनाओं के लिए कुछ अधिक हल्के वजन अधिक उपयुक्त लगते हैं।
फ़ाइल प्रारूप के मूल्यांकन के लिए निम्नलिखित मानदंडों पर विचार करें:
- reliabile : जो डेटा दर्ज किया गया है वह वही होना चाहिए जो दर्ज किया गया है; डेटा को अलग-अलग सॉफ़्टवेयर में लगातार खोलना चाहिए;
- सरल : यह अच्छा होगा यदि फ़ाइल प्रारूप को समझना आसान है और एक साधारण पाठ संपादक के साथ आदर्श रूप से पठनीय है; प्रारूप को पढ़ने और लिखने के लिए एक सरल कार्यक्रम लिखना आसान होना चाहिए।
- खुला : प्रारूप खुला होना चाहिए
- इंटरऑपरेबल : फ़ाइल प्रारूप को कई प्रणालियों द्वारा समर्थित होना चाहिए
मुझे लगता है कि विश्वसनीयता मानदंड पर टैब और अल्पविराम से अलग किए गए मूल्य प्रारूप विफल हैं। हालांकि मुझे लगता है कि मैं फ़ाइल प्रारूप के बजाय आयात और निर्यात कार्यक्रमों को दोष दे सकता हूं। मैं अक्सर अपने आप को विकल्पों में थोड़ा समायोजन करने के लिए पाता हूं
read.table
ताकि कुछ अजीब चरित्र को डेटा फ्रेम के लोडिंग को तोड़ने से रोका जा सके।
प्रशन
- कौन सा फ़ाइल प्रारूप इन जरूरतों को पूरा करता है?
- क्या डाटा इंटरचेंज फॉर्मेट एक बेहतर विकल्प है? या इसकी अपनी समस्याएं हैं?
- क्या कोई अन्य प्रारूप है जो बेहतर है?
- क्या मैं TSV और CSV का गलत मूल्यांकन कर रहा हूं? क्या ऐसी फ़ाइलों के साथ काम करने के लिए युक्तियों का एक सरल सेट है जो फ़ाइल प्रारूप को अधिक विश्वसनीय बनाता है?
write.DIF()
इसलिए यह एक तरह से एक सड़क है जिससे मैं डरता हूं।