जैसा कि हैडली से उम्मीद की जा सकती है, उनके लेख में स्पष्ट डेटा की एक अच्छी परिभाषा है और मैं उनके लेख में लगभग सभी चीजों से सहमत हूं और यह मानता हूं कि यह "डेटा पेशेवरों" के लिए मान्य नहीं है। हालाँकि, उनके द्वारा बनाए गए कुछ बिंदुओं को ठीक करना अपेक्षाकृत आसान है (उदाहरण के लिए, उनके द्वारा लिखे गए पैकेजों के साथ) अगर कुछ और मूलभूत समस्याओं से बचा जाए। इनमें से अधिकांश समस्याएं एक्सेल के व्यापक उपयोग का परिणाम हैं। एक्सेल एक मूल्यवान उपकरण है और इसकी खूबियां हैं, लेकिन इसकी कुछ सुविधाओं के परिणामस्वरूप डेटा विश्लेषकों के लिए समस्याएं हैं।
कुछ बिंदु (मेरे अनुभवों से):
- कुछ लोग रंगीन स्प्रेडशीट पसंद करते हैं और स्वरूपण विकल्पों का प्रचुर उपयोग करते हैं। यह सब ठीक है, अगर यह उन्हें अपने डेटा को व्यवस्थित करने और प्रस्तुति के लिए टेबल तैयार करने में मदद करता है। हालांकि, यह खतरनाक है अगर एक सेल रंग वास्तव में डेटा को एनकोड करता है। इस डेटा को खोना बहुत आसान है और सांख्यिकीय सॉफ़्टवेयर में आयात किए गए ऐसे डेटा को प्राप्त करना बहुत मुश्किल है (उदाहरण के लिए, स्टैक ओवरफ़्लो पर यह प्रश्न देखें )।
- कभी-कभी मुझे कुछ अच्छी तरह से स्वरूपित डेटा मिलता है (जब मैंने लोगों को बताया कि इसे कैसे तैयार किया जाए), लेकिन टिप्पणियों के लिए उन्हें समर्पित कॉलम या अलग फाइल का उपयोग करने के लिए कहने के बावजूद वे एक मूल्य कॉलम में एक टिप्पणी डालने का निर्णय लेते हैं। डेटा आयात करते समय न केवल मुझे इस कॉलम से एक विशेष तरीके से निपटने की आवश्यकता है, बल्कि मुख्य समस्या यह है कि मुझे ऐसी टिप्पणियों को देखने के लिए सभी तालिका के माध्यम से स्क्रॉल करने की आवश्यकता होगी (जो मैं आमतौर पर नहीं करूंगा)। यह और भी बदतर हो जाता है अगर वे एक्सेल की टिप्पणी सुविधाओं का उपयोग करते हैं।
- उनमें कई तालिकाओं के साथ स्प्रेडशीट, कई हेडर लाइन या कनेक्टेड सेल परिणामी कार्य के लिए सांख्यिकीय सॉफ्टवेयर में आयात के लिए तैयार करते हैं। अच्छे डेटा विश्लेषक आमतौर पर इस तरह के मैनुअल काम का आनंद नहीं लेते हैं।
- कभी एक्सेल में कभी कॉलम छिपाएं। यदि उनकी आवश्यकता नहीं है, तो उन्हें हटा दें। अगर उनकी जरूरत हो तो उन्हें दिखाएं।
- xls और इसके वंशज दूसरों के साथ डेटा का आदान-प्रदान करने या इसे संग्रहीत करने के लिए उपयुक्त फ़ाइल प्रारूप नहीं हैं। जब फ़ाइल को खोला जाता है तो सूत्र अपडेट हो जाते हैं और विभिन्न एक्सेल संस्करण अलग-अलग फ़ाइलों को संभाल सकते हैं। मैं इसके बजाय एक सरल CSV फ़ाइल की सलाह देता हूं, क्योंकि लगभग सभी डेटा-संबंधित सॉफ़्टवेयर आयात कर सकते हैं (यहां तक कि एक्सेल) और यह उम्मीद की जा सकती है कि यह जल्द ही बदल जाएगा। हालाँकि, इस बात से अवगत रहें कि CSV को सहेजते समय एक्सेल दृश्यमान अंकों तक पहुंचता है (इस प्रकार सटीकता को छोड़ता है)।
- यदि आप दूसरों के लिए जीवन को आसान बनाना चाहते हैं, तो हेडली के लेख में दिए गए सिद्धांतों का पालन करें। प्रत्येक चर और कारक स्तंभों को परिभाषित करने वाले स्तंभ के लिए एक मान स्तंभ रखें।
शायद कई अतिरिक्त बिंदु हैं जो मेरे दिमाग में नहीं आए।