'सुव्यवस्थित डेटा' बनाने के लिए सर्वोत्तम अभ्यास


12

हैडली विकम ने डेटा हेरफेर के बारे में पिछले साल जेएसएस में "साफ डेटा" ( लिंक ) नामक एक तारकीय लेख लिखा था और विश्लेषण करने के लिए डेटा को "इष्टतम" स्थिति में प्राप्त किया था। हालांकि, मैं सोच रहा था कि एक कार्य सेटिंग में सारणीबद्ध डेटा प्रस्तुत करने के संदर्भ में सबसे अच्छा अभ्यास क्या था? मान लीजिए कि आपका सहकर्मी आपसे कुछ डेटा प्रदान करने के लिए कहता है। उस डेटा को संरचित करते समय आपके द्वारा उपयोग किए जाने वाले कुछ सामान्य नियम क्या हैं? क्या "साफ डेटा" में दिशा-निर्देश केवल उन उदाहरणों में लागू होते हैं जहां आप गैर-डेटा पेशेवरों के साथ डेटा साझा कर रहे हैं? जाहिर है, यह बहुत संदर्भ-विशिष्ट है, लेकिन मैं उच्च स्तरीय 'सर्वोत्तम प्रथाओं' के बारे में पूछ रहा हूं।


यह पेपर जर्नल ऑफ स्टैटिस्टिकल सॉफ्टवेयर में प्रकाशित (अभी तक) नहीं हुआ है।
निक कॉक्स

3
R टैग यहां अनावश्यक लगता है। प्रश्न विशेष सॉफ़्टवेयर विकल्पों को स्थानांतरित करता है।
निक कॉक्स

जवाबों:


10

जैसा कि हैडली से उम्मीद की जा सकती है, उनके लेख में स्पष्ट डेटा की एक अच्छी परिभाषा है और मैं उनके लेख में लगभग सभी चीजों से सहमत हूं और यह मानता हूं कि यह "डेटा पेशेवरों" के लिए मान्य नहीं है। हालाँकि, उनके द्वारा बनाए गए कुछ बिंदुओं को ठीक करना अपेक्षाकृत आसान है (उदाहरण के लिए, उनके द्वारा लिखे गए पैकेजों के साथ) अगर कुछ और मूलभूत समस्याओं से बचा जाए। इनमें से अधिकांश समस्याएं एक्सेल के व्यापक उपयोग का परिणाम हैं। एक्सेल एक मूल्यवान उपकरण है और इसकी खूबियां हैं, लेकिन इसकी कुछ सुविधाओं के परिणामस्वरूप डेटा विश्लेषकों के लिए समस्याएं हैं।

कुछ बिंदु (मेरे अनुभवों से):

  1. कुछ लोग रंगीन स्प्रेडशीट पसंद करते हैं और स्वरूपण विकल्पों का प्रचुर उपयोग करते हैं। यह सब ठीक है, अगर यह उन्हें अपने डेटा को व्यवस्थित करने और प्रस्तुति के लिए टेबल तैयार करने में मदद करता है। हालांकि, यह खतरनाक है अगर एक सेल रंग वास्तव में डेटा को एनकोड करता है। इस डेटा को खोना बहुत आसान है और सांख्यिकीय सॉफ़्टवेयर में आयात किए गए ऐसे डेटा को प्राप्त करना बहुत मुश्किल है (उदाहरण के लिए, स्टैक ओवरफ़्लो पर यह प्रश्न देखें )।
  2. कभी-कभी मुझे कुछ अच्छी तरह से स्वरूपित डेटा मिलता है (जब मैंने लोगों को बताया कि इसे कैसे तैयार किया जाए), लेकिन टिप्पणियों के लिए उन्हें समर्पित कॉलम या अलग फाइल का उपयोग करने के लिए कहने के बावजूद वे एक मूल्य कॉलम में एक टिप्पणी डालने का निर्णय लेते हैं। डेटा आयात करते समय न केवल मुझे इस कॉलम से एक विशेष तरीके से निपटने की आवश्यकता है, बल्कि मुख्य समस्या यह है कि मुझे ऐसी टिप्पणियों को देखने के लिए सभी तालिका के माध्यम से स्क्रॉल करने की आवश्यकता होगी (जो मैं आमतौर पर नहीं करूंगा)। यह और भी बदतर हो जाता है अगर वे एक्सेल की टिप्पणी सुविधाओं का उपयोग करते हैं।
  3. उनमें कई तालिकाओं के साथ स्प्रेडशीट, कई हेडर लाइन या कनेक्टेड सेल परिणामी कार्य के लिए सांख्यिकीय सॉफ्टवेयर में आयात के लिए तैयार करते हैं। अच्छे डेटा विश्लेषक आमतौर पर इस तरह के मैनुअल काम का आनंद नहीं लेते हैं।
  4. कभी एक्सेल में कभी कॉलम छिपाएं। यदि उनकी आवश्यकता नहीं है, तो उन्हें हटा दें। अगर उनकी जरूरत हो तो उन्हें दिखाएं।
  5. xls और इसके वंशज दूसरों के साथ डेटा का आदान-प्रदान करने या इसे संग्रहीत करने के लिए उपयुक्त फ़ाइल प्रारूप नहीं हैं। जब फ़ाइल को खोला जाता है तो सूत्र अपडेट हो जाते हैं और विभिन्न एक्सेल संस्करण अलग-अलग फ़ाइलों को संभाल सकते हैं। मैं इसके बजाय एक सरल CSV फ़ाइल की सलाह देता हूं, क्योंकि लगभग सभी डेटा-संबंधित सॉफ़्टवेयर आयात कर सकते हैं (यहां तक ​​कि एक्सेल) और यह उम्मीद की जा सकती है कि यह जल्द ही बदल जाएगा। हालाँकि, इस बात से अवगत रहें कि CSV को सहेजते समय एक्सेल दृश्यमान अंकों तक पहुंचता है (इस प्रकार सटीकता को छोड़ता है)।
  6. यदि आप दूसरों के लिए जीवन को आसान बनाना चाहते हैं, तो हेडली के लेख में दिए गए सिद्धांतों का पालन करें। प्रत्येक चर और कारक स्तंभों को परिभाषित करने वाले स्तंभ के लिए एक मान स्तंभ रखें।

शायद कई अतिरिक्त बिंदु हैं जो मेरे दिमाग में नहीं आए।


1
"कभी नहीं, कभी भी एक्सेल में कॉलम छिपाएं। यदि उनकी आवश्यकता नहीं है, तो उन्हें हटा दें। यदि आवश्यक हो, तो उन्हें दिखाएं।" मुझे इससे सहमत नहीं होना है। हिडन डाटा / फील्ड एक समस्या है। लेकिन डेटा कॉलम को हटाना स्प्रेडशीट के साथ एक अपरिवर्तनीय प्रक्रिया बन सकता है। जब तक एप्लिकेशन मेमोरी एक बड़ी चिंता नहीं है, मैं कॉलम रखने की सलाह देता हूं क्योंकि उनके खिलाफ छिपाना / फ़िल्टर करना बेहद आसान है। विशेष रूप से विलोपन को उलटने की तुलना में।
डैन गुयेन

7

सबसे पहले, मैं आमतौर पर वह हूं जो डेटा प्राप्त करता है। तो यह मेरी इच्छा सूची के रूप में पढ़ सकता है।

  • मेरा सबसे महत्वपूर्ण बिंदु इसलिए है: डेटा का विश्लेषण करने वाले के साथ बात करें।

  • मुझे कागज पर एक त्वरित झलक मिली: हेडली जो लिखता है, उसमें से बहुत से संक्षेप में 'अपने संबंधपरक डेटा बेस को सामान्य कर सकते हैं'।

  • लेकिन उन्होंने यह भी उल्लेख किया है कि वास्तव में जो चल रहा है, उसके आधार पर एक ही चर को लंबे या व्यापक रूप में रखना समझदारी हो सकती है।

    यहाँ एक उदाहरण है: मैं स्पेक्ट्रा से निपटता हूं। भौतिक / स्पेक्ट्रोस्कोपिक दृष्टि से, स्पेक्ट्रम तरंगदैर्घ्य कार्य के रूप में एक तीव्रता : I = f (λ)। भौतिक कारणों से, यह फ़ंक्शन निरंतर (और लगातार भिन्न) है। विशेष रूप से विवेक केवल व्यावहारिक कारणों (जैसे डिजिटल कंप्यूटर, माप उपकरण) के लिए होता है। यह स्पष्ट रूप से एक लंबे रूप की ओर इशारा करता है। हालाँकि, मेरा साधन अलग- अलग चैनलों (सीसीडी / डिटेक्टर लाइन या सरणी में) के विभिन्न को है। डेटा विश्लेषण भी प्रत्येक को एक रूप में मानता है । यह विस्तृत रूप के पक्ष में होगा।Iλλiλiλi

  • हालाँकि, डेटा के गैर-सामान्यीकृत प्रदर्शन / वितरण के लिए कुछ व्यावहारिक लाभ हैं:

    • यह जांचना बहुत आसान हो सकता है कि डेटा पूरा हो गया है

    • एक सामान्यीकृत संबंधपरक डेटा बेस के रूप में कनेक्टेड टेबल ठीक हैं यदि डेटा वास्तव में डेटा बेस (सॉफ़्टवेयर अर्थ में) में है। वहां, आप उन बाधाओं को डाल सकते हैं जो पूर्णता सुनिश्चित करते हैं। यदि डेटा को कई तालिकाओं के रूप में आदान-प्रदान किया जाता है, तो व्यवहार में लिंक एक गड़बड़ होगा।

    • डेटा बेस सामान्यीकरण अतिरेक हटाता है। वास्तविक प्रयोगशाला जीवन में, जांच की दोहरी अखंडता के लिए अतिरेक का उपयोग किया जाता है।
      इस प्रकार अनावश्यक जानकारी को बहुत जल्दी नहीं हटाया जाना चाहिए।

    • स्मृति / डिस्क का आकार आजकल एक समस्या से कम प्रतीत होता है। लेकिन हमारे उपकरणों का उत्पादन करने वाले डेटा की मात्रा भी बढ़ जाती है।

      मैं एक ऐसे उपकरण के साथ काम कर रहा हूं जो आसानी से कुछ घंटों के भीतर 250 जीबी उच्च गुणवत्ता के डेटा का उत्पादन कर सकता है। वे 250 जीबी एक सरणी प्रारूप में हैं। इसे लंबे रूप में विस्तारित करने से इसे कम से कम 4 के कारक द्वारा उड़ा दिया जाएगा: प्रत्येक सरणी आयाम (पार्श्व x और y, और तरंग दैर्ध्य λ) एक स्तंभ बन जाएगा, और तीव्रता के लिए एक स्तंभ होगा)। इसके अलावा, डेटा विश्लेषण के दौरान मेरा पहला कदम आम तौर पर सामान्यीकृत लंबे फॉर्म डेटा को वापस स्पेक्ट्रा-वाइड रूप में डालना होगा।

    • आमतौर पर, डेटा विश्लेषण को एक विशेष रूप की आवश्यकता होगी। यही कारण है कि मैं उस व्यक्ति से बात करने की सलाह देता हूं जो डेटा का विश्लेषण करेगा।
  • इन सामान्यीकरण बिंदुओं द्वारा संबोधित किया जाने वाला कठिन कार्य थकाऊ होता है, न कि एक अच्छा काम। हालाँकि, व्यवहार में मैं आमतौर पर अधिक समय टिकने के अन्य पहलुओं पर खर्च करता हूं

    • व्यवहार में डेटा की अखंडता और पूर्णता सुनिश्चित करना मेरे डेटा डेटा के काम का एक बड़ा हिस्सा है।

    • डेटा आसानी से पढ़ने योग्य प्रारूप में नहीं है / थोड़ा अलग प्रारूपों के बीच स्विच करना:

      मुझे कई फ़ाइलों के रूप में बहुत सारे डेटा मिलते हैं, और आमतौर पर कुछ जानकारी फ़ाइल नाम और / या पथ में संग्रहीत होती है: इंस्ट्रूमेंट सॉफ्टवेयर और / या उत्पादित फ़ाइल प्रारूप सुसंगत तरीके से जानकारी जोड़ने की अनुमति नहीं देते हैं, इसलिए हम या तो एक अतिरिक्त तालिका (एक संबंधपरक डेटा बेस में) है जो मेटा जानकारी को फ़ाइल नाम से लिंक करती है या फ़ाइल नाम महत्वपूर्ण जानकारी को एन्कोड करता है।

      फ़ाइल नाम के पैटर्न में टाइपो या थोड़े बदलाव से यहां बहुत परेशानी होती है।

    • माप के दृष्टिकोण से टिकना: झूठी माप से छुटकारा पाना (आमतौर पर ज्ञात शारीरिक प्रक्रियाओं के कारण जैसे कोई गलती से प्रकाश पर स्विच कर रहा है, लौकिक किरणें डिटेक्टर को मार रही हैं, कैमरे की फ्रेम पारियां, ...)।

2
अपने पहले बिंदु के लिए +1। यह न केवल डेटा रिकॉर्डिंग और हस्तांतरण के लिए अच्छी सलाह है, बल्कि आदर्श रूप से प्रयोगात्मक डिजाइन या निगरानी से संबंधित प्रतिक्रिया होनी चाहिए।
रोलैंड
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.