"डेटा सेट" से वास्तव में क्या अभिप्राय है?


10

क्या यह केवल डेटा बिंदुओं का एकत्रीकरण है? या यह विभिन्न चर के मूल्यों के साथ व्यवस्थित सारणीबद्ध प्रारूप में विभिन्न तत्वों के लिए डेटा बिंदुओं का प्रतिनिधित्व है? यह कच्चे डेटा से कैसे भिन्न है?


आपको "डेटा बिंदु" से क्या मतलब है, क्या आपको कम से कम 2 डी होने की उम्मीद है? एक समय-श्रृंखला या परीक्षा के स्कोर का एक सेट डेटा सेट हो सकता है; कम से कम उन लोगों को सिर्फ एक चर में श्रृंखला हो सकती है, संभवतः पंक्ति लेबल के बिना। @FranckDernoncourt द्वारा उत्तर के अनुसार
smci करें

1
मुझे वास्तव में लगता है कि यह डेटा का संग्रह है। यह निश्चित रूप से जिस तरह से मैं शब्द का उपयोग करता हूं। मुझे नहीं लगता कि इसके लिए बहुत कुछ है। चाहे डेटा "कच्चा" हो या प्रीप्रोसेस या साफ किया गया हो, आदि, ऑर्थोगोनल है।
गंग -

जवाबों:


9

मेरे अनुभव में, "डेटासेट" (या "डेटा सेट") एक अनौपचारिक शब्द है जो डेटा के संग्रह को संदर्भित करता है। आम तौर पर एक डेटासेट में एक से अधिक चर होते हैं और एक ही विषय की चिंता होती है; यह एक एकल नमूने की चिंता करने की संभावना है।

एक गलती जो मुझे अक्सर दिखाई देती है, वह यह है कि क्रॉस वैलिडेटेड प्रश्नों के लेखक "डेटासेट" का उपयोग "चर" या "वेक्टर" के पर्याय के रूप में करते हैं।


3
डेटासेट बनाम वैरिएबल या वेक्टर पर सहमत। मुझे "एक डेटा" पर शुरू मत करो, जैसा कि "मेरे पास एक डेटा है"। इसके विपरीत, "मेरे पास एक डाटासेट है" या तो किसी भी तरह से जलन नहीं करने का एक शानदार तरीका है, या तो उन लोगों को परेशान करना जो उस डेटा को बहुवचन बनाते हैं या उन लोगों को परेशान करते हैं जो उस आग्रह को पांडित्य के रूप में मानते हैं, अगर वे इसके बारे में सोचते हैं।
निक कॉक्स

3
@NickCox "डेटा" पर व्याकरण युद्धों में, मैं सबसे कम लोकप्रिय गुट में हूं, जो दावा करता है कि "डेटा" एक जन संज्ञा है।
कोडियोलॉजिस्ट

3
मुझे संदेह है कि अब यह बहुमत है और अधिक दृढ़ता से लगता है कि यह लोकप्रियता प्राप्त कर रहा है।
निक कॉक्स

8

मुझे लगता है कि विकिपीडिया इसे परिभाषित करने में एक अच्छा काम करता है:

आमतौर पर एक डेटा सेट एक एकल डेटाबेस तालिका, या एक सांख्यिकीय डेटा मैट्रिक्स की सामग्री से मेल खाता है, जहां तालिका के प्रत्येक स्तंभ एक विशेष चर का प्रतिनिधित्व करते हैं, और प्रत्येक पंक्ति प्रश्न में सेट डेटा के दिए गए सदस्य से मेल खाती है। डेटा सेट प्रत्येक चर के लिए मूल्यों को सूचीबद्ध करता है, जैसे किसी वस्तु की ऊंचाई और वजन, डेटा सेट के प्रत्येक सदस्य के लिए। प्रत्येक मान को डेटम के रूप में जाना जाता है। डेटा सेट में पंक्तियों की संख्या के अनुरूप एक या अधिक सदस्यों के लिए डेटा शामिल हो सकता है।

डेटा सेट शब्द का उपयोग अधिक शिथिल रूप से भी किया जा सकता है, जो किसी विशेष प्रयोग या ईवेंट के अनुरूप निकट संबंधित तालिकाओं के संग्रह में डेटा को संदर्भित करने के लिए होता है। इस प्रकार का एक उदाहरण अंतरिक्ष एजेंसियों द्वारा एकत्र किए गए डेटा सेट हैं जो अंतरिक्ष जांच में लगे उपकरणों के साथ प्रयोग करते हैं।

खुले डेटा अनुशासन में, डेटासेट एक सार्वजनिक ओपन डेटा रिपॉजिटरी में जारी जानकारी को मापने के लिए इकाई है। यूरोपियन ओपन डेटा पोर्टल आधा मिलियन से अधिक डेटासेट एकत्र करता है। इस क्षेत्र में अन्य परिभाषाएं प्रस्तावित की गई हैं, लेकिन वर्तमान में कोई आधिकारिक नहीं है। कुछ अन्य मुद्दे (वास्तविक समय के डेटा स्रोत, गैर-संबंधपरक डेटासेट, आदि) इसके बारे में आम सहमति तक पहुंचने की कठिनाई को बढ़ाते हैं।

जैसा कि आप देख सकते हैं, यह शब्द कुछ हद तक अस्पष्ट है।


और एक कंप्यूटर दृष्टि सेटिंग में, एक डेटा सेट केवल प्राकृतिक छवियों और उनके लेबल या एनोटेशन का एक संग्रह हो सकता है।
साइकोरैक्स का कहना है कि

क्या * "डेटाबेस का क्या मतलब है
अंकित

@ankit पारंपरिक CS का अर्थ en.wikipedia.org/wiki/Database
Franck Dernoncourt

@ साइकोरेक्स हाँ, मुझे लगता है कि हम डेटाबेस में एक छवि (या कुछ अन्य संकेत) को एक बूँद डेटम के रूप में मान सकते हैं।
फ्रेंक डर्नोनकोर्ट

7

मुझे लगता है कि डेटा सेट को परिभाषित करने से पहले आपको डेटा बिंदु को परिभाषित करने की आवश्यकता हो सकती है : एक आदिम क्यों है और परिभाषा की आवश्यकता नहीं है, लेकिन इसके विपरीत नहीं?

कम से कम दो परिभाषाएँ मेरे लिए मायने रखती हैं:

  1. एक या एक से अधिक चर (क्षेत्र। स्तंभ) के लिए एक या अधिक अवलोकन (मामले, रिकॉर्ड, पंक्तियाँ)।

  2. पसंद के कार्यक्रम द्वारा पठनीय फ़ाइल के भीतर डेटा के रूप में जो कुछ भी संग्रहीत किया जाता है।

टेबुलर लेआउट आम है, लेकिन मुझे नहीं लगता कि यह किसी भी परिभाषा का हिस्सा है; डेटा को कैसे संग्रहीत किया जाता है, यह स्वाभाविक रूप से महत्वपूर्ण है।

PS शब्द "प्रारूप" इतना अधिक भरा हुआ है कि मेरे लिए यह सबसे अच्छा है जब तक कि इसे स्पष्ट रूप से निर्दिष्ट नहीं किया जाता है। मैंने देखा है यह के लिए इस्तेमाल किया

  1. सामान्य या विशिष्ट पाठ या बाइनरी फ़ाइल प्रारूप

  2. डेटा संरचना, जैसे सारणी या अन्य

  3. डेटा भंडारण या चर प्रकार, जैसे बिट, पूर्णांक, वास्तविक, चरित्र

  4. प्रस्तुति को नियंत्रित करने वाला प्रारूप प्रदर्शित करें, उदाहरण के लिए दशमलव स्थानों की संख्या; दशमलव, हेक्साडेसिमल या बाइनरी डिस्प्ले।


6

यहां पहले से ही कुछ अच्छे उत्तर हैं और मुझे नहीं लगता कि मैं निक कॉक्स या फ्रेंक डर्नोनकोर्ट की तुलना में किसी भी गहराई से प्रवेश कर सकता हूं कि क्या "डेटासेट" संबंधित डेटा के वैचारिक संग्रह को संदर्भित करता है , या उन डेटा की विशेष व्यवस्था में जैसे। एक तालिका / मैट्रिक्स या एक कंप्यूटर पढ़ने योग्य फ़ाइल। फ्रेंक के एक्सट्रेक्ट में लगातार एकत्रित किए गए डेटा, या कई तालिकाओं में फैले डेटा जैसे एज मामलों का उल्लेख किया गया है, जो ध्यान में रखने योग्य हैं यदि आपने माना कि एक साधारण परिभाषा होने जा रही थी। (सभी आँकड़े सॉफ़्टवेयर इसे संभाल नहीं सकते हैं, लेकिन ऐसे मामले की कल्पना करना बहुत आसान है, जहां डेटा को रिलेशनल डेटाबेस में कई तालिकाओं के साथ संग्रहीत किया जाता है । क्या पूरा डेटाबेस एक एकल "डेटासेट" है?)

एक बात जो मैं जोड़ूंगा, वह यह है कि डेटासेट आम तौर पर गणितीय अर्थ में सेट नहीं होते हैं! सेंसु सख्त या तो एक सेट में एक ऑब्जेक्ट होता है या यह नहीं होता है, लेकिन उस ऑब्जेक्ट की एक से अधिक कॉपी नहीं हो सकती है। अगर मैं एक डाई को आठ बार रोल करता हूं और 1, 4, 3, 5, 5, 4, 6, 4 स्कोर करता हूं तो रोल किए गए स्कोर का सेट सिर्फ {1, 3, 4, 5, 6} है। ध्यान दें कि तत्व किसी भी क्रम में हो सकते हैं, मैंने उन्हें केवल मूल्य में आरोही लिखा है लेकिन उदाहरण के लिए, सेट {5, 4, 1, 6, 3} गणितीय रूप से इसके बराबर है। यह वह नहीं है जो हम आम तौर पर हालांकि एक डाटासेट द्वारा मतलब है!

एक मल्टीसेट (या बैग ) प्रविष्टियों को दोहराने की अनुमति देता है, उदाहरण के लिए {1, 4, 3, 5, 5, 4, 6, 4} हालांकि ध्यान दें कि इसमें अभी भी आदेश की भावना शामिल नहीं है, इसलिए यह {1 के बराबर है। 3, 4, 4, 4, 5, 5, 6}। शायद "डाटासेट" में "सेट" को "मल्टीसेट" के रूप में पढ़ा जा सकता है। इसके अलावा, यदि आप ऑर्डर सुरक्षित रखना चाहते हैं, तो आप इसके बजाय एक वेक्टर का उपयोग कर सकते हैं: (1, 4, 3, 5, 5, 4, 6, 4) समान नहीं है (1, 3, 4, 4, 4, 4) 5, 5, 6)। आदेश देने से हमें एक सूचकांक मिलता है जो एक प्रकार के पहचानकर्ता के रूप में काम कर सकता है - यह हमें बताता है, उदाहरण के लिए, "कौन सा चार है?" - और जो अक्सर अपने प्राकृतिक लौकिक या भौगोलिक क्रम में टिप्पणियों को रिकॉर्ड करने के उद्देश्य से कार्य करता है। जब कोई जैसे फॉर्मूले देखता हैx1x2x¯=1ni=1nxiइस तरह की अनुक्रमण योजना को मान लिया गया है। एक सेट या मल्टीसेट के संदर्भ में, या क्या मतलब है, यह देखते हुए कि हम ऑर्डर की कमी के कारण "पहले" या "दूसरे" तत्व को अलग नहीं कर सकते हैं?x1x2

लेकिन वैक्टर केवल एक चर को रिकॉर्ड करने के लिए हैं - कई के लिए, संरक्षित किए गए ऑर्डर के साथ सारणीबद्ध करने के लिए मैट्रिक्स का उपयोग करना अधिक सुविधाजनक हो सकता है। समय के साथ स्वरों की त्रि-आयामी ग्रिड की संपत्ति को मापने जैसी अधिक परिष्कृत स्थितियों के लिए , आप डेटा को एक टेंसर में व्यवस्थित करने के लिए आगे बढ़ सकते हैं (उदाहरण के लिए यह प्रश्न देखें )।

लेकिन ध्यान दें कि सैद्धांतिक रूप से एक मल्टीसेट सबसे सरल स्थितियों में पर्याप्त हो सकता है, भले ही यह व्यावहारिक उद्देश्यों के लिए असुविधाजनक हो। अगर मैं मरने के साथ-साथ एक सिक्का उछालता, और दो परिणामों को एक साथ रिकॉर्ड करना चाहता था, तो मैं {(1, H), (3, T), (4, H), (4, H) जैसे मल्टीसेट का उपयोग कर सकता था। ), (4, टी), (5, एच), (5, टी), (6, टी)} मैट्रिक्स के बजाय। एक साधारण सेट पर्याप्त नहीं होगा, क्योंकि यह उदाहरण के लिए (4, H) की बहुलता की गणना नहीं करेगा।


1
मैं इस विचार को खरीद सकता हूं कि एक डेटासेट सिर्फ इस शिकन के साथ टिप्पणियों का एक सेट है कि उन्हें अलग बनाने के लिए उनके पहचानकर्ताओं की आवश्यकता हो सकती है। लेकिन आप सही हैं कि यहां का अर्थ सेट थ्योरी से कुछ दूरी पर है। रेखांकित करें, जैसा कि आप यहां संकेत देते हैं, कि टिप्पणियों का क्रम अक्सर महत्वपूर्ण होता है और अक्सर होता है, लेकिन हमेशा नहीं, एक समय या अन्य आदेश देने वाले चर द्वारा दिया जाता है।
निक कॉक्स

@NickCox (+1) वास्तव में जो मुझे अभी तक नहीं मिला है, या इसके अलावा, यह व्यक्त करने के लिए कि अवलोकन अक्सर एक पहचानकर्ता के साथ आते हैं - कभी-कभी अस्थायी, कभी-कभी स्थान-आधारित, कभी-कभी दोनों। जब हम डेटा को एक वेक्टर, मैट्रिक्स या टेंसर में एनकोड करते हैं, तो अक्सर यह सीधे हमें प्रदान की जाने वाली संरचना प्रदान करता है और एक स्पष्ट पहचानकर्ता (जैसे हार्ड-कोडेड इंडेक्स) को अनावश्यक रूप से प्रस्तुत किया जा सकता है, खासकर अगर यह केवल ऑर्डर या सापेक्ष स्थिति है जो मायने रखती है। इसमें कोई शक नहीं कि इस सब के लिए एक सही शब्दावली है।
सिल्वर फिश

मुझे कोई समस्या नहीं है w / कह रही है कि आदेश कोई फर्क नहीं पड़ता। यह w / ia एकल चर नहीं करता है। माप के समय, जब आपके पास एक्स-वैल्यू पेयर w / है, तो ऑर्डर के मामले। लेकिन फिर, हम वास्तव में अंकों के बहुआयामी होने के बारे में सोच सकते हैं, और बहुआयामी डेटा के सेट का क्रम फिर से मायने नहीं रखता है। मुझे कोई समस्या w / सोच भी नहीं है कि वास्तविकता में है, या एक निहित, पहचानकर्ता है जो दो 5 का अद्वितीय बनाता है।
गंग -

@ गुंग मैं उन डेटासेटों के बारे में सोच रहा था जिनमें समय या धारावाहिक क्रम निहित है। मैं कहता हूं कि यह खराब अभ्यास था, और अब अनावश्यक है, एक स्पष्ट आदेश देने वाला चर नहीं है, लेकिन इस तरह के एक आदेश चर की कमी एक डेटासेट होने से अयोग्य नहीं है। वास्तव में 1970 के दशक में मैं अंतर्निहित पहचानकर्ता के साथ स्थानिक श्रृंखला को नियमित रूप से संसाधित करता हूं क्योंकि मेरे अपने फोरट्रान कार्यक्रमों ने (अनावश्यक नहीं) श्रम को एक अनावश्यक में प्रवेश किया।
निक कॉक्स

यह मुझे ठीक लगता है, @NickCox। मैं कहूंगा कि ऑर्डर वैरिएबल निहित है, उस मामले में लेकिन अभी भी एक मायने में।
गंग -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.