क्या यह केवल डेटा बिंदुओं का एकत्रीकरण है? या यह विभिन्न चर के मूल्यों के साथ व्यवस्थित सारणीबद्ध प्रारूप में विभिन्न तत्वों के लिए डेटा बिंदुओं का प्रतिनिधित्व है? यह कच्चे डेटा से कैसे भिन्न है?
क्या यह केवल डेटा बिंदुओं का एकत्रीकरण है? या यह विभिन्न चर के मूल्यों के साथ व्यवस्थित सारणीबद्ध प्रारूप में विभिन्न तत्वों के लिए डेटा बिंदुओं का प्रतिनिधित्व है? यह कच्चे डेटा से कैसे भिन्न है?
जवाबों:
मेरे अनुभव में, "डेटासेट" (या "डेटा सेट") एक अनौपचारिक शब्द है जो डेटा के संग्रह को संदर्भित करता है। आम तौर पर एक डेटासेट में एक से अधिक चर होते हैं और एक ही विषय की चिंता होती है; यह एक एकल नमूने की चिंता करने की संभावना है।
एक गलती जो मुझे अक्सर दिखाई देती है, वह यह है कि क्रॉस वैलिडेटेड प्रश्नों के लेखक "डेटासेट" का उपयोग "चर" या "वेक्टर" के पर्याय के रूप में करते हैं।
मुझे लगता है कि विकिपीडिया इसे परिभाषित करने में एक अच्छा काम करता है:
आमतौर पर एक डेटा सेट एक एकल डेटाबेस तालिका, या एक सांख्यिकीय डेटा मैट्रिक्स की सामग्री से मेल खाता है, जहां तालिका के प्रत्येक स्तंभ एक विशेष चर का प्रतिनिधित्व करते हैं, और प्रत्येक पंक्ति प्रश्न में सेट डेटा के दिए गए सदस्य से मेल खाती है। डेटा सेट प्रत्येक चर के लिए मूल्यों को सूचीबद्ध करता है, जैसे किसी वस्तु की ऊंचाई और वजन, डेटा सेट के प्रत्येक सदस्य के लिए। प्रत्येक मान को डेटम के रूप में जाना जाता है। डेटा सेट में पंक्तियों की संख्या के अनुरूप एक या अधिक सदस्यों के लिए डेटा शामिल हो सकता है।
डेटा सेट शब्द का उपयोग अधिक शिथिल रूप से भी किया जा सकता है, जो किसी विशेष प्रयोग या ईवेंट के अनुरूप निकट संबंधित तालिकाओं के संग्रह में डेटा को संदर्भित करने के लिए होता है। इस प्रकार का एक उदाहरण अंतरिक्ष एजेंसियों द्वारा एकत्र किए गए डेटा सेट हैं जो अंतरिक्ष जांच में लगे उपकरणों के साथ प्रयोग करते हैं।
खुले डेटा अनुशासन में, डेटासेट एक सार्वजनिक ओपन डेटा रिपॉजिटरी में जारी जानकारी को मापने के लिए इकाई है। यूरोपियन ओपन डेटा पोर्टल आधा मिलियन से अधिक डेटासेट एकत्र करता है। इस क्षेत्र में अन्य परिभाषाएं प्रस्तावित की गई हैं, लेकिन वर्तमान में कोई आधिकारिक नहीं है। कुछ अन्य मुद्दे (वास्तविक समय के डेटा स्रोत, गैर-संबंधपरक डेटासेट, आदि) इसके बारे में आम सहमति तक पहुंचने की कठिनाई को बढ़ाते हैं।
जैसा कि आप देख सकते हैं, यह शब्द कुछ हद तक अस्पष्ट है।
मुझे लगता है कि डेटा सेट को परिभाषित करने से पहले आपको डेटा बिंदु को परिभाषित करने की आवश्यकता हो सकती है : एक आदिम क्यों है और परिभाषा की आवश्यकता नहीं है, लेकिन इसके विपरीत नहीं?
कम से कम दो परिभाषाएँ मेरे लिए मायने रखती हैं:
एक या एक से अधिक चर (क्षेत्र। स्तंभ) के लिए एक या अधिक अवलोकन (मामले, रिकॉर्ड, पंक्तियाँ)।
पसंद के कार्यक्रम द्वारा पठनीय फ़ाइल के भीतर डेटा के रूप में जो कुछ भी संग्रहीत किया जाता है।
टेबुलर लेआउट आम है, लेकिन मुझे नहीं लगता कि यह किसी भी परिभाषा का हिस्सा है; डेटा को कैसे संग्रहीत किया जाता है, यह स्वाभाविक रूप से महत्वपूर्ण है।
PS शब्द "प्रारूप" इतना अधिक भरा हुआ है कि मेरे लिए यह सबसे अच्छा है जब तक कि इसे स्पष्ट रूप से निर्दिष्ट नहीं किया जाता है। मैंने देखा है यह के लिए इस्तेमाल किया
सामान्य या विशिष्ट पाठ या बाइनरी फ़ाइल प्रारूप
डेटा संरचना, जैसे सारणी या अन्य
डेटा भंडारण या चर प्रकार, जैसे बिट, पूर्णांक, वास्तविक, चरित्र
प्रस्तुति को नियंत्रित करने वाला प्रारूप प्रदर्शित करें, उदाहरण के लिए दशमलव स्थानों की संख्या; दशमलव, हेक्साडेसिमल या बाइनरी डिस्प्ले।
यहां पहले से ही कुछ अच्छे उत्तर हैं और मुझे नहीं लगता कि मैं निक कॉक्स या फ्रेंक डर्नोनकोर्ट की तुलना में किसी भी गहराई से प्रवेश कर सकता हूं कि क्या "डेटासेट" संबंधित डेटा के वैचारिक संग्रह को संदर्भित करता है , या उन डेटा की विशेष व्यवस्था में जैसे। एक तालिका / मैट्रिक्स या एक कंप्यूटर पढ़ने योग्य फ़ाइल। फ्रेंक के एक्सट्रेक्ट में लगातार एकत्रित किए गए डेटा, या कई तालिकाओं में फैले डेटा जैसे एज मामलों का उल्लेख किया गया है, जो ध्यान में रखने योग्य हैं यदि आपने माना कि एक साधारण परिभाषा होने जा रही थी। (सभी आँकड़े सॉफ़्टवेयर इसे संभाल नहीं सकते हैं, लेकिन ऐसे मामले की कल्पना करना बहुत आसान है, जहां डेटा को रिलेशनल डेटाबेस में कई तालिकाओं के साथ संग्रहीत किया जाता है । क्या पूरा डेटाबेस एक एकल "डेटासेट" है?)
एक बात जो मैं जोड़ूंगा, वह यह है कि डेटासेट आम तौर पर गणितीय अर्थ में सेट नहीं होते हैं! सेंसु सख्त या तो एक सेट में एक ऑब्जेक्ट होता है या यह नहीं होता है, लेकिन उस ऑब्जेक्ट की एक से अधिक कॉपी नहीं हो सकती है। अगर मैं एक डाई को आठ बार रोल करता हूं और 1, 4, 3, 5, 5, 4, 6, 4 स्कोर करता हूं तो रोल किए गए स्कोर का सेट सिर्फ {1, 3, 4, 5, 6} है। ध्यान दें कि तत्व किसी भी क्रम में हो सकते हैं, मैंने उन्हें केवल मूल्य में आरोही लिखा है लेकिन उदाहरण के लिए, सेट {5, 4, 1, 6, 3} गणितीय रूप से इसके बराबर है। यह वह नहीं है जो हम आम तौर पर हालांकि एक डाटासेट द्वारा मतलब है!
एक मल्टीसेट (या बैग ) प्रविष्टियों को दोहराने की अनुमति देता है, उदाहरण के लिए {1, 4, 3, 5, 5, 4, 6, 4} हालांकि ध्यान दें कि इसमें अभी भी आदेश की भावना शामिल नहीं है, इसलिए यह {1 के बराबर है। 3, 4, 4, 4, 5, 5, 6}। शायद "डाटासेट" में "सेट" को "मल्टीसेट" के रूप में पढ़ा जा सकता है। इसके अलावा, यदि आप ऑर्डर सुरक्षित रखना चाहते हैं, तो आप इसके बजाय एक वेक्टर का उपयोग कर सकते हैं: (1, 4, 3, 5, 5, 4, 6, 4) समान नहीं है (1, 3, 4, 4, 4, 4) 5, 5, 6)। आदेश देने से हमें एक सूचकांक मिलता है जो एक प्रकार के पहचानकर्ता के रूप में काम कर सकता है - यह हमें बताता है, उदाहरण के लिए, "कौन सा चार है?" - और जो अक्सर अपने प्राकृतिक लौकिक या भौगोलिक क्रम में टिप्पणियों को रिकॉर्ड करने के उद्देश्य से कार्य करता है। जब कोई जैसे फॉर्मूले देखता हैx1x2इस तरह की अनुक्रमण योजना को मान लिया गया है। एक सेट या मल्टीसेट के संदर्भ में, या क्या मतलब है, यह देखते हुए कि हम ऑर्डर की कमी के कारण "पहले" या "दूसरे" तत्व को अलग नहीं कर सकते हैं?
लेकिन वैक्टर केवल एक चर को रिकॉर्ड करने के लिए हैं - कई के लिए, संरक्षित किए गए ऑर्डर के साथ सारणीबद्ध करने के लिए मैट्रिक्स का उपयोग करना अधिक सुविधाजनक हो सकता है। समय के साथ स्वरों की त्रि-आयामी ग्रिड की संपत्ति को मापने जैसी अधिक परिष्कृत स्थितियों के लिए , आप डेटा को एक टेंसर में व्यवस्थित करने के लिए आगे बढ़ सकते हैं (उदाहरण के लिए यह प्रश्न देखें )।
लेकिन ध्यान दें कि सैद्धांतिक रूप से एक मल्टीसेट सबसे सरल स्थितियों में पर्याप्त हो सकता है, भले ही यह व्यावहारिक उद्देश्यों के लिए असुविधाजनक हो। अगर मैं मरने के साथ-साथ एक सिक्का उछालता, और दो परिणामों को एक साथ रिकॉर्ड करना चाहता था, तो मैं {(1, H), (3, T), (4, H), (4, H) जैसे मल्टीसेट का उपयोग कर सकता था। ), (4, टी), (5, एच), (5, टी), (6, टी)} मैट्रिक्स के बजाय। एक साधारण सेट पर्याप्त नहीं होगा, क्योंकि यह उदाहरण के लिए (4, H) की बहुलता की गणना नहीं करेगा।