मैं किसी ऐसे व्यक्ति को जानता हूं जो एक ऐसी परियोजना पर काम कर रहा है जिसमें कॉलम या डेटा प्रकारों के संबंध में डेटा की फ़ाइलों को सम्मिलित करना शामिल है। कार्य किसी भी संख्या में स्तंभों और विभिन्न डेटा प्रकारों और संख्यात्मक डेटा पर आउटपुट सारांश आंकड़ों के साथ एक फ़ाइल लेना है।
हालांकि, वह निश्चित संख्या-आधारित डेटा के लिए डेटा प्रकार असाइन करने के तरीके के बारे में अनिश्चित है। उदाहरण के लिए:
CITY
Albuquerque
Boston
Chicago
यह स्पष्ट रूप से संख्यात्मक डेटा नहीं है और इसे पाठ के रूप में संग्रहीत किया जाएगा। तथापि,
ZIP
80221
60653
25525
स्पष्ट रूप से श्रेणीबद्ध के रूप में चिह्नित नहीं हैं। उनका सॉफ्टवेयर ज़िप कोड को इसके लिए संख्यात्मक और आउटपुट सारांश आँकड़ों के रूप में निर्दिष्ट करेगा, जो उस प्रकार के डेटा के लिए कोई मतलब नहीं रखता है।
कुछ विचार हमारे पास थे:
- यदि कोई स्तंभ पूर्णांक है, तो उसे श्रेणीबद्ध के रूप में लेबल करें। यह स्पष्ट रूप से काम नहीं करेगा, लेकिन यह एक विचार था।
- यदि किसी स्तंभ में n अद्वितीय मान कम हैं और वह संख्यात्मक है, तो उसे श्रेणीबद्ध लेबल करें। यह करीब हो सकता है, लेकिन अभी भी संख्यात्मक डेटा के साथ समस्या हो सकती है।
- सामान्य संख्यात्मक डेटा की एक सूची बनाए रखें जो वास्तव में श्रेणीबद्ध होनी चाहिए और मैचों के लिए इस सूची में कॉलम हेडर की तुलना करें। उदाहरण के लिए, इसमें "ज़िप" के साथ कुछ भी स्पष्ट होगा।
मेरा पेट मुझे बताता है कि संख्यात्मक डेटा को स्पष्ट या संख्यात्मक के रूप में निर्दिष्ट करने का कोई तरीका नहीं है, लेकिन एक सुझाव के लिए उम्मीद कर रहा था। आपके पास किसी भी अंतर्दृष्टि की बहुत सराहना की जाती है।