मैं स्पष्ट रूप से श्रेणीबद्ध डेटा और संख्यात्मक डेटा के बीच अंतर कैसे कर सकता हूं?


12

मैं किसी ऐसे व्यक्ति को जानता हूं जो एक ऐसी परियोजना पर काम कर रहा है जिसमें कॉलम या डेटा प्रकारों के संबंध में डेटा की फ़ाइलों को सम्मिलित करना शामिल है। कार्य किसी भी संख्या में स्तंभों और विभिन्न डेटा प्रकारों और संख्यात्मक डेटा पर आउटपुट सारांश आंकड़ों के साथ एक फ़ाइल लेना है।

हालांकि, वह निश्चित संख्या-आधारित डेटा के लिए डेटा प्रकार असाइन करने के तरीके के बारे में अनिश्चित है। उदाहरण के लिए:

    CITY
    Albuquerque
    Boston
    Chicago

यह स्पष्ट रूप से संख्यात्मक डेटा नहीं है और इसे पाठ के रूप में संग्रहीत किया जाएगा। तथापि,

    ZIP
    80221
    60653
    25525

स्पष्ट रूप से श्रेणीबद्ध के रूप में चिह्नित नहीं हैं। उनका सॉफ्टवेयर ज़िप कोड को इसके लिए संख्यात्मक और आउटपुट सारांश आँकड़ों के रूप में निर्दिष्ट करेगा, जो उस प्रकार के डेटा के लिए कोई मतलब नहीं रखता है।


कुछ विचार हमारे पास थे:

  1. यदि कोई स्तंभ पूर्णांक है, तो उसे श्रेणीबद्ध के रूप में लेबल करें। यह स्पष्ट रूप से काम नहीं करेगा, लेकिन यह एक विचार था।
  2. यदि किसी स्तंभ में n अद्वितीय मान कम हैं और वह संख्यात्मक है, तो उसे श्रेणीबद्ध लेबल करें। यह करीब हो सकता है, लेकिन अभी भी संख्यात्मक डेटा के साथ समस्या हो सकती है।
  3. सामान्य संख्यात्मक डेटा की एक सूची बनाए रखें जो वास्तव में श्रेणीबद्ध होनी चाहिए और मैचों के लिए इस सूची में कॉलम हेडर की तुलना करें। उदाहरण के लिए, इसमें "ज़िप" के साथ कुछ भी स्पष्ट होगा।

मेरा पेट मुझे बताता है कि संख्यात्मक डेटा को स्पष्ट या संख्यात्मक के रूप में निर्दिष्ट करने का कोई तरीका नहीं है, लेकिन एक सुझाव के लिए उम्मीद कर रहा था। आपके पास किसी भी अंतर्दृष्टि की बहुत सराहना की जाती है।


पूर्ण प्रमाण नहीं है, लेकिन अगर यह 0 से शुरू होता है, तो यह आम तौर पर संख्यात्मक
paparazzo

आपको शायद खुद से यह भी पूछना चाहिए कि यह गलत होने का परिणाम क्या है? यह निर्धारित करना चाहिए कि आपको प्रक्रिया में कितना प्रयास करने की आवश्यकता है। क्या आप 90% सटीक या 99% सटीक या 99.9999% सटीक चाहते हैं?
अंतरिक्ष यात्री

मैं जवाब में सुझाए गए सभी उत्तराधिकारियों को सुविधाओं के रूप में ले जाऊंगा और बाइनरी क्लासिफायरियर को प्रशिक्षित करूंगा।
एम्रे

आँकड़े देखें ।stackexchange.com/a/106400/17230 । यहाँ वास्तव में एक जमीनी सच्चाई नहीं है।
स्कॉर्टि -

जवाबों:


8

मैं ऐसा करने के लिए एक मूर्खतापूर्ण तरीके से अवगत नहीं हूं। यहाँ मेरे सिर के ऊपर एक विचार है:

  1. डिफ़ॉल्ट रूप से मानों को श्रेणीबद्ध मानें।
  2. डेटा की विभिन्न विशेषताओं के लिए जाँचें कि यह वास्तव में निरंतर है। इन विशेषताओं को वजन दें कि वे निरंतर डेटा के साथ सहसंबंधी होने की संभावना पर आधारित हैं। यहाँ कुछ संभावित उदाहरण दिए गए हैं:
    • मान पूर्णांक हैं: +.7
    • मान फ़्लोट हैं: +.8
    • मान सामान्य रूप से वितरित किए जाते हैं: +.3
    • मानों में अपेक्षाकृत कम संख्या में विशिष्ट मूल्य होते हैं: +.3
    • मान सभी वर्णों की समान संख्या नहीं हैं: +.1
    • मानों में अग्रणी शून्य शामिल नहीं है: +.1
  3. 1 से अधिक संख्या वाले किसी भी कॉलम को संख्यात्मक मानें। अपनी आवश्यकताओं के अनुरूप विभिन्न डेटा सेटों के परीक्षण के आधार पर कारकों और भारों को समायोजित करें। आप ऐसा करने के लिए एक अलग मशीन लर्निंग अल्गोरिद्म भी बना और प्रशिक्षित कर सकते हैं।

यह उत्तर दिलचस्प है। एक और जवाब देने के बजाय, मैं इस एक संशोधन का सुझाव देना चाहूंगा। इस समस्या को एक नियमित वर्गीकरण समस्या के रूप में मानने के बारे में क्या? आप प्रत्येक कॉलम के लिए सुविधाओं का एक सेट परिभाषित कर सकते हैं, जो इस उत्तर में विशेषताओं के आधार पर (पूर्णांक, फ्लोट, सामान्य रूप से वितरित, अद्वितीय मानों की सापेक्ष संख्या, आदि) उसके बाद, यह केवल एक वर्गीकरण एल्गोरिथ्म का उपयोग करने का मामला है।
पाब्लो सुऊ

@PabloSuau, मुझे वह विचार पसंद है। वर्गीकरण एल्गोरिदम यहां एक शानदार तरीका हो सकता है। कुछ विशेषताओं को देखने के लिए jncraton का धन्यवाद।
पॉइसन फिश

4

यदि आपके पास, उदाहरण के लिए, एक परिवार के बच्चों की संख्या (जो कि उदाहरण के लिए, 0 और 5 के बीच हो सकती है), तो क्या यह एक श्रेणीबद्ध या संख्यात्मक चर है? वास्तव में यह आपकी समस्या पर निर्भर करता है और आप इसे कैसे हल करना चाहते हैं। इस अर्थ में, आप निम्न कार्य कर सकते हैं:

  • उस स्तंभ के अद्वितीय मानों की संख्या की गणना करें
  • इस संख्या को कुल पंक्तियों द्वारा विभाजित करें
  • यदि यह अनुपात कुछ सीमा से अधिक है (उदाहरण के लिए, 20%), तो आप इसे श्रेणीबद्ध मानते हैं।

असतत मूल्यों के मामले में, एक अतिरिक्त परीक्षण हो सकता है: कुछ मापदंडों का अनुमान लगाने के लिए एक प्रतिगमन मॉडल का उपयोग करें और जांच करें कि अनुमानित मान मूल्यों के मूल सेट में निहित हैं या नहीं। यदि यह सच नहीं है, तो आप शायद श्रेणीबद्ध डेटा के साथ काम कर रहे हैं (जैसा कि यह ज़िप का मामला है)।

यह अतीत में मेरे लिए अपेक्षाकृत अच्छी तरह से काम किया ...


2

चूँकि यह प्रश्न क्रॉस-पोस्ट किया गया है, क्रॉस वेलिडेट पर @nickcox द्वारा प्रारंभिक टिप्पणियां अत्यधिक प्रासंगिक और सत्य हैं। मेरे विचार थोड़े अलग हैं। उदाहरण के लिए, मैं प्रश्न को फिर से लिखूंगा, इसे दो भागों में विघटित करते हुए: पहला, इस बात का मुद्दा है कि कोई व्यक्ति डेटा की प्रकार से अज्ञात जानकारी की एक धारा को वर्गीकृत करने के बारे में क्या करेगा और दूसरा, किस तरह के गर्भपात दर की उम्मीद की जा सकती है। दोनों प्रश्न तुरंत उत्तर देने योग्य हैं, अगर कोई इसे करने के लिए समय लेना चाहता है।

पहला मुद्दा उन नियमों के आधार पर विशेषज्ञ प्रणाली विकसित करने के लिए है, जो वास्तविक रूप से उपलब्ध डेटा के नमूनों का उपयोग करके इन थ्रेड्स पर टिप्पणियों और उत्तरों में पूर्व निर्धारित रूप से प्रस्तावित की गई हैं, जो आसानी से उपलब्ध हैं।

दूसरा, यह देखते हुए कि इस वास्तविक दुनिया के डेटा में ज्ञात डेटा प्रकार हैं, वर्गीकरण त्रुटि को मापते हैं।

एक तीसरे चरण में नियमों को अद्यतन करना शामिल होगा जो नियमों को अधिक सटीक रूप से उस जानकारी को प्रतिबिंबित करता है जो इस माध्यम से पारित हो रहा है - इस हद तक कि यह संभव है।

मेरे दिमाग में, थकाऊ, इस तरह की परियोजना में काम की एक निषेधात्मक राशि शामिल नहीं होगी।

---- अतिरिक्त टिप्पणी ----

फीचर निष्कर्षण की एक अच्छी चर्चा के रूप में यह सीवी पर यहाँ उत्पन्न डेटा उत्पन्न करने की प्रक्रिया से संबंधित है:

/stats/191935/what-does-the-process-that-generates-the-data-mean-and-how-does-feature-selec

फ़ीचर निष्कर्षण, चयन और DGP एक विशेषज्ञ प्रणाली विकसित करने के लिए प्रस्थान का एक उत्कृष्ट बिंदु है।


मैंने क्रॉस वैलिडेट पर सवाल हटा दिया है। संदर्भ के लिए, @NickCox ने कहा: "यह आपके विचार से भी बदतर है, भले ही आपको लगता है कि यह आपके विचार से भी बदतर है। दशमलव अंक स्पष्ट वर्गीकरणों के भीतर दुबक सकते हैं, कोडित वर्गीकरणों के भाग के रूप में, जैसे उद्योगों या बीमारियों का। छोटे पूर्णांकों का अर्थ गिनती के बजाय हो सकता है। श्रेणियों की तुलना में: 3, जिसका अर्थ है 3 कारें या बिल्लियां, 3 के समान नहीं है, जिसका अर्थ है "व्यक्ति एक कार का मालिक है" या "व्यक्ति एक बिल्ली के स्वामित्व में है"। मापन केवल कन्वेंशन द्वारा पूर्णांक हो सकता है, जैसे लोगों की ऊंचाई बस हो सकती है। पूर्णांक सेमी या इंच के रूप में रिपोर्ट किया गया, पूर्णांक मिमी एचजी के रूप में रक्त का दबाव। "
पॉइसन फिश

@NickCox दूसरी टिप्पणी: "विशिष्ट की संख्या (" अद्वितीय "की तुलना में बेहतर शब्द, जिसका अभी भी एक बार होने का प्राथमिक अर्थ है) मान या तो एक अच्छा मार्गदर्शक नहीं है। मध्यम नमूनों में संभव लोगों की विभिन्न ऊंचाइयों की संख्या। शायद विभिन्न धार्मिक संबद्धताओं या जातीय उत्पत्ति की संख्या से बहुत कम है। "
पॉइसन फिश
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.