यदि स्तंभ में स्पष्ट डेटा है या पाइथन का उपयोग नहीं कर रहा है, तो सांख्यिकीय रूप से कैसे साबित करें
10
मेरे पास अजगर में एक डेटा फ़्रेम है जहां मुझे सभी श्रेणीबद्ध चर खोजने की आवश्यकता है। कॉलम के प्रकार की जांच करना हमेशा काम नहीं करता है क्योंकि intप्रकार भी श्रेणीबद्ध हो सकता है।
इसलिए मैं यह जानने के लिए सही परिकल्पना परीक्षण विधि खोजने में मदद करता हूं कि कोई स्तंभ स्पष्ट है या नहीं।
मैं ची-स्क्वायर परीक्षण के नीचे कोशिश कर रहा था, लेकिन मुझे यकीन नहीं है कि यह पर्याप्त अच्छा है
import numpy as np
data = np.random.randint(0,5,100)import scipy.stats as ss
ss.chisquare(data)
क्या आप स्पष्ट कर सकते हैं कि अगर मैं सही ढंग से समझ गया हूं कि आप अंतर को एक सामान्य चर के रूप में इस्तेमाल करना और मनमाना श्रेणीबद्ध कोडिंग के रूप में उपयोग करना चाहते हैं? मेरे पास कोई जवाब नहीं है, लेकिन यह अन्य रीड्स को स्पष्ट करने में मदद कर सकता है कि आप क्या चाहते हैं। वास्तव में मुझे नहीं लगता कि Chi2 मज़बूती से काम कर सकता है।
हाँ आप सही है। सिवाय मेरा ध्यान चर के प्रकार पर नहीं है, बल्कि उस डेटा पर है जो उसे वहन करता है। इसलिए उदाहरण कोड में मैंने परिणाम साझा किया है कि यह एक श्रेणीगत चर होना चाहिए क्योंकि इसमें केवल 5 अद्वितीय मूल्य हैं।
भले ही दूसरों ने सही ढंग से इंगित किया है कि यह नहीं किया जा सकता है, फिर भी यह एक दिलचस्प मशीन सीखने की समस्या के लिए बना देगा। निस्संदेह समस्याएँ ऐसे डोमेन हैं जिनमें यथोचित सटीक भविष्यवाणियाँ की जा सकती हैं।
कोई सांख्यिकीय परीक्षण नहीं है जो आपको बताएगा कि क्या एक भविष्यवक्ता जिसमें 1 और 10 के बीच पूर्णांक होते हैं, एक संख्यात्मक भविष्यवक्ता है (उदाहरण के लिए, बच्चों की संख्या) या दस अलग-अलग श्रेणियों को एन्कोड करता है। (यदि पूर्वसूचक में ऋणात्मक संख्याएँ होती हैं, या सबसे छोटी संख्या एक से बड़ी होती है, या यह पूर्णांक को छोड़ देता है, तो यह इसके एक श्रेणीबद्ध एन्कोडिंग होने के विरुद्ध तर्क दे सकता है - या इसका मतलब यह हो सकता है कि विश्लेषक ने गैर-मानक एन्कोडिंग का उपयोग किया है।)
सुनिश्चित करने का एकमात्र तरीका डोमेन विशेषज्ञता, या डेटासेट की कोडबुक (जो हमेशा मौजूद होनी चाहिए) का लाभ उठाना है।
अंगूठे के जो भी मानदंड - या नियम हैं - आपके डेटासेट के लिए काम करना आपका स्वागत है, लेकिन हम आपका डेटा नहीं देख सकते हैं। किसी भी मामले में समस्या आम तौर पर बेहतर होती है, और किसी विशेष सॉफ़्टवेयर के संदर्भ के बिना भी।
यह आपके विचार से भी बदतर है, भले ही आपको लगता है कि यह आपके विचार से भी बदतर है।
@ स्टेफान कोलासा का जवाब पहले से ही एक महत्वपूर्ण बिंदु है। छोटे पूर्णांकों का मतलब श्रेणियों के बजाय मायने रखता है: 3, जिसका अर्थ है 3 कारें या बिल्लियां, 3 के समान नहीं है, जिसका अर्थ है "व्यक्ति एक कार का मालिक है" या "व्यक्ति एक बिल्ली के स्वामित्व में है"।
दशमलव अंक वर्गीकृत वर्गीकरण के भाग के रूप में श्रेणीबद्ध चर के भीतर दुबक सकते हैं, जैसे उद्योगों या रोगों का।
कड़े अर्थों में माप केवल कन्वेंशन द्वारा पूर्णांक हो सकते हैं, उदाहरण के लिए लोगों की ऊंचाइयों को केवल पूर्णांक सेमी या इंच, पूर्णांक मिमी एचजी के रूप में रक्त दबाव के रूप में रिपोर्ट किया जा सकता है।
विशिष्ट की संख्या ("अद्वितीय" की तुलना में बेहतर शब्द, जिसका अभी भी एक बार होने का प्राथमिक अर्थ है) मान या तो एक अच्छा मार्गदर्शक नहीं है। मध्यम नमूनों में संभव लोगों की विभिन्न ऊंचाइयों की संख्या संभवतः विभिन्न धार्मिक संबद्धता या जातीय उत्पत्ति की संख्या से बहुत कम है।
+1। यह विचार करने के लिए चीजों की एक अच्छी सूची है। श्रेणीबद्ध चर का पता लगाने को स्वचालित करने के लिए आपको डेटासेट (और किसी भी प्रलेखन) के बारे में अपने डोमेन ज्ञान के साथ इसे जोड़ना चाहिए।
@ एना मैं कहूंगा कि स्वचालित पहचान का प्रदर्शन नहीं किया जाना चाहिए और ठीक वही है जो आपको इस धागे में उल्लिखित समस्या में डाल सकता है। डोमेन ज्ञान और प्रलेखन को आसानी से अन्य चर के बीच से बहुपत्नी चर की पहचान करनी चाहिए, ताकि आपको अनुमान न लगाना पड़े।
वैसे मुझे लगता है कि यह अन्य उत्तरों के सुझाव से भी बदतर है: डेटा श्रेणीबद्ध या संख्यात्मक उप युक्ति नहीं हैं atisternatis - "माप का स्तर" एक विशेष अवसर पर किसी विशेष प्रश्न का उत्तर देने के लिए विश्लेषक द्वारा निर्धारित कुछ है। Glen_b के जवाब देखें यहाँ ।
यह समझने के लिए व्यावहारिक महत्व है। उदाहरण के लिए, एक वर्गीकरण वृक्ष के साथ अनुपात, अंतराल, और क्रमिक स्तर के भविष्यवक्ताओं के बीच अंतर का कोई परिणाम नहीं होता है: एकमात्र अंतर जो मायने रखता है वह यह है कि क्रमिक और नाममात्र भविष्यवक्ताओं के बीच। एक रेखा के साथ एक बिंदु पर भविष्यवक्ता को विभाजित करने के लिए एल्गोरिदम को विवश करना, निचले मूल्यों से अधिक को अलग करना, अच्छे या बीमार के लिए इसके पूर्वानुमानात्मक प्रदर्शन पर महत्वपूर्ण प्रभाव डाल सकता है - प्रतिक्रिया के संबंध में (पुष्टिक रूप से क्रमिक) भविष्यवक्ता के संबंध की चिकनाई पर निर्भर करता है & डेटा-सेट का आकार। इस बारे में पूरी तरह से निर्णय लेने के आधार पर कोई भी समझदारी भरा तरीका नहीं है कि पूर्वसूचक चर आपके द्वारा किए जाने वाले विश्लेषण के बावजूद वास्तविकता का प्रतिनिधित्व कैसे करता है, अकेले इस बात पर ध्यान दें कि आपने किन मूल्यों को पाया है।
यह एक खुला शोध प्रश्न है। उदाहरण के लिए वलेरा एट अल द्वारा काम देखें। ( पेपर ) या एक्सटेंशन (जैसे धीर एट अल। पेपर )।
संपादित करें:
सांख्यिकी और मशीन लर्निंग में एक आम बात यह है कि वैरिएबल के डेटा प्रकार (जैसे, क्रमिक, स्पष्ट या वास्तविक-मूल्यवान) और आमतौर पर, संभावना मॉडल भी ज्ञात है। हालांकि, जैसे-जैसे वास्तविक दुनिया के आंकड़ों की उपलब्धता बढ़ती है, यह धारणा बहुत अधिक प्रतिबंधात्मक हो जाती है। डेटा अक्सर विषम, जटिल और अनुचित या अपूर्ण रूप से प्रलेखित होते हैं। हैरानी की बात है, उनके व्यावहारिक महत्व के बावजूद, सांख्यिकीय प्रकारों की स्वचालित रूप से खोज करने के लिए अभी भी उपकरण की कमी है, साथ ही एक डाटासेट में चर, के लिए उपयुक्त संभावना (शोर) मॉडल।
(वलेरा पेपर से)
इसलिए जब हम कहते हैं कि यह एक "खुला प्रश्न" है (खुद को काफी हद तक उद्धृत करते हुए), तो हमारा कहने का मतलब है कि वर्तमान में एक परिमित नमूना दिए गए डेटा के प्रकार को संदर्भित करने के लिए कोई अच्छा स्वचालित तरीका नहीं है। यदि आपके पास एक अनंत नमूना था, तो यह आसान होगा, लेकिन चूंकि यह संभव नहीं है, इसलिए हमें अन्य साधनों पर वापस जाने की आवश्यकता है।
क्या आप हमें बता सकते हैं कि आप "खुले अनुसंधान प्रश्न" का क्या जिक्र कर रहे हैं? कृपया इस बात पर भी विचार करें कि आपका उत्तर इस धागे में अन्य उत्तरों के विपरीत नहीं है (या नहीं!)।
धन्यवाद। यह मुझे लगता है कि वेलेरा पेपर से इनकार करने पर, यह एक बहुत मजबूत दावा करता है: अर्थात्, यह चर प्रकारों के बारे में अनुमान लगाने के लिए एक विधि है, और विशेष रूप से स्पष्ट और क्रमिक डेटा के बीच अंतर करने के लिए करता है। मैंने विधि का अध्ययन नहीं किया, लेकिन यह मान लें कि इस तरह के चर और अन्य चर के बीच संबंधों को देखने के आधार पर (कम से कम भाग में) होना चाहिए, जिन्हें वे संबंधित माना जाता है। मैं यह समझने में असमर्थ हूं कि एक "अनंत नमूना" (जो कुछ भी हो सकता है) किसी भी अतिरिक्त उपयोग का होगा: क्या आप बता सकते हैं कि यह समस्या "आसान" कैसे होगी?
यह वास्तव में एक बहुत ही मजबूत तरीका है, और मैंने खुद इसका विस्तार से अध्ययन किया है (जो मुझे कुछ पूर्वाग्रहित बनाता है); लेकिन वे विचार बहुत चालाक है। हम मानते हैं कि प्रत्येक स्तंभ प्रकार को एक प्रकार के मिश्रण के रूप में वर्णित किया जा सकता है (एक मिश्रण मॉडल की तरह) और फिर हम उच्चतम वजन के साथ प्रकार को खोजने की कोशिश करते हैं और फिर संवाददाता के प्रकार को चर का वास्तविक प्रकार कहते हैं। जहाँ तक प्रकार का अनुमान है, यह बहुत ही चालाक है, और सबसे अच्छी स्वचालित विधि (जो मुझे पता है)। अगर दूसरों को पता हो तो कृपया शेयर जरूर करें!