मैं संख्यात्मक डेटा को स्वाभाविक रूप से "कोष्ठक" कैसे बना सकता हूं? (उदा आय)


14

निम्नलिखित वर्णन करता है कि मैं क्या हासिल करने की कोशिश कर रहा हूं, लेकिन यह संभव है कि एक वैकल्पिक समस्या बयान मेरे लक्ष्य का वर्णन कर सके:

में चाहता हूं

  1. निम्नलिखित संख्याओं को उन समूहों में विभाजित करें, जहाँ प्रत्येक समूह के भीतर संख्याओं के प्रकार बहुत बड़े नहीं हैं, और समूहों के औसत के बीच अंतर बहुत कम नहीं हैं

  2. "पूर्ण" वाले के साथ अंत में प्राप्त वितरण की तुलना करें और देखें कि यह "पूर्ण" कैसे सही है।


लक्ष्य की व्याख्या आम आदमी

मैं आय वितरण की गणना करने की कोशिश कर रहा हूं , और प्रत्येक जनसंख्या "आय कोष्ठक" का निर्धारण कर रहा हूं । आय ब्रैकेट को इनपुट डेटा के आधार पर स्व-समायोजन माना जाता है।

मेरा लक्ष्य आय कोष्ठक के बीच अंतर को मापना या उसकी गणना करना है। मुझे लगता है कि कई कोष्ठक होंगे, और देखना चाहते हैं कि प्रत्येक स्तर कितना "अलग" है।

यहां 20 की आबादी के नमूने के लिए प्रति घंटा आय का एक नमूना है, और 3587 की कुल आय है:

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900 

मैं गणितीय अवधारणाओं का उपयोग किसी दिए गए जनसंख्या पर आय वितरण की तरह काम करने वाले डेटा को समूह, सॉर्ट और विश्लेषण करने के लिए कैसे कर सकता हूं?

गणना के अंत में, मैं tiered आय वितरण निर्धारित करना चाहता हूं, जहां एक पूर्ण वितरण इस तरह दिखाई देगा (कुछ)

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

या यह:

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269 

सवाल

मुझे जनसंख्या समूहों का विश्लेषण कैसे करना चाहिए, और इस तरह से अंतर को मापना चाहिए जो मुझे बताएगा कि ऊपर सूचीबद्ध पिछले दो मॉडल सेटों की तरह इसे और अधिक बनाने के लिए कितना आवश्यक है?


इस कार्यक्रम के बजाय यहाँ पोस्ट करने के सुझाव के लिए @svidgen धन्यवाद ।E
goodguys_activate

नोट: मुझे यह प्रश्न करते हुए यह प्रतिक्रिया मिली: It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.
goodguys_activate

मुझे लगता है कि मुझे जो कुछ चाहिए, उससे बहुत कुछ मिलता है ... बिनिंग डेटा कहा जाता है: msdn.microsoft.com/en-us/magazine/dn342876.aspx
goodguys_activate

हां, कृपया प्रश्न को स्थानांतरित करें (और यदि संभव हो तो टिप्पणियों से अपनी बेहतर व्याख्या शामिल करें)।
goodguys_activate

आय के वितरण में अंतराल के लिए देखें, यदि आप भाग्यशाली हैं तो आप (कुछ कृत्रिम) चोटियों को पा सकते हैं जिन्हें आप बाद में कोष्ठक के रूप में उपयोग कर सकते हैं। यह शायद कम आय के लिए अपेक्षाकृत अच्छी तरह से काम करता है।
मार्क क्लेसेन

जवाबों:


18

एक एकल चर के साथ क्लस्टर विश्लेषण सही अर्थ बनाता है जब भी कुछ आयाम होते हैं जिसके साथ मूल्यों को व्यवस्थित किया जा सकता है। यह माप का पैमाना , समय या स्थान हो सकता है

कुछ माप पैमाने पर डेटा का आदेश दिया , एक आवृत्ति वितरण (एक शब्दावली में एंटीमोड्स) के भीतर सापेक्ष विराम की तलाश में रुचि हो सकती है।

सावधानी का ध्यान रखें: हालाँकि, जो परिभाषित करने वाले डिब्बे को तोड़ता है, या जो प्रतीत हो सकता है, सांख्यिकीय विज्ञान के कई क्षेत्रों में मनमानी व्यापक रूप से दूर कर दी जाती है, और समान अंतराल के साथ बिनिंग के लिए व्यापक और चिह्नित वरीयता है, और बहुत संभव है जब संभव हो तो पूरी तरह से बचने के लिए। । यह आंशिक रूप से स्वाद का मामला है, आंशिक रूप से एक सम्मेलन: प्रथाओं को स्थानांतरित कर दिया गया क्योंकि डेटासेट को उनकी संपूर्णता में संग्रहीत करना आसान हो गया है।

एक समय श्रृंखला को मंत्रों, युगों, अवधियों में विभाजित किया जा सकता है, जो कुछ भी, आदर्श रूप से सबरजियों के भीतर अपेक्षाकृत छोटे अंतरों और उपजीविदों के बीच अपेक्षाकृत बड़े अंतरों के साथ। अंतरिक्ष के लिए भी यही समस्या हैजब भी एक स्थानिक आयाम (क्षैतिज या ऊर्ध्वाधर) को उप-विभाजित किया जाना भी । भूवैज्ञानिक और अन्य विज्ञानों में, यह अक्सर ज़ोनिंग के शीर्षक के तहत अध्ययन किया जाता है।

ध्यान दें कि किसी भी औपचारिक क्लस्टरिंग को हमेशा डेटा के उपयुक्त प्लॉटिंग के साथ होना चाहिए (उदाहरण के लिए, एक डॉट या क्वांटाइल या लाइन प्लॉट का उपयोग करके), जो वास्तव में स्पष्ट कर सकता है कि ब्रेक स्पष्ट हैं (ताकि औपचारिक क्लस्टरिंग केवल सजावटी हो) या समझाने की विराम मौजूद नहीं है (ताकि औपचारिक क्लस्टरिंग व्यर्थ हो सकता है)।

परिमाण द्वारा आदेशित मूल्यों के एक खिलौना उदाहरण पर विचार करें:

    14 15 16 23 24 25 56 57 58 

जहां यह स्पष्ट है कि तीन-समूह क्लस्टरिंग

    14 15 16 | 23 24 25 | 56 57 58 

n-1-1=2n-1(n-1-1)संभव क्लस्टरिंग। हालांकि, यदि भिन्न करने के लिए स्वतंत्र है, तो संभावित क्लस्टरिंग की कुल संख्या है 2n-1, जैसा कि प्रत्येक मूल्य प्रत्येक पड़ोसी के समान समूह में हो सकता है, या नहीं। मामूली के लिए भीn, यह एक बड़ी संख्या है।

समस्या को सटीक बनाया जा सकता है (फिशर 1958; हार्टिगन 1975) मार्करों को कम से कम करके, समूहों की एक संख्या के लिए,

समूह केंद्रों के आसपास परिवर्तनशीलता के समूहों पर योग

समूह साधनों से चुकता विचलन का योग सबसे स्पष्ट संभावना के रूप में ध्यान में रखेगा। समूह के मध्यस्थों और अन्य उपायों से पूर्ण विचलन का योग, अच्छी तरह से मनोरंजन किया जा सकता है।

हार्टिगन (1975) ने दिखाया कि कैसे एक गतिशील प्रोग्रामिंग दृष्टिकोण इस तरह की गणना को सीधा और प्रस्तुत फोरट्रान कोड बनाता है। group1dSSC से एक स्टैटा कार्यान्वयन (कॉक्स 2007) स्थापित किया जाना है।

कॉक्स, एनजे 2007. ग्रुप 1 डी: एक आयाम में समूहीकरण या क्लस्टरिंग के लिए स्टैटा मॉड्यूल। http://ideas.repec.org/c/boc/bocode/s456844.html

फिशर, WD 1958. अधिकतम समरूपता के लिए समूह बनाने पर। जर्नल, अमेरिकन स्टेटिस्टिकल एसोसिएशन 53: 789-98।

हार्टिगन, जेए 1975। क्लस्टरिंग एल्गोरिदम। न्यूयॉर्क: जॉन विली। Ch.6।

पोस्टस्क्रिप्ट यह दृष्टिकोण विशिष्ट प्रश्न के पहले भाग से मेल खाता है। मैंने इसे आम तौर पर पिच किया है क्योंकि मुझे लगता है कि सूत्रीकरण कुछ सामान्य हित है (और क्योंकि मेरे लिए कॉक्स 2007 के प्रलेखन का हिस्सा रीसायकल करना आसान था)। लेकिन अगर विशिष्ट लक्ष्य एक आय वितरण की तुलना एक समान संदर्भ वितरण के साथ करना है, तो मुझे नहीं लगता कि बिनिंग के पास खेलने के लिए कोई भी हिस्सा है। यह अर्थशास्त्र की एक मानक समस्या है जिसके लिए लोरेंज वक्रता और असमानता के उपाय शुरुआती बिंदु हैं। संक्षेप में, आप परिमाण की तुलना परिमाण या प्रतिशत बिंदु से प्रतिशत बिंदु तक कर सकते हैं।


1

Jenks प्राकृतिक ब्रेक के लिए एक नज़र रखना:

https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

मुझे लगता है कि यह वही है जो आपको चाहिए, और कई भाषाओं में कार्यान्वयन हैं।


5
हालांकि यह तुरंत स्पष्ट नहीं हो सकता है, यह ठीक निक कॉक्स का सुझाव है कि "समूह साधनों से चुकता विचलन का योग सबसे स्पष्ट संभावना के रूप में वसंत जाएगा।" वह उस हिस्से की तुलना में अधिक सामान्य था (मुझे संदेह है) क्योंकि आय के लिए यह एक खराब समाधान होगा: लॉग इन आय के संदर्भ में गणना करना बेहतर है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.