निम्नलिखित वर्णन करता है कि मैं क्या हासिल करने की कोशिश कर रहा हूं, लेकिन यह संभव है कि एक वैकल्पिक समस्या बयान मेरे लक्ष्य का वर्णन कर सके:
में चाहता हूं
निम्नलिखित संख्याओं को उन समूहों में विभाजित करें, जहाँ प्रत्येक समूह के भीतर संख्याओं के प्रकार बहुत बड़े नहीं हैं, और समूहों के औसत के बीच अंतर बहुत कम नहीं हैं
"पूर्ण" वाले के साथ अंत में प्राप्त वितरण की तुलना करें और देखें कि यह "पूर्ण" कैसे सही है।
लक्ष्य की व्याख्या आम आदमी
मैं आय वितरण की गणना करने की कोशिश कर रहा हूं , और प्रत्येक जनसंख्या "आय कोष्ठक" का निर्धारण कर रहा हूं । आय ब्रैकेट को इनपुट डेटा के आधार पर स्व-समायोजन माना जाता है।
मेरा लक्ष्य आय कोष्ठक के बीच अंतर को मापना या उसकी गणना करना है। मुझे लगता है कि कई कोष्ठक होंगे, और देखना चाहते हैं कि प्रत्येक स्तर कितना "अलग" है।
यहां 20 की आबादी के नमूने के लिए प्रति घंटा आय का एक नमूना है, और 3587 की कुल आय है:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
मैं गणितीय अवधारणाओं का उपयोग किसी दिए गए जनसंख्या पर आय वितरण की तरह काम करने वाले डेटा को समूह, सॉर्ट और विश्लेषण करने के लिए कैसे कर सकता हूं?
गणना के अंत में, मैं tiered आय वितरण निर्धारित करना चाहता हूं, जहां एक पूर्ण वितरण इस तरह दिखाई देगा (कुछ)
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
या यह:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
सवाल
मुझे जनसंख्या समूहों का विश्लेषण कैसे करना चाहिए, और इस तरह से अंतर को मापना चाहिए जो मुझे बताएगा कि ऊपर सूचीबद्ध पिछले दो मॉडल सेटों की तरह इसे और अधिक बनाने के लिए कितना आवश्यक है?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.