देशों के प्रकारों की पहचान करने के लिए डेटा घटाने की तकनीक


11

मैं एक परिचयात्मक आर्थिक भूगोल पाठ्यक्रम पढ़ाता हूं। मेरे छात्रों को समकालीन विश्व अर्थव्यवस्था में पाए जाने वाले देशों के प्रकारों की बेहतर समझ और डेटा कटौती तकनीकों की सराहना करने में मदद करने के लिए, मैं एक ऐसे असाइनमेंट का निर्माण करना चाहता हूं, जो विभिन्न प्रकार के देशों की टाइपोलॉजी बनाए (जैसे, उच्च-आय उच्च- मूल्य जोड़ा गया mfg लंबी जीवन प्रत्याशा; उच्च आय प्राकृतिक संसाधन निर्यातक मध्य-उच्च जीवन प्रत्याशा, जर्मनी के साथ पहला प्रकार का एक तत्व है, और यमन दूसरे प्रकार का एक उदाहरण है)। यह सार्वजनिक रूप से उपलब्ध यूएनडीपी डेटा का उपयोग करेगा (जो कि अगर मुझे सही ढंग से याद है कि 200 से कम देशों में सामाजिक आर्थिक डेटा शामिल है, तो खेद है कि कोई क्षेत्रीय डेटा उपलब्ध नहीं है)।

इस असाइनमेंट से पहले एक और होगा जो उनसे पूछता है (उसी के उपयोग से --- बड़े पैमाने पर अंतराल या अनुपात स्तर --- डेटा) इन समान चर के बीच सहसंबंधों की जांच करने के लिए।

मेरी आशा है कि वे पहले विभिन्न चर (उदाहरण के लिए, जीवन प्रत्याशा और [धन के विभिन्न संकेतक], धन और निर्यात विविधता के बीच एक सकारात्मक संबंध) के बीच संबंधों के प्रकार के लिए एक अंतर्ज्ञान विकसित करेंगे। फिर, डेटा कमी तकनीक का उपयोग करते समय, घटक या कारक कुछ सहज ज्ञान युक्त अर्थ (जैसे, कारक / घटक 1 धन के महत्व को कैप्चर करते हैं; कारक / घटक 2 शिक्षा के महत्व को पकड़ते हैं)।

यह देखते हुए कि ये दूसरे से चौथे वर्ष के छात्र हैं, अक्सर विश्लेषणात्मक सोच के सीमित जोखिम के साथ, आम तौर पर एकल डेटा कटौती तकनीक क्या आप दूसरे असाइनमेंट के लिए सबसे उपयुक्त होगी? ये जनसंख्या के आंकड़े हैं, इसलिए हीन सांख्यिकी (p-vlaues, आदि) वास्तव में आवश्यक नहीं हैं।

जवाबों:


10

एक खोजपूर्ण विधि के रूप में, पीसीए इस IMO जैसे असाइनमेंट के लिए एक अच्छी पहली पसंद है। यह उनके लिए अच्छा होगा कि वे इसके संपर्क में आएं; ऐसा लगता है कि उनमें से कई ने पहले मुख्य घटक नहीं देखे होंगे।

डेटा के संदर्भ में मैं आपको विश्व बैंक संकेतक की ओर भी संकेत करूंगा, जो उल्लेखनीय रूप से पूर्ण हैं: http://data.worldbank.org/indiaator


5

मैं जेएमएस से सहमत हूं, और पीसीए प्रत्येक काउंटी के चर के बीच प्रारंभिक सहसंबंधों और बिखराव की जांच करने के बाद एक अच्छे विचार की तरह लगता है। गैर-गणितीय शब्दों में पीसीए को पेश करने के लिए इस धागे के कुछ उपयोगी सुझाव हैं।

मैं प्रत्येक चर के स्थानिक वितरण की कल्पना करने के लिए छोटे एकाधिक मानचित्रों का उपयोग करने का भी सुझाव दूंगा (और इस सवाल पर gis.se साइट पर कुछ अच्छे उदाहरण हैं )। मुझे लगता है कि ये कार्य विशेष रूप से अच्छी तरह से होते हैं यदि आपके पास तुलना करने के लिए सीमित संख्या में क्षेत्रीय इकाइयां हैं और आप एक अच्छी रंग योजना का उपयोग करते हैं (जैसे एंड्रयू जेलमैन के ब्लॉग पर इस उदाहरण )।

दुर्भाग्यवश किसी भी "विश्व देशों" के डेटासेट की प्रकृति से मुझे संदेह है कि अक्सर दुर्लभ डेटा (यानी लापता देशों का एक बहुत) परिणाम होगा, जिससे भौगोलिक दृश्य कठिन हो जाएगा। लेकिन इस तरह की विज़ुअलाइज़ेशन तकनीक अन्य स्थितियों के साथ-साथ आपके पाठ्यक्रम के लिए भी उपयोगी होनी चाहिए।


+1, अच्छा संदर्भ। पीसीए स्कोर के चर के नक्शे की तुलना दिलचस्प भी हो सकती है।
JMS

गैर-गणितीय शब्दों में पीसीए परिचय के लिए लिंक उपयोगी था, क्योंकि इससे मुझे पीसीए और कारक विश्लेषण के बीच सूक्ष्म अंतर के बारे में महसूस करने में मदद मिली। जीआईएस / मैपिंग सुझाव भी काफी उपयोगी हैं, क्योंकि मैंने चर के स्थानिक वितरण की कल्पना करने के बारे में नहीं सोचा था। छात्रों की इस आबादी के लिए, यह उन्हें विश्व अर्थव्यवस्था में अंतर्निहित संरचनाओं को समझने में मदद करेगा कि मेरे सभी ब्ला ब्ला ब्ला नहीं होंगे।
रबीदोटर

1
नाइस प्लॉट्स अक्सर ब्ला ब्ला ब्ला को हराते हैं :)
जेएमएस

4

एक त्वरित जोड़ा गया नोट: उपरोक्त तकनीकों में से जो भी आप उपयोग करते हैं, आप सबसे पहले अपने चर के वितरण की जांच करना चाहेंगे क्योंकि उनमें से बहुत से "आवश्यकता" की आवश्यकता होगी कि आप पहले एक लघुगणक का उपयोग करके उन्हें रूपांतरित करते हैं। ऐसा करने से मूल चरों के उपयोग की तुलना में कुछ रिश्तों का पता चलेगा।


3
+1 आम तौर पर इस तरह का उत्तर केवल एक टिप्पणी के रूप में पोस्ट किया जाना चाहिए, लेकिन सलाह इतनी महत्वपूर्ण है कि यहां हर संभव जोर से लाभ मिलता है। पीसीए परिणाम विशेष रूप से संभावनाहीन होगा जब तक चर उचित रूप से पुनः व्यक्त नहीं किए जाते हैं।
whuber

2

आप PCA के विकल्प के रूप में CUR अपघटन का उपयोग कर सकते हैं। CUR अपघटन के लिए, आप [1] या [2] का उल्लेख कर सकते हैं। CUR अपघटन में, C चयनित कॉलम के लिए खड़ा है, R चयनित पंक्तियों के लिए है और U लिंकिंग मैट्रिक्स है। मुझे CUR के विघटन के पीछे अंतर्ज्ञान को समझने दें जैसा कि [1] में दिया गया है;

uivi

[(1/2)age − (1/ √2)height + (1/2)income]

लोगों की विशेषताओं के डेटासेट से महत्वपूर्ण असंबद्ध "कारकों" या "सुविधाओं" में से एक होने के नाते, विशेष रूप से जानकारीपूर्ण या सार्थक नहीं है।

CUR के बारे में अच्छी बात यह है कि आधार स्तंभ वास्तविक स्तंभ (या पंक्तियाँ) हैं और PCA के विपरीत व्याख्या करने के लिए बेहतर है (जो कि ट्रांसलेटेड SVD का उपयोग करता है)।

[1] में दिए गए एल्गोरिदम को लागू करना आसान है और आप त्रुटि सीमा को बदलकर इसके साथ खेल सकते हैं और विभिन्न आधारों को प्राप्त कर सकते हैं।

[१] MW महोनी और पी। Dreaseas, "बेहतर डेटा विश्लेषण के लिए CUR मैट्रिक्स डिकम्पोजिशन।", संयुक्त राज्य अमेरिका के नेशनल एकेडमी ऑफ साइंसेज की कार्यवाही, वॉल्यूम। 106, जनवरी 2009, पीपी। 697-702।

[२] जे। सन, वाई। ज़ी, एच। झांग, और सी। फाल्टोस, "कम अधिक है: बड़े विरल रेखांकन के लिए कॉम्पैक्ट मैट्रिक्स अपघटन," डेटा माइनिंग, सिटेसर, २००,, पी पर सातवें SIAM अंतर्राष्ट्रीय सम्मेलन की कार्यवाही । 366।


2

आपके उद्देश्यों के आधार पर, समूहों पर रजिस्ट्रियों का वर्गीकरण कुछ क्लस्टरिंग विधि द्वारा प्राप्त किया जा सकता है। अपेक्षाकृत कम संख्या में पदानुक्रमित क्लस्टरिंग के लिए आमतौर पर सबसे उपयुक्त होता है, कम से कम खोजपूर्ण चरण में, जबकि अधिक पॉलिश समाधान के लिए आप के-साधन जैसे कुछ पुनरावृत्त प्रक्रिया को देख सकते हैं। किस सॉफ्टवेयर के अनुसार आप इसका उपयोग कर रहे हैं यह भी एक प्रक्रिया का उपयोग करना संभव है, जो एसपीएसएस में है, लेकिन मुझे नहीं पता कि कहां और क्या है, जिसे दो चरण क्लस्टरिंग कहा जाता है, जो तेज है, हालांकि अपारदर्शी है, और अच्छे परिणाम देता है।

क्लस्टर विश्लेषण एक वर्गीकरण समाधान निकालता है जो समूहों के बीच विचरण को अधिकतम करता है जबकि कहा समूहों के अंदर विचरण को कम करता है। यह भी उपज परिणाम है कि व्याख्या करने के लिए आसान कर रहे हैं की संभावना होगी।



1

एक अन्य विकल्प सेल्फ-ऑर्गनाइजिंग मैप्स (SOM's) का उपयोग करना होगा । छात्रों को किस सॉफ्टवेयर का उपयोग करने का कोई विचार होगा? मुझे पता है कि आर, उदाहरण के लिए, एसओएम कार्यान्वयन की एक जोड़ी है। एसओएम आपके "घटक कारकों को सहज ज्ञान युक्त बनाता है" परीक्षण में विफल हो सकता है, हालांकि। (जरूरी नहीं कि पीसीए के साथ सच हो ...)


जवाब देने में देरी के लिए शर्मिंदा हूँ। छात्र मिनिटैब 16 का उपयोग कर रहे होंगे, जिसमें ऊपर उल्लिखित कुछ और पारंपरिक डेटा कटौती तकनीकें हैं। मैं आत्म-व्यवस्थित मानचित्रों को देखूंगा, लेकिन मुझे संदेह है कि अगर यह दूसरे वर्ष के स्नातक पाठ्यक्रम में प्राप्त छात्रों के प्रकार के लिए उपयुक्त होगा।
रबीडोटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.