कैसे वर्गीकृत डेटा को संक्षेप में प्रस्तुत करें?


13

मैं उम्मीद के साथ निम्नलिखित समस्या से जूझ रहा हूं, यह सांख्यिकीविदों के लिए एक आसान है (मैं आंकड़ों के कुछ जोखिम के साथ एक प्रोग्रामर हूं)।

मुझे एक सर्वेक्षण (प्रबंधन के लिए) के लिए प्रतिक्रियाओं को संक्षेप में प्रस्तुत करने की आवश्यकता है। सर्वेक्षण में 100+ प्रश्न हैं, जो विभिन्न क्षेत्रों (लगभग 5 से 10 प्रश्नों के साथ प्रति क्षेत्र) में वर्गीकृत हैं। सभी उत्तर स्पष्ट हैं (क्रमिक पैमाने पर, वे "बिल्कुल नहीं", "शायद ही कभी" ... "दैनिक या अधिक बार" जैसे हैं)।

प्रबंधन प्रत्येक क्षेत्र के लिए एक सारांश प्राप्त करना चाहेगा और यह मेरी समस्या है: संबंधित प्रश्न के भीतर स्पष्ट उत्तर कैसे एकत्रित करें? । प्रत्येक क्षेत्र के लिए एक ग्राफ या यहां तक ​​कि एक जाली प्लॉट बनाने के लिए प्रश्न बहुत अधिक हैं। यदि संभव हो, तो संख्याओं के साथ तालिकाओं की तुलना में मैं एक दृश्य दृष्टिकोण का पक्ष लेता हूं (अफसोस, वे उन्हें नहीं पढ़ेंगे)।

केवल एक चीज जिसके साथ मैं आ सकता हूं, वह है कि प्रत्येक क्षेत्र में उत्तरों की संख्या की गणना करें, फिर हिस्टोग्राम की साजिश करें।

क्या श्रेणीबद्ध डेटा के लिए कोई और चीज उपलब्ध है?

मैं आर का उपयोग करता हूं, लेकिन यह सुनिश्चित नहीं है कि यह प्रासंगिक है, मुझे लगता है कि यह एक सामान्य आँकड़े प्रश्न है।


पीसीए / एफए के बारे में कैसे? आप सहसंबंधित चर को कारकों में सिकोड़ेंगे और वहां से काम करेंगे ...
रोमन लुच्रिक

यह बहुत अधिक हो सकता है, यदि प्रबंधन पूछता है कि 'आपको कुल संख्या कैसे मिली?' वे एक सरल तकनीक चाहते हैं ताकि वे इसे महसूस कर सकें (महसूस कर सकें)। काश, वास्तविक दुनिया :-( हालांकि, धन्यवाद।
इच्छाधारी 11

जवाबों:


10

आपको वास्तव में यह पता लगाने की आवश्यकता है कि आप किस प्रश्न का उत्तर देने की कोशिश कर रहे हैं- या किस प्रश्न का प्रबंधन सबसे अधिक रुचि रखता है। फिर आप उन सर्वेक्षण प्रश्नों का चयन कर सकते हैं जो आपकी समस्या के लिए सबसे अधिक प्रासंगिक हैं।

आपकी समस्या या डेटासेट के बारे में कुछ भी जाने बिना, यहाँ कुछ सामान्य समाधान दिए गए हैं:

  • नेत्रहीन रूप से उत्तर को क्लस्टर के रूप में दर्शाते हैं। मेरा पसंदीदा या तो डेंड्रोग्राम का उपयोग करके है या सिर्फ एक एक्स अक्ष पर साजिश रचने (Google "क्लस्टर विश्लेषण आर" और statmethods.net द्वारा पहले परिणाम पर जाएं)
  • प्रश्नों को सबसे बड़ी "दैनिक या अधिक बार" प्रतिक्रियाओं से रैंक करें। यह एक उदाहरण है जो शायद आपके लिए काम नहीं करता है, लेकिन शायद यह आपको प्रेरित करेगा http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
  • क्रॉसस्टैब्स: यदि उदाहरण के लिए, आपके पास एक सवाल है "आप कितनी बार काम के लिए देर से आते हैं?" और "आप फेसबुक का उपयोग कितनी बार करते हैं?" )
  • Correlograms। मुझे इनमें से कोई अनुभव नहीं है, लेकिन मैंने इसे statmethods.net वेबसाइट पर भी देखा है। मूल रूप से आप पाते हैं कि किन प्रश्नों में सबसे अधिक संबंध है और फिर एक तालिका बनाएं। आपको यह उपयोगी लग सकता है, हालांकि यह "व्यस्त" की तरह दिखता है।

मैं इसे उत्तर के रूप में चिह्नित करूँगा; इसमें कई अच्छे सुझाव हैं इसलिए मैं सोचूंगा कि उन्हें कैसे लागू किया जाए।
इच्छादिबतनामे

9

माइकल फ्रेंडली द्वारा उपयोग की जा सकने वाली विज़ुअलाइज़ेशन तकनीकों पर एक अच्छा पेपर है:

(वास्तव में, एक ही लेखक द्वारा इसके लिए समर्पित एक पूरी पुस्तक है ।) आरसीडी में वीसीडी पैकेज इन तकनीकों में से कई को लागू करता है।


कागज और किताब के संदर्भ के लिए upvoted, मैं उन्हें पढ़ता हूँ
11

8

मानक विकल्पों में शामिल हैं:

  • पैमाने के भीतर वस्तुओं के लिए माध्य प्राप्त करना (जैसे, यदि पैमाना 1 से 5 है, तो माध्य 1 से 5 तक होगा)
  • प्रत्येक आइटम को एक बाइनरी माप में परिवर्तित करना (जैसे, यदि आइटम> = 3, फिर 1, और 0) और फिर इस प्रतिक्रिया प्रतिक्रिया का मतलब लेना

यह देखते हुए कि आप संगठन में वस्तुओं और लोगों के बड़े नमूनों पर एकत्र हो रहे हैं, दोनों विकल्प ऊपर (यानी, 1 से 5 का मतलब या एक बिंदु से ऊपर प्रतिशत का मतलब) संगठनात्मक स्तर पर विश्वसनीय होंगे ( यहां देखें) आगे की चर्चा )। इस प्रकार, उपरोक्त विकल्पों में से कोई भी मूल रूप से समान जानकारी का संचार कर रहा है।

सामान्य तौर पर मैं इस तथ्य के बारे में चिंतित नहीं होता कि आइटम श्रेणीबद्ध हैं। जब तक आप वस्तुओं पर कुल मिलाकर स्केल बना लेते हैं और तब तक उत्तरदाताओं के अपने नमूने पर एकत्र हो जाते हैं, तब तक स्केल एक निरंतर पैमाने के करीब होगा।

प्रबंधन को व्याख्या के लिए एक मीट्रिक आसान मिल सकता है। जब मुझे क्वालिटी ऑफ़ टीचिंग स्कोर मिलता है (यानी, औसत छात्र संतुष्टि स्कोर 100 छात्रों का कहना है), यह 1 से 5 के पैमाने पर औसत है और यह ठीक है। साल-दर-साल अपने स्वयं के स्कोर को देखने के बाद और विश्वविद्यालय के कुछ मानदंडों को देखने के बाद, मैंने विभिन्न संदर्भों के अर्थों के संदर्भ में एक फ्रेमवर्क विकसित किया है। हालांकि, प्रबंधन कभी-कभी किसी कथन के समर्थन के प्रतिशत, या सकारात्मक प्रतिक्रियाओं के प्रतिशत के बारे में सोचने के लिए पसंद करता है, जबकि यह अर्थ प्रतिशत में होता है।

मुख्य चुनौती स्कोर के लिए संदर्भ के कुछ ठोस फ्रेम देना है। प्रबंधन जानना चाहेगा कि वास्तव में संख्याओं का क्या मतलब है । उदाहरण के लिए, यदि स्केल के लिए माध्य प्रतिक्रिया 4.2 है, तो इसका क्या अर्थ है? अच्छी है? क्या यह खराब है? क्या यह ठीक है?

यदि आप कई वर्षों से या विभिन्न संगठनों में सर्वेक्षण का उपयोग कर रहे हैं, तो आप कुछ मानदंडों को विकसित करना शुरू कर सकते हैं। मानदंडों तक पहुंच एक कारण है कि संगठन अक्सर एक बाहरी सर्वेक्षण प्रदाता प्राप्त करते हैं या एक मानक सर्वेक्षण का उपयोग करते हैं।

आप यह सत्यापित करने के लिए एक कारक विश्लेषण चलाने की इच्छा कर सकते हैं कि तराजू में वस्तुओं का असाइनमेंट आनुभविक रूप से उचित है।

दृश्य दृष्टिकोण के संदर्भ में, आपके पास x- अक्ष पर स्केल प्रकार और y- अक्ष पर स्कोर के साथ एक सरल रेखा या बार ग्राफ हो सकता है। यदि आपके पास प्रामाणिक डेटा है, तो आप उसे भी जोड़ सकते हैं।


1

हाँ। मैं समझ और प्रबंधन प्रस्तुति दोनों के लिए सर्वेक्षण डेटा को कम करने के लिए डेटा में कमी के लिए एक बहुत प्रभावी दृष्टिकोण होने के लिए क्लस्टरिंग पाता हूं।

अव्यक्त वर्ग विश्लेषण (अनुक्रिया के रूप में प्रतिक्रिया तराजू का इलाज) या के-साधन (उन्हें निरंतर के रूप में व्यवहार करना) दोनों को सूचना संपीड़न के एक रूप के रूप में देखा जा सकता है । उत्तरदाताओं को उनके सबसे संभावित खंड में वर्गीकृत करने से आम तौर पर एक श्रेणीगत चर प्राप्त होता है जिसमें प्रतिक्रियाओं के संदर्भ में गहन स्पष्टीकरण होता है।

आप तब खंडों का नाम दे सकते हैं, और सारांश स्तर विश्लेषण और प्रस्तुति के लिए उन चर का उपयोग कर सकते हैं।

संबंधित आइटम के समूहों के लिए एक क्लस्टर फ़िट करें (जैसे नीचे) या संभवतः सभी एक साथ।

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

मैं अक्सर LatentGold का उपयोग करता हूं, लेकिन SAS में FASTCLUS को एक अच्छा समीक्षक ढूंढता हूं।

ऐसा करने से पहले, आप पैमाने (विवादास्पद लेकिन व्यावहारिक) के उपयोग के लिए प्रत्येक व्यक्ति की प्रतिक्रियाओं को समायोजित करने पर विचार करना चाहेंगे। कुछ लोग पैमाने के एक छोर पर दुबले होते हैं, या तो नकारात्मक या सकारात्मक से बचते हैं। कच्ची प्रतिक्रियाओं को क्लस्टर करना आमतौर पर लोगों को उस व्यवहार से विभाजित करता है।

प्रत्येक उत्तरदाताओं के उत्तरों को अपने मतलब से मानकीकृत करना और उस पर क्लस्टर करना अक्सर उन चरों को उजागर करता है जो बहुत ही दिलचस्प तरीके से एक साथ चलते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.