क्रमिक या नाममात्र डेटा में श्रेणियों को विलय / कम करने के तरीके?

14

मैं नाममात्र या क्रमिक डेटा में श्रेणियों की संख्या को कम करने के लिए एक विधि खोजने के लिए संघर्ष कर रहा हूं।

उदाहरण के लिए, मान लें कि मैं एक डेटासेट पर एक प्रतिगमन मॉडल बनाना चाहता हूं जिसमें कई नाममात्र और क्रमिक कारक हैं। हालांकि मुझे इस कदम से कोई समस्या नहीं है, मैं अक्सर उन स्थितियों में भाग लेता हूं जहां प्रशिक्षण सेट में एक नाममात्र की सुविधा होती है, लेकिन बाद में सत्यापन डेटासेट में मौजूद होता है। जब मॉडल को (अब तक) अनदेखे मामलों के साथ प्रस्तुत किया जाता है, तो यह स्वाभाविक रूप से और त्रुटि की ओर जाता है। एक और स्थिति जहां मैं श्रेणियों को संयोजित करना चाहूंगा, बस कुछ टिप्पणियों के साथ बहुत अधिक श्रेणियां हैं।

तो मेरे सवाल हैं:

जबकि मुझे एहसास है कि पूर्व वास्तविक दुनिया की पृष्ठभूमि की जानकारी के आधार पर कई नाममात्र (और क्रमिक) श्रेणियों को संयोजित करना सबसे अच्छा हो सकता है, क्या वहाँ व्यवस्थित तरीके ( Rपैकेज अधिमानतः) उपलब्ध हैं?
कट-ऑफ थ्रेसहोल्ड इत्यादि के बारे में आप क्या दिशा-निर्देश और सुझाव देंगे?
साहित्य में सबसे लोकप्रिय समाधान क्या हैं?
क्या छोटी नाममात्र श्रेणियों को एक नई, "ओटर्स" श्रेणी में संयोजित करने की तुलना में अन्य रणनीतियाँ हैं?

यदि आपके पास अन्य सुझाव भी हैं तो कृपया बेझिझक झंकार करें।

r categorical-data dimensionality-reduction many-categories

— फिगारो
स्रोत

संबंधित प्रश्न पर ध्यान दें: आंकड़े.stackexchange.com/questions/227125/…

— kjetil b halvorsen

11

यह आपके दूसरे प्रश्न की प्रतिक्रिया है।

मुझे संदेह है कि इस प्रकार के निर्णयों के लिए सही दृष्टिकोण का निर्धारण बड़े पैमाने पर अनुशासनात्मक मानदंडों और आपके काम के इच्छित दर्शकों की अपेक्षाओं द्वारा किया जाएगा। एक सामाजिक वैज्ञानिक के रूप में, मैं अक्सर सर्वेक्षण (या सर्वेक्षण-जैसे) डेटा के साथ काम करता हूं और जब मैं क्रमिक तराजू या श्रेणीबद्ध चर का पतन करता हूं तो मैं हमेशा मूल और डेटा-संचालित लॉजिक्स को संतुलित करने की कोशिश करता हूं। दूसरे शब्दों में, मैं इस बात पर विचार करने की पूरी कोशिश करूंगा कि वस्तुओं के संयोजन के साथ-साथ वस्तुओं के "लटके हुए" के साथ-साथ वस्तुओं के ढहने से पहले प्रतिक्रियाओं का वितरण क्या होगा।

यहां एक विशिष्ट (क्रमिक) सर्वेक्षण प्रश्न का हालिया उदाहरण दिया गया है जिसमें पांच-बिंदु आवृत्ति पैमाने शामिल हैं:

आप अपने समुदाय में क्लब या संगठन की बैठकों में कितनी बार शामिल होते हैं?

कभी नहीँ

साल में कई बार

महीने में एक बार

महीने में कुछ बार

सप्ताह में एक बार या उससे अधिक

मेरे पास इस समय मेरे पास उपलब्ध डेटा नहीं है, लेकिन परिणाम पैमाने के "कभी नहीं" अंत की ओर जोरदार तिरछे थे। नतीजतन, मेरे सह-लेखक और मैंने दो समूहों में प्रतिक्रियाओं का चयन किया: "महीने में एक बार या उससे अधिक" और "महीने में एक बार कम।" जिसके परिणामस्वरूप (बाइनरी) चर अधिक समान रूप से वितरित किया गया और व्यावहारिक दृष्टि से एक सार्थक अंतर परिलक्षित: के बाद से कई क्लबों और संगठनों महीने में एक बार की तुलना में अधिक को पूरा नहीं करते हैं, वहाँ अच्छा कारण है कि लोग हैं, जो कम से कम बैठकों में अक्सर हैं कि भाग लेने के विश्वास करने के लिए कर रहे हैं ऐसे समूहों के "सक्रिय" सदस्य जबकि कम बार (या कभी नहीं) उपस्थित होने वाले लोग "निष्क्रिय" हैं।

इसलिए मेरे अनुभव में, ये निर्णय कम से कम कला के रूप में विज्ञान के रूप में अधिक हैं। उस ने कहा, मैं आमतौर पर किसी भी मॉडल को फिट करने से पहले ऐसा करने की कोशिश करता हूं, क्योंकि मैं एक अनुशासन में काम करता हूं, जहां डेटा खनन के रूप में कुछ और (नकारात्मक रूप से) देखा जाता है और अत्यधिक वैज्ञानिक (मजेदार समय!)।

इसे ध्यान में रखते हुए, यह मदद कर सकता है यदि आप इस काम के लिए आपके मन में किस तरह के दर्शकों के बारे में थोड़ा और कह सकते हैं। आपके क्षेत्र में कुछ प्रमुख कार्यप्रणाली पाठ्यपुस्तकों की समीक्षा करना भी आपके हित में होगा क्योंकि वे अक्सर स्पष्ट कर सकते हैं कि किसी दिए गए शोध समुदाय के बीच "सामान्य" व्यवहार के लिए क्या होता है।

— ashaw
स्रोत

5

एशो चर्चा के दृष्टिकोण के प्रकार अपेक्षाकृत अधिक व्यवस्थित कार्यप्रणाली को जन्म दे सकते हैं। लेकिन मुझे यह भी लगता है कि व्यवस्थित रूप से आपका मतलब एल्गोरिथम है। यहां डेटा माइनिंग टूल्स एक गैप भर सकते हैं। एक के लिए, SPSS के डिसीजन ट्री मॉड्यूल में निर्मित ची-स्क्वेर ऑटोमेटेड इंटरैक्शन डिटेक्शन (CHAID) प्रक्रिया है; उपयोगकर्ता द्वारा निर्धारित नियमों के अनुसार, जब वे परिणाम चर पर समान मान दिखाते हैं (चाहे वह निरंतर या नाममात्र हो), क्रमिक या नाममात्र श्रेणियों के नाममात्र श्रेणियों को ध्वस्त कर सकते हैं। ये नियम ध्वस्त हो रहे समूहों के आकार पर निर्भर हो सकते हैं या ध्वस्त हो कर या पी पर निर्मित हो सकते हैंसंबंधित सांख्यिकीय परीक्षणों के संकेत। मेरा मानना है कि कुछ वर्गीकरण और प्रतिगमन वृक्ष (CART) कार्यक्रम समान कार्य कर सकते हैं। अन्य उत्तरदाताओं को तंत्रिका नेटवर्क या विभिन्न डेटा माइनिंग पैकेज के माध्यम से प्रदान किए गए अन्य अनुप्रयोगों द्वारा किए गए समान कार्यों के बारे में बोलने में सक्षम होना चाहिए।

— rolando2
स्रोत

महान बिंदु, @rolando - चूंकि मूल पोस्ट प्रशिक्षण और सत्यापन डेटासेट को संदर्भित करता है, मुझे संदेह है कि आपकी प्रतिक्रिया वास्तव में @Figaro के लिए अधिक उपयोगी हो सकती है।

— अश्व

आपके बहुमूल्य इनपुट के लिए आप दोनों का धन्यवाद। @ rolando2 जहां आप मेरे अस्पष्ट शब्दांकन के बारे में सही हैं, एल्गोरिथम वह दिशा थी जिसके लिए मैं लक्ष्य बना रहा था।

— फिगारो