दो विश्व टकराते हैं: जटिल सर्वेक्षण डेटा के लिए एमएल का उपयोग करना


14

मैं प्रतीत होता है कि आसान समस्या से पीड़ित हूं, लेकिन मुझे अब कई हफ्तों के लिए उपयुक्त समाधान नहीं मिला है।

मेरे पास बहुत अधिक पोल / सर्वेक्षण डेटा (हजारों उत्तरदाताओं के दसियों, 50k प्रति डेटासेट कहते हैं) है, जो मुझे आशा है कि वज़न, स्तरीकरण, विशिष्ट मार्ग और इतने पर जटिल रूप से डिज़ाइन किए गए सर्वेक्षण कहलाते हैं। प्रत्येक उत्तरदाताओं के लिए, जनसांख्यिकी (आयु, क्षेत्र ...) जैसे सैकड़ों चर हैं और फिर ज्यादातर बाइनरी (कम से कम, श्रेणीबद्ध) चर हैं।

मैं कंप्यूटर विज्ञान / मशीन लर्निंग बैकग्राउंड से अधिक आता हूं और मुझे शास्त्रीय सर्वेक्षण के आँकड़ों और कार्यप्रणाली के बारे में बहुत कुछ सीखना था । अब मैं उन आंकड़ों के लिए शास्त्रीय मशीन लर्निंग लागू करना चाहता हूं (जैसे उत्तरदाताओं के सबसेट के लिए कुछ लापता मूल्यों की भविष्यवाणी करना - मूल रूप से वर्गीकरण कार्य)। लेकिन, पकड़ और निहारना, मैं एक उपयुक्त तरीका नहीं मिल सकता है कि कैसे करना है। मुझे उन स्ट्रेट्स, वेट्स या राउटिंग को कैसे शामिल करना चाहिए (जैसे: यदि प्रश्न 1 विकल्प 2 के साथ उत्तर दिया गया है, तो प्रश्न 3 पूछें, अन्यथा इसे छोड़ दें)?

बस मेरे मॉडल (पेड़, लॉजिस्टिक रिग्रेशन, एसवीएम, एक्सजीबोस्ट ...) को लागू करना खतरनाक लगता है (और, वे ज्यादातर मामलों में विफल होते हैं), क्योंकि वे आमतौर पर मान लेते हैं कि डेटा साधारण यादृच्छिक नमूने या आईआईडी से आ रहे हैं।

बहुत से तरीकों में कम से कम वजन होता है, लेकिन यह बहुत मदद नहीं करता है। इसके अलावा, यह स्पष्ट नहीं है कि मुझे सर्वेक्षण परिभाषा द्वारा दिए गए असंतुलित वर्गों और भार को एक साथ कैसे जोड़ना चाहिए, उन स्तरीकरण सामानों के बारे में बात नहीं कर रहा है। इसके अलावा, परिणाम मॉडल को अच्छी तरह से कैलिब्रेट किया जाना चाहिए - अनुमानित वितरण मूल एक के बहुत करीब होना चाहिए। भविष्यवाणी का अच्छा प्रदर्शन ही यहाँ एकमात्र मापदंड नहीं है। मैंने इसको ध्यान में रखने के लिए अनुकूलन मीट्रिक को बदल दिया (जैसे कि वास्तविक वितरण + सटीकता / MCC से अनुमानित वितरण की दूरी ) और इसने कुछ मामलों में मदद की, दूसरों में प्रदर्शन को अपंग क्यों किया।

क्या इस समस्या से निपटने के लिए कुछ विहित तरीका है? यह मेरे लिए अनुसंधान के क्षेत्र में एक बहुत ही कम महत्व का क्षेत्र है। आईएमओ कई सर्वेक्षण एमएल की शक्ति से लाभान्वित हो सकते हैं, लेकिन कोई स्रोत नहीं हैं। जैसे ये दो जगहें आपस में बातचीत नहीं कर रही हैं।

मैंने अब तक क्या पाया है:

  • http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/

    उदाहरण के लिए, मैं अभी भी केवल एक कागज (टूथ और एलटिंग, 2011) के बारे में जानता हूं कि आपके डेटा को एक जटिल नमूना सर्वेक्षण से आने वाले प्रतिगमन पेड़ों को कैसे करना है।

  • http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine

    हाल ही के 150 नमूनों वाले शोध पत्रों के हालिया मेटा-विश्लेषण में जटिल नमूने डिजाइनों के साथ कई सर्वेक्षणों का विश्लेषण करते हुए, यह पाया गया है कि जटिल नमूना डिजाइन सुविधाओं के अज्ञानता या गलत उपयोग के कारण होने वाली विश्लेषणात्मक त्रुटियां अक्सर थीं।

  • https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf

संबंधित सीवी प्रश्न, लेकिन उनमें से किसी में भी कोई जवाब देने योग्य उत्तर नहीं है कि इसे कैसे प्राप्त किया जाए (या तो कोई जवाब नहीं, न कि मैं क्या मांगता हूं, या भ्रामक सिफारिशें प्रस्तुत करता हूं):


क्या आप कृपया परिभाषित कर सकते हैं कि " ज्यादातर मामलों में असफल " से आपका क्या मतलब है ? इस वर्तमान सेटिंग में आप किसी मॉडल की सफलता को कैसे आंकते हैं?
us --r11852 का कहना है कि

वे मूल वितरण के करीब भी नहीं हैं या उन्हें चलाने के लिए निरर्थक लगता है (जैसे जब रूटिंग शामिल है)।
कोटरफा

जवाबों:


3

( अपडेट: जटिल सर्वेक्षण डेटा के साथ "आधुनिक" एमएल तरीकों पर अभी तक बहुत अधिक काम नहीं हुआ है, लेकिन सांख्यिकीय विज्ञान के सबसे हालिया मुद्दे में समीक्षा लेखों की एक जोड़ी है। विशेष रूप से ब्रेडीट और ऑप्सोमर (2017), "मॉडल-असिस्टेड देखें। " आधुनिक भविष्यवाणी तकनीकों के साथ सर्वेक्षण का अनुमान "

इसके अलावा, आपके द्वारा उल्लिखित टोथ और एलटिंग पेपर के आधार पर, अब एक आर पैकेज rpms है, जो CART- सर्वेक्षण डेटा के लिए कार्यान्वयन कर रहा है।)

अब मैं उन आंकड़ों के लिए शास्त्रीय मशीन लर्निंग लागू करना चाहता हूं (जैसे उत्तरदाताओं के सबसेट के लिए कुछ लापता मूल्यों की भविष्यवाणी करना - मूल रूप से वर्गीकरण कार्य)।

मैं आपके लक्ष्य पर पूरी तरह से स्पष्ट नहीं हूँ। क्या आप मुख्य रूप से लापता टिप्पणियों को लागू करने की कोशिश कर रहे हैं, बस किसी और को देने के लिए "पूर्ण" डेटासेट है? या क्या आपके पास पहले से ही पूरा डेटा है, और आप नई टिप्पणियों की प्रतिक्रियाओं की भविष्यवाणी / वर्गीकृत करने के लिए एक मॉडल बनाना चाहते हैं? क्या आपके पास अपने मॉडल (नों) के साथ उत्तर देने के लिए कोई विशेष प्रश्न है, या क्या आप अधिक मोटे तौर पर डेटा-माइनिंग कर रहे हैं?

या तो मामले में, जटिल-नमूना-सर्वेक्षण / सर्वेक्षण-भारित लॉजिस्टिक प्रतिगमन एक उचित, बहुत अच्छी तरह से समझा विधि है। वहाँ भी 2 से अधिक श्रेणियों के लिए क्रमिक प्रतिगमन है। ये स्ट्रेट्स और सर्वे वेट का हिसाब करेंगे। क्या आपको इससे ज्यादा कट्टर विधायक की जरूरत है?

उदाहरण के लिए, आप svyglmR के surveyपैकेज में उपयोग कर सकते हैं । यहां तक ​​कि अगर आप आर का उपयोग नहीं करते हैं, तो पैकेज लेखक, थॉमस लुमली ने भी एक उपयोगी पुस्तक "कॉम्प्लेक्स सर्वे: ए गाइड टू एनालिसिस यूजिंग आर" लिखी है जो सर्वेक्षण के लिए लॉजिस्टिक रिग्रेशन और लापता डेटा दोनों को कवर करती है।

(प्रतिनियुक्ति के लिए, मुझे आशा है कि आप पहले से ही गायब डेटा के आस-पास के सामान्य मुद्दों से परिचित हैं। यदि नहीं, तो यह देखने के लिए कि आपके कदम अनुमान / भविष्यवाणियों को कैसे प्रभावित करते हैं, यह देखने के लिए कई प्रतिरूपण की तरह दृष्टिकोणों पर गौर करें।)

प्रश्न मार्ग वास्तव में एक अतिरिक्त समस्या है। मुझे यकीन नहीं है कि इससे कैसे निपटा जाए। इंप्यूटेशन के लिए, शायद आप एक बार में रूटिंग में एक "स्टेप" लगा सकते हैं। उदाहरण के लिए, एक वैश्विक मॉडल का उपयोग करते हुए, सबसे पहले "आपके कितने बच्चे हैं?" इसके बाद संबंधित उप-जनसंख्या (0 से अधिक बच्चों वाले लोग) पर एक नया मॉडल चलाएं, "आप कितने बच्चे हैं?"

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.