मैं प्रतीत होता है कि आसान समस्या से पीड़ित हूं, लेकिन मुझे अब कई हफ्तों के लिए उपयुक्त समाधान नहीं मिला है।
मेरे पास बहुत अधिक पोल / सर्वेक्षण डेटा (हजारों उत्तरदाताओं के दसियों, 50k प्रति डेटासेट कहते हैं) है, जो मुझे आशा है कि वज़न, स्तरीकरण, विशिष्ट मार्ग और इतने पर जटिल रूप से डिज़ाइन किए गए सर्वेक्षण कहलाते हैं। प्रत्येक उत्तरदाताओं के लिए, जनसांख्यिकी (आयु, क्षेत्र ...) जैसे सैकड़ों चर हैं और फिर ज्यादातर बाइनरी (कम से कम, श्रेणीबद्ध) चर हैं।
मैं कंप्यूटर विज्ञान / मशीन लर्निंग बैकग्राउंड से अधिक आता हूं और मुझे शास्त्रीय सर्वेक्षण के आँकड़ों और कार्यप्रणाली के बारे में बहुत कुछ सीखना था । अब मैं उन आंकड़ों के लिए शास्त्रीय मशीन लर्निंग लागू करना चाहता हूं (जैसे उत्तरदाताओं के सबसेट के लिए कुछ लापता मूल्यों की भविष्यवाणी करना - मूल रूप से वर्गीकरण कार्य)। लेकिन, पकड़ और निहारना, मैं एक उपयुक्त तरीका नहीं मिल सकता है कि कैसे करना है। मुझे उन स्ट्रेट्स, वेट्स या राउटिंग को कैसे शामिल करना चाहिए (जैसे: यदि प्रश्न 1 विकल्प 2 के साथ उत्तर दिया गया है, तो प्रश्न 3 पूछें, अन्यथा इसे छोड़ दें)?
बस मेरे मॉडल (पेड़, लॉजिस्टिक रिग्रेशन, एसवीएम, एक्सजीबोस्ट ...) को लागू करना खतरनाक लगता है (और, वे ज्यादातर मामलों में विफल होते हैं), क्योंकि वे आमतौर पर मान लेते हैं कि डेटा साधारण यादृच्छिक नमूने या आईआईडी से आ रहे हैं।
बहुत से तरीकों में कम से कम वजन होता है, लेकिन यह बहुत मदद नहीं करता है। इसके अलावा, यह स्पष्ट नहीं है कि मुझे सर्वेक्षण परिभाषा द्वारा दिए गए असंतुलित वर्गों और भार को एक साथ कैसे जोड़ना चाहिए, उन स्तरीकरण सामानों के बारे में बात नहीं कर रहा है। इसके अलावा, परिणाम मॉडल को अच्छी तरह से कैलिब्रेट किया जाना चाहिए - अनुमानित वितरण मूल एक के बहुत करीब होना चाहिए। भविष्यवाणी का अच्छा प्रदर्शन ही यहाँ एकमात्र मापदंड नहीं है। मैंने इसको ध्यान में रखने के लिए अनुकूलन मीट्रिक को बदल दिया (जैसे कि वास्तविक वितरण + सटीकता / MCC से अनुमानित वितरण की दूरी ) और इसने कुछ मामलों में मदद की, दूसरों में प्रदर्शन को अपंग क्यों किया।
क्या इस समस्या से निपटने के लिए कुछ विहित तरीका है? यह मेरे लिए अनुसंधान के क्षेत्र में एक बहुत ही कम महत्व का क्षेत्र है। आईएमओ कई सर्वेक्षण एमएल की शक्ति से लाभान्वित हो सकते हैं, लेकिन कोई स्रोत नहीं हैं। जैसे ये दो जगहें आपस में बातचीत नहीं कर रही हैं।
मैंने अब तक क्या पाया है:
- http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/
उदाहरण के लिए, मैं अभी भी केवल एक कागज (टूथ और एलटिंग, 2011) के बारे में जानता हूं कि आपके डेटा को एक जटिल नमूना सर्वेक्षण से आने वाले प्रतिगमन पेड़ों को कैसे करना है।
- http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine
हाल ही के 150 नमूनों वाले शोध पत्रों के हालिया मेटा-विश्लेषण में जटिल नमूने डिजाइनों के साथ कई सर्वेक्षणों का विश्लेषण करते हुए, यह पाया गया है कि जटिल नमूना डिजाइन सुविधाओं के अज्ञानता या गलत उपयोग के कारण होने वाली विश्लेषणात्मक त्रुटियां अक्सर थीं।
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
संबंधित सीवी प्रश्न, लेकिन उनमें से किसी में भी कोई जवाब देने योग्य उत्तर नहीं है कि इसे कैसे प्राप्त किया जाए (या तो कोई जवाब नहीं, न कि मैं क्या मांगता हूं, या भ्रामक सिफारिशें प्रस्तुत करता हूं):