संकुल डेटा के लिए उचित बूटस्ट्रैपिंग तकनीक?


16

मेरे पास डेटा के साथ उपयोग करने के लिए उचित बूटस्ट्रैपिंग तकनीक के बारे में एक प्रश्न है जहां मजबूत क्लस्टरिंग मौजूद है।

मुझे एक बहुभिन्नरूपी मिश्रित प्रभाव का आकलन करने का काम सौंपा गया है, जो बीमा दावों के डेटा पर मौजूदा बेसलाइन मॉडल को अधिक हाल के दावों के डेटा पर स्कोर करके निर्धारित करता है, यह निर्धारित करने के लिए कि मॉडल कितनी अच्छी तरह भविष्यवाणी करता है कि देखभाल के एपिसोड में सत्रों की उच्चतम आवृत्ति शामिल है (ऊपरी 95 प्रतिशत)। मॉडल की प्रभावशीलता का आकलन करने के लिए संवेदनशीलता, विशिष्टता और सकारात्मक भविष्य कहनेवाला मूल्य (पीपीवी) का उपयोग किया जाएगा।

बूटस्ट्रैपिंग संवेदनशीलता, विशिष्टता और पीपीवी प्रतिशत के लिए आत्मविश्वास अंतराल के निर्माण के लिए जाने का सही तरीका लगता है। दुर्भाग्य से, एक भोली बूटस्ट्रैप उचित नहीं है कि दावा डेटा 1 है) देखभाल प्रदाता द्वारा सहसंबद्ध, 2) देखभाल के एपिसोड में महीनों के दौरान अधिक लगातार यात्राओं के साथ देखभाल के एपिसोड में वर्गीकृत किया गया है (इसलिए कुछ ऑटोकरालेशन मौजूद हैं)। चलती ब्लॉक बूटस्ट्रैप तकनीक पर एक बदलाव यहाँ उचित होगा?

या शायद एक तीन-चरण बूटस्ट्रैप प्रक्रिया काम करेगी: 1) डेटा में अलग-अलग प्रदाताओं से प्रतिस्थापन के साथ नमूना, फिर 2) चयनित प्रदाताओं द्वारा देखभाल के अलग-अलग एपिसोड से प्रतिस्थापन के साथ नमूना, फिर 3) प्रत्येक दावे के भीतर अलग-अलग दावों से प्रतिस्थापन के साथ नमूना चयनित एपिसोड।

किसी भी सुझाव के लिए बहुत धन्यवाद!

जवाबों:


14

आपके द्वारा सुझाया गया दूसरा दृष्टिकोण उचित प्रतीत होता है, लेकिन यह पता चलता है कि उच्चतम स्तर पर केवल प्रतिस्थापन के साथ नमूना लेना बेहतर है, और शेष सुविस्तरों पर प्रतिस्थापन के बिना जब पदानुक्रमित डेटा बूटस्ट्रैप होता है। यह रेन एट अल (2010) द्वारा सिमुलेशन से दिखाया गया है: http://www.tandfonline.com/doi/abs/10.10/10/02664760903046102

फील्ड एंड वेल्श (2007) ने सैद्धांतिक रूप से 2-स्तरीय डेटा सेट के लिए अलग-अलग दृष्टिकोणों की जांच की और पाया कि दोनों स्तरों पर प्रतिस्थापन के साथ नमूना एक शानदार विचार नहीं था।
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

आपके द्वारा उल्लेखित स्वायत्तता एक गंभीर समस्या है। दूसरी ओर, देखभाल के एपिसोड से प्रतिस्थापन के बिना चयन करना ऑटोकॉर्पेशन संरचना को संरक्षित करेगा, इसलिए शायद यह इतनी बड़ी समस्या नहीं है।


मैं सोच रहा था कि निम्नलिखित समाधान उचित है:
राफेल

... क्षमा करें, मैं अपनी पिछली टिप्पणी समाप्त नहीं कर सका। यहां यह है: ... एक कोड (आईडी) बनाएं जो प्रत्येक क्लस्टरिंग स्तर को ध्यान में रखता है (जैसे episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp) , और फिर GEE का उपयोग करें जो आपको ऑटोक्रेलेशन से निपटने की अनुमति देता है। मैंने कहीं पढ़ा है कि GEE मॉडल क्लस्टीयर संरचनाओं की उपस्थिति में भी मजबूत अनुमान देते हैं। क्या यह समाधान उचित लगता है?
राफेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.