मैं यह अनुमान लगाने के लिए एक मॉडल चलाने की कोशिश कर रहा हूं कि टीबी, एड्स आदि जैसी भयावह बीमारियां अस्पताल में भर्ती होने पर खर्च को कैसे प्रभावित करती हैं। मेरे पास आश्रित चर के रूप में "प्रति अस्पताल में होने वाला खर्च" है और स्वतंत्र चर के रूप में विभिन्न व्यक्तिगत मार्कर हैं, जिनमें से लगभग सभी डमी हैं जैसे लिंग, घरेलू स्थिति का मुखिया, गरीबी की स्थिति और निश्चित रूप से बीमारी के लिए एक डमी (प्लस आयु) और आयु वर्ग) और बातचीत की शर्तों का एक गुच्छा।
जैसा कि उम्मीद की जा रही है, एक महत्वपूर्ण राशि है - और मेरा बहुत मतलब है - शून्य पर ढेर किए गए डेटा (यानी, 12 महीने के संदर्भ अवधि में अस्पताल में भर्ती होने पर कोई खर्च नहीं)। इन जैसे डेटा से निपटने का सबसे अच्छा तरीका क्या होगा?
अब तक मैंने ln(1+cost)
सभी टिप्पणियों को शामिल करने और फिर एक रैखिक मॉडल चलाने के लिए लागत को रूपांतरित करने का निर्णय लिया । क्या मैं सही रास्ते पर हूं?