परंपरागत रूप से हम अनुदैर्ध्य डेटा को मॉडल करने के लिए मिश्रित मॉडल का उपयोग करते हैं, जैसे डेटा:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
हम विभिन्न व्यक्तियों के लिए यादृच्छिक अवरोधन या ढलान को मान सकते हैं। हालाँकि, मैं जिस प्रश्न को हल करने की कोशिश कर रहा हूं, उसमें विशाल डेटासेट (लाखों व्यक्ति, 1 महीने का दैनिक अवलोकन, यानी प्रत्येक व्यक्ति के पास 30 अवलोकन होंगे), वर्तमान में मुझे पता नहीं है कि क्या पैकेज डेटा के इस स्तर को कर सकते हैं।
मेरे पास स्पार्क / महावत की पहुंच है, लेकिन वे मिश्रित मॉडल की पेशकश नहीं करते हैं, मेरा सवाल यह है कि क्या वैसे भी मैं अपना डेटा संशोधित कर सकता हूं ताकि मैं इस डेटासेट को मॉडल करने के लिए रैंडमफोरेस्ट या एसवीएम का उपयोग कर सकूं?
मैं किसी भी सुविधा इंजीनियरिंग तकनीक का लाभ उठा सकता हूं ताकि यह ऑटो-सहसंबंध के लिए आरएफ / एसवीएम की मदद कर सके?
बहुत धन्यवाद!
कुछ संभावित तरीके लेकिन मैं उन्हें स्पार्क में लिखने का समय नहीं दे सका
मैं यादृच्छिक प्रभाव को यादृच्छिक रूप से कैसे शामिल कर सकता हूं