अनुदैर्ध्य बड़े डेटा को कैसे मॉडल करें?


14

परंपरागत रूप से हम अनुदैर्ध्य डेटा को मॉडल करने के लिए मिश्रित मॉडल का उपयोग करते हैं, जैसे डेटा:

id obs age treatment_lvl yield
1  0   11   M  0.2
1  1   11.5 M  0.5
1  2   12   L  0.6
2  0   17   H  1.2
2  1   18   M  0.9

हम विभिन्न व्यक्तियों के लिए यादृच्छिक अवरोधन या ढलान को मान सकते हैं। हालाँकि, मैं जिस प्रश्न को हल करने की कोशिश कर रहा हूं, उसमें विशाल डेटासेट (लाखों व्यक्ति, 1 महीने का दैनिक अवलोकन, यानी प्रत्येक व्यक्ति के पास 30 अवलोकन होंगे), वर्तमान में मुझे पता नहीं है कि क्या पैकेज डेटा के इस स्तर को कर सकते हैं।

मेरे पास स्पार्क / महावत की पहुंच है, लेकिन वे मिश्रित मॉडल की पेशकश नहीं करते हैं, मेरा सवाल यह है कि क्या वैसे भी मैं अपना डेटा संशोधित कर सकता हूं ताकि मैं इस डेटासेट को मॉडल करने के लिए रैंडमफोरेस्ट या एसवीएम का उपयोग कर सकूं?

मैं किसी भी सुविधा इंजीनियरिंग तकनीक का लाभ उठा सकता हूं ताकि यह ऑटो-सहसंबंध के लिए आरएफ / एसवीएम की मदद कर सके?

बहुत धन्यवाद!

कुछ संभावित तरीके लेकिन मैं उन्हें स्पार्क में लिखने का समय नहीं दे सका

मैं यादृच्छिक प्रभाव को यादृच्छिक रूप से कैसे शामिल कर सकता हूं

अनुदैर्ध्य डेटा के साथ एसवीएम प्रतिगमन


1
डेटासेट इतना बड़ा नहीं है। 30 रिकॉर्ड के साथ 1 मिलियन विषय, शायद प्रति रिकॉर्ड 20 बाइट डेटा 600MB लाएगा। यह कुछ भी नहीं है। कोई भी स्टेट पैकेज इसे संभालेगा
अक्षल

जवाबों:


4

यदि आपके पास केवल कुछ चर हैं, उदाहरण में, तो आपको कुछ प्रकार के साथ कोई समस्या नहीं होनी चाहिए lme4

जहां मशीन सीखने की तकनीक वास्तव में चमकती है, जब आपको बहुत सारे चर मिल गए हैं और आप अपने चरों के बीच गैर-मौजूदताओं और अंतःक्रियाओं को मॉडल करना चाहते हैं। कुछ एमएल दृष्टिकोण विकसित किए गए हैं जो अनुदैर्ध्य डेटा के साथ ऐसा कर सकते हैं। आरएनएन एक विकल्प है, हालांकि ये आमतौर पर पैनल डेटा के बजाय समय श्रृंखला की समस्याओं के लिए अनुकूलित होते हैं।

सिद्धांत रूप में, एक फ़ीड-फॉरवर्ड न्यूरल नेटवर्क एक (सामान्यीकृत) रैखिक मॉडल होता है, जिसमें रेजिस्टर होते हैं जो इनपुट डेटा के गैर-रेखीय कार्य होते हैं। यदि व्युत्पन्न रजिस्टरों - आउटपुट से पहले मॉडल की शीर्ष परत - को गैर-घटक भाग माना जाता है, तो आपको इसके साथ पैरामीट्रिक संरचना को जोड़ने से कुछ भी नहीं रोक रहा है - शायद यादृच्छिक प्रभावों के रूप में।

हालांकि इसे वर्गीकरण की समस्याओं के लिए लागू नहीं किया गया है, जो मुझे लगता है कि आप कर रहे हैं क्योंकि आप एक उम्मीदवार के रूप में एसवीएम में रुचि रखते हैं।


2

अनुदैर्ध्य डेटा के लिए मशीन सीखने की तकनीकों से दोहराव : क्रॉस-मान्यता स्केलेर प्रलेखन में समूहीकृत डेटा के लिए क्रॉस-सत्यापन पुनरावृत्तियों है ! देखें GroupKFold , LeaveOneGroupOut , और LeavePGroupsOut

यदि आप शुद्ध भविष्यवाणी में रुचि रखते हैं, तो सबसे अच्छा विकल्प शायद आवर्तक तंत्रिका नेटवर्क का उपयोग करना है । एक और विकल्प हिडन मार्कोव मॉडल है


2

क्या आपको वास्तव में अपने अनुदैर्ध्य डेटा के लिए रैंडम फ़ॉरेस्ट, एनएन आदि की आवश्यकता है? lme4लाखों व्यक्तियों को संभालने में सक्षम है:

https://cran.r-project.org/web/packages/lme4/vignettes/Theory.pdf

यह आसानी से रैखिक मिश्रित मॉडल के साथ सौदा कर सकता है, और जैसा कि आप लिंक से देख सकते हैं, इसमें नॉनलाइनियर मिश्रित मॉडल के लिए भी समर्थन है (हालांकि मैं यह उम्मीद नहीं कर सकता कि यह नॉनलाइन मॉडल के लिए भी तेज़ हो)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.