मान लें कि आप प्रति दिन अरबों टिप्पणियों की धुन पर एक विशाल डेटा सेट का विश्लेषण कर रहे हैं, जहां प्रत्येक अवलोकन में कुछ हज़ार विरल और संभवतः निरर्थक संख्यात्मक और श्रेणीबद्ध चर हैं। मान लीजिए कि एक प्रतिगमन समस्या है, एक असंतुलित बाइनरी वर्गीकरण समस्या है, और एक कार्य "यह पता करें कि कौन से भविष्यवक्ता सबसे महत्वपूर्ण हैं।" समस्या के बारे में सोचने का मेरा तरीका है:
जब तक डेटा के उत्तरोत्तर बड़े और बड़े (यादृच्छिक) उप-नमूने पर कुछ पूर्वानुमान मॉडल फिट करें:
फिटिंग और क्रॉस-वैलिडेटिंग मॉडल को कम्प्यूटेशनल रूप से कठिन हो जाता है (जैसे, मेरे लैपटॉप पर अनुचित रूप से धीमा, आर मेमोरी से बाहर निकलता है, आदि), या
प्रशिक्षण और परीक्षण RMSE या सटीक / रिकॉल मानों को स्थिर करते हैं।
यदि प्रशिक्षण और परीक्षण की त्रुटियां स्थिर नहीं हुईं (1.), तो सरल मॉडल का उपयोग करें और / या मॉडल के मल्टीकोर या मल्टीकोड संस्करणों को लागू करें और शुरुआत से पुनरारंभ करें।
यदि प्रशिक्षण और परीक्षण त्रुटियां स्थिर हो गई हैं (2.):
तो (यानी, मैं अभी भी एल्गोरिदम पर चला सकते हैं एक्स रों यू बी एस ई टी क्योंकि ये बहुत बड़ा अभी तक नहीं है), सुविधा अंतरिक्ष के विस्तार या एक अधिक जटिल मॉडल का उपयोग करके प्रदर्शन में सुधार करने की कोशिश शुरुआत से फिर से शुरू।
यदि 'बड़ा' है और आगे का विश्लेषण महंगा है, तो चर महत्व और अंत का विश्लेषण करें।
मैं जैसे संकुल का उपयोग करना चाहते biglm
, speedglm
, multicore
, और ff
आर में शुरू में, और बाद में अधिक जटिल एल्गोरिदम और / या multinode (EC2 पर) आवश्यक के रूप में इस्तेमाल करते हैं।
क्या यह ध्वनि एक उचित दृष्टिकोण की तरह है, और यदि हां, तो क्या आपके पास कोई विशिष्ट सलाह या सुझाव है? यदि नहीं, तो आप इस आकार के डेटा सेट के बजाय क्या प्रयास करेंगे?