मैं आपके सवालों का जवाब देने की कोशिश करूंगा, लेकिन इससे पहले कि मैं यह नोट करना चाहूंगा कि "बड़े डेटासेट" शब्द का उपयोग करना भ्रामक है, क्योंकि "बड़ी" एक सापेक्ष अवधारणा है। आपको अधिक विवरण प्रदान करना होगा। यदि आप बोली डेटा के साथ काम कर रहे हैं , तो यह तथ्य आपके डेटा विश्लेषण के लिए पसंदीदा उपकरण , दृष्टिकोण और एल्गोरिदम के चयन को प्रभावित करेगा । मुझे आशा है कि डेटा विश्लेषण पर मेरा निम्नलिखित विचार आपके उप-प्रश्नों को संबोधित करता है। कृपया ध्यान दें कि मेरे अंकों की संख्या आपके उप-प्रश्नों की संख्या से मेल नहीं खाती है। हालांकि, मेरा मानना है कि यह सामान्य डेटा विश्लेषण वर्कफ़्लो को बेहतर ढंग से दर्शाता है , कम से कम, मैं इसे कैसे समझता हूं।
1) सबसे पहले, मुझे लगता है कि आपको कम से कम किसी तरह के वैचारिक मॉडल को ध्यान में रखना चाहिए (या, बेहतर, कागज पर)। यह मॉडल आपको अपने खोजपूर्ण डेटा विश्लेषण (EDA) में मार्गदर्शन करना चाहिए । मॉडल में एक आश्रित चर (डीवी) की उपस्थिति का मतलब है कि विश्लेषण में आपके मशीन लर्निंग (एमएल) चरण में बाद में आप तथाकथित पर्यवेक्षित एमएल के साथ व्यवहार करेंगे, क्योंकि पहचान किए गए डीवी की अनुपस्थिति में असुरक्षित एमएल के विपरीत।
2) दूसरे, ईडीए एक महत्वपूर्ण हिस्सा है। IMHO, EDA में वर्णनात्मक आँकड़े और डेटा विज़ुअलाइज़ेशन के उत्पादन के कई पुनरावृत्तियों को शामिल किया जाना चाहिए , क्योंकि आप डेटा के बारे में अपनी समझ को परिष्कृत करते हैं। न केवल यह चरण आपको अपने डेटासेट के बारे में मूल्यवान जानकारी देगा, बल्कि यह आपके अगले महत्वपूर्ण चरण - डेटा की सफाई और परिवर्तन को फीड करेगा । बस अपने कच्चे डेटा को एक सांख्यिकीय सॉफ्टवेयर पैकेज में फेंक देना - बहुत मान्य सांख्यिकीय विश्लेषण के लिए डेटा को साफ, सही और सुसंगत नहीं होना चाहिए । यह अक्सर सबसे अधिक समय होता है- और प्रयास-खपत, लेकिन बिल्कुल आवश्यक हिस्सा। इस विषय पर अधिक जानकारी के लिए, इन अच्छे पत्रों को पढ़ें:http://vita.had.co.nz/papers/tidy-data.pdf (हैडली विकम द्वारा) और http://cran.r-project.org/doc/contrib/de_Jonge+van_der_oo_Introduction_to_data_cleaning_with_R.pdf ( bydf) एडविन डी जॉन्ज और मार्क वैन डेर लू)।
3) अब, जैसा कि आप ईडीए के साथ-साथ डेटा की सफाई और परिवर्तन के बारे में उम्मीद कर रहे हैं , कुछ और सांख्यिकीय रूप से शामिल चरणों को शुरू करने के लिए आपका तैयार है। ऐसे चरणों में से एक खोज कारक विश्लेषण (ईएफए) है , जो आपको अपने डेटा की अंतर्निहित संरचना को निकालने की अनुमति देगा । बड़ी संख्या में चर वाले डेटासेट के लिए, ईएफए का सकारात्मक पक्ष आयामीता में कमी है । और, उस अर्थ में EFA प्रमुख घटक विश्लेषण (PCA) के समान हैऔर अन्य आयामी कमी दृष्टिकोण, मुझे लगता है कि ईएफए अधिक महत्वपूर्ण है क्योंकि यह आपके डेटा के "वर्णन" की घटना के वैचारिक मॉडल को परिष्कृत करने की अनुमति देता है, इस प्रकार आपके डेटासेट की समझ में आता है। बेशक, ईएफए के अलावा, आप पिछले चरणों में अपने निष्कर्षों के आधार पर, प्रतिगमन विश्लेषण करने के साथ-साथ मशीन सीखने की तकनीक भी लागू कर सकते हैं।
अंत में, सॉफ्टवेयर टूल पर एक नोट । मेरी राय में, सांख्यिकीय सॉफ़्टवेयर पैकेजों की वर्तमान स्थिति इस बिंदु पर है कि व्यावहारिक रूप से किसी भी प्रमुख सॉफ़्टवेयर पैकेज में तुलनीय प्रसाद सुविधा-वार है। यदि आप किसी ऐसे संगठन में अध्ययन या काम करते हैं, जिसमें सॉफ्टवेयर टूल की अवधि में कुछ नीतियां और प्राथमिकताएँ हैं, तो आप उनके द्वारा विवश हैं। हालाँकि, अगर ऐसा नहीं है, तो मैं इसके विशिष्ट प्रोग्रामिंग लैंग्वेज , लर्निंग कर्व और आपके करियर के दृष्टिकोण के साथ आपके आराम के आधार पर, ओपन सोर्स सांख्यिकीय सॉफ्टवेयर की सिफारिश करूंगा । मेरी पसंद का वर्तमान मंच आर प्रोजेक्ट है, जो पैकेजों, विशेषज्ञों और उत्साही लोगों के अद्भुत पारिस्थितिकी तंत्र के साथ परिपक्व, शक्तिशाली, लचीला, व्यापक और खुले सांख्यिकीय सॉफ्टवेयर प्रदान करता है। अन्य अच्छे विकल्पों में पायथन , जूलिया और बड़े डेटा के प्रसंस्करण के लिए विशिष्ट ओपन सोर्स सॉफ़्टवेयर शामिल हैं , जैसे कि Hadoop , Spark , NoSQL डेटाबेस, WEKA । डेटा खनन के लिए ओपन सोर्स सॉफ़्टवेयर के अधिक उदाहरणों के लिए , जिसमें सामान्य और विशिष्ट सांख्यिकीय और एमएल सॉफ़्टवेयर शामिल हैं, विकिपीडिया पृष्ठ के इस भाग को देखें: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_nata_mining_software_and_applications ।
अद्यतन: रैटल ( http://rattle.togaware.com ) का उल्लेख करना भूल गए , जो डेटा खनन के लिए एक बहुत लोकप्रिय खुला स्रोत आर-उन्मुख जीयूआई सॉफ्टवेयर भी है।