बड़े डेटा सेट की समझ बनाने के लिए मुझे कौन से शुरुआती चरणों का उपयोग करना चाहिए, और मुझे किन उपकरणों का उपयोग करना चाहिए?


10

कैविएट: मैं मशीन सीखने की बात करते हुए एक पूर्ण शुरुआत करता हूं, लेकिन सीखने के लिए उत्सुक हूं।

मेरे पास एक बड़ा डेटासेट है और मैं इसमें पैटर्न खोजने की कोशिश कर रहा हूं। डेटा में संपूर्ण संबंध नहीं हो सकते हैं, या तो ज्ञात चर के साथ, या चर जो डेटा में निहित हैं, लेकिन जो मुझे अभी तक महसूस नहीं हुआ है वे वास्तव में चर / प्रासंगिक हैं।

मुझे लगता है कि यह डेटा विश्लेषण की दुनिया में एक परिचित समस्या होगी, इसलिए मेरे कुछ प्रश्न हैं:

  1. The सिल्वर बुलेट ’इस सारे डेटा को एक आँकड़े / डेटा विश्लेषण कार्यक्रम में फेंक देगा और इसके लिए संबंधों को खोजने की कोशिश कर रहे ज्ञात / अज्ञात पैटर्न की तलाश में डेटा को क्रंच करना होगा। क्या SPSS उपयुक्त है, या अन्य अनुप्रयोग हैं जो बेहतर अनुकूल हो सकते हैं।

  2. क्या मुझे R जैसी भाषा सीखनी चाहिए, और यह पता लगाना चाहिए कि डेटा को मैन्युअल रूप से कैसे संसाधित किया जाए। क्या यह संबंधों को खोजने के लिए बाध्य नहीं होगा क्योंकि मुझे डेटा का विश्लेषण कैसे और कैसे करना है?

  3. एक पेशेवर डेटा माइनर इस समस्या से कैसे संपर्क करेगा और वह क्या कदम उठाएगा?

जवाबों:


11

मैं आपके सवालों का जवाब देने की कोशिश करूंगा, लेकिन इससे पहले कि मैं यह नोट करना चाहूंगा कि "बड़े डेटासेट" शब्द का उपयोग करना भ्रामक है, क्योंकि "बड़ी" एक सापेक्ष अवधारणा है। आपको अधिक विवरण प्रदान करना होगा। यदि आप बोली डेटा के साथ काम कर रहे हैं , तो यह तथ्य आपके डेटा विश्लेषण के लिए पसंदीदा उपकरण , दृष्टिकोण और एल्गोरिदम के चयन को प्रभावित करेगा । मुझे आशा है कि डेटा विश्लेषण पर मेरा निम्नलिखित विचार आपके उप-प्रश्नों को संबोधित करता है। कृपया ध्यान दें कि मेरे अंकों की संख्या आपके उप-प्रश्नों की संख्या से मेल नहीं खाती है। हालांकि, मेरा मानना ​​है कि यह सामान्य डेटा विश्लेषण वर्कफ़्लो को बेहतर ढंग से दर्शाता है , कम से कम, मैं इसे कैसे समझता हूं।

1) सबसे पहले, मुझे लगता है कि आपको कम से कम किसी तरह के वैचारिक मॉडल को ध्यान में रखना चाहिए (या, बेहतर, कागज पर)। यह मॉडल आपको अपने खोजपूर्ण डेटा विश्लेषण (EDA) में मार्गदर्शन करना चाहिए । मॉडल में एक आश्रित चर (डीवी) की उपस्थिति का मतलब है कि विश्लेषण में आपके मशीन लर्निंग (एमएल) चरण में बाद में आप तथाकथित पर्यवेक्षित एमएल के साथ व्यवहार करेंगे, क्योंकि पहचान किए गए डीवी की अनुपस्थिति में असुरक्षित एमएल के विपरीत।

2) दूसरे, ईडीए एक महत्वपूर्ण हिस्सा है। IMHO, EDA में वर्णनात्मक आँकड़े और डेटा विज़ुअलाइज़ेशन के उत्पादन के कई पुनरावृत्तियों को शामिल किया जाना चाहिए , क्योंकि आप डेटा के बारे में अपनी समझ को परिष्कृत करते हैं। न केवल यह चरण आपको अपने डेटासेट के बारे में मूल्यवान जानकारी देगा, बल्कि यह आपके अगले महत्वपूर्ण चरण - डेटा की सफाई और परिवर्तन को फीड करेगा । बस अपने कच्चे डेटा को एक सांख्यिकीय सॉफ्टवेयर पैकेज में फेंक देना - बहुत मान्य सांख्यिकीय विश्लेषण के लिए डेटा को साफ, सही और सुसंगत नहीं होना चाहिए । यह अक्सर सबसे अधिक समय होता है- और प्रयास-खपत, लेकिन बिल्कुल आवश्यक हिस्सा। इस विषय पर अधिक जानकारी के लिए, इन अच्छे पत्रों को पढ़ें:http://vita.had.co.nz/papers/tidy-data.pdf (हैडली विकम द्वारा) और http://cran.r-project.org/doc/contrib/de_Jonge+van_der_oo_Introduction_to_data_cleaning_with_R.pdf ( bydf) एडविन डी जॉन्ज और मार्क वैन डेर लू)।

3) अब, जैसा कि आप ईडीए के साथ-साथ डेटा की सफाई और परिवर्तन के बारे में उम्मीद कर रहे हैं , कुछ और सांख्यिकीय रूप से शामिल चरणों को शुरू करने के लिए आपका तैयार है। ऐसे चरणों में से एक खोज कारक विश्लेषण (ईएफए) है , जो आपको अपने डेटा की अंतर्निहित संरचना को निकालने की अनुमति देगा । बड़ी संख्या में चर वाले डेटासेट के लिए, ईएफए का सकारात्मक पक्ष आयामीता में कमी है । और, उस अर्थ में EFA प्रमुख घटक विश्लेषण (PCA) के समान हैऔर अन्य आयामी कमी दृष्टिकोण, मुझे लगता है कि ईएफए अधिक महत्वपूर्ण है क्योंकि यह आपके डेटा के "वर्णन" की घटना के वैचारिक मॉडल को परिष्कृत करने की अनुमति देता है, इस प्रकार आपके डेटासेट की समझ में आता है। बेशक, ईएफए के अलावा, आप पिछले चरणों में अपने निष्कर्षों के आधार पर, प्रतिगमन विश्लेषण करने के साथ-साथ मशीन सीखने की तकनीक भी लागू कर सकते हैं।

अंत में, सॉफ्टवेयर टूल पर एक नोट । मेरी राय में, सांख्यिकीय सॉफ़्टवेयर पैकेजों की वर्तमान स्थिति इस बिंदु पर है कि व्यावहारिक रूप से किसी भी प्रमुख सॉफ़्टवेयर पैकेज में तुलनीय प्रसाद सुविधा-वार है। यदि आप किसी ऐसे संगठन में अध्ययन या काम करते हैं, जिसमें सॉफ्टवेयर टूल की अवधि में कुछ नीतियां और प्राथमिकताएँ हैं, तो आप उनके द्वारा विवश हैं। हालाँकि, अगर ऐसा नहीं है, तो मैं इसके विशिष्ट प्रोग्रामिंग लैंग्वेज , लर्निंग कर्व और आपके करियर के दृष्टिकोण के साथ आपके आराम के आधार पर, ओपन सोर्स सांख्यिकीय सॉफ्टवेयर की सिफारिश करूंगा । मेरी पसंद का वर्तमान मंच आर प्रोजेक्ट है, जो पैकेजों, विशेषज्ञों और उत्साही लोगों के अद्भुत पारिस्थितिकी तंत्र के साथ परिपक्व, शक्तिशाली, लचीला, व्यापक और खुले सांख्यिकीय सॉफ्टवेयर प्रदान करता है। अन्य अच्छे विकल्पों में पायथन , जूलिया और बड़े डेटा के प्रसंस्करण के लिए विशिष्ट ओपन सोर्स सॉफ़्टवेयर शामिल हैं , जैसे कि Hadoop , Spark , NoSQL डेटाबेस, WEKAडेटा खनन के लिए ओपन सोर्स सॉफ़्टवेयर के अधिक उदाहरणों के लिए , जिसमें सामान्य और विशिष्ट सांख्यिकीय और एमएल सॉफ़्टवेयर शामिल हैं, विकिपीडिया पृष्ठ के इस भाग को देखें: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_nata_mining_software_and_applications

अद्यतन: रैटल ( http://rattle.togaware.com ) का उल्लेख करना भूल गए , जो डेटा खनन के लिए एक बहुत लोकप्रिय खुला स्रोत आर-उन्मुख जीयूआई सॉफ्टवेयर भी है।


1
एक साल बाद इस सवाल पर वापस आने के बाद, मैं निश्चित रूप से प्रतिध्वनित कर सकता हूं कि आपका डेटा जानना महत्वपूर्ण है और आपको यह ध्यान रखना होगा कि "खराब" डेटा बनाम "अच्छा" डेटा क्या है। मैंने तंत्रिका नेटवर्क आदि जैसे जादुई समाधानों का उपयोग करने की कोशिश की, लेकिन डेटा सफाई प्रक्रिया आसान नहीं थी। (छिपे हुए मार्कोव मॉडल गंदे इनपुट के लिए सबसे अच्छा जवाब देते थे और सबसे अच्छे आउटपुट का अनुमान लगाने में सक्षम थे)। यह केवल कई हफ्तों के लिए डेटा में डालना था, क्योंकि एमएल के विफल होने के बाद और कई ग्राफ़ बनाने के बाद (डेटा का दृश्य प्रतिनिधित्व बहुत होता है) महत्वपूर्ण) कि मैं अपनी समस्याओं के समाधान में सक्षम था!
user3791372

@ user3791372 आपको सुनकर खुशी होगी! यह स्पष्ट रूप से लगता है कि डेटा विज्ञान के विभिन्न पहलुओं की बेहतर समझ प्राप्त करने में यह वर्ष आपके लिए उत्पादक था। काश मेरे पास और सीखने के अधिक अवसर होते, लेकिन, दूसरी तरफ, मैं शिकायत नहीं कर सकता क्योंकि मैंने काफी कुछ सीखा है, (हमेशा डेटा साइंस से संबंधित नहीं, लेकिन, शायद, यह और भी बेहतर है)। कीप आईटी उप!
lele Aprle --lelelelelelelele

3
  1. एसपीएसएस एक महान उपकरण है, लेकिन आप अपने कंप्यूटर पर पहले से मौजूद संसाधनों के साथ एक शानदार सौदा कर सकते हैं, जैसे एक्सेल, या जो कि आर-प्रोजेक्ट की तरह स्वतंत्र हैं। हालाँकि ये उपकरण शक्तिशाली हैं, और आपको पैटर्न की पहचान करने में मदद कर सकते हैं, आपको विश्लेषण चलाने से पहले अपने डेटा की दृढ़ पकड़ की आवश्यकता होगी (मैं आपके डेटा पर वर्णनात्मक आंकड़े चलाने की सलाह दूंगा, और यह सुनिश्चित करने के लिए ग्राफ़ के साथ डेटा की खोज करना सब कुछ सुनिश्चित करने के लिए। सामान्य लग रहा है)। दूसरे शब्दों में, जो उपकरण आप उपयोग करते हैं, वह "चांदी की गोली" की पेशकश नहीं करेगा, क्योंकि आउटपुट केवल इनपुट के रूप में मूल्यवान होगा (आप यह कहते हुए जानते हैं ... "कचरा, कचरा बाहर")। ज्यादातर जो मैं कह रहा हूं, वह पहले ही जवाब दे चुका है, जैसे कि स्पॉटबॉय द्वारा दिया गया है।

  2. आर हम में से उन लोगों के लिए चुनौतीपूर्ण हो सकता है जो कोडिंग के साथ समझदार नहीं हैं, लेकिन आर और इसके पैकेज से जुड़े मुक्त संसाधन प्रचुर मात्रा में हैं। यदि आप कार्यक्रम सीखने का अभ्यास करते हैं, तो आप जल्दी से कर्षण प्राप्त करेंगे। फिर, आपको अपने डेटा और उन विश्लेषणों से परिचित होना होगा जो आप वैसे भी चलाना चाहते हैं, और यह तथ्य आपके द्वारा उपयोग किए जाने वाले सांख्यिकीय उपकरणों की परवाह किए बिना बना रहता है।

  3. मैं अपने डेटा के साथ सुपर परिचित होना शुरू करूँगा (शुरुआत के लिए, हांग्जो से उत्तर में उल्लिखित चरणों का पालन करें)। आप जॉन फोरमैन की पुस्तक को डेटा स्मार्ट कह सकते हैं। यह एक हैंड्स-ऑन बुक है, जैसा कि जॉन डेटासेट प्रदान करता है और आप अपने उदाहरणों (एक्सेल का उपयोग करके) के साथ नेविगेट करने और डेटा की खोज करने के विभिन्न तरीके सीखते हैं। शुरुआती लोगों के लिए, यह एक महान संसाधन है।


2

हांग्जो ने बहुत गहन व्याख्या की है, लेकिन संक्षेप में, इन चरणों का पालन किया जाता है:

डेटा निकालना

सफाई डेटा

सुविधा निकालना

बिल्डिंग मॉडल

परिणाम का उल्लेख

प्रकाशन के परिणाम

जब तक आपको सही सटीकता नहीं मिलती तब तक चरण 3,4,5 को लूप में दोहराएं।


0

R में SPSS की तरह pnc डायलॉग GUI है। वे आर कोड प्रिंट करते हैं ताकि आप सीख सकें और उनके प्रयासों को जोड़ सकें। मैं BlueSky की सलाह दूंगा कि यह हर चीज और खड़खड़ के लिए संवाद है। हालांकि ये सॉफ्टवेयर EDA, सांख्यिकी और विज़ुअलाइज़ेशन, मशीन सीखने के लिए बहुत अच्छे हैं, लेकिन वे अच्छा नहीं करते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.