वास्तव में बिग डेटा क्या है?


44

मुझे कई अवसरों पर सवाल पूछा गया है:

बिग-डेटा क्या है?

छात्रों और मेरे रिश्तेदारों द्वारा जो आंकड़े और एमएल के आसपास चर्चा उठा रहे हैं।

मुझे यह सीवी-पोस्ट मिला । और मुझे लगता है कि मैं वहां एकमात्र जवाब से सहमत हूं।

विकिपीडिया पृष्ठ भी इस पर कुछ टिप्पणी है, लेकिन मुझे यकीन है कि अगर मैं वास्तव में वहाँ सब कुछ के साथ सहमत नहीं हूँ।

संपादित करें: (मुझे लगता है कि विकिपीडिया पृष्ठ में इससे निपटने के तरीके और नीचे दिए गए प्रतिमान की व्याख्या करने में कमी है)

मैंने हाल ही में इमैनुएल कैंडेस के एक व्याख्यान में भाग लिया , जहाँ उन्होंने बिग-डेटा प्रतिमान पेश किया

डेटा एकत्र करें पहले बाद में प्रश्न पूछें

यह परिकल्पना संचालित अनुसंधान से मुख्य अंतर है, जहां आप पहले एक परिकल्पना तैयार करते हैं और फिर इसके बारे में कुछ कहने के लिए डेटा एकत्र करते हैं।

वह डेटा स्नूपिंग द्वारा उत्पन्न परिकल्पना की विश्वसनीयता को निर्धारित करने के मुद्दों में बहुत आगे बढ़ गया। मैंने उनके व्याख्यान से मुख्य बात यह निकाली कि हमें एफडीआर को नियंत्रित करने के लिए वास्तव में शुरुआत करने की जरूरत है और उन्होंने ऐसा करने के लिए नॉकऑफ पद्धति प्रस्तुत की ।

मुझे लगता है कि सीवी में एक सवाल होना चाहिए कि बिग-डेटा क्या है और इस पर आपकी परिभाषा क्या है। मुझे लगता है कि कई अलग-अलग "परिभाषाएं" हैं , कि वास्तव में यह समझना मुश्किल है कि यह क्या है, या इसे दूसरों को समझाएं, अगर इसमें कोई आम सहमति नहीं है तो इसमें क्या शामिल है।

मुझे लगता है कि कैंडेस द्वारा प्रदान की गई "परिभाषा / प्रतिमान / विवरण" निकटतम बात है जिस पर मैं सहमत हूं, आपके विचार क्या हैं?

EDIT2: मुझे लगता है कि उत्तर केवल डेटा की व्याख्या से अधिक कुछ प्रदान करना चाहिए। यह डेटा / विधियों / प्रतिमान का एक संयोजन होना चाहिए।

EDIT3: मुझे लगता है कि माइकल जॉर्डन के साथ यह साक्षात्कार तालिका में कुछ जोड़ सकता है।

EDIT4: मैंने उच्चतम मत वाले उत्तर को सही के रूप में चुनने का फैसला किया। हालांकि मुझे लगता है कि सभी उत्तर चर्चा में कुछ जोड़ते हैं और मुझे व्यक्तिगत रूप से लगता है कि यह एक प्रतिमान का सवाल है कि हम कैसे परिकल्पना उत्पन्न करते हैं और डेटा के साथ काम करते हैं। मुझे उम्मीद है कि यह सवाल उन लोगों के लिए संदर्भों के एक पूल के रूप में काम करेगा जो बिग-डेटा की तलाश में हैं। मुझे आशा है कि विकिपीडिया पृष्ठ को कई तुलनात्मक समस्या और एफडीआर के नियंत्रण पर जोर देने के लिए बदल दिया जाएगा।


55
"बड़ा डेटा किशोर सेक्स की तरह है: हर कोई इसके बारे में बात करता है, कोई भी वास्तव में नहीं जानता कि यह कैसे करना है, हर कोई सोचता है कि हर कोई इसे कर रहा है, इसलिए हर कोई दावा करता है कि वे ऐसा कर रहे हैं।" साइमन मैथ्यूज
अलेक्जेंडर

4
यह उद्धरण अब मान्य नहीं है। लोग हाल ही में कई असाधारण काम कर रहे हैं। यदि आप कैगले पर प्रतियोगिताओं को देखते हैं, तो कंपनियां अपने व्यवसाय में सुधार कर रही हैं और बहुत सारे पैसे नहीं खर्च करके पैसे कमा रही हैं। बिग डेटा के अनुप्रयोगों के लिए अन्य उदाहरण यहां
देखे

5
@XuanQuangDO, मैं सहमत हूं। इस उद्धरण को गंभीरता से न लें।
अलेक्जेंडर

6
@XuanQuangDO: ठीक है, मुझे यकीन है कि कुछ किशोर असाधारण सेक्स कर रहे हैं, लेकिन यह इस तथ्य को नहीं बदलता है कि बहुत अधिक अक्षम या गुमराह हो रहा है और साथ ही साथ, जो लोग बेरहमी से मजाक करेंगे ;-)
स्टीव जेसन

जवाबों:


54

मुझे RStudio की प्रसिद्धि के डॉ। हेडली विकम द्वारा दिए गए व्याख्यान में भाग लेने की खुशी थी। उसने इसे ऐसे परिभाषित किया

  • बिग डेटा: एक कंप्यूटर पर मेमोरी में फिट नहीं हो सकता:> 1 टीबी
  • मध्यम डेटा: एक सर्वर पर स्मृति में फिट बैठता है: 10 जीबी - 1 टीबी
  • छोटा डेटा: लैपटॉप पर मेमोरी में फिट बैठता है: <10 जीबी

हेडली का यह भी मानना ​​है कि अधिकांश डेटा को कम से कम प्रबंधनीय समस्याओं के लिए कम किया जा सकता है, और यह कि बहुत कम राशि वास्तव में सही बड़ा डेटा है। वह इसे "बिग डेटा मिराज" के रूप में दर्शाता है।

  • 90% छोटी / मध्यम डेटा समस्या को कम करने / नमूना / सारांश के साथ कम किया जा सकता है
  • 9% बहुत बड़ी संख्या में छोटी डेटा समस्याओं को कम किया जा सकता है
  • 1% irreducibly बड़ा है

यहां स्लाइड मिल सकती है


2
@ Gu @mundurEinarsson, मैंने अभी इसे संपादित किया है, सुझाव के लिए धन्यवाद।
क्रिस सी।

5
जबकि मुझे नहीं लगता कि स्पष्ट कटौती सीमा मौजूद है, मुझे लगता है कि यह पोस्ट बहुत ही व्यावहारिक है। जब मैं एक SW कंपनी में काम कर रहा था, तो मैंने " बिग-डेटा सॉल्यूशंस " की तलाश करने वाले कुछ ग्राहकों के साथ बातचीत की ; वास्तव में वे एक 16 जीबी SODIMM से चूक गए।
us --r11852

2
आजकल 1TB SSDs के साथ, अस्वाभाविक भंडारण गति में अस्थिर भंडारण से बहुत दूर नहीं है। मुझे लगता है कि मैं बड़े डेटा की अपेक्षा 1TB से बड़ा होगा, शायद कम से कम 50 टीबी या कुछ और।
मेहरदाद

3
आपके और हैडली के संबंध में, बोली डेटा केवल वॉल्यूम के बारे में नहीं है। आमतौर पर बोली डेटा 3 वी के माध्यम से परिभाषित किया जाता है , और हाल ही में, 4 वी मॉडल (गार्टनर द्वारा प्रस्तावित) - नीचे Dawny33 द्वारा उत्तर देखें। हालांकि, कुछ विशेषज्ञ (गार्टनर सहित) अभी तक एक और विचार करते हैं, और वे सबसे महत्वपूर्ण, वी आयाम का तर्क देते हैं, जहां वी व्यापार मूल्य के लिए खड़ा है । उदाहरण के लिए, इस पोस्ट और इस पोस्ट को देखें
१०:२

2
@AleksandrBlekh आपकी टिप्पणी में विशेषज्ञों के बीच "बिग डेटा" के मानदंड को लेकर विवाद की बारीक चर्चा है, और इसके बारे में आपके दावों का समर्थन करने के लिए कुछ संदर्भ हैं। मुझे लगता है कि आपको इसे एक उत्तर में बदलने पर विचार करना चाहिए।
सिल्वरफिश

19

एक डेटा सेट / स्ट्रीम को बिग डेटा कहा जाता है, यदि यह सभी चार वी की संतुष्टि देता है

  • आयतन
  • वेग
  • सच्चाई
  • वैराइटी

जब तक और यह संतुष्ट न हो, डेटा सेट को बिग डेटा नहीं कहा जा सकता।

संदर्भ के लिए मेरा एक समान जवाब।


कहा जा रहा है कि, एक डेटा वैज्ञानिक के रूप में; मैं वास्तव में अच्छा नक्शा-कमी फ्रेमवर्क पाते हैं। अपने डेटा को विभाजित करना, इसे मैप करना और फिर मैपर स्टेप के परिणाम एक ही परिणाम में कम हो जाते हैं। मुझे यह ढांचा वास्तव में आकर्षक लग रहा है, और इसने डेटा की दुनिया को कैसे फायदा पहुंचाया है।

और ये कुछ तरीके हैं जिनसे मैं अपने काम के दौरान हर रोज डेटा की समस्या से निपटता हूं:

  1. स्तंभकार डेटाबेस: ये डेटा वैज्ञानिकों के लिए एक वरदान हैं। मैंअपने कॉलम डेटा स्टोर के रूप में Aws Red Shift का उपयोगकरता हूं। यह जटिल एसक्यूएल प्रश्नों को निष्पादित करने में मदद करता है और एक दर्द से कम जुड़ता है। मुझे यह वास्तव में अच्छा लग रहा है, खासकर जब मेरी विकास टीम कुछ वास्तव में जटिल सवाल पूछती है, और मुझे यह कहने की ज़रूरत नहीं है "हाँ, एक क्वेरी चलाई; हम इसे एक दिन में प्राप्त करेंगे!"
  2. स्पार्क और मैप कम करें फ्रेमवर्क: कारण ऊपर बताए गए हैं।

और इस तरह से एक डेटा प्रयोग किया जाता है:

  • उत्तर दी जाने वाली समस्या की पहचान की जाती है
  • संभावित डेटा स्रोत अब बाहर सूचीबद्ध हैं।
  • स्थानीय डेटाबेस से डेटा को Redshift में प्राप्त करने के लिए डिज़ाइन किया गया है। हाँ, स्पार्क यहाँ आता है। यह वास्तव में DB के -> S3 -> Redshift डेटा आंदोलन के दौरान काम आता है।
  • फिर, Redshift में डेटा पर क्वेरी और SQL विश्लेषण किया जाता है।

हां, बिग डेटा एल्गोरिदम हैं जैसे हाइपर लॉगलॉग, आदि; लेकिन मुझे उनका उपयोग करने की आवश्यकता नहीं मिली।

तो हाँ। परिकल्पना उत्पन्न करने से पहले डेटा को एकत्र किया जाता है।


5
मैं इन बातों से सहमत हूं, लेकिन मुझे लगता है कि बिग डेटा शब्द डेटा के मुकाबले कुछ और ही कवर करता है। यह इसके लिए लागू की गई विधियाँ भी हैं और इसके बारे में परिकल्पनाएँ तैयार करने से पहले डेटा एकत्र करने का प्रतिमान।
ग्यूमो सेप

1
@ Gu @mundurEinarson मैं जल्दी में था, इसलिए आपको कम समय में सबसे अच्छा जवाब देना चाहता था। इसलिए, मैंने अब उद्योग में बड़े डेटा के साथ अपने दैनिक अनुभवों से वर्कफ़्लो और समझ के साथ इसे संपादित और विस्तारित किया है।
Dawny33

1
चार Vs को बड़े डेटा के महत्वपूर्ण गुणों के बजाय बड़े डेटा को परिभाषित करने के रूप में यहाँ उलटा किया जा रहा है। उन 4 में से कई के बिना बहुत से उदाहरण बड़े डेटा से बनाए जा सकते हैं और कुछ को आईबीएम इन्फोग्राफिक में भी सूचीबद्ध किया गया है।
जॉन

@ जॉन हाँ, वी वास्तव में बहुत बदल रहे हैं। एक नए V ( मान ) के लिए एक तर्क भी है
Dawny33

1
मैं यह नहीं कह रहा हूं कि वे बदल रहे हैं, मैं कह रहा हूं कि आप कुछ गुणों के विवरण को गलत तरीके से बदल रहे हैं। यह ऐसा है जैसे कोई व्यक्ति कुत्ते के बारे में उनके बारे में महत्वपूर्ण बातें बता रहा है जैसे कि वफादारी, हंसी, और चाट और कोई और साथ आ रहा है और कह रहा है कि यह कुत्ते की परिभाषा है। उस ने कहा, मुझे लगता है कि आप विश्लेषण की दिशा को उलटने पर विचार कर सही रास्ते पर थे, लेकिन इसे सिर्फ एक तरह से डेटा के आकार से जुड़ा होना चाहिए। मुझे लगता है कि ऐसा करने के लिए बहुत सारे अच्छे तरीके हैं और यदि आप एक को विकसित करते हैं तो यह बहुत अच्छा होगा।
जॉन 10

14

मुझे लगता है कि बड़े डेटा की एकमात्र उपयोगी परिभाषा डेटा है जो कैटलॉग है किसी विशेष घटना के बारे में सभी जानकारी को सूचीबद्ध करता है। मेरे कहने का मतलब यह है कि ब्याज की कुछ आबादी से नमूना लेने और उन इकाइयों पर कुछ माप एकत्र करने के बजाय, बड़े डेटा ब्याज की पूरी आबादी पर माप एकत्र करते हैं। मान लीजिए आप Amazon.com ग्राहकों में रुचि रखते हैं। यह Amazon.com के लिए अपने सभी ग्राहकों की खरीद के बारे में जानकारी इकट्ठा करने के लिए पूरी तरह से संभव है, बजाय केवल कुछ उपयोगकर्ताओं को ट्रैक करने या केवल कुछ लेनदेन को ट्रैक करने के।

मेरे दिमाग में, परिभाषाएँ जो डेटा के स्मृति आकार पर टिका है, कुछ हद तक सीमित उपयोगिता की है। उस मीट्रिक द्वारा, एक बड़ा पर्याप्त कंप्यूटर दिया गया है, कोई भी डेटा वास्तव में बड़ा डेटा नहीं है। असीम रूप से बड़े कंप्यूटर के चरम पर, यह तर्क कम लग सकता है, लेकिन मेरे उपभोक्ता-ग्रेड लैपटॉप की तुलना Google के सर्वर से करने के मामले पर विचार करें। स्पष्ट रूप से मुझे डेटा की एक टेराबाइट के माध्यम से झारना करने की कोशिश में भारी लॉजिस्टिक समस्याएं होंगी, लेकिन Google के पास उस कार्य को काफी आसानी से करने के लिए संसाधन हैं। अधिक महत्वपूर्ण बात, यह है कि आपके कंप्यूटर का आकार डेटा की आंतरिक संपत्ति नहीं है , इसलिए आपके पास जो भी तकनीक है, उसके संदर्भ में डेटा को शुद्ध रूप से परिभाषित करना आपकी बाहों की लंबाई के मामले में दूरी को मापने की तरह है।

यह तर्क केवल औपचारिकता नहीं है। जटिल कम्प्यूटरीकरण योजनाओं और वितरित कंप्यूटिंग प्लेटफॉर्मों की आवश्यकता तब होती है जब आपके पास पर्याप्त कंप्यूटिंग शक्ति होती है। इसलिए यदि हम इस परिभाषा को स्वीकार करते हैं कि बिग डेटा रैम में फिट होने के लिए बहुत बड़ा है (या एक्सेल को क्रैश करता है, या जो भी हो), तो हम अपनी मशीनों को अपग्रेड करने के बाद, बिग डेटा का अस्तित्व समाप्त हो जाता है। यह मूर्खतापूर्ण लगता है।

लेकिन चलो बड़े डेटा के बारे में कुछ डेटा देखें, और मैं इसे "बिग मेटाडेटा" कहूंगा। यह ब्लॉग पोस्ट एक महत्वपूर्ण प्रवृत्ति का अवलोकन करता है: उपलब्ध रैम डेटा आकारों की तुलना में अधिक तेजी से बढ़ रहा है, और उत्तेजक दावा करता है कि "बिग रैम बिग डेटा खा रहा है" - अर्थात, पर्याप्त बुनियादी ढांचे के साथ, आपको अब बड़ी डेटा समस्या नहीं है, आप बस डेटा है, और आप पारंपरिक विश्लेषण विधियों के डोमेन पर वापस आते हैं।

इसके अलावा, विभिन्न प्रतिनिधित्व विधियों में अलग-अलग आकार होंगे, इसलिए यह ठीक से स्पष्ट नहीं है कि इसका आकार "इन-मेमोरी" के संदर्भ में परिभाषित "बड़ा डेटा" क्या है। यदि आपके डेटा का निर्माण इस तरह से किया जाता है कि बहुत सारी अनावश्यक जानकारी संग्रहीत हो जाती है (यानी, आप एक अक्षम कोडिंग चुनते हैं), तो आप आसानी से अपने कंप्यूटर को आसानी से संभाल सकते हैं की सीमा को पार कर सकते हैं। लेकिन आप इस संपत्ति की परिभाषा क्यों चाहते हैं? मेरे दिमाग में, डेटा सेट "बड़ा डेटा" है या नहीं, इस पर ध्यान नहीं देना चाहिए कि आपने अनुसंधान डिजाइन में कुशल विकल्प बनाए हैं या नहीं।

एक व्यवसायी के दृष्टिकोण से, बड़ा डेटा जैसा कि मैं इसे परिभाषित करता हूं, इसके साथ कम्प्यूटेशनल आवश्यकताओं को भी वहन करता है, लेकिन ये आवश्यकताएं अनुप्रयोग-विशिष्ट हैं। टिप्पणियों के लिए डेटाबेस डिजाइन (सॉफ्टवेयर, हार्डवेयर, संगठन) के माध्यम से सोचना तुलना में बहुत अलग है10 7104107टिप्पणियों, और यह पूरी तरह से ठीक है। इसका मतलब यह भी है कि बड़ा डेटा, जैसा कि मैं इसे परिभाषित करता हूं, शास्त्रीय आंकड़ों में हमने जो कुछ भी विकसित किया है, उससे परे विशेष तकनीक की आवश्यकता नहीं हो सकती है: नमूने और विश्वास अंतराल अभी भी पूरी तरह से उपयोगी और मान्य ह्रास उपकरण हैं जब आपको अतिरिक्त करने की आवश्यकता होती है। रैखिक मॉडल कुछ सवालों के पूरी तरह से स्वीकार्य उत्तर प्रदान कर सकते हैं। लेकिन बड़े डेटा के रूप में मैं इसे परिभाषित करने के लिए उपन्यास तकनीक की आवश्यकता हो सकती है। शायद आपको नए डेटा को उस स्थिति में वर्गीकृत करने की आवश्यकता है जहां आपके पास प्रशिक्षण डेटा की तुलना में अधिक भविष्यवाणियां हैं, या जहां आपके भविष्यवक्ता आपके डेटा आकार के साथ बढ़ते हैं। इन समस्याओं के लिए नई तकनीक की आवश्यकता होगी।


एक तरफ के रूप में, मुझे लगता है कि यह सवाल महत्वपूर्ण है क्योंकि यह स्पष्ट रूप से छूता है कि परिभाषाएं महत्वपूर्ण क्यों हैं - अर्थात्, जिनके लिए आप विषय को परिभाषित कर रहे हैं। पहले-ग्रेडर के लिए जोड़ की चर्चा सेट सिद्धांत से शुरू नहीं होती है, यह भौतिक वस्तुओं की गिनती के संदर्भ से शुरू होती है। यह मेरा अनुभव रहा है कि "बड़े डेटा" शब्द का अधिकांश उपयोग लोकप्रिय प्रेस में या उन लोगों के बीच संचार में होता है जो सांख्यिकी या मशीन लर्निंग के विशेषज्ञ नहीं हैं (उदाहरण के लिए, व्यावसायिक विश्लेषण को हल करने वाली सामग्री), और इसका उपयोग करने के लिए किया जाता है इस विचार को व्यक्त करें कि आधुनिक कंप्यूटिंग प्रथाओं का मतलब था कि उपलब्ध सूचनाओं का खजाना है जिसका फायदा उठाया जा सकता है। यह लगभग हमेशा डेटा के संदर्भ में होता है जो उपभोक्ताओं के बारे में जानकारी का खुलासा करता है, जो कि शायद निजी नहीं, तुरंत स्पष्ट नहीं है।

तो "बड़े डेटा" के सामान्य उपयोग के आसपास के अर्थ और विश्लेषण भी इस विचार के साथ किया जाता है कि डेटा किसी व्यक्ति के जीवन के अस्पष्ट, छिपे हुए या यहां तक ​​कि निजी विवरणों को प्रकट कर सकता है, बशर्ते कि एक पर्याप्त हीनता विधि का अनुप्रयोग हो। जब मीडिया बड़े डेटा पर रिपोर्ट करता है, तो गुमनामी की यह गिरावट आमतौर पर वही है जो वे चला रहे हैं - परिभाषित करते हुए कि इस प्रकाश में "बड़ा डेटा" कुछ गलत लगता है, क्योंकि लोकप्रिय प्रेस और nonspecialists को यादृच्छिक के गुणों के लिए कोई चिंता नहीं है। वनों और वेक्टर मशीनों और इतने पर समर्थन करते हैं, और न ही उन्हें विभिन्न पैमानों पर डेटा विश्लेषण की चुनौतियों का एहसास है। और यह ठीक है।उनके दृष्टिकोण से चिंता सूचना युग के सामाजिक, राजनीतिक और कानूनी परिणामों पर केंद्रित है। मीडिया या निरंकुशवादियों के लिए एक सटीक परिभाषा वास्तव में उपयोगी नहीं है क्योंकि उनकी समझ भी सटीक नहीं है। (मुझे मत सोचो कि स्मॉग है - मैं बस यह देख रहा हूं कि हर कोई हर चीज का विशेषज्ञ नहीं हो सकता है।)


7
इस। "यह मेरा अनुभव है कि 'बड़ा डेटा' शब्द का अधिकांश उपयोग लोकप्रिय प्रेस में या उन लोगों के बीच संचार में होता है जो सांख्यिकी या मशीन लर्निंग के विशेषज्ञ नहीं हैं (उदाहरण के लिए, व्यावसायिक विश्लेषण के लिए विपणन सामग्री)"
मोमो

2
मुझे लगता है कि आपने अपने आखिरी पैराग्राफ से सिर पर कील ठोक दी। मुझे लगता है कि लोकप्रिय प्रेस की समझ और सांख्यिकी / एमएल / डेटा विज्ञान में लोग बड़े डेटा शब्द के बारे में बहुत स्पष्ट अंतर रखते हैं। मैं सिर्फ यह महसूस करता हूं कि वास्तव में यह क्या है, इस पर अधिक स्पष्ट सहमति की आवश्यकता है। इसका एक कारण यह है कि इस तरह का एक संदर्भ है कि जब यह स्पष्ट रूप से लागू नहीं होता है तो लोग इस शब्द का दुरुपयोग या दुरुपयोग नहीं कर सकते।
ग्यूमो

1
मुझे लगता है कि मैं आपसे अधिक से अधिक सहमत होना शुरू कर रहा हूं। मुझे अभी भी लगता है कि सीवी को एक संदर्भ प्रश्न की आवश्यकता है, जहां लोग जो रुचि रखते हैं और विषय पर अपने दो सेंट में मामले पर डालते हैं। मैं यहां सवालों की तलाश में था और मुझे लगा कि इस चर्चा में कमी थी।
गुमो

1
मुझे लगता है कि यह एक मूल्यवान वार्तालाप है, और मुझे खुशी है कि आपने प्रश्न पूछा है! और मुझे खुशी है कि आपको मेरी टिप्पणियाँ उपयोगी लगीं।
मोनिका

1
मुझे यह उत्तर कई कारणों से पसंद है। सबसे पहले, मुझे लगता है कि यह जोर देना महत्वपूर्ण है कि "बड़े डेटा" का विश्लेषण करने के लिए उपयोग किए जाने वाले एल्गोरिदम के साथ बहुत कम है। उनमें से ज्यादातर 20-30 साल पुराने हैं (यादृच्छिक वन, रैखिक प्रतिगमन, इतने पर) और वे ठीक काम करते हैं। उद्योग के कुछ लोगों का मानना ​​है कि "बड़ा डेटा" फैंसी नए एल्गोरिदम के साथ आता है, क्योंकि वे शायद यह भी नहीं जानते थे कि मशीन लर्निंग कई वर्षों से मौजूद है। दूसरा, "बड़ा डेटा" आकार के बारे में नहीं है। यदि आपके पास 128 जीबी रैम के साथ एक सर्वर उपलब्ध है और वह सब कुछ मेमोरी में फिट कर सकता है जो कि बहुत अच्छा है। (cont।)
skd

7

यहाँ छवि विवरण दर्ज करें

बिग डेटा पर विशाल साहित्य को पार करते हुए, मैंने 14 "वी" शब्दों को एकत्र किया है, उनमें से 13 के बारे में 11 आयाम हैं:

  • वैधता,
  • मूल्य,
  • परिवर्तनशीलता / विचरण,
  • विविधता,
  • वेग,
  • सच्चाई / Veraciousness,
  • व्यवहार्यता,
  • Virtuality,
  • दृश्य,
  • अस्थिरता,
  • वॉल्यूम।

14 वाँ पद वैकुंठ है। हाल ही में एक उत्तेजक पोस्ट के अनुसार, बिग डेटा अस्तित्व में नहीं है । इसके मुख्य बिंदु हैं:

  • "बिग डेटा" बड़ा नहीं है
  • अधिकांश "बिग डेटा" वास्तव में उपयोगी नहीं है
  • [हमें होना चाहिए] अधिकांश छोटे डेटा बनाना

बिग डेटा की एक उचित परिभाषा हार्डवेयर, सॉफ्टवेयर, जरूरतों और ज्ञान के साथ विकसित होगी, और शायद एक निश्चित आकार पर निर्भर नहीं होनी चाहिए। इसलिए, बिग डेटा में सेप्टिबल डिफेक्शन : इनोवेशन, कॉम्पिटिशन और प्रोडक्टिविटी के लिए अगला फ्रंटियर , जून 2011:

"बिग डेटा" उन डेटासेट को संदर्भित करता है, जिनका आकार विशिष्ट डेटाबेस सॉफ़्टवेयर टूल्स को पकड़ने, स्टोर करने, प्रबंधित करने और विश्लेषण करने की क्षमता से परे है।


1
"रिक्तता" संदर्भित लेख भयानक रूप से कमजोर लगता है। वहाँ एक निहितार्थ है कि 30GB डेटा / दिन बड़ा नहीं है (और यह आकार परिभाषा का एकमात्र घटक है)। इसके अलावा, यह तर्क दिया जाता है कि क्योंकि कंपनियों का कहना है कि उनका डेटा वास्तव में जितना बड़ा है, उससे कहीं अधिक बड़ा है। कहीं भी बड़े की कोई परिभाषा नहीं दी गई है। और "सभी बड़े नहीं" का सुझाव देने के लिए इस्तेमाल किए गए सभी उदाहरणों में वी के कई सूचीबद्ध हैं।
जॉन

"रिक्तता" केवल आकार पर लागू नहीं होती है। दरअसल, अंतिम वन-लाइनर में, बड़े की परिभाषा अभ्यास की वर्तमान स्थिति के साथ विकसित होती है। अतीत में जो बड़ा था उसे कुछ साल बाद छोटा माना जा सकता है। यहां, मैं उस मामले के लिए शब्द का उपयोग कर रहा था जहां "बड़े डेटा" का उपयोग कुछ पदार्थों के साथ एक जादू मंत्र के रूप में किया जाता है, जैसा कि उपरोक्त कार्टून में चित्रित किया गया है।
लॉरेंट डुवल

1
कितनी संभावना है कि 14 मानदंड सभी एक अक्षर V से शुरू होंगे? हम सभी आँकड़े यहाँ के लोगों के दिमाग में हैं, चलो!
अक्कल

मूल रूप से, मैं सहमत हूं, यह केवल यह दिखाने के लिए था कि बिग डेटा जैसे शब्द आंकड़ों की तुलना में विपणन के दायरे से संबंधित होने की अधिक संभावना है। हालाँकि, मैं अपने द्वारा पढ़ी गई शर्तों के अपने "संग्रह" को साझा करना चाहता था। यह 3V, फिर 5V, और कभी-कभी 7 आदि के साथ शुरू हुआ है। वे शब्द अस्पष्ट रूप से डेटा पर एक जगह निशान की मदद कर सकते हैं
लौरेंट डुवल

4

लोग बिग डेटा में एक बड़े क्वालीफायर पर तय करने लगते हैं । हालाँकि, आकार केवल इस शब्द (डोमेन) के घटकों में से एक है। यह पर्याप्त नहीं है कि आपका डेटा सेट आपकी समस्या (डोमेन) को एक बड़ा डेटा कहने के लिए बड़ा था , आपको इसे समझने और विश्लेषण करने और यहां तक ​​कि प्रक्रिया करने में भी मुश्किल होनी चाहिए। कुछ लोग इस सुविधा को असंरचित कहते हैं , लेकिन यह केवल संरचना नहीं है, यह डेटा के विभिन्न टुकड़ों और तत्वों के बीच अस्पष्ट संबंध भी है।

डेटा सेटों पर विचार करें कि उच्च ऊर्जा भौतिक विज्ञानी सर्न जैसे स्थानों में काम कर रहे हैं । बिग डेटा शब्द गढ़ा जाने से पहले वे सालों से पेटाबाइट्स आकार के डेटा के साथ काम कर रहे थे। फिर भी अब तक वे इस बड़े डेटा को नहीं जानते हैं जहाँ तक मुझे पता है। क्यों? क्योंकि डेटा नियमित रूप से नियमित है, वे जानते हैं कि इसके साथ क्या करना है। वे अभी तक हर अवलोकन की व्याख्या करने में सक्षम नहीं हो सकते हैं, इसलिए वे नए मॉडल आदि पर काम करते हैं।

अब हम बिग डेटा को उन डेटा सेटों से संबंधित समस्याओं को कहते हैं, जिनके आकार CERN में LHC से कुछ सेकंड में उत्पन्न हो सकते हैं। कारण यह है कि ये डेटा सेट आम तौर पर विभिन्न स्वरूपों वाले स्रोतों से आने वाले डेटा तत्वों के होते हैं, डेटा के बीच अस्पष्ट संबंध और व्यवसाय के लिए अनिश्चित मूल्य। यह सिर्फ 1TB हो सकता है, लेकिन सभी ऑडियो, विडियो, टेक्स्ट, स्पीच आदि को प्रोसेस करना इतना मुश्किल है। इसलिए, जटिलता और संसाधनों के मामले में CERN के डेटा के पेटेबाइट्स की आवश्यकता होती है। हम यह भी नहीं जानते कि हमारे डेटा सेट में कोई उपयोगी जानकारी है या नहीं।

इसलिए, बिग डेटा समस्या को हल करने में अनजान मूल्य के डेटा तत्वों को पार्स करना, फिर उन्हें एक दूसरे से जोड़ना शामिल है। "पार्सिंग" एक छवि अपने आप में एक बड़ी समस्या हो सकती है। कहते हैं, आप शहर की सड़कों से सीसीटीवी फुटेज की तलाश कर रहे हैं, यह देखने की कोशिश कर रहे हैं कि क्या लोगों को गुस्सा आ रहा है और क्या यह पैदल चलने वालों के लिए सड़क दुर्घटनाओं को प्रभावित करता है। वीडियो का एक टन है, आप चेहरे को ढूंढते हैं, भावों से उनके मूड को नापने की कोशिश करते हैं, फिर इसे हादसों के आंकड़ों की संख्या, पुलिस रिपोर्ट आदि से जोड़ते हैं, जबकि सभी मौसम (अनिश्चितता, तापमान) और यातायात की भीड़ को नियंत्रित करते हैं। आपको भंडारण और विश्लेषणात्मक उपकरणों की आवश्यकता है जो विभिन्न प्रकार के इन बड़े डेटा सेटों का समर्थन करते हैं, और कुशलता से डेटा को एक दूसरे से जोड़ सकते हैं।

बिग डेटा एक जटिल विश्लेषण समस्या है जहां जटिलता दोनों सरासर आकार और संरचना और सूचना एन्कोडिंग की जटिलता से उपजी है।


अच्छा इनपुट। LHC और CCTV डेटा समस्या के बीच आप जो कंट्रास्ट देते हैं वह कुछ ऐसा है जो लोग अक्सर याद करते हैं।
गोमो

3

मुझे लगता है कि यही वजह है कि लोग बिग डेटा के बारे में उलझन में हैं कि वे इसके लाभ नहीं देखते हैं। बिग डेटा (तकनीक) का मूल्य केवल उस डेटा की मात्रा पर नहीं है जिसे आप एकत्र कर सकते हैं, बल्कि प्रीडिक्टिव मॉडलिंग पर भी, जो अंततः अधिक महत्वपूर्ण है:

  1. प्रिडिक्टिव मॉडलिंग ने पूरी तरह से बदल दिया जिस तरह से हम आंकड़े और भविष्यवाणियां करते हैं, यह हमें अपने डेटा पर अधिक जानकारी देता है, क्योंकि नए मॉडल, नई तकनीकें बेहतर रुझानों का पता लगा सकती हैं, डेटा का शोर "मल्टी" -डिमेंशनल डेटाबेस को कैप्चर कर सकता है। हमारे डेटाबेस में जितने अधिक आयाम हैं, उतना अच्छा मौका हम अच्छे मॉडल को तैयार कर सकते हैं। प्रिडिक्टिव मॉडलिंग बिग डेटा के मूल्य का दिल है।
  2. बिग डेटा (डेटा आकार में) प्रारंभिक कदम है, और इसके द्वारा भविष्यवाणी मॉडलिंग की सेवा के लिए है: डेटाबेस को सम्मान के साथ समृद्ध करें: 1. भविष्यवाणियों के नल (अधिक चर), 2. टिप्पणियों का अवलोकन।

अधिक भविष्यवाणियों क्योंकि हम अब उस डेटा को कैप्चर करने में सक्षम हैं जो पहले कैप्चर करना असंभव था (क्योंकि सीमित हार्डवेयर शक्ति, असंरचित डेटा पर काम करने की सीमित क्षमता)। अधिक भविष्यवाणियों का मतलब महत्वपूर्ण भविष्यवक्ताओं के लिए अधिक संभावनाएं हैं, अर्थात बेहतर मॉडल, बेहतर भविष्यवाणी, व्यवसाय के लिए बेहतर निर्णय लिया जा सकता है।

अधिक अवलोकन न केवल समय के साथ मॉडल को अधिक मजबूत बनाते हैं, बल्कि मॉडल को हर संभव पैटर्न को जानने / जानने में मदद करते हैं जो वास्तविकता में प्रस्तुत / उत्पन्न हो सकते हैं।


3

बिग डेटा बनाम इसके एनटोनियम (संभवतः छोटे डेटा?) के बारे में मुश्किल बात यह है कि यह एक निरंतरता है। बड़े डेटा लोग स्पेक्ट्रम के एक तरफ चले गए हैं, छोटे डेटा लोग दूसरे पर चले गए हैं, लेकिन रेत में कोई स्पष्ट रेखा नहीं है जिस पर हर कोई सहमत हो सकता है।

मैं दोनों के बीच व्यवहार संबंधी मतभेदों को देखूंगा। छोटी डेटा स्थितियों में, आपके पास एक "छोटा" डेटासेट होता है, और आप अपने हर डेटा-पॉइंट के जितना संभव हो सके, उतनी जानकारी प्राप्त करना चाहते हैं। अधिक डेटा प्राप्त करें, आप अधिक परिणाम प्राप्त कर सकते हैं। हालांकि, अधिक डेटा प्राप्त करना महंगा हो सकता है। डेटा इकट्ठा करने वाले को अक्सर गणितीय मॉडल फिट करने के लिए विवश किया जाता है, जैसे कि दिलचस्प व्यवहार के लिए स्क्रीन पर परीक्षणों का एक आंशिक तथ्य करना।

बड़ी डेटा स्थितियों में, आपके पास एक "बड़ा" डेटासेट होता है, लेकिन आपका डेटासेट विवश नहीं होता है। आपको आमतौर पर अपने ग्राहकों को फर्नीचर का लैटिन-वर्ग खरीदने के लिए समझाने की ज़रूरत नहीं है, बस विश्लेषण को आसान बनाने के लिए। इसके बजाय आपके पास खराब संरचित डेटा के gobs और gobs हैं। इन समस्याओं को हल करने के लिए, लक्ष्य "सर्वश्रेष्ठ डेटा का चयन नहीं करता है, और आपके द्वारा इससे बाहर निकलने वाली हर चीज को निचोड़ सकता है," जैसे कोई व्यक्ति छोटे डेटा के लिए उपयोग किया जाता है। लक्ष्य "यदि आप बस एक छोटे से हर एक डाटापॉइंट से स्मिडजेन प्राप्त कर सकते हैं, की तर्ज पर अधिक हो जाता है, तो योग बहुत बड़ा और गहरा होगा।"

उनके बीच मध्यम आकार के डेटा सेट, ठीक संरचना के साथ स्थित हैं। ये "वास्तव में कठिन समस्याएं हैं", इसलिए अभी हम दो शिविरों में व्यवस्थित होते हैं: एक जिसमें छोटे डेटा के साथ हर अंतिम बिट को निचोड़ना, और दूसरा बड़े डेटा के साथ प्रत्येक डेटा बिंदु को अपने आप में चमकने देने की कोशिश करना सही। जैसे-जैसे हम आगे बढ़ते हैं, मैं बड़े डेटा-सेट को अनुकूलित करने के लिए और अधिक संरचित डेटा का लाभ उठाने के लिए और अधिक बड़ी-डेटा प्रक्रियाओं को अनुकूलित करने की कोशिश करते हुए और अधिक छोटे-डेटा प्रक्रियाओं को देखने की उम्मीद करता हूं।


छोटे डेटा का आपका लक्षण वर्णन विश्लेषण पर बेम की किताब जैसा लगता है। कृपया इसकी समालोचना करें क्योंकि यह निजी अन्वेषण के अलावा अन्य छोटे डेटासेट का इलाज करने का एक अनुचित तरीका है, जिस पर भविष्य के डेटा संग्रह को आधार बनाया जा सकता है।
जॉन

@ मुझे उन लोगों को देखना पड़ सकता है। क्या समालोचना पर्याप्त है कि मैं निरूपण का वर्णन करने के लिए एक बिंदु के रूप में लक्षण वर्णन का उपयोग नहीं कर सकता हूं?
कॉर्ट अमोन

यह वास्तव में यहाँ जाने के लिए लंबे समय से है, लेकिन आवश्यक संदेश यह है कि आप छोटे डेटा के साथ प्रत्येक डेटापॉइंट से बाहर निकलने वाली चीजों को निचोड़ नहीं सकते हैं। शायद Google जेलमैन और फोर्किंग पथ; या, स्वतंत्रता की प्रयोगधर्मी डिग्री। आपको छोटे और बड़े डेटा विश्लेषण के बारे में अलग-अलग तरीके से सोचना होगा, न कि केवल एक निरंतरता के बिंदुओं पर।
जॉन

3

मैं कहता हूं कि तीन घटक हैं जो बड़े डेटा को परिभाषित करने में आवश्यक हैं: विश्लेषण की दिशा, जनसंख्या के संबंध में डेटा का आकार और कम्प्यूटेशनल समस्याओं के संबंध में डेटा का आकार।

यह सवाल खुद स्वीकार करता है कि आंकड़े मौजूद होने के बाद परिकल्पनाएं विकसित की जाती हैं। मैं "एकत्रित" का उपयोग नहीं करता क्योंकि लगता है कि "एकत्र" शब्द का अर्थ किसी उद्देश्य के लिए है और डेटा अक्सर उस समय ज्ञात उद्देश्य के लिए मौजूद होता है। एक प्रश्न की सेवा में मौजूदा डेटा को एक साथ लाकर अक्सर बड़े डेटा में संग्रह होता है।

एक दूसरा महत्वपूर्ण हिस्सा यह है कि यह किसी भी डेटा के लिए नहीं है जिसके लिए पोस्ट हॉक विश्लेषण, छोटे डेटासेट के साथ खोजकर्ता विश्लेषण को क्या कहेंगे, उपयुक्त है। इसे पर्याप्त आकार का होना चाहिए क्योंकि यह माना जाता है कि इससे प्राप्त अनुमान जनसंख्या के अनुमान के काफी करीब हैं कि कई छोटे नमूना मुद्दों को नजरअंदाज किया जा सकता है। इस वजह से मैं थोड़ा चिंतित हूं कि इस क्षेत्र में कई तुलनात्मक सुधारों की ओर अभी एक धक्का है। यदि आपके पास पूरी आबादी थी, या एक अनुमान है कि आपके पास विश्वास करने के लिए अच्छा कारण है, तो इस तरह के सुधार को लूट लिया जाना चाहिए। जबकि मुझे एहसास है कि ऐसा होता है कि कभी-कभी समस्याएं उत्पन्न होती हैं जो वास्तव में "बड़े डेटा" को एक छोटे नमूने (जैसे बड़े लॉजिस्टिक रिग्रेशन) में बदल देती हैं, यह समझने के लिए नीचे आता है कि एक बड़ा नमूना एक विशिष्ट प्रश्न के लिए क्या है। कई तुलनात्मक प्रश्नों में से कई को एक प्रभाव आकार के प्रश्नों की ओर मुड़ना चाहिए। और, ज़ाहिर है, आप पूरे विचार को अल्फा = 0.05 के साथ परीक्षण का उपयोग करेंगे, क्योंकि अभी भी कई बड़े डेटा के साथ करते हैं, बस बेतुका है।

और अंत में, छोटी आबादी योग्य नहीं है। कुछ मामलों में एक छोटी आबादी होती है और कोई भी बहुत आसानी से जांच करने के लिए आवश्यक सभी डेटा एकत्र कर सकता है और पहले दो मानदंडों को पूरा कर सकता है। डेटा को पर्याप्त परिमाण का होना चाहिए कि यह एक कम्प्यूटेशनल समस्या बन जाए। जैसे, कुछ मायनों में हमें यह मानना ​​होगा कि "बड़ा डेटा" एक क्षणिक भनभनाना शब्द हो सकता है और शायद सख्त परिभाषा की तलाश में स्थायी रूप से एक घटना। "बड़े डेटा" को बड़ा बनाने वाली कुछ चीजें अब कुछ ही वर्षों में गायब हो जाएंगी और कंप्यूटर की क्षमता के आधार पर हैडली जैसी परिभाषाएँ विचित्र लगने लगेंगी। लेकिन एक अन्य स्तर पर कम्प्यूटेशनल समस्याएं ऐसे प्रश्न हैं जो कंप्यूटर क्षमता के बारे में या शायद कंप्यूटर क्षमता के बारे में नहीं हैं जिन्हें कभी भी संबोधित नहीं किया जा सकता है। मुझे लगता है कि इस अर्थ में परिभाषित करने की समस्याएं "

एक ध्यान दें कि मैंने इस डोमेन के लिए एक कठिन कम्प्यूटेशनल समस्या के उदाहरण या फर्म परिभाषाएं प्रदान नहीं की हैं (आमतौर पर कॉम्प एससी में उदाहरणों का भार है, और कुछ लागू होते हैं, जो मैं इसमें नहीं जाऊंगा)। मैं कोई भी बनाना नहीं चाहता क्योंकि मुझे लगता है कि कुछ हद तक खुला रहना होगा। समय के साथ कई लोगों के एकत्र किए गए कार्य इस तरह की चीजों को आसान बनाने के लिए एक साथ आते हैं, अधिक बार इस बिंदु पर हार्डवेयर की तुलना में सॉफ्टवेयर विकास के माध्यम से। शायद क्षेत्र को इस अंतिम आवश्यकता को और अधिक ठोस रूप से बाध्य करने के लिए अधिक पूरी तरह से परिपक्व होना होगा, लेकिन किनारों को हमेशा फजी होना होगा।


आपके सहयोग के लिए धन्यवाद! मुझे लगता है कि आप इस धागे के लिए बहुमूल्य अंतर्दृष्टि प्रदान करते हैं। मुझे लगता है कि जनसंख्या के आंकड़ों के आकार की कुछ हद तक अनदेखी की गई है।
ग्यूमो

1

विकिपीडिया काफी स्पष्ट परिभाषा प्रदान करता है

बिग डेटा, डेटा सेट के लिए एक व्यापक शब्द है जो इतना बड़ा या जटिल है कि पारंपरिक डेटा प्रोसेसिंग एप्लिकेशन अपर्याप्त हैं। (स्रोत https://en.wikipedia.org/wiki/Big_data )

अन्य सरल परिभाषा मुझे पता है

डेटा जो कंप्यूटर मेमोरी में फिट नहीं होता है।

दुर्भाग्य से मुझे इसके लिए संदर्भ याद नहीं है। इस परिभाषा से सब कुछ निकलता है - आपको बड़ी मात्रा में डेटा के साथ किसी भी तरह से निपटना होगा।


0

मुझे लगता है कि बिग डेटा या तो बड़े डेटा-सेट (लाखों और / या अरबों पंक्तियों) पर काम करने का संदर्भ है या व्यापक डेटा संसाधनों पर जानकारी / पैटर्न खोजने की कोशिश कर रहा है जिसे आप अब हर जगह एकत्र कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.