"बिग डेटा" की परिभाषा क्या है?


23

वहाँ एक है?

सभी परिभाषाएँ मैं डेटा के आकार, जटिलता / विविधता या वेग का वर्णन कर सकता हूं।

विकिपीडिया की परिभाषा केवल वही है जिसे मैंने वास्तविक संख्या के साथ पाया है

2012 में बिग डेटा साइज़ एक लगातार बढ़ने वाला लक्ष्य है, 2012 तक कुछ दर्जन टेराबाइट्स से लेकर सिंगल डेटा सेट में कई पेटाबाइट्स तक।

हालांकि, यह अगले पैराग्राफ में संदर्भित MIKE2.0 परिभाषा के विपरीत प्रतीत होता है , जो दर्शाता है कि "बड़ा" डेटा छोटा हो सकता है और केवल 3GB डेटा बनाने वाले विमान पर 100,000 सेंसर को बड़ा माना जा सकता है।

आईबीएम के कहने के बावजूद कि:

बड़ा डेटा आकार की तुलना में अधिक सरल है।

अपनी परिभाषा में आकार पर जोर दिया है ।

ओ'रेली ने भी जोर दिया है "volume, velocity and variety" । हालांकि अच्छी तरह से समझाया गया है, और अधिक गहराई में, परिभाषा दूसरों की फिर से हैश लगती है - या इसके विपरीत।

मुझे लगता है कि एक कंप्यूटर वीकली लेख शीर्षक कई लेखों को बहुत अच्छी तरह से "बड़े डेटा क्या है और प्रतिस्पर्धी लाभ हासिल करने के लिए इसका इस्तेमाल कैसे किया जा सकता है" को गाया जाता है

लेकिन ZDNet 2012 से निम्नलिखित के साथ जीतता है :

"बिग डेटा" एक पकड़ वाक्यांश है जो आईटी बाजार के उच्च प्रदर्शन कंप्यूटिंग आला से बुदबुदा रहा है ... अगर कोई प्रौद्योगिकी के दस आपूर्तिकर्ताओं से प्रस्तुतियों के माध्यम से बैठता है, तो पंद्रह या इसलिए विभिन्न परिभाषाओं के आगे आने की संभावना है। प्रत्येक परिभाषा, निश्चित रूप से उस आपूर्तिकर्ता के उत्पादों और सेवाओं की आवश्यकता का समर्थन करती है। कल्पना करो कि।

मूल रूप से "बड़ा डेटा" किसी तरह से आकार या रूप में "बड़ा" होता है।

"बड़ा" क्या है? क्या यह वर्तमान समय में मात्रात्मक है?

यदि "बड़ा" निर्विवाद है तो क्या ऐसी परिभाषा है जो केवल सामान्यताओं पर निर्भर नहीं है?


7
"क्या" बड़ा "है? क्या यह वर्तमान समय में मात्रात्मक है?"। ज़रूर। वर्तमान समय में आप जितना संभाल सकते हैं, उससे बड़ा है;)
ऊद

1
@ ठीक है, आपको फिर "हैंडल" को परिभाषित करना होगा :-)।
बेन

14
यदि आपको पूछना है, तो आपकी गिनती करने के लिए पर्याप्त बड़ा नहीं है। ;)
फ्रस्ट्रेटेडविथफॉर्म्सडिजेनर

@ - यह प्रत्येक व्यक्ति और प्रणाली के लिए अलग-अलग परिभाषित किया गया है ...
O

4
"बिग" सबसे अधिक संभावना है कि "संभालना मुश्किल" है। मेमोरी में फिट नहीं होने के लिए, डिस्क को भरने के लिए, नेटवर्क पर स्थानांतरित करने के लिए समय लें, आदि

जवाबों:


42

एक नहीं है; यह एक चर्चा है।

हालांकि यह कहा जाता है कि आपका डेटा पारंपरिक प्रणालियों की क्षमताओं से परे है। डेटा सबसे बड़ी डिस्क पर संग्रहीत करने के लिए बहुत बड़ा है, क्वेरी विशेष अनुकूलन के बिना बहुत लंबे समय तक ले जाती हैं, नेटवर्क या डिस्क आने वाले ट्रैफ़िक प्रवाह का समर्थन नहीं कर सकती है, आकृति के लिए विज़ुअलाइज़ेशन को संभालने के लिए एक सादे पुराने डेटाव्यू नहीं जा रहा है / आकार / डेटा की चौड़ाई ...

असल में, यह कि आपका डेटा कुछ गैर-परिभाषित टिपिंग बिंदु से परे है जहां "बस अधिक हार्डवेयर जोड़ें" यह कटौती करने के लिए नहीं जा रहा है।


+1 और इसके बाद, "बड़े" के रूप में जो मायने रखता है वह हमेशा बेहतर होता है क्योंकि बेहतर हार्डवेयर पकड़ में आता है और ऐसी समस्याओं से निपटने के लिए पहले से अनुकूलित उपकरण परिपक्व, मानकीकृत और व्यावसायिक रूप से बिक जाते हैं।
FrustratedWithFormsDesigner

दूसरे शब्दों में: नो, नो आइडिया, नो, नो :-)।
बेन

इसके अलावा, बड़ा डेटा बड़ी चीज बनने से पहले, कई कंपनियों और शोध संस्थानों ने पहले से ही बड़ी डेटा चीजें की थीं। केवल अब सभी सोशल मीडिया / ऑनलाइन बड़ी डेटा चुनौतियों के साथ यह अधिक मुख्य धारा बन गया है।
पॉल हीमस्ट्रा

2

जैसा कि यह ओरेकल लिंक (इमाम केरेम द्वारा टिप्पणी) oracle.com/us/technologies/big-data/india.html में बताया गया है। बिग डेटा वह सब कुछ है जो RDBMS में संग्रहीत संबंधपरक डेटा नहीं है । प्रचार के कुछ साल पहले यह "बहुत सारा डेटा" था। अब यह बढ़ता गया और बाजारवादियों द्वारा इसे बढ़ावा दिया गया कि यह किसी प्रकार का विशेष डेटा हो।

बिग डेटा को वास्तविक चीज़ मानने के कई अन्य कारण (मार्केटिंग के अलावा) हैं।

  1. मैप-रिड्यूस का आविष्कार
  2. NOSQL प्रौद्योगिकी जैसे Hadoop
  3. पारंपरिक आरडीबीएमएस में कुछ विकास असंरचित डेटा प्रकारों की मांग से प्रभावित हैं
  4. संभवतः EMC2 निगम द्वारा प्रस्तुत कुछ हार्डवेयर प्रौद्योगिकियाँ

2
"मैप-रिड्यूस का आविष्कार"? आप मज़ाक कर रहे हैं।
तेलस्टीन

1
"सब कुछ जो संबंधपरक डेटा नहीं है" एक परिभाषा है जो केवल किसी से आरडीबी-केंद्रित के रूप में ओरेकल के रूप में आ सकती है (और यह गलत है)। उस परिभाषा के तहत, हर सोलर इंडेक्स, हर MongoDB डेटाबेस और हर बर्कले DB "बड़ा डेटा" है। और यह सिर्फ बेवकूफी है।
जोआचिम सॉयर

0

एक प्रारंभिक बिंदु के रूप में डौग लैंय के उत्तर का उपयोग करते हुए , हमने बिग डेटा परिभाषाओं की एक सूची को रिवर्स-इंजीनियर किया, जो अब 30 से अधिक है और मजबूत हो रही है। "बिग डेटा" की परिभाषाओं की हमारी सूची यहां स्थित है

हम सुधारों, प्रविष्टियों, ग्राफिक्स आदि का स्वागत करते हैं।


-1

ओ'रेली को देखने के लिए महान और अन्य अंततः गार्टनर के 3 वी के बड़े डेटा पर कुंडी लगाते हैं जिसे हमने पहली बार 11 साल पहले पेश किया था। संदर्भ के लिए, यहाँ मूल टुकड़ा मैंने 2001 में लिखा था: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/

गार्टनर की हाल ही में अपडेट की गई परिभाषा भी मान पहलू को पहचानती है: "बिग डेटा वॉल्यूम, वेग और / या विविधता के साथ सूचना परिसंपत्तियां हैं जो आवश्यक अंतर्दृष्टि खोज, निर्णय लेने और प्रक्रिया स्वचालन के लिए सूचना प्रसंस्करण के अभिनव रूपों की आवश्यकता होती हैं।"

हमने प्रौद्योगिकी अपनाने के संदर्भ में तीन वैक्टरों के साथ डेटा परिमाण को निर्धारित करने के लिए एक विधि भी विकसित की है। हालाँकि मैं इसे सार्वजनिक रूप से साझा नहीं कर सकता।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.