कितना बड़ा डेटा है?


86

बहुत से लोग इस शब्द का इस्तेमाल बड़े डेटा एक नहीं बल्कि में वाणिज्यिक , जिस तरह से यह दर्शाता है कि बड़े डेटासेट गणना में शामिल कर रहे हैं, और इसलिए संभावित समाधानों अच्छा प्रदर्शन होना आवश्यक है के एक साधन के रूप में। बेशक, बड़ा डेटा हमेशा संबद्ध शर्तों को ले जाता है, जैसे कि स्केलेबिलिटी और दक्षता, लेकिन क्या वास्तव में एक बड़ी डेटा समस्या के रूप में एक समस्या को परिभाषित करता है?

क्या गणना कुछ विशिष्ट उद्देश्यों से संबंधित है, जैसे डेटा माइनिंग / सूचना पुनर्प्राप्ति, या सामान्य ग्राफ़िक्स समस्याओं के लिए एक एल्गोरिथ्म बड़ा डेटा लेबल किया जा सकता है यदि डेटासेट पर्याप्त बड़ा था ? इसके अलावा, कैसे बड़ा है काफी बड़ा (यदि यह परिभाषित करना संभव है)?


7
जब आपका डेटा सामान्य उपयोग chrisstucchio.com/blog/2013/hadoop_hatred.html के लिए बहुत बड़ा होने लगता है, तो एक अच्छा लेख
जॉनी 1000

18
"एक्सेल में लोड करने के लिए कुछ भी बड़ा" चल रहा मजाक है।
१२:०६ पर स्पेन्डमैन

1
यह इस बात पर निर्भर करता है कि क्या यह केवल एक चर्चा के रूप में फेंका जा रहा है।
जॉन रॉबर्टसन

यह ठीक 1 जीबी है। वह नियम पुस्तिका में कटऑफ है। अस्पष्टता के लिए कोई जगह नहीं है।
हैक-आर

यह एक अच्छा सवाल है। जैसा कि उत्तर की विविधता से दर्शाया गया है, परिभाषा है ... अपरिभाषित
मनु एच

जवाबों:


86

मेरे लिए (एक संबंधपरक डेटाबेस पृष्ठभूमि से आने वाले), "बिग डेटा" मुख्य रूप से डेटा आकार के बारे में नहीं है (जो कि अभी तक अन्य उत्तरों के थोक हैं)।

"बिग डेटा" और "बैड डेटा" निकटता से संबंधित हैं। रिलेशनल डेटाबेस के लिए 'प्राचीन डेटा' की आवश्यकता होती है। यदि डेटा डेटाबेस में है, तो यह सटीक, स्वच्छ और 100% विश्वसनीय है। रिलेशनल डेटाबेस को "ग्रेट डेटा" की आवश्यकता होती है और डेटाबेस में लोड करने से पहले डेटा को अच्छी तरह से तैयार करने के लिए समय, धन और जवाबदेही की एक बड़ी राशि की आवश्यकता होती है। यदि डेटा डेटाबेस में है, तो यह 'सुसमाचार' है, और यह वास्तविकता की प्रणाली समझ को परिभाषित करता है।

"बिग डेटा" इस समस्या को दूसरी दिशा से निपटता है। डेटा को खराब तरीके से परिभाषित किया गया है, इसका अधिकांश हिस्सा गलत हो सकता है, और इसमें से अधिकांश वास्तव में गायब हो सकता है। रिलेशनल के विपरीत डेटा की संरचना और लेआउट रैखिक है।

बिग डेटा में पर्याप्त मात्रा होनी चाहिए ताकि खराब डेटा या गुम डेटा की मात्रा सांख्यिकीय रूप से महत्वहीन हो जाए। जब आपके डेटा की त्रुटियां एक दूसरे को रद्द करने के लिए पर्याप्त सामान्य होती हैं, जब लापता डेटा आनुपातिक रूप से काफी छोटा होता है, नगण्य होता है और जब आपके डेटा एक्सेस की आवश्यकताएं और एल्गोरिदम अपूर्ण और गलत डेटा के साथ भी कार्यात्मक होते हैं, तो आपके पास "बिग डेटा" है। ।

"बिग डेटा" वास्तव में वॉल्यूम के बारे में नहीं है, यह डेटा की विशेषताओं के बारे में है।


6
+1 मैं बहुत बड़े डेटा पर तनाव की सराहना करता हूं कि आकार क्या है , और इसके बारे में नहीं कि सामग्री (विशेषताओं) के बारे में क्या है
रूबेंस

4
यह एक बहुत ताज़ा दृष्टिकोण है। मैंने ऐसा पहले कभी नहीं सुना, लेकिन यह बहुत सच है। यह बताता है कि SQL और NoSQL प्रौद्योगिकियां प्रतिस्पर्धात्मक नहीं हैं, बल्कि पूरक हैं।
जय गोडसे

7
आप असंरचित डेटा की बात कर रहे हैं, बड़े डेटा की नहीं। असंरचित डेटा आमतौर पर NoSQL समाधान और आवेदन में बड़े डेटा की ओर जाता है, लेकिन वे अभी भी अलग हैं।
द ग्रीमस्मिंटिस्ट

मुझे लगता है कि यह एक अच्छा व्यावसायिक परिप्रेक्ष्य है कि कितना बड़ा डेटा है, लेकिन उस विशिष्ट प्रश्न का उत्तर नहीं देता है जो कि काफी हद तक "कितना बड़ा डेटा है"?
वाबेट

33

जैसा कि आप ठीक से ध्यान दें, इन दिनों "बड़ा डेटा" कुछ ऐसा है जो हर कोई कहना चाहता है कि उन्हें मिल गया है, जो एक निश्चित ढीलेपन को दर्शाता है कि लोग कैसे शब्द को परिभाषित करते हैं। आम तौर पर, हालांकि, मैं कहूंगा कि आप निश्चित रूप से बड़े डेटा के साथ काम कर रहे हैं यदि पैमाना ऐसा है कि यह अब और अधिक परंपरागत तकनीकों जैसे RDBMS के साथ प्रबंधन करने के लिए संभव नहीं है, तो कम से कम उन्हें Hadoop जैसी बड़ी डेटा तकनीकों के साथ पूरक किए बिना।

आपका डेटा वास्तव में कितना बड़ा है, इसके लिए मामला बहस का विषय है। यहाँ (कुछ उत्तेजक) ब्लॉग पोस्ट है जो दावा करता है कि यह वास्तव में 5 टीबी से कम डेटा के मामले में नहीं है। (स्पष्ट होने के लिए, यह "5 टीबी से कम बड़ा डेटा नहीं है" का दावा नहीं करता है, लेकिन सिर्फ "5 टीबी से कम इतना बड़ा नहीं है कि आपको हडॉप की आवश्यकता है"।)

लेकिन छोटे डेटासेट पर भी, Hadoop जैसी बड़ी डेटा तकनीकों के अन्य फायदे हो सकते हैं, जिसमें बैच संचालन के लिए अच्छी तरह से अनुकूल होना, असंरचित डेटा के साथ अच्छी तरह से खेलना (साथ ही डेटा जिसकी संरचना पहले से ज्ञात नहीं है या बदल सकती है), क्षैतिज स्केलेबिलिटी ( अपने मौजूदा सर्वरों को ऊपर उठाने के बजाय अधिक नोड्स जोड़कर स्केलिंग करें, और (ऊपर-लिंक किए गए पोस्ट नोट्स पर टिप्पणीकारों में से एक) बाहरी डेटा सेट के साथ आपके डेटा प्रोसेसिंग को एकीकृत करने की क्षमता (मैप-कम के बारे में सोचें जहां मैपर है दूसरे सर्वर पर कॉल करता है)। बड़े डेटा से जुड़ी अन्य प्रौद्योगिकियां, जैसे नोस्कल डेटाबेस, डेटा के बड़े सेट से निपटने के दौरान तेज़ प्रदर्शन और लगातार उपलब्धता पर जोर देती हैं, साथ ही अर्ध-असंरचित डेटा को संभालने और क्षैतिज रूप से स्केल करने में भी सक्षम होती हैं।

बेशक, पारंपरिक RDBMS के अपने फायदे हैं जिनमें ACID गारंटी (Atomicity, Consistency, अलगाव, स्थायित्व) और कुछ कार्यों के लिए बेहतर प्रदर्शन के साथ-साथ अधिक मानकीकृत, अधिक परिपक्व और (कई उपयोगकर्ताओं के लिए) अधिक परिचित हैं। यहां तक ​​कि निर्विवाद रूप से "बड़े" डेटा के लिए, यह आपके डेटा के कम से कम हिस्से को पारंपरिक SQL डेटाबेस में लोड करने और बड़ी डेटा तकनीकों के साथ संयोजन में उपयोग करने के लिए समझ में आ सकता है।

इसलिए, एक अधिक उदार परिभाषा यह होगी कि आपके पास बड़ा डेटा है जब तक कि यह बहुत बड़ा है कि बड़ी डेटा प्रौद्योगिकियां आपके लिए कुछ अतिरिक्त मूल्य प्रदान करती हैं। लेकिन जैसा कि आप देख सकते हैं, यह न केवल आपके डेटा के आकार पर निर्भर कर सकता है, बल्कि आप इसके साथ कैसे काम करना चाहते हैं और लचीलेपन, स्थिरता और प्रदर्शन के संदर्भ में आपकी किस प्रकार की आवश्यकताएं हैं। आप अपने डेटा का उपयोग कैसे कर रहे हैं, इस सवाल से अधिक प्रासंगिक है कि आप इसे किस लिए उपयोग कर रहे हैं (जैसे डेटा माइनिंग)। उस ने कहा, डेटा माइनिंग और मशीन लर्निंग जैसे उपयोग उपयोगी परिणाम प्राप्त करने की अधिक संभावना रखते हैं यदि आपके पास काम करने के लिए एक बड़ा डेटा सेट है।


यह टिप्पणी लगभग 5 साल पुरानी है, और जबकि इसके हिस्से अभी भी सच हैं, मैंने जिस ब्लॉग से उद्धृत किया है, उससे निश्चित रूप से 5 टीबी की सीमा अब सच नहीं है। उदाहरण के लिए, Microsoft 100 टीबी तक की " हाइपरस्केल " SQL DBs प्रदान करता है: docs.microsoft.com/en-us/azure/sql-database/… बेशक, कोई यह मान सकता है कि कई विशाल SQL DB के साथ कई संगठन भी हैं, कहते हैं, विभिन्न कार्यभार का समर्थन करने के लिए एक स्पार्क क्लस्टर। कोई नियम नहीं है कि आपको एक या दूसरे को चुनना है।
टिम गुडमैन

21

दुनिया में डेटा की कुल राशि: 2012 में 2.8 ज़ेटाबाइट्स, 2015 ( स्रोत ) तक 8 ज़ेटाबाइट्स तक पहुंचने का अनुमान है और 40 महीनों के दोहरीकरण समय के साथ। इससे बड़ा नहीं हो सकता :)

एकल बड़े संगठन के एक उदाहरण के रूप में, फेसबुक प्रति दिन 500 टेराबाइट्स में, एक 100 पेटाबाइट गोदाम में खींचता है, और 2012 के अनुसार प्रति दिन 70k क्वेरी चलाता है ( स्रोत ) उनका वर्तमान गोदाम> 300 पेटाबाइट है।

बिग डेटा शायद कुछ ऐसा है जो फेसबुक नंबरों का एक अच्छा अंश है (1/100 शायद हाँ, 1/10000 शायद नहीं: यह एक स्पेक्ट्रम है जो एक भी संख्या नहीं है)।

आकार के अलावा, कुछ विशेषताएं जो इसे "बड़ा" बनाती हैं:

  • यह सक्रिय रूप से विश्लेषण किया गया है, न केवल संग्रहीत (उद्धरण "यदि आप बड़े डेटा का लाभ नहीं ले रहे हैं, तो आपके पास बड़ा डेटा नहीं है, आपके पास डेटा का एक ढेर है" जय पारिख @ फेसबुक)

  • डेटा वेयरहाउस बनाना और चलाना एक प्रमुख बुनियादी ढांचा परियोजना है

  • यह एक महत्वपूर्ण दर से बढ़ रहा है

  • यह असंरचित है या इसमें अनियमित संरचना है

गार्टनर की परिभाषा: "बड़ा डेटा उच्च मात्रा, उच्च वेग, और / या उच्च किस्म की जानकारी परिसंपत्तियां हैं, जिन्हें प्रसंस्करण के नए रूपों की आवश्यकता होती है" (3Vs) तो उन्हें भी लगता है कि "bigness" पूरी तरह से डेटासेट के आकार के बारे में नहीं है, लेकिन वेग और संरचना और आवश्यक औजारों के बारे में भी।


2
दुनिया में डेटा की कुल राशि हर 40 महीने डबल्स है, तो निश्चित रूप से यह कर सकते हैं कि से भी बड़ा मिलता है। ; पी
एयर

2
अन्य लोगों ने 4 वी के बड़े डेटा आईबीएम या यहां तक ​​कि 5 वी के डीएवी BEULKE 2011 का वर्णन किया है
nmtoken

2
मूल 3 V की स्थापना 2001 में डौग लान 3 डी डेटा मैनेजमेंट द्वारा की गई थी : डेटा वॉल्यूम, वेग और विविधता को नियंत्रित करना
nmtoken

13

मेरे लिए बिग डेटा मुख्य रूप से टूल के बारे में है (आखिरकार, यह वह जगह है जहां यह शुरू हुआ); एक "बड़ा" डेटासेट वह है जो पारंपरिक उपकरणों से निपटने के लिए बहुत बड़ा है - विशेष रूप से, एक मशीन के बजाय क्लस्टर पर भंडारण और प्रसंस्करण की मांग करने के लिए पर्याप्त बड़ा है। यह एक पारंपरिक RDBMS को नियम देता है, और प्रसंस्करण के लिए नई तकनीकों की मांग करता है; विशेष रूप से, इस गणना के रूप को प्रतिबंधित करने की कीमत पर, विभिन्न हडूप जैसी रूपरेखाएं क्लस्टर पर एक संगणना वितरित करना आसान बनाती हैं। मैं http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html का संदर्भ दूंगा; बिग डेटा तकनीक डेटासेट के लिए एक अंतिम उपाय है जो किसी अन्य तरीके को संभालने के लिए बस बहुत बड़ा है। मैं कहता हूं कि किसी भी उद्देश्य के लिए कोई भी डाटासेट योग्य हो सकता है अगर यह काफी बड़ा था - हालांकि यदि समस्या का आकार ऐसा है कि मौजूदा "बड़े डेटा" उपकरण उपयुक्त नहीं हैं, तो संभवतः एक नया साथ आना बेहतर होगा। नाम।

बेशक कुछ ओवरलैप है; जब मैंने (संक्षेप में) last.fm पर काम किया, तो हमने उसी 50TB डेटासेट पर Hadoop और SQL डेटाबेस में भी काफी हास्यास्पद सर्वर पर काम किया (मुझे याद है कि इसमें 1TB RAM था, और यह कुछ साल पहले है)। जो एक अर्थ में यह दोनों था और बड़ा डेटा नहीं था, इस पर निर्भर करता है कि आप किस नौकरी पर काम कर रहे हैं। लेकिन मुझे लगता है कि यह एक सटीक लक्षण वर्णन है; हडोप जॉब पर काम करने वाले लोगों को बिग डेटा कॉन्फ्रेंस और वेबसाइट्स पर जाना उपयोगी लगता था, जबकि एसक्यूएल ब्रांड्स पर काम करने वाले लोग ऐसा नहीं करते थे।


10

डेटा "बड़ा" हो जाता है जब एक एकल कमोडिटी कंप्यूटर अब आपके पास डेटा की मात्रा को संभाल नहीं सकता है। यह उस बिंदु को दर्शाता है जिस पर आपको अपने डेटा को संसाधित करने के लिए सुपर कंप्यूटर बनाने या क्लस्टर का उपयोग करने के बारे में सोचना शुरू करना होगा।


7

बिग डेटा को डेटा की मात्रा से परिभाषित किया जाता है, यह सही है, लेकिन न केवल। बड़ा डेटा की ख़ासियत है कि आप एक स्टोर करने के लिए की जरूरत है बहुत सारे के विभिन्न और कभी कभी असंरचित सामान हर समय और एक से सेंसर की टन है, आमतौर पर साल या उससे दशक के लिए

इसके अलावा आपको कुछ स्केलेबल चाहिए, ताकि डेटा वापस खोजने में आपको आधा साल न लगे।

तो यहाँ बिग डेटा है, जहाँ पारंपरिक विधि अब और काम नहीं करेगा। SQL स्केलेबल नहीं है। और SQL बहुत संरचित और लिंक किए गए डेटा के साथ काम करता है (उन सभी प्राथमिक और विदेशी कुंजी गड़बड़, इनरजॉइन, imbricated अनुरोध ...) के साथ।

असल में, क्योंकि भंडारण सस्ता और सस्ता हो जाता है और डेटा अधिक से अधिक मूल्यवान हो जाता है, बड़े प्रबंधक इंजीनियर को सब कुछ रिकॉर्ड करने के लिए कहते हैं। उन सभी मोबाइल, सोशल नेटवर्क, एंबेडेड सामान ... आदि के साथ नए सेंसर के इस टन में जोड़ें। इसलिए जैसे ही क्लासिक तरीके काम नहीं करेंगे, उन्हें नई तकनीकों को ढूंढना होगा (फाइलों में सब कुछ स्टोर करना, json फॉर्मेट में, बड़े इंडेक्स के साथ, जिसे हम noSQL कहते हैं)।

इसलिए बिग डेटा बहुत बड़ा हो सकता है लेकिन इतना बड़ा नहीं हो सकता है लेकिन कॉम्प्लेक्स अनस्ट्रक्चर्ड या विभिन्न डेटा जिन्हें जल्दी से स्टोर करना पड़ता है और कच्चे प्रारूप में ऑन-द-रन करना पड़ता है। हम पहले ध्यान केंद्रित करते हैं और भंडारण करते हैं, और फिर हम देखते हैं कि सब कुछ एक साथ कैसे जोड़ा जाए।


6

मैं साझा करूँगा कि बिग डेटा जीनोमिक्स में क्या है, विशेष रूप से डे-नोवो विधानसभा में।

जब हम आपके जीनोम को अनुक्रमित करते हैं (उदाहरण के लिए: उपन्यास जीन का पता लगाते हैं), तो हम अगली पीढ़ी के छोटे-छोटे बिलों को लेते हैं। नीचे दी गई छवि को देखें, जहां हम कुछ रीड्स को इकट्ठा करने की कोशिश करते हैं।

यहाँ छवि विवरण दर्ज करें

यह सरल लग रहा है? लेकिन क्या होगा अगर आपके पास अरबों लोग पढ़ते हैं? क्या होगा अगर उन लोगों में अनुक्रम त्रुटियां हैं? क्या होगा अगर आपकी रैम में रीड रखने के लिए पर्याप्त मेमोरी नहीं है? दोहराए जाने वाले डीएनए क्षेत्रों के बारे में क्या, जैसे कि बहुत सामान्य अलु तत्व ?

डे-नोवो असेंबली एक डे-ब्रुइजन ग्राफ का निर्माण करके किया जाता है :

यहाँ छवि विवरण दर्ज करें

ओवरलैपिंग रीड्स का प्रतिनिधित्व करने के लिए ग्राफ एक चतुर-खनन डेटा-संरचना है। यह सही नहीं है, लेकिन यह सभी संभावित ओवरलैप उत्पन्न करने और उन्हें एक सरणी में संग्रहीत करने से बेहतर है।

असेंबली प्रक्रिया को पूरा होने में कई दिन लग सकते हैं, क्योंकि वहाँ बहुत सारे रास्ते हैं जो एक कोडांतरक को गिराने और गिराने की आवश्यकता होगी।

जीनोमिक्स में, आपके पास एक बड़ा डेटा होता है जब:

  • आप सभी संयोजनों को बल नहीं दे सकते
  • आपके कंप्यूटर में डेटा संग्रहीत करने के लिए पर्याप्त भौतिक मेमोरी नहीं है
  • आपको आयाम कम करने की आवश्यकता है (जैसे: निरर्थक ग्राफ़ पथों का ढहना)
  • आप नाराज हो जाते हैं क्योंकि आपको कुछ भी करने के लिए दिनों का इंतजार करना पड़ता है
  • डेटा का प्रतिनिधित्व करने के लिए आपको एक विशेष डेटा संरचना की आवश्यकता होती है
  • आपको त्रुटियों के लिए अपना डेटा-सेट फ़िल्टर करना होगा (उदाहरण के लिए: अनुक्रमण त्रुटियाँ)

https://en.wikipedia.org/wiki/De_Bruijn_graph


5

ग्राफ एल्गोरिदम के लिए विशेष बात है, आप मूल प्रश्न जो तब विशेष बनाते हैं, जो कि वह डेटा को अनिवार्य रूप से विभाजित करने की क्षमता के बारे में है।

कुछ चीजों के लिए, एक सरणी पर संख्याओं को छाँटना जैसे कि डेटा संरचना पर समस्या को छोटे छोटे टुकड़ों में विभाजित करना बहुत मुश्किल नहीं है, उदाहरण के लिए : यहाँ जगह समानांतर सॉर्ट करें

NPhard

इसलिए जब 10GB नंबर सॉर्ट करने के लिए एक सामान्य पीसी पर एक बहुत अच्छी तरह से स्वीकार्य समस्या हो सकती है (आप बस गतिशील प्रोग्रामिंग के माध्यम से और कार्यक्रम प्रवाह के बारे में बहुत अच्छी भविष्यवाणी कर सकते हैं), 10GB ग्राफ डेटा संरचना के साथ काम करना पहले से ही चुनौतीपूर्ण हो सकता है।

कुछ विशेष रूपरेखाएँ हैं जैसे कि ग्राफक्स का उपयोग करने के तरीके और विशेष कंप्यूटिंग प्रतिमानों को कुछ हद तक ग्राफ़ की अंतर्निहित चुनौतियों को रोकने के लिए।

इसलिए अपने प्रश्न का संक्षेप में उत्तर देने के लिए: जैसा कि दूसरों द्वारा पहले उल्लेख किया गया है, जब आपका डेटा एक सामान्य पीसी पर मुख्य मेमोरी में फिट नहीं होता है, लेकिन आपको अपनी समस्या का जवाब देने के लिए यह सब चाहिए, एक अच्छा संकेत है कि आपका डेटा पहले से ही कुछ बड़ा है। हालांकि सटीक लेबलिंग निर्भर करता है कि मैं डेटा संरचना और पूछे गए प्रश्न पर थोड़ा सोचता हूं।


4

मुझे लगता है कि बड़ा डेटा उस बिंदु पर शुरू होता है जहां आकार आपको वह करने से रोकता है जो आप चाहते हैं। ज्यादातर परिदृश्यों में, चल रहे समय पर एक सीमा होती है जिसे व्यवहार्य माना जाता है। कुछ मामलों में यह एक घंटा है, कुछ मामलों में यह कुछ सप्ताह हो सकता है। जब तक डेटा बड़ा नहीं होता है, तब तक केवल O (n) एल्गोरिदम संभव समय सीमा में चल सकते हैं, आप बड़े डेटा तक नहीं पहुंचे।

मुझे यह परिभाषा पसंद है क्योंकि यह वॉल्यूम, प्रौद्योगिकी स्तर और विशिष्ट एल्गोरिदम के लिए अज्ञेयवादी है। यह संसाधनों के लिए अज्ञेय नहीं है, इसलिए एक वर्गीकृत छात्र Google से पहले बड़े डेटा तरीके तक पहुंच जाएगा।

यह आंकने में सक्षम होने के लिए कि डेटा कितना बड़ा है, मैं इसे बैकअप करने के लिए आवश्यक समय पर विचार करना पसंद करता हूं। चूंकि प्रौद्योगिकी प्रगति, कुछ वर्षों पहले बड़ी मानी जाने वाली मात्रा अब मध्यम है। बैकअप समय में सुधार होता है, जैसा कि प्रौद्योगिकी में सुधार होता है, ठीक उसी तरह जैसे कि लर्निंग एल्गोरिदम का समय चल रहा है। मुझे लगता है कि डेटासेट के बारे में बात करना अधिक समझदार है क्योंकि इसमें बैकअप के लिए X घंटे लगते हैं और Y बाइट्स के डेटासेट के नहीं।

पुनश्च।

यह ध्यान रखना महत्वपूर्ण है कि भले ही आप बड़े डेटा बिंदु तक पहुंच गए हों और आप सीधे आगे के रास्ते में ओ (एन) से अधिक जटिलता के एल्गोरिदम नहीं चला सकते हों, ऐसे एल्गोरिदम से लाभ उठाने के लिए आप बहुत कुछ कर सकते हैं।

उदाहरण के लिए, फीचर का चयन उन सुविधाओं की संख्या को कम कर सकता है जो समय पर चल रहे कई एल्गोरिदम पर निर्भर करती हैं। कई लंबी पूंछ वितरण में सिर में कुछ वस्तुओं पर ध्यान केंद्रित करने से लाभ हो सकता है। आप एक नमूना का उपयोग कर सकते हैं और उस पर धीमी एल्गोरिदम चला सकते हैं।


O(n)

4

डेटा "बिग डेटा" है अगर यह ऐसी मात्रा का है कि एक उच्च अंत कंप्यूटर की तुलना में दो या अधिक कमोडिटी कंप्यूटरों पर इसका विश्लेषण करना कम महंगा है।

यह अनिवार्य रूप से Google की "BigFiles" फाइल सिस्टम की उत्पत्ति है। पेज और ब्रिन अपने वेब इंडेक्स को स्टोर और सर्च करने के लिए एक फैंसी सन सर्वर का खर्च नहीं उठा सकते थे, इसलिए कई कमोडिटी कंप्यूटर को हुक कर दिया


1

मैं इस बात से सहमत हूं कि @ डैन लेविन ने पहले ही कहा है। अंततः चूंकि हम डेटा को केवल संग्रहीत करने के बजाय उपयोगी अंतर्दृष्टि प्राप्त करना चाहते हैं, यह एल्गोरिदम / सिस्टम सीखने की क्षमता है जो यह निर्धारित करना चाहिए कि "बिग डेटा" क्या है। जैसा कि एमएल सिस्टम विकसित करते हैं कि बिग डेटा क्या था आज कल बिग डेटा नहीं होगा।

बिग डेटा को परिभाषित करने का एक तरीका हो सकता है:

  • बड़ा डेटा : वह डेटा जिस पर आप किसी विशिष्ट कार्य केंद्र पर उचित समय (1-2 घंटे) में ML मॉडल नहीं बना सकते (4GB RAM के साथ कहें)
  • गैर-बड़ा डेटा : ऊपर का पूरक

इस परिभाषा को मानते हुए, जब तक कि एक व्यक्तिगत पंक्ति (एकल डेटा बिंदु के लिए सभी चर) द्वारा कब्जा की गई मेमोरी मशीन रैम से अधिक नहीं होती है, हमें गैर-बड़े डेटा शासन में होना चाहिए ।

नोट: Vowpal Wabbit (आज तक का सबसे तेज एमएल सिस्टम) किसी भी डेटा सेट पर सीख सकते हैं जब तक कि एक व्यक्तिगत पंक्ति (डेटा पॉइंट) <RAM (4GB) न हो। पंक्तियों की संख्या एक सीमा नहीं है क्योंकि यह कई कोर पर SGD का उपयोग करता है। अनुभव से बात करें तो आप एक दिन में लैपटॉप पर 10k फीचर्स और 10MN पंक्तियों के साथ एक मॉडल को प्रशिक्षित कर सकते हैं।


1

"बिग डेटा" का शाब्दिक अर्थ केवल बहुत अधिक डेटा है। हालांकि यह किसी भी चीज़ से अधिक विपणन शब्द है, इसका मतलब यह है कि आमतौर पर आपके पास इतना डेटा होता है कि आप एक साथ सभी डेटा का विश्लेषण नहीं कर सकते क्योंकि स्मृति (RAM) की मात्रा को डेटा को मेमोरी में रखना होगा प्रक्रिया और विश्लेषण यह उपलब्ध स्मृति की मात्रा से अधिक है।

इसका मतलब है कि विश्लेषण आमतौर पर डेटा के यादृच्छिक क्षेत्रों पर किया जाना चाहिए, जो डेटा के अन्य भागों के खिलाफ तुलना करने के लिए मॉडल बनाने की अनुमति देता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.