डेटा साइंस bigdata

8

मैंने इस पोस्ट में पढ़ा कि क्या बिग डेटा के लिए R भाषा उपयुक्त है जो बड़ा डेटा बनाता है 5TB, और जबकि यह इस प्रकार के डेटा के साथ काम करने की व्यवहार्यता के बारे में जानकारी प्रदान करने का एक अच्छा काम Rकरता है Python। मैं सोच रहा …

14 bigdata python

1

जब एक रिलेशनल डेटाबेस में बिना रिलेशनल के बेहतर प्रदर्शन होता है

जब MySQL की तरह एक रिलेशनल डेटाबेस, MongoDB की तरह कोई रिलेशनल से बेहतर प्रदर्शन करता है? मैंने दूसरे दिन Quora पर एक प्रश्न देखा, कि क्यों Quora अभी भी MySQL को अपने बैकएंड के रूप में उपयोग करता है, और यह कि उनका प्रदर्शन अभी भी अच्छा है।

13 bigdata performance databases nosql

4

बिग डेटा केस स्टडी या केस उदाहरण का उपयोग करें

मैंने बहुत से ब्लॉग्स के लेख पढ़े हैं कि कैसे विभिन्न प्रकार के उद्योग बिग डेटा एनालिटिक का उपयोग कर रहे हैं। लेकिन इन लेखों में से अधिकांश का उल्लेख करने में विफल रहता है इन कंपनियों ने किस तरह का डेटा इस्तेमाल किया। डेटा का आकार क्या था डेटा …

13 data-mining bigdata usecase

4

क्या हम word2vec मॉडल का प्रशिक्षण लेते समय स्थानांतरण सीखने का उपयोग करने का लाभ उठा सकते हैं?

मैं पहले से प्रशिक्षित मॉडल जैसे कि Google समाचार डेटा आदि का एक पूर्व-प्रशिक्षित वज़न खोजने के लिए देख रहा हूं। मैंने अपने लिए पर्याप्त मात्रा (10 जीबी आदि) के साथ एक नए मॉडल को प्रशिक्षित करना मुश्किल पाया। इसलिए, मैं ट्रांसफर लर्निंग से लाभ उठाना चाहता हूं, जिसमें मैं …

13 machine-learning bigdata word2vec

7

डेटा वैज्ञानिक का एक 'पुराना नाम' क्या है?

Are डेटा साइंस ’और ist डेटा साइंटिस्ट’ जैसे शब्द इन दिनों तेजी से उपयोग किए जा रहे हैं। कई कंपनियां 'डेटा साइंटिस्ट' को हायर कर रही हैं। लेकिन मुझे नहीं लगता कि यह पूरी तरह से नया काम है। डेटा अतीत से अस्तित्व में है और किसी को डेटा से …

12 bigdata

2

वरीयता मिलान एल्गोरिथ्म

इस साइड प्रोजेक्ट में मैं वहां काम कर रहा हूं जहां मुझे निम्नलिखित समस्या के समाधान की आवश्यकता है। मेरे पास लोगों (ग्राहकों) के दो समूह हैं। समूह Aखरीदने का इरादा रखता है और समूह Bएक निर्धारित उत्पाद बेचने का इरादा रखता है X। उत्पाद में विशेषताओं की एक श्रृंखला …

12 bigdata text-mining recommender-system

2

स्टॉर्म और हडोप (MapReduce) के बीच व्यापार

डेटा प्रसंस्करण के लिए Hadoop क्लस्टर में तूफान और MapReduce के बीच चयन करते समय क्या कोई कृपया मुझे उस ट्रेड-ऑफ के बारे में बता सकता है? जाहिर है, एक तरफ से, कि Hadoop (एक Hadoop क्लस्टर में MapReduce के माध्यम से प्रसंस्करण) एक बैच प्रसंस्करण प्रणाली है, और तूफान …

12 bigdata efficiency apache-hadoop distributed

3

एक विशाल डेटाबेस में क्वेरी नगण्य विलंबता के साथ कैसे लौटती है?

उदाहरण के लिए, जब Google में कुछ खोजते हैं, तो परिणाम शून्य-तुरन्त लौट आते हैं। मैं समझता हूं कि Google एल्गोरिदम आदि के साथ पृष्ठों को अनुक्रमित और अनुक्रमित करता है, लेकिन मैं कल्पना करता हूं कि इसे अनुक्रमित किए जाने वाले हर संभव क्वेरी के परिणामों के लिए संभव …

12 bigdata google search

1

मुझे कितने LSTM सेल का उपयोग करना चाहिए?

क्या LSTM कोशिकाओं की न्यूनतम, अधिकतम और "उचित" राशि से संबंधित अंगूठे (या वास्तविक नियम) के कोई नियम हैं जिनका मुझे उपयोग करना चाहिए? विशेष रूप से मैं कर रहा हूँ से संबंधित BasicLSTMCell TensorFlow और से num_unitsसंपत्ति। कृपया मान लें कि मेरे पास एक वर्गीकरण समस्या है जिसे परिभाषित …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

क्या FPGrowth को अभी भी लगातार पैटर्न खनन में "कला की स्थिति" माना जाता है?

जहां तक मुझे पता है कि फ्रिक्वेंट पैटर्न माइनिंग (एफपीएम) समस्या को हल करने के लिए एल्गोरिदम के विकास में सुधार की सड़क में कुछ मुख्य चौकियां हैं। सबसे पहले, अग्रि एल्गोरिथ्म 1993 में अग्रवाल एट अल द्वारा प्रस्तावित किया गया था । समस्या की औपचारिकता के साथ। एल्गोरिथ्म डेटा …

12 bigdata data-mining efficiency state-of-the-art

4

एचपीसी क्लस्टर के साथ काम करना

मेरे विश्वविद्यालय में, हमारे पास एचपीसी कंप्यूटिंग क्लस्टर है। मैं क्लासिफायर और इतने पर प्रशिक्षित करने के लिए क्लस्टर का उपयोग करता हूं। इसलिए, आम तौर पर, क्लस्टर में नौकरी भेजने के लिए, (जैसे अजगर स्किट-लर्न स्क्रिप्ट), मुझे एक बैश स्क्रिप्ट लिखने की ज़रूरत है जिसमें (अन्य के अलावा) एक …

11 bigdata data-mining

3

वैज्ञानिक कंप्यूटिंग के लिए सर्वश्रेष्ठ भाषाएँ [बंद]

बंद हो गया । इस प्रश्न पर अधिक ध्यान देने की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह इस पोस्ट को संपादित करके केवल एक समस्या पर केंद्रित हो । 5 साल पहले …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

कौन सा तेज है: बड़े JSON डेटासेट पर PostgreSQL बनाम MongoDB?

मेरे पास ~ 300 बाइट्स में 9m JSON ऑब्जेक्ट्स के साथ एक बड़ा डेटासेट है। वे एक लिंक एग्रीगेटर से पोस्ट हैं: मूल रूप से लिंक (एक URL, शीर्षक और लेखक आईडी) और टिप्पणियां (पाठ और लेखक आईडी) + मेटाडेटा। वे एक तालिका में बहुत अच्छी तरह से संबंधपरक रिकॉर्ड …

10 data-mining bigdata databases sql mongodb

2

स्केलेबल आउटरीयर / एनोमली डिटेक्शन

मैं Hadoop, Hive, Elastic Search (दूसरों के बीच) का उपयोग करके एक बड़े डेटा इन्फ्रास्ट्रक्चर को सेटअप करने की कोशिश कर रहा हूं, और मैं कुछ डेटासेट पर कुछ एल्गोरिदम चलाना चाहूंगा। मैं चाहूंगा कि एल्गोरिदम स्वयं स्केलेबल हों, इसलिए यह वीका, आर, या यहां तक कि रोडाओप जैसे उपकरणों …

10 data-mining bigdata algorithms outlier

3

नमूना आकार और आयाम के साथ विभिन्न सांख्यिकीय तकनीक (प्रतिगमन, पीसीए, आदि) कैसे पैमाने पर हैं?

क्या सांख्यिकीय तकनीकों की एक सामान्य तालिका है जो बताती है कि वे नमूना आकार और आयाम के साथ कैसे पैमाने पर हैं? उदाहरण के लिए, मेरे एक मित्र ने मुझे दूसरे दिन बताया कि आकार एन के केवल एक आयामी डेटा को त्वरित रूप से छांटने का गणना समय …

10 bigdata statistics efficiency scalability

bigdata पर टैग किए गए जवाब