large-data पर टैग किए गए जवाब

Situations बड़ा डेटा ’उन स्थितियों को संदर्भित करता है जहां टिप्पणियों (डेटा बिंदुओं) की संख्या इतनी बड़ी है कि यह डेटा विश्लेषक के विश्लेषण के बारे में सोचने या संचालित करने के तरीके में बदलाव की आवश्यकता है। ('उच्च आयामीता' के साथ भ्रमित होने की नहीं।)

1
सामान्यता के लिए बड़े डेटासेट का परीक्षण करना - यह कैसे विश्वसनीय है?
मैं अपने डेटासेट के एक हिस्से की जांच कर रहा हूं जिसमें दो समूहों में 1 से 1690 तक के 46840 दोहरे मान हैं। इन समूहों के बीच अंतर का विश्लेषण करने के लिए मैंने सही परीक्षण लेने के लिए मूल्यों के वितरण की जांच करके शुरू किया। सामान्यता के …

4
बिग डेटा के साथ परिकल्पना परीक्षण
आप बड़े आंकड़ों के साथ परिकल्पना परीक्षण कैसे करते हैं? मैंने अपनी उलझन पर ज़ोर देने के लिए निम्नलिखित MATLAB स्क्रिप्ट लिखी। यह सब करता है दो यादृच्छिक श्रृंखला उत्पन्न करता है, और दूसरे पर एक चर का एक सरल रैखिक प्रतिगमन चलाता है। यह विभिन्न यादृच्छिक मूल्यों और रिपोर्ट …

1
मुझे एक मॉडल की तलाश कब बंद करनी है?
मैं ऊर्जा और मौसम के भंडार के बीच एक मॉडल की तलाश कर रहा हूं। मेरे पास यूरोप के देशों के बीच खरीदे गए MWatt की कीमत है, और मौसम पर बहुत सारे मूल्य हैं (ग्रिब फाइलें)। 5 साल (2011-2015) की अवधि पर प्रत्येक घंटे। मूल्य / दिन यह प्रति …

1
आर - ट्यूटोरियल, सर्वोत्तम प्रथाओं, आदि में बड़े डेटा सेट को संभालना
मैं एक आर नॉब हूं, जो आर। में बड़े डेटा सेट पर विभिन्न प्रकार के विश्लेषण करने के लिए आवश्यक है। इसलिए इस साइट और अन्य जगहों पर घूमते समय, यह मुझे दिखाई दिया कि यहां बहुत सारे गूढ़ और कम प्रसिद्ध मुद्दे हैं - जैसे कौन सा पैकेज कब, …
11 r  large-data 

1
क्या बड़े पैमाने पर पीसीए भी संभव है?
प्रिंसिपल कंपोनेंट एनालिसिस '(PCA) क्लासिकल तरीके से इसे इनपुट डेटा मैट्रिक्स पर किया जाता है, जिसमें कॉलम का मतलब शून्य होता है (तब PCA "वेरिएंट को अधिकतम कर सकता है")। इसे स्तंभों को केंद्रित करके आसानी से प्राप्त किया जा सकता है। हॉवेनवर, जब इनपुट मैट्रिक्स विरल होता है, तो …

3
जब बड़ा हो तो नेस्टेड बाइनरी लॉजिस्टिक रिग्रेशन मॉडल की तुलना करना
अपने प्रश्न को बेहतर ढंग से पूछने के लिए, मैंने 16 वेरिएबल मॉडल ( fit) और 17 वेरिएबल मॉडल ( fit2) इन दोनों मॉडलों में से कुछ आउटपुट प्रदान किए हैं (इन मॉडलों में सभी पूर्वानुमान वेरिएबल निरंतर हैं, जहां इन मॉडलों के बीच एकमात्र अंतर यह है कि fitऐसा …

2
क्या यह विश्वास अंतराल की गणना करने और परिकल्पना का परीक्षण करने के लिए समझ में आता है जब पूरी आबादी का डेटा उपलब्ध है?
क्या यह विश्वास अंतराल की गणना करने और परिकल्पना का परीक्षण करने के लिए समझ में आता है जब पूरी आबादी से डेटा उपलब्ध है? मेरी राय में, इसका उत्तर नहीं है, क्योंकि हम मापदंडों के सही मूल्यों की सही गणना कर सकते हैं। लेकिन फिर, मूल आबादी से डेटा …

3
इंटरेक्टिव रूप से बड़ी समय श्रृंखला डेटा कैसे देखें?
मैं अक्सर समय श्रृंखला डेटा के उचित आकार की राशि के साथ सौदा करता हूं, संबद्ध समय टिकटों के साथ 50-200 मिलियन डबल्स और उन्हें गतिशील रूप से कल्पना करना चाहूंगा। क्या प्रभावी रूप से ऐसा करने के लिए मौजूदा सॉफ़्टवेयर है? पुस्तकालयों और डेटा प्रारूपों के बारे में कैसे? …

1
बहुत बड़ी समय-श्रृंखला डेटासेट से निपटना
मेरी पहुंच बहुत बड़े डेटासेट तक है। डेटा चार लोगों में से एक से संगीत अंश सुनने वाले एमईजी रिकॉर्डिंग से है। डेटा इस प्रकार है: 6 विषय 3 प्रायोगिक दोहराव (युग) 120 परीक्षण प्रति युग 275 MEG चैनलों से 500Hz (= 4000 नमूने) पर परीक्षण के अनुसार 8 सेकंड …

3
विशाल डेटासेट से सीखते समय दृष्टिकोण?
मूल रूप से, विशाल डेटासेट के खिलाफ सीखने के दो सामान्य तरीके हैं (जब आप समय / स्थान प्रतिबंधों का सामना करते हैं): धोखा :) - प्रशिक्षण के लिए सिर्फ एक "प्रबंधनीय" सबसेट का उपयोग करें। घटते रिटर्न के कानून की वजह से सटीकता की हानि नगण्य हो सकती है …

1
K- साधन: व्यावहारिक स्थितियों में कितने पुनरावृत्तियों?
मेरे पास डेटा माइनिंग या बड़े डेटा में उद्योग का अनुभव नहीं है इसलिए आपको कुछ अनुभव साझा करने के लिए सुनना अच्छा लगेगा। क्या वास्तव में बड़े डेटासेट पर लोग k- साधन, PAM, CLARA आदि चलाते हैं? या वे सिर्फ बेतरतीब ढंग से इसका एक नमूना निकालते हैं? यदि …

2
उच्च आयामी डेटा सेट के लिए गॉसियन प्रक्रिया प्रतिगमन
बस यह देखना चाहता था कि क्या किसी के पास उच्च आयामी डेटा सेटों में गॉसियन प्रक्रिया प्रतिगमन (जीपीआर) को लागू करने का कोई अनुभव है। मैं विभिन्न विरल जीपीआर विधियों (जैसे विरल छद्म-इनपुट जीपीआर) में से कुछ में देख रहा हूं कि उच्च आयामी डेटा सेट के लिए क्या …

2
स्केलेबल आयाम में कमी
विशेषताओं की संख्या को ध्यान में रखते हुए, बार्न्स-हट टी-एसएनई में एक जटिलता है , यादृच्छिक अनुमानों और पीसीए में की एक जटिलता है जो उन्हें बहुत बड़े डेटा सेटों के लिए "सस्ती" बनाती है।O(nlogn)O(nlog⁡n)O(n\log n)O(n)O(n)O(n) दूसरी ओर, पर निर्भर तरीकों बहुआयामी स्केलिंग एक है जटिलता।O(n2)O(n2)O(n^2) क्या अन्य आयाम में …

6
कौन सी मशीन लर्निंग एल्गोरिदम को हडूप / मैप-कम का उपयोग करके बढ़ाया जा सकता है
स्केलेबल मशीन लर्निंग एल्गोरिदम इन दिनों चर्चा की तरह लग रहे हैं। हर कंपनी बड़े डेटा की कमी नहीं कर रही है । क्या कोई पाठ्यपुस्तक है जो इस बात पर चर्चा करती है कि मैप-रिड्यूस जैसे समानांतर आर्किटेक्चर का उपयोग करके किस मशीन लर्निंग एल्गोरिदम को स्केल किया जा …

2
मिश्रित मॉडल के लिए पैरामीट्रिक, सेमीपैरेट्रिक और नॉनपैमेट्रिक बूटस्ट्रैपिंग
निम्नलिखित आलेख इस लेख से लिए गए हैं । मैं बूटस्ट्रैप करने के लिए नौसिखिया हूं और R bootपैकेज के साथ रैखिक मिश्रित मॉडल के लिए पैरामीट्रिक, सेमीपैरेट्रिक और नॉनपैमेट्रिक बूटस्ट्रैपिंग बूटस्ट्रैपिंग को लागू करने की कोशिश कर रहा हूं । आर कोड यहाँ मेरा Rकोड है: library(SASmixed) library(lme4) library(boot) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.