डेटा साइंस data-cleaning

6

मैं इसे गोपनीय बनाने के लिए सेट किए गए गोपनीय डेटा में नाम कैसे बदल सकता हूं, लेकिन नामों की कुछ विशेषताओं को संरक्षित कर सकता हूं?

प्रेरणा मैं ऐसे डेटासेट के साथ काम करता हूं जिसमें व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई) होती है और कभी-कभी किसी तीसरे पक्ष के साथ एक डेटासेट का हिस्सा साझा करने की आवश्यकता होती है, इस तरह से कि पीआईआई को उजागर नहीं करता है और मेरे नियोक्ता को …

42 data-cleaning anonymization

7

डेटा को साफ़ करने के लिए संगठित प्रक्रियाएँ

R का उपयोग करके डेटा साइंस के साथ मेरी सीमित डबलिंग से, मुझे एहसास हुआ कि खराब डेटा को साफ करना विश्लेषण के लिए डेटा तैयार करने का एक बहुत महत्वपूर्ण हिस्सा है। क्या इसे संसाधित करने से पहले डेटा को साफ करने के लिए कोई सर्वोत्तम अभ्यास या प्रक्रियाएं …

34 r data-cleaning

1

स्केगन ग्रैडिएंटबॉस्टिंग क्लैसिफायर की तुलना में एक्सगबोस्ट इतना तेज क्यों है?

मैं 100 न्यूमेरिक फीचर्स के साथ 50k उदाहरणों पर एक ढाल बढ़ाने वाले मॉडल को प्रशिक्षित करने की कोशिश कर रहा हूं। XGBClassifierमेरी मशीन पर 43 सेकंड के भीतर 500 पेड़ लगाता है, जबकि GradientBoostingClassifier1 मिनट और 2 सेकंड में केवल 10 पेड़ (!) को संभालता है :( मैंने 500 …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

वाक्य से मुख्य पाठ निकालने के लिए सामान्य दृष्टिकोण (nlp)

जैसे एक वाक्य दिया: Complimentary gym access for two for the length of stay ($12 value per person per day) जिम या जिम एक्सेस शब्द की पहचान के लिए मैं क्या सामान्य दृष्टिकोण अपना सकता हूं?

27 machine-learning nlp text-mining data-cleaning

4

मेटा-डेटा के साथ टेक्स्ट डॉक्यूमेंट्स एनोटेट कैसे करें?

बहुत सारे पाठ दस्तावेज़ (प्राकृतिक भाषा में, असंरचित) होने के बाद, उन्हें कुछ शब्दार्थ मेटा-डेटा के साथ एनोटेट करने के संभावित तरीके क्या हैं? उदाहरण के लिए, एक छोटे दस्तावेज़ पर विचार करें: I saw the company's manager last day. इससे जानकारी निकालने में सक्षम होने के लिए, इसे कम …

18 nlp metadata data-cleaning text-mining

3

क्या पायथन / पंडों के लिए R tidyr टूल के समान कोई डेटा टिडिंग टूल है?

मैं एक कागले चुनौती पर काम कर रहा हूं जहां कुछ चर स्तंभों के बजाय पंक्तियों द्वारा दर्शाए जाते हैं (टेल्स्ट्रा नेटवर्क व्यवधान)। मैं वर्तमान में इकट्ठा (), अलग () और प्रसार () के बराबर की खोज कर रहा हूं, जो आर टिडियर टूल में पाया जा सकता है।

18 r python dataset data-cleaning pandas

1

दिए गए पाठ में एक निश्चित चरित्र के बाद तार को हटा देना

मेरे पास नीचे की तरह एक डाटासेट है। मैं चरित्र के बाद सभी पात्रों को हटाना चाहता हूं ©। आर में मैं कैसे कर सकता हूं? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)

15 r data-cleaning

4

कैसे करें डाक का पता फ़ज़ी मैचिंग?

मैं यह जानना चाहूंगा कि डाक के पतों का मिलान कैसे किया जाए जब उनका प्रारूप अलग-अलग हो या जब उनमें से एक गलत लिखा हो। अब तक मैंने अलग-अलग समाधान पाए हैं लेकिन मुझे लगता है कि वे काफी पुराने हैं और बहुत कुशल नहीं हैं। मुझे यकीन है …

14 text-mining data-cleaning

5

क्या आधुनिक आर और / या पायथन लाइब्रेरी SQL को अप्रचलित बनाते हैं?

मैं एक ऐसे कार्यालय में काम करता हूँ जहाँ SQL सर्वर डेटा प्रोसेसिंग से लेकर सफाई तक की हर चीज़ की रीढ़ है। मेरे सहकर्मी आने वाले डेटा को व्यवस्थित रूप से संसाधित करने के लिए जटिल कार्यों और संग्रहीत प्रक्रियाओं को लिखने में माहिर हैं ताकि इसे मानकीकृत किया …

14 python r data-cleaning data sql

1

टाइमस्टैम्प डेटाटाइप के लिए int का एक पांडा कॉलम बदलें

मेरे पास एक डेटाफ्रेम है जिसमें अन्य चीजों के अलावा, 1970-1-1 के बाद से मिली मिलीसेकंड की संख्या का एक कॉलम शामिल है। मुझे इनस्टेट्स के इन कॉलम को टाइमस्टैम्प डेटा में बदलने की आवश्यकता है, इसलिए मैं आखिरकार इसे टाइमस्टैम्प कॉलम श्रृंखला में एक श्रृंखला में जोड़कर डेटाटाइम के …

13 python time-series data-cleaning pandas

3

क्या अजगर के लिए कोई अच्छा आउट-ऑफ-द-बॉक्स भाषा मॉडल है?

मैं एक एप्लिकेशन का प्रोटोटाइप बना रहा हूं और मुझे कुछ उत्पन्न वाक्यों के प्रति एकरूपता की गणना करने के लिए एक भाषा मॉडल की आवश्यकता है। क्या अजगर में कोई प्रशिक्षित भाषा मॉडल है जिसका मैं आसानी से उपयोग कर सकता हूं? जैसे कुछ सरल model = LanguageModel('en') p1 …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

मेरे मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए कितना डेटा पर्याप्त है?

मैं थोड़ी देर के लिए मशीन लर्निंग और बायोइनफॉरमैटिक्स पर काम कर रहा हूं, और आज मैंने एक सहकर्मी के साथ डेटा माइनिंग के मुख्य मुद्दों के बारे में बातचीत की। मेरे सहकर्मी (जो एक मशीन लर्निंग विशेषज्ञ हैं) ने कहा कि, उनकी राय में, मशीन लर्निंग का सबसे महत्वपूर्ण …

11 machine-learning data-mining dataset data-cleaning data

3

वैज्ञानिक कंप्यूटिंग के लिए सर्वश्रेष्ठ भाषाएँ [बंद]

बंद हो गया । इस प्रश्न पर अधिक ध्यान देने की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह इस पोस्ट को संपादित करके केवल एक समस्या पर केंद्रित हो । 5 साल पहले …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

2

पांडा डेटाफ़्रेम में पंक्तियों पर पुनरावृति करके नए कॉलम बनाना

मेरे पास इस तरह एक पांडा डेटा फ्रेम (X11) है: वास्तविक में मेरे पास dx99 तक 99 कॉलम हैं dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 …

10 python data-cleaning pandas anaconda

data-cleaning पर टैग किए गए जवाब