आसानी से मजबूत डेटा की खोज के लिए सॉफ्टवेयर


20

स्प्रेडशीट तबाही से लड़ने के मेरे प्रयासों में, मैं अक्सर अधिक मजबूत साधनों जैसे कि सच्चे सांख्यिकी सॉफ्टवेयर (आर, स्टाटा, और इसी तरह) को आगे बढ़ाने में इंजील हूं। हाल ही में, मुझे इस दृश्य पर किसी ऐसे व्यक्ति द्वारा चुनौती दी गई थी जिसने फ्लैट से कहा था कि वे बस प्रोग्राम करना नहीं सीखेंगे। मैं उन्हें डेटा विश्लेषण उपकरण प्रदान करना चाहता हूं जिनके लिए कोई प्रोग्रामिंग की आवश्यकता नहीं है (लेकिन आदर्श रूप से जो प्रोग्रामिंग का विस्तार करेगा यदि वे बाद में पैर की अंगुली को पानी में डुबाने का फैसला करते हैं)। डेटा अन्वेषण के लिए कौन से पैकेज हैं जो मैं सीधे चेहरे के साथ सुझा सकता हूं?


5
@ gsk3 - दिलचस्प सवाल। मुझे लगता है कि यह "प्रोग्रामाफोब" जटिल स्प्रेडशीट से निपटने के लिए नहीं है होगा? शायद वह / वह अपनी विचारधारा और स्वयंसेवक के साथ रहना चाहते हैं जो स्वयं स्प्रैडशीट के साथ कड़ी मेहनत करते हैं? :)
प्रायोरिसोलोगिक

@probabilityislogic: "प्रोग्रामैफोब" एक बार समस्या का कारण बनने पर उनसे निपटता है, लेकिन परिणामों से निपटने के लिए उनके पास पूरी तरह से चालें होती हैं। मैंने छोटे विरोधी (बेहतर, कुछ लाभ, क्योंकि वे समाधान की इस शैली पर विचार करने के लिए तैयार हैं) क्लासिक विरोधी स्प्रेडशीट तर्कों की कोशिश की है।
अरी बी। फ्रीडमैन

@ gsk3 - आह हा, इसलिए इसका कार्यक्रम नहीं है जो कि प्रति मुद्दा है, लेकिन यह व्यक्ति अब "विशेषज्ञ" नहीं होगा और नीचे से शुरू करना होगा?
प्रोबेबिलिसलॉजिक

2
@probabilityislog - मुझे लगता है कि डूब लागत मुद्दे का एक बड़ा हिस्सा है, हाँ। उन लागतों में से कुछ नि: संदेह सामाजिक हैं, और उनमें से कुछ समय और दक्षता हानि हैं जबकि वे चीजों को करने का नया तरीका सीखते हैं।
अरी बी। फ्रीडमैन

3
मुझे लगता है कि यह हास्य स्थिति का उचित प्रतिनिधित्व हो सकता है। यदि आप जिस व्यक्ति का उल्लेख कर रहे हैं, वह प्रोग्रामिंग के खिलाफ मृत है, तो यह बहुत मजबूत हो सकता है। स्प्रेडशीट आधारित विश्लेषण की कमियों को इंगित करने के लिए एक बेहतर रणनीति हो सकती है। मान 1 1 दर्ज करने के लिए नई Excel फ़ाइल में उदाहरण के लिए प्रयास करें और11116 और उन्हें (यह एक्सेल 2007 पर काम करता है)। फिर समझाएं कि कोई भी स्वाभिमानी सांख्यिकीय पैकेज बिना किसी चेतावनी के समान गलती प्रदान करेगा और उससे काम करेगा। 114
mpiktas 10

जवाबों:


7

मैं अपने काम के 95% और आर या MATLAB या IDL / PV-WAVE (और जल्द ही एसएएस) के लिए पायथन में कार्यक्रम करता हूं। लेकिन, मैं ऐसे माहौल में हूं जहां समय-समय पर परिणाम अक्सर चुने गए विश्लेषण का एक बहुत बड़ा चालक होता है और इसलिए मैं अक्सर पॉइंट-एंड-क्लिक टूल का भी उपयोग करता हूं। मेरे अनुभव में, एनालिटिक्स करने के लिए कोई एकल, मजबूत, लचीला GUI उपकरण नहीं है, जैसे कि एक भाषा नहीं है। मैं आमतौर पर निम्नलिखित नि: शुल्क और वाणिज्यिक सॉफ्टवेयर का एक साथ संग्रह करता हूं

  • Weka
  • KNIME
  • एक्सेल और उसके प्लगइन्स (सॉल्वर की तरह)
  • Alteryx
  • MVP आँकड़े

मैंने JMP, Stata, Statistica, आदि का उपयोग नहीं किया है, लेकिन करना चाहूंगा।

इन उपकरणों का उपयोग करने में विभिन्न GUI और मॉडलिंग के कई सार सीखना शामिल है, जो उस समय एक दर्द है लेकिन मुझे बाद में तेजी से तदर्थ परिणाम मिलते हैं। मैं ओपी के रूप में एक ही नाव में हूं क्योंकि मैं जिन लोगों के साथ काम करता हूं उनमें से अधिकांश वास्तव में स्मार्ट हैं, वे एक भाषा सीखने की परवाह नहीं करते हैं, न ही कई जीयूआई और एप्लिकेशन विशिष्ट शब्दावली। इसलिए, मैंने खुद को यह स्वीकार करने के लिए इस्तीफा दे दिया है कि एक्सेल व्यापार की दुनिया में 90% विश्लेषण करता है। तदनुसार, मैं pyinex जैसी चीजों का उपयोग करने के लिए देख रहा हूं ताकि मुझे उसी एक्सेल प्रस्तुति परत को बेहतर एनालिटिक्स प्रदान करने की उम्मीद है जो मेरे अधिकांश सहयोगियों को उम्मीद है।

अद्यतन: प्रोग्रामिंग-के साथ प्रोग्रामिंग-लेकिन-मेक-एक्सेल-प्रेजेंटेशन-लेयर थीम को जारी रखते हुए, मैं अभी-अभी एक्सेल कोशिकाओं में एम्बेड करने के लिए टफ्ट-स्टाइल ग्राफिक्स पेश करने वाले इस लड़के की वेबसाइट पर आया था । बस भयानक और मुफ्त!


1
मैं कहूँगा कि JMP काफी अच्छा है। यहां तक ​​कि अगर कोई आर में बहुत कुशल है, तो ऐसे समय होते हैं जब जेएमपी डेटा को नेविगेट करने और विश्लेषण करने का एक तेज़ तरीका है।
इटरेटर

8

जहां तक ​​खोजपूर्ण (संभवतः इंटरैक्टिव) डेटा विश्लेषण का संबंध है, मैं सुझाव देना चाहूंगा:

  • Weka , मूल रूप से डेटा-माइनिंग एप्लिकेशन को लक्षित करता है, लेकिन डेटा सारांश के लिए उपयोग किया जा सकता है।
  • मोंड्रियन , इंटरैक्टिव डेटा विज़ुअलाइज़ेशन के लिए।
  • KNIME , जो डेटा प्रवाह के निर्माण के विचार पर निर्भर है और Weka और R के साथ संगत है।

सभी तीन डेटा को प्रारूप arffया csvप्रारूप में स्वीकार करते हैं ।

मेरे विचार में, स्टैटा को इतनी प्रोग्रामिंग विशेषज्ञता की आवश्यकता नहीं है। यह इसके आकर्षण का एक हिस्सा भी है, वास्तव में: अधिकांश बुनियादी विश्लेषण बिंदु-और-क्लिक उपयोगकर्ता क्रियाओं द्वारा किया जा सकता है, एक विशिष्ट मॉडल में भविष्यवाणी के लिए, विशिष्ट मापदंडों को अनुकूलित करने के लिए संवाद बॉक्स के साथ। यह तब लागू होता है, जब आप @ gsk3 के अनुसार Rcmdr , Deducer आदि जैसे बाहरी GUIs का उपयोग करते हैं, तो R कुछ हद तक ।


स्टाटा के लिए +1। आप पॉइंट-एन-क्लिक के माध्यम से सभी मूल बातें कर सकते हैं, लेकिन यह उस कमांड को भी बाहर निकालता है जो पॉइंट-एन-क्लिक उत्पन्न करता है ताकि आप इसे सीख / संशोधित कर सकें। यह स्प्रेडशीट की तरह है कि आप इसके डेटा के साथ कैसे इंटरफेस करते हैं, हालांकि आप निश्चित रूप से कोशिकाओं में सूत्र नहीं डालते हैं।
वेन

8

कुछ लोग प्रोग्रामिंग के बारे में सोचते हैं कि बस एक कमांड लाइन स्टेटमेंट दर्ज करना है। उस समय तो शायद आप उन्हें प्रोत्साहित करने में थोड़ा खो जाते हैं। हालांकि, यदि वे पहले से ही स्प्रेडशीट का उपयोग कर रहे हैं, तो उन्हें पहले से ही सूत्र दर्ज करना होगा। ये कमांड लाइन स्टेटमेंट के समान हैं। यदि उनका वास्तव में मतलब है कि वे किसी भी प्रोग्रामिंग को तार्किक और स्वचालित विश्लेषण के अर्थ में नहीं करना चाहते हैं, तो आप उन्हें बता सकते हैं कि वे अभी भी बिना किसी प्रोग्रामिंग के आर या स्टैटा में विश्लेषण कर सकते हैं।

यदि वे स्प्रेडशीट में अपने आँकड़े कर सकते हैं ... वह सब जो वे करना चाहते हैं ... तो सभी सांख्यिकीय विश्लेषण जिन्हें वे पूरा करना चाहते हैं, उन्हें आर या स्टैटा में 'प्रोग्रामिंग' के बिना भी किया जा सकता है। वे स्प्रेडशीट में डेटा को व्यवस्थित और व्यवस्थित कर सकते हैं और फिर इसे टेक्स्ट के रूप में निर्यात कर सकते हैं। फिर विश्लेषण बिना किसी प्रोग्रामिंग के किया जाता है।

यही कारण है कि मैं कभी-कभी R को इंट्रो करता हूं। स्प्रेडशीट में आपके द्वारा किए जा सकने वाले डेटा विश्लेषण को करने के लिए किसी प्रोग्रामिंग की आवश्यकता नहीं होती है।

यदि आप उन्हें इस तरह से झुकाते हैं तो बस धीरे-धीरे मछली को रील करें ... :) एक दो साल में उनकी तारीफ करें कि वे कितने अच्छे प्रोग्रामर बन गए हैं।

आप इस दस्तावेज़ को अपने सहयोगियों को भी दिखाना चाहते हैं या कम से कम इसे अपने अंक बेहतर बनाने के लिए स्वयं पढ़ सकते हैं।


1
अच्छे अंक, लेकिन यहां कुछ कैविएट हैं: एक्सेल में टूल युक्तियां हैं जो किसी सेल में एक सूत्र में प्रवेश करते समय पॉप अप करती हैं और इसलिए यह सरल कार्यों को "प्रोग्राम" करना बहुत आसान बनाता है। इसके अलावा, संभावना है कि आपके बगल में मौजूद व्यक्ति आपकी मदद कर सकता है यदि आप बहुत सारे एक्सेल पॉवर उपयोगकर्ता हैं, तो आप अटक सकते हैं। और, एक्सेल स्थापित हो जाता है। R को आज़माने के लिए किसी को समझाने में उनकी मदद करना शामिल है और यह सीखें कि ओपन सोर्स सॉफ़्टवेयर का लाभ कैसे उठाया जाए (और कौन से फ़ोरम में खोजा जाए कि कौन से ओम्पटीन बूटस्ट्रैप पैकेज का उपयोग किया जाना चाहिए, आदि)। प्रोग्रामिंग कुछ मायने में आसान हिस्सा है। इसका पारिस्थितिक तंत्र कठिन हिस्सा है।
जोश हेमन

एक्सेल में भी कोई वास्तविक स्वरूपण मुद्दे नहीं हैं ... आर में कभी-कभी एक पैकेज एक्सटीएस, एक और एक data.frames का उपयोग करता है ... यह एक नौसिखिया के लिए गड़बड़ है, यह सच है
रॉकसाइंस

fRed, मैं मानता हूं कि डेटा स्वरूपण में समस्याएँ हो सकती हैं लेकिन ध्यान रखें कि मेरी प्रतिक्रिया विश्लेषण के रूप में योग्य थी जो पहले से ही स्प्रेडशीट में हो सकती है। यह बहुत अधिक विश्लेषण नहीं है और आम तौर पर एक डेटा प्रारूप के तहत होगा।
जॉन

एक्सेल की तुलना में आर के साथ "प्रोग्रामिंग" में कुछ अधिक ओवरहेड है, और ये ऐसी चीजें हैं जो उपयोगकर्ताओं को पागल करती हैं। यदि R के पास पिवट टेबल में एक शीर्ष पायदान जीयूआई है, हो सकता है। लेकिन तब तक ...
राल्फ विंटर्स

8

मैं JMP के लिए यहाँ एक पिच डालने जा रहा हूँ। मेरे पास कुछ कारण हैं कि यह मेरी पसंद का गैर-प्रोग्रामिंग डेटा एक्सप्लोरेशन टूल क्यों है:

  1. वास्तव में अच्छा दृश्य उपकरण। अधिक बुनियादी ईडीए-प्रकार के भूखंड, यह आर के रूप में अच्छा है, और प्रकाशन-तैयार भूखंड के निकट कुछ का उत्पादन करने के लिए उपयोग करने के लिए काफी आसान है। इसमें कुछ बेहद लचीले विज़ुअलाइज़ेशन टूल भी मिले हैं, जिससे आप पूरी कहानी पाने के लिए अपने डेटा को घुमा और मोड़ सकते हैं।
  2. आश्चर्यजनक रूप से शक्तिशाली। यह मुझे तब तक ले गया जब तक ... 4 साल के स्नातक स्कूल में कुछ खोजने के लिए JMP बॉक्स से बाहर नहीं कर सका। बुरा नहीं है।
  3. लिपि की। यह मेरे लिए बहुत बड़ी बात है। जीयूआई की मुख्य कमजोरी यह है कि आपने जो किया उसे दोहराने में बहुत मुश्किल है। JMP आपको GUI की स्क्रिप्ट करने की अनुमति देता है - और उन स्क्रिप्ट को जेनरेट करना बहुत ही महत्वपूर्ण है और क्लिक करें।

JMP के लिए +1। यह सबसे अच्छा बुनियादी आँकड़े है जो मैंने कभी इस्तेमाल किया है।
ज़ैक

1
सहमत (बिंदु # 1 के साथ अच्छी तरह से)। कुछ मायनों में, यह EDA सामान के लिए R से भी बेहतर है, और इसे अच्छी तरह से पुनरावृत्ति वर्कफ़्लो में डाला जा सकता है। यदि कोई पहले से ही R के बिना काम कर रहा है, तो JMP, R को जोड़े बिना काम करने का एक उचित तरीका है। क्योंकि यह R से लिंक भी कर सकता है, एक R प्रोग्रामर ऐसे टूल्स बना सकता है, जो JMP में प्लग करते हैं, एलोई, इर्र, उपयोगकर्ता को जारी रखने की अनुमति देते हैं यह मानना ​​कि सब कुछ बस बांका है।
इटरेटर

6

मैं डेटा अन्वेषण और विज़ुअलाइज़ेशन के लिए एक अच्छा उपकरण के रूप में झांकी की सिफारिश कर सकता हूं, बस अलग-अलग तरीकों से क्योंकि आप डेटा को एक्सप्लोर कर सकते हैं और देख सकते हैं, बस खींचकर और छोड़ कर। रेखांकन काफी तेज हैं और आप प्रस्तुति उद्देश्यों के लिए आसानी से पीडीएफ में आउटपुट कर सकते हैं। यदि आप चाहें तो आप इसे कुछ "प्रोग्रामिंग" के साथ बढ़ा सकते हैं। मैं नियमित रूप से "आर" और एसएएस के साथ इस उपकरण का उपयोग करता हूं और वे सभी एक साथ अच्छी तरह से काम करते हैं।


3

जैसा कि जॉन ने कहा, डेटा अन्वेषण को आर में बहुत प्रोग्रामिंग की आवश्यकता नहीं है। यहां डेटा अन्वेषण आदेशों की एक सूची है जो आप लोगों को दे सकते हैं। (मैं अभी इसके साथ आया था; आप निश्चित रूप से इसका विस्तार कर सकते हैं।)

जो भी पैकेज है उसमें से डेटा निर्यात करें। (उद्धरण चिह्नों के बिना संख्यात्मक डेटा निर्यात करना सुविधाजनक है।) फिर डेटा को आर में पढ़ें।

ChickWeight=read.csv('chickweight.csv')

एक टेबल बनाओ।

table(ChickWeight$Diet)

R का अनुमान लगाएं कि आपको किस प्रकार का ग्राफिक देना है। यह कभी-कभी बहुत अच्छी तरह से काम करता है।

plot(ChickWeight)
plot(ChickWeight$weight)
plot(ChickWeight$weight~ChickWeight$Diet)

विशिष्ट प्लॉटिंग फ़ंक्शंस का एक गुच्छा एकल चर पर बहुत सरलता से काम करता है।

hist(ChickWeight$weight)

सबसेट ले रहा है

plot(subset(ChickWeight,Diet=='2'))

SQL- जैसे सिंटैक्स लोगों के लिए उपयोग किया जाता है (अधिक यहाँ )

library(sqldf)
plot(sqldf('select * from ChickWeight where Diet == "2"'))

पीसीए (आपको पाठ्यक्रम के दो से अधिक चर होंगे।)

princomp(~ ChickWeight$weight + ChickWeight$Time)

3

यह एक उत्तर से अधिक विलाप है ...

इसके लिए मैंने जो सबसे अच्छा सॉफ्टवेयर देखा है वह आर्क है , जो Xlisp-Stat के ऊपर बनाया गया है। यह इंटरएक्टिव ग्राफिक्स में निर्मित बहुत सारे डेटा के साथ शानदार सॉफ्टवेयर है, साथ ही साथ सांख्यिकीय निष्कर्ष भी बहुत हैं। मेरी राय में लिस्प प्रोग्रामिंग के साथ डेटा एक्सप्लोरेशन और इसे आगे बढ़ाने की क्षमता के लिए इसके उपयोग में आसानी के अलावा और कुछ नहीं आया है। मेरी राय में, आर में अन्तरक्रियाशीलता सिर्फ दस साल बाद आर्क जैसे तरीकों से उपयोग करने में सक्षम होने लगी है। और जहाँ तक मुझे पता है, किसी ने अभी तक इन क्षमताओं का उपयोग एक इंटरैक्टिव इंटरफ़ेस बनाने के लिए नहीं किया है जो आर्क के रूप में कहीं भी उपयोगी है।

दुर्भाग्य से, यह वास्तव में कभी नहीं पकड़ा गया है इसलिए डेवलपर्स ने लगभग सभी आर में काम करने के लिए स्विच किया है; यह पिछली बार 2004 के जुलाई में अपडेट किया गया था। पीसी और लिनक्स / यूनिक्स संस्करण अभी भी काम करते हैं और आपकी जरूरतों के आधार पर एक कोशिश के लायक हो सकते हैं; Macs के लिए सबसे अच्छा विकल्प X11 के तहत लिनक्स / यूनिक्स संस्करण की कोशिश करना है, मैंने इसे इस तरह से एक जोड़े सिस्टम पर काम कर लिया है। साइट पर उल्लिखित मैक संस्करण केवल "क्लासिक" मैक पर काम करता है।

मैं संक्षेप में मोंड्रियन का भी उल्लेख करूँगा , जिसे मैंने केवल संक्षेप में आज़माया है, लेकिन लगता है कि डेटा अन्वेषण के लिए बहुत बढ़िया ग्राफ़िकल इंटरएक्टिविटी है, हालाँकि (जैसा कि मुझे याद है) क्षमताओं का विस्तार करने या सांख्यिकीय निष्कर्ष निकालने का कोई आसान तरीका नहीं है।


आर्क के बारे में नहीं सुना था, लेकिन इसकी जाँच करने जा रहा था। धन्यवाद।
अरी बी। फ्रीडमैन 20

1
(+1) फिर से लिस्प दुनिया से सुनने के लिए अच्छा है। मैं भी xlispstat का प्रशंसक हूं (और सराहना करता हूं कि ल्यूक टियरनी आर प्रोजेक्ट में इतना सक्रिय है)।
CHL

3

एक नया सॉफ्टवेयर सिस्टम जो इस उद्देश्य के लिए आशाजनक दिखता है , आर के ऊपर बनाया गया डेड्यूसर है। दुर्भाग्य से, नया होने के नाते, मुझे संदेह है कि यह अभी तक उन सवालों की चौड़ाई को कवर नहीं करता है जो लोग पूछ सकते हैं, लेकिन यह पैर की अंगुली को पूरा करता है। एक सच्चे पैकेज के लिए अग्रणी लोगों की पानी की कसौटी उन्हें बाद में तय करनी चाहिए।

मैंने अतीत में जेएमपी का भी उपयोग किया है, जिसमें इसकी अच्छी अन्तरक्रियाशीलता थी। मुझे चिंता है कि इन उद्देश्यों के लिए कुछ इंटरफ़ेस बहुत जटिल हो सकता है। और यह गैर-मुक्त है, जो कि संभावित स्प्रेडशीट शरणार्थियों के लिए कठिन प्रयास करता है।


वहाँ खड़खड़ भी है जो कुछ आशाजनक लगता है।


JMP के बारे में - अगर मुझसे गलती नहीं हुई है, तो परीक्षण संस्करण और शैक्षणिक लाइसेंस हैं जो उचित हैं।
इटरेटर

3

पूर्व Google रिफाइन, अब ओपन रिफाइन को किस डेटा में शामिल किया गया है , इसकी खोज के लिए, एक बहुत अच्छा GUI है। यह एक्सेल जैसी किसी चीज़ की तुलना में तैयारी और सफाई के लिए अधिक शक्तिशाली है। फिर अपने विश्लेषण के लिए आर-कमांडर की तरह कुछ पर स्विच करें।


2

कोई भी व्यक्ति जो R का उत्तर देता है, या उसके किसी भी "GUI" ने प्रश्न को नहीं पढ़ा है।

एक कार्यक्रम विशेष रूप से इसके लिए डिज़ाइन किया गया है और इसे JMP कहा जाता है। हां, यह महंगा है, हालांकि इसका नि: शुल्क परीक्षण है, और छात्रों या कॉलेज के कर्मचारियों (जैसे $ 50 सस्ते) के लिए अविश्वसनीय रूप से सस्ता है।

रैपिडमाइनर भी है, जो डेटा माइनिंग और सांख्यिकीय विश्लेषण के लिए वर्कफ़्लो-आधारित जीयूआई है। यह स्वतंत्र और खुला स्रोत है।


1
@ नील ऐसा क्यों है? ओपी निर्दिष्ट "लेकिन आदर्श रूप से जो प्रोग्रामिंग के लिए विस्तारित होगा ..."। R को लगभग सभी कमर्शियल (जैसे, SPSS, JMP, स्टेटिस्टिका) या फ्री (Knime, Rapidminer) सांख्यिकीय सॉफ्टवेयर में प्लग किया गया है और R का उपयोग R के साथ संवाद करने के लिए एक बैकेंड के रूप में किया जा सकता है (जैसे, जेनेटिक अध्ययन के लिए पलक सॉफ्टवेयर के साथ), और यह इस उद्देश्य के लिए उपयोग किया जाता है। JMP का फ्री ट्रायल संस्करण आपको बाहरी डेटासेट के साथ काम नहीं करने देता, क्या मैं गलत हूं? (दिलचस्प बात यह है कि हम सभी में से जिन्होंने R और एक वैकल्पिक सॉफ्टवेयर का उत्तर दिया था , उन्हें डाउनवोट कर दिया गया।)
chl

मुझे R पसंद है और मैं इसके पक्ष में हूं, लेकिन जो लोग आँकड़े / डेटामाइनिंग सीखना चाहते हैं और नहीं जानते कि कैसे प्रोग्राम को वास्तव में इसका उपयोग नहीं किया जा सकता है। और मैंने इसके सभी गाइडों के साथ खेला है और वे jmp की तुलना में सिर्फ भयानक हैं। मैं बस उस दिन का इंतजार कर रहा हूं जब आर को जेपी की तरह एक जीआईआई मिलता है, तो सभी ब्रह्मांड को अच्छी तरह से पा लेंगे।
नील मैकगिगन

-1 सुझाव के लिए कि लोग जवाब देने से पहले सवाल नहीं पढ़ते हैं और कोई वास्तविक तर्क नहीं देते हैं कि आर जेएमपी या रैपिडमाइनर से बदतर क्यों है। ध्यान दें कि सामान्य रूप से मैं सहमत हूं कि आर सब कुछ का जवाब नहीं है, लेकिन यह विषय वास्तव में बहुत स्वादिष्ट होने की क्षमता के साथ थोड़ा विरोधाभासी है। इसलिए पतन।
mpiktas

आर महान है, लेकिन यह आसान नहीं है। यही उन्होंने शीर्षक में मांगा।
नील मैकगिगन

@ नील, हाँ, लेकिन आप तर्क दे सकते हैं कि आसान-अभी तक मजबूत डेटा की खोज जैसी कोई चीज नहीं है।
mpiktas 13

1

खैर, यह विशेष उपकरण मेरे उद्योग में लोकप्रिय है (हालांकि यह डिजाइन द्वारा उद्योग-विशिष्ट नहीं है): http://www.umetrics.com/simca

यह आपको अव्यक्त चर प्रकार बहुभिन्नरूपी विश्लेषण (पीसीए और पीएलएस) करने की अनुमति देता है, और इसमें सभी परिचर व्याख्यात्मक भूखंड / गणना और पूछताछ उपकरण जैसे योगदान भूखंड, चर महत्व के भूखंड, Q2 गणना आदि शामिल हैं।

यह अक्सर उच्च-आयामी (और अक्सर अत्यधिक सहसंबद्ध / संपुटित) औद्योगिक डेटासेट पर उपयोग किया जाता है जहां ओएलएस / एमएलआर प्रकार के तरीके अनुपयुक्त होते हैं (उदाहरण के लिए सेंसर के बोटलोड से जानकारी, लॉग जानकारी आदि)।

यह पूरी तरह से जीयूआई वातावरण में काम करता है, और उपयोगकर्ता को कोड की एक भी पंक्ति लिखने की आवश्यकता नहीं है। दुर्भाग्य से यह मुफ़्त नहीं है, और इसे प्रोग्रामिंग के माध्यम से बढ़ाया नहीं जा सकता है।


1

मेरी राय में, यदि आप अपने आप को परीक्षा में शामिल नहीं करते हैं, तो आप परिणामों की त्रुटियों और गलतफहमी से ग्रस्त हैं।

मुझे लगता है कि आपको उन्हें एक सांख्यिकीविद् को नियुक्त करने की सिफारिश करनी चाहिए जिसमें कंप्यूटर कौशल हो।

यदि यह हमेशा एक ही काम करना है, तो वास्तव में आप एक छोटे टूल (ब्लैकबॉक्स) का उपयोग कर सकते हैं जो सामान करेगा। लेकिन मुझे यकीन नहीं है कि इसे अभी भी डेटा अन्वेषण कहा जाता है।


1
मैं कमोबेश भावुकता से सहमत हूं, लेकिन मुझे नहीं लगता कि यह उच्च विचार कई सेटिंग्स में वास्तव में संभव है।
अरी बी। फ्रीडमैन

1

मैं जॉन फॉक्स के R पैकेज को R कमांडर कहूंगा:

http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/

यह SPSS (या पसंद) के समान उपयोगकर्ता इंटरफ़ेस बनाता है जो शुरुआती लोगों के लिए बहुत अच्छा है और उपयोगकर्ता को किसी भी कोड को इनपुट करने की आवश्यकता नहीं है। यह सब ड्रॉप-डाउन बॉक्स के माध्यम से किया जाता है (आप काम करते समय आर कंसोल को कम से कम भी कर सकते हैं)।

मेरे लिए, इस पैकेज का लाभ यह है कि आप उपयोगकर्ता इंटरफ़ेस के दौरान आर की सभी महान कम्प्यूटेशनल क्षमता का लाभ उठा सकते हैं जो शुरुआती लोगों के लिए पूरी तरह से चालू है।


1

एक और उपयोगी उपकरण, हालांकि सिर्फ विंडोज के लिए, स्पॉटफायर है - मैंने इसे जल्दी से विभिन्न हिस्टोग्राम और एकल और चर के जोड़े के लिए तितर बितर भूखंडों को देखने के लिए काफी उपयोगी पाया। एक शोध उपकरण जो आपको एकल आंकड़ों के साथ-साथ सरल आंकड़ों के आधार पर जोड़े को रैंक करने में मदद करता है - एचसीआईएल से पदानुक्रमिक क्लस्टरिंग एक्सप्लोरर । यह सबसे दिलचस्प चर / चरों के जोड़े को खोजने के लिए अच्छा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.