क्या आप में से कुछ लोग अपने सांख्यिकीय कार्य को दूसरों के साथ संचालित करने और साझा करने के लिए Google डॉक्स स्प्रेडशीट का उपयोग करते हैं?


15

मुझे पता है कि आपमें से ज्यादातर को लगता है कि Google डॉक्स अभी भी एक आदिम उपकरण है। यह कोई मटलब या आर नहीं है और एक्सेल भी नहीं है। फिर भी, मैं इस वेब आधारित सॉफ्टवेयर की शक्ति पर चकित हूं जो केवल एक ब्राउज़र की ऑपरेटिंग क्षमता का उपयोग करता है (और कई ब्राउज़रों के साथ संगत है जो बहुत अलग तरीके से काम करते हैं)।

इस फोरम में सक्रिय माइक लॉरेंस ने हमारे साथ एक स्प्रेडशीट साझा की है, जिसमें Google डॉक्स का उपयोग करते हुए इसके साथ कुछ शानदार फैंसी चीजें कर रहे हैं। मैंने व्यक्तिगत रूप से एक पूरी तरह से परिकल्पना परीक्षण रूपरेखा (जिसमें कई पैरामीट्रिक और नॉनपरमेट्रिक परीक्षण शामिल हैं) को मूल रूप से Google डॉक्स में एक्सेल में दोहराया है।

मुझे दिलचस्पी है अगर आप में से किसी ने Google डॉक्स को एक कोशिश दी है और इसे दिलचस्प अनुप्रयोगों में अपनी सीमा तक धकेल दिया है। मुझे Google डॉक्स के साथ आपके द्वारा सामना किए गए बग या दोषों के बारे में सुनने में दिलचस्पी है

मैं इस प्रश्न को "कम्युनिटी विकी के लिए" डिजाइन कर रहा हूं, जिसमें कहा गया है कि इसके लिए कोई सर्वश्रेष्ठ उत्तर नहीं हैं। यह किसी भी चीज की तुलना में अधिक सर्वेक्षण है।


क्या आप दिए गए स्प्रेडशीट माइक लॉरेंस से लिंक कर सकते हैं?
एंडी डब्ल्यू


1
Google डॉक्स, जब औपचारिक रूप से परीक्षण किया जाता है, तो अधिकांश सांख्यिकीय गणनाओं पर बुरी तरह से प्रदर्शन किया जाता है (जब यह उन्हें बिल्कुल कर सकता था)। देखें केल्ली बी कीलिंग और रॉबर्ट जे Pavur (2011): स्प्रेडशीट सॉफ़्टवेयर का सांख्यिकीय शुद्धता, अमेरिकी सांख्यिकीविद्, 65: 4, 265-273
whuber

जवाबों:


12

Google स्प्रैडशीट के लिए मेरा मुख्य उपयोग Google रूपों के साथ, डेटा एकत्र करने के लिए, और फिर आसानी से इसे आर में आयात करना है। यहाँ एक पोस्ट है जो मैंने इसके बारे में एक साल पहले लिखी थी:

Google स्प्रैडशीट + Google फ़ॉर्म + R = विश्लेषण के लिए आसानी से डेटा एकत्र करना और आयात करना

इसके अलावा, यदि आप सहयोग में हैं, तो मेरी पसंद का उपकरण ड्रॉपबॉक्स है। मैंने कुछ महीने पहले इसके बारे में एक पोस्ट लिखी थी:

ड्रॉपबॉक्स का उपयोग कर कंप्यूटर पर फ़ाइलों को सिंक करना

मैं अब 5 सह-लेखकों के साथ एक परियोजना पर लगभग आधे साल से इसका उपयोग कर रहा हूं, और यह अमूल्य है (3 योगदानकर्ताओं से डेटा फ़ाइलों को सिंक्रनाइज़ करना, हर कोई मेरे द्वारा उत्पादित आउटपुट का नवीनतम संस्करण देख सकता है, और हर कोई देख रहा है लेख के लिए एक ही .docx फ़ाइल पर)।

दोनों पोस्ट वीडियो ट्यूटोरियल और मौखिक निर्देश प्रदान करते हैं।


आपकी प्रतिक्रिया के लिए धन्यवाद। यह ठीक उसी प्रकार की टिप्पणी है जिसमें मेरी दिलचस्पी थी। आपने Google डॉक्स के साझाकरण और आयात घटक का वास्तव में लाभ उठाया है। आपके लिए अच्छा हैं। मैं इसके बारे में अधिक जानने के लिए आपकी सामग्री पढ़ूंगा।
सिम्पा

प्रिय गीतन, मैं आपकी प्रतिक्रिया से प्रसन्न हूँ - इस तरह के शब्दों के लिए धन्यवाद। सर्वश्रेष्ठ, ताल।
ताल गलिली

19

R, bash, Python, asciidoc, (La) TeX, खुला स्रोत sofwtare या किसी भी un * x टूल के उत्साही उपयोगकर्ता के रूप में, मैं एक ऑब्जेक्टिव उत्तर नहीं दे सकता। इसके अलावा, जैसा कि मैं अक्सर एमएस एक्सेल या किसी भी प्रकार के स्प्रेडशीट के उपयोग के खिलाफ तर्क देता हूं (ठीक है, आप अपना डेटा, या इसका हिस्सा देखते हैं, लेकिन और क्या?), मैं बहस में सकारात्मक योगदान नहीं करूंगा। मैं केवल एक ही नहीं हूँ, उदाहरण के लिए

मेरा एक सहकर्मी पिछड़े अनुकूलता की कमी के कारण अपने सभी मैक्रोज़ ढीले कर देता है, आदि एक अन्य सहयोगी ने आनुवांशिकी डेटा (लगभग 700 विषय 800,000 मार्कर, 120 मो) पर जीनोटाइप किए गए, बस "उन्हें देखने के लिए" आयात करने की कोशिश की। एक्सेल विफल रहा, नोटपैड ने भी हार मान ली ... मैं vi के साथ "उन्हें देखने" में सक्षम हूं, और जल्दी से कुछ sed / awk या perl स्क्रिप्ट के साथ डेटा को पुन: स्वरूपित कर रहा हूं। इसलिए मुझे लगता है कि स्प्रेडशीट की उपयोगिता के बारे में चर्चा करने के लिए अलग-अलग स्तर हैं। या तो आप छोटे डेटा सेट पर काम करते हैं, और केवल प्राथमिक सांख्यिकीय सामान लागू करना चाहते हैं और शायद यह ठीक है। फिर, परिणामों पर भरोसा करना आपके ऊपर है, या आप हमेशा स्रोत कोड के लिए पूछ सकते हैं, लेकिन शायद NIST बेंचमार्क के साथ सभी इनलाइन प्रक्रियाओं का त्वरित परीक्षण करना सरल होगा। मुझे नहीं लगता कि यह आंकड़ों को करने के एक अच्छे तरीके से मेल खाता है क्योंकि यह एक सच्चा सांख्यिकीय सॉफ्टवेयर (IMHO) नहीं है, हालाँकि उपरोक्त सूची के अपडेट के रूप में, एमएस एक्सेल के नए संस्करणों ने इसकी सटीकता में सुधार के लिए प्रदर्शन किया है। सांख्यिकीय विश्लेषण, कीलिंग और पावुर देखें, नौ सांख्यिकीय सॉफ्टवेयर पैकेजों की विश्वसनीयता का एक तुलनात्मक अध्ययन ( CSDA 2007 51: 3811)।

फिर भी, 10 या 20 में से एक पेपर (बायोमेडिसिन, मनोविज्ञान, मनोचिकित्सा में) में एक्सेल के साथ बनाए गए ग्राफिक्स शामिल हैं, कभी-कभी ग्रे बैकग्राउंड, क्षैतिज काली रेखा या स्वचालित कथा (एंड्रयू गेलमैन और हैडली विकम को हटाए बिना) निश्चित रूप से खुश होते हैं। मुझे यह देखते हुए)। लेकिन आम तौर पर, यह फ्लोइंगडाटा के हालिया सर्वेक्षण के अनुसार सबसे अधिक इस्तेमाल किया जाने वाला "सॉफ्टवेयर" है , जो मुझे ब्रायन रिप्ले (जो एमएएस आर पैकेज का सह-लेखक था, और पैटर्न मान्यता पर एक उत्कृष्ट पुस्तक लिखता है) की एक पुरानी बात याद दिलाता है। , दूसरों के बीच में):

चलो अपने आप को बच्चा नहीं बनाते हैं: आंकड़ों के लिए सबसे व्यापक रूप से उपयोग किए जाने वाला टुकड़ा एक्सेल (बी डी रिप्ले जन दे लीव के माध्यम से), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

अब, यदि आपको लगता है कि यह आपको अपने आँकड़े प्राप्त करने का एक त्वरित और आसान तरीका प्रदान करता है, तो क्यों नहीं? समस्या यह है कि ऐसे वातावरण में अभी भी चीजें हैं (या कम से कम, यह मुश्किल है) नहीं किया जा सकता है। मुझे लगता है कि बूटस्ट्रैप, क्रमपरिवर्तन, बहुभिन्नरूपी खोज डेटा विश्लेषण, कुछ नाम करने के लिए। जब तक आप VBA (जो कि न तो स्क्रिप्टिंग है और न ही प्रोग्रामिंग लैंग्वेज है) में बहुत निपुण हैं, तो मुझे लगता है कि डेटा पर मामूली ऑपरेशन भी आर (या मैटलैब, या पायथन) के तहत बेहतर तरीके से संभाले जाते हैं, बशर्ते आपको डील करने के लिए सही टूल मिल जाए। उदाहरण के लिए तथाकथित डेटा.फ्रेम)। इन सबसे ऊपर, मुझे लगता है कि एक्सेल डेटा विश्लेषक के लिए बहुत अच्छी प्रथाओं को बढ़ावा नहीं देता है (लेकिन यह किसी "क्लिकोड्रोम" पर भी लागू होता है, डेटा प्रोसेसिंग का रिकॉर्ड बनाए रखने की आवश्यकता के बारे में मेडस्टैट्स पर चर्चा देखें,डॉक्यूमेंटिंग एनालिसिस और डेटा एडिट्स ), और मुझे यह पोस्ट प्रैक्टिकल स्टैट्स पर अपेक्षाकृत कुछ एक्सेल कमियों के बारे में पता चला। फिर भी, यह एक्सेल पर लागू होता है, मुझे नहीं पता कि यह GDocs में कैसे अनुवाद करता है।

अपने काम को साझा करने के बारे में, मुझे लगता है कि गितुब (या स्रोत कोड के लिए जिस्ट ) या ड्रॉपबॉक्स (हालांकि ईयूएलए कुछ लोगों को हतोत्साहित कर सकता है) बहुत अच्छे विकल्प हैं (संशोधन इतिहास, अनुदान प्रबंधन यदि आवश्यक हो, आदि)। मैं एक सॉफ्टवेयर के उपयोग को प्रोत्साहित नहीं कर सकता हूं जो मूल रूप से आपके डेटा को द्विआधारी प्रारूप में संग्रहीत करता है। मुझे पता है कि इसे R, मतलाब, स्टाटा, SPSS में आयात किया जा सकता है, लेकिन मेरी राय में:

  • डेटा निश्चित रूप से एक पाठ प्रारूप में होना चाहिए, जिसे किसी अन्य सांख्यिकीय सॉफ़्टवेयर द्वारा पढ़ा जा सकता है;
  • विश्लेषण प्रतिलिपि प्रस्तुत करने योग्य होना चाहिए, जिसका अर्थ है कि आपको अपने विश्लेषण के लिए एक पूरी स्क्रिप्ट प्रदान करनी चाहिए और इसे किसी भी समय किसी अन्य ऑपरेटिंग सिस्टम पर (हम पास के आदर्श मामले को पास करना चाहिए);
  • अपने स्वयं के सांख्यिकीय सॉफ़्टवेयर को स्वीकृत एल्गोरिदम को लागू करना चाहिए और सांख्यिकीय मॉडलिंग में वर्तमान सर्वोत्तम प्रथाओं को प्रतिबिंबित करने के लिए इसे अपडेट करने का एक आसान तरीका होना चाहिए;
  • आपके द्वारा चुनी गई साझाकरण प्रणाली में संस्करण और सहयोगी सुविधाएं शामिल होनी चाहिए।

बस।


@ गैटन ने मेरी प्रतिक्रिया के अलावा, मैंने अपना +1 प्रश्न दिया क्योंकि मुझे लगता है कि यह सांख्यिकीय अभ्यास और परियोजना प्रबंधन के बारे में बहस करने के लिए बहुत प्रासंगिक है।
chl

चढ़ाव के लिए एक टिप्पणी की बहुत सराहना की जाएगी।
chl

@chl: हालाँकि मैंने इस जवाब को गलत नहीं ठहराया, लेकिन मुझे लगता है कि मैं समझता हूँ कि कोई इसे क्यों नहीं करेगा। आपके द्वारा प्रदान की गई जानकारी सही है, बहुत ही महत्वपूर्ण और सोचने योग्य है। अब, इसमें से अधिकांश (पिछले दो पैराग्राफ को छोड़कर) सवाल का जवाब नहीं देते हैं। आदर्श रूप से, कोई अन्य इस बड़े अस्वीकरण को लिखेगा और उसे एक लिंक देगा।
बोरिस गोरेलिक

@chl: मैंने अपनी टिप्पणी में जो कुछ भी कहा है, उसके बावजूद मुझे आपका जवाब पसंद है और इसे वोट दें
बोरिस गोरेलिक

@bgbg आपकी टिप्पणी के लिए धन्यवाद। शायद मैं सीडब्ल्यू के सवाल का जवाब नहीं दिया। हालांकि, मैंने कभी भी शुद्ध रूप से उत्तेजक जवाब देने का इरादा नहीं किया। ओपी ने GDocs में संभावित "बग और खामियों" के बारे में पूछा: मैं एक्सेल से जो कुछ भी जानता हूं, उसके बारे में दृष्टांत प्रदान करता हूं, इस तथ्य को स्वीकार करते हुए कि मुझे नहीं पता कि यह GDocs में कैसे अनुवाद करेगा। मैं इस सवाल का एक हिस्सा भी समझता हूं कि "डेटा विश्लेषण के लिए GDocs का उपयोग करने के क्या लाभ हैं", और मैंने सिर्फ बड़े पैमाने पर परियोजनाओं के लिए स्प्रेडशीट के उपयोग के खिलाफ कुछ तर्क दिए, या रक्तस्राव के किनारे विश्लेषण (फिर भी, मैंने स्वीकार किया) शुरुआत है कि यह पक्षपाती होगा)।
chl

10

"मुझे Google डॉक्स के साथ आपके द्वारा सामना किए गए बग या दोषों के बारे में सुनने में दिलचस्पी है।"

मैं केवल मूल प्रश्न के उस भाग का उत्तर दूंगा। Google डॉक्स स्प्रेडशीट (GSheets) के साथ मेरी खोज गणितीय और सांख्यिकीय कार्यों से संबंधित रही है। अंत में मेरा आकलन यह है कि Google स्प्रेडशीट 2012 में 1997 के दुर्भावनापूर्ण एक्सेल के मुकाबले बहुत हीन है।

गवाह: Google शीट स्पष्ट रूप से erfc (x) = 1-erf (x) का उपयोग करते हुए तर्क के लिए erfc (x) का मूल्यांकन करती है, जिसके लिए erf (x) करीब है 1. वे एक मानक विचलन या वर्गों के औसत के माध्यम से विचरण का मूल्यांकन करते हैं माइनस वर्ग औसत का; यह खराब संख्यात्मक अभ्यास है। संयुक्त कार्यों और असतत संभावनाओं जैसे कि पॉइसन (n, x) = पाउ (x, n) * exp (-x) / n! फैक्टर-बाय-फैक्टर का मूल्यांकन किया जाता है, जिससे अनावश्यक अतिप्रवाह होता है। स्टर्लिंग के अनुमानित कारक-दर-कारक का उपयोग करके फैक्टरियल का मूल्यांकन किया जाता है, जिससे आगे अनावश्यक अतिप्रवाह होता है। संचयी पॉइज़न वितरण का मूल्यांकन केवल परिमित राशि के द्वारा किया जाता है, इसलिए सामान्यीकरण गुण राउंड-ऑफ में खो जाता है; संचयी द्विपद वितरण के लिए भी यही सच है। संचयी सामान्य वितरण पूरी तरह से गड़बड़ है; यह [0,1] सीमा के बाहर जाता है। अन्य पैकेजों में समान कार्यों के कार्यान्वयन के सापेक्ष सटीकता का एक सामान्य नुकसान है। गोलाई जैसे प्राथमिक कार्यों का वर्णन अक्सर गरबा और अनजाने में किया जाता है; व्याख्या एक अनुमान लगाने का खेल है।

मैंने Google डॉक्स उत्पाद फ़ोरम पर पोस्टिंग के दो सेटों में इन मुद्दों को प्रलेखित किया है:

(2011-11-13 और बाद में) मानदंड नकारात्मक मूल्य फेंकता है अभी भी https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 और बाद में) त्रुटि और GSheets में सांख्यिकीय और गणितीय कार्यों के साथ अन्य मुद्दे https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/


1
(+1) दूसरे शब्दों में, यह स्पष्ट प्रतीत होता है कि Google के कई ( कई! ) सांख्यिकीविद् इस परियोजना में शामिल नहीं हैं।
कार्डिनल

Google डॉक्स का एकमात्र हिस्सा मैं उपयोग कर रहा हूं, जो कि वास्तविक समय में सहयोगात्मक रूप से संपादन करते समय बहुत उपयोगी है । मुझे नहीं लगता कि git और मित्र उस समस्या को हल करते हैं!
kjetil b halvorsen
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.