अल्पविराम से अलग किए गए मान (CSV) फ़ाइलों के संपादन की रणनीति


18

जब मैं डेटा विश्लेषण परियोजनाओं पर काम करता हूं तो मैं अक्सर कॉमा या टैब-सीमांकित (सीएसवी, टीएसवी) डेटा फ़ाइलों में डेटा संग्रहीत करता हूं। जबकि डेटा अक्सर एक समर्पित डेटाबेस प्रबंधन प्रणाली में होता है। मेरे कई अनुप्रयोगों के लिए, यह बहुत अधिक चीजें होंगी।

मैं एक्सेल में CSV और TSV फ़ाइलों को संपादित कर सकता हूं (या संभवतः एक और स्प्रेडशीट प्रोग्राम)। इसके लाभ हैं:

  • स्प्रेडशीट से डेटा दर्ज करना आसान हो जाता है

कई समस्याएं भी हैं:

  • CSV और TSV फ़ाइलों के साथ काम करने से विभिन्न संदेशों के गुम होने की चेतावनी संदेश की एक विस्तृत श्रृंखला हो जाती है और केवल सक्रिय शीट को कैसे बचाया जाएगा और इसके आगे क्या होगा। इस प्रकार, यदि आप केवल फ़ाइल खोलना चाहते हैं और थोड़ा बदलाव करना चाहते हैं तो यह कष्टप्रद है।
  • यह कई "कथित रूप से बुद्धिमान" रूपांतरण करता है। उदाहरण के लिए, यदि आप 12/3 दर्ज करते हैं, तो यह सोचेगा कि आप एक तिथि दर्ज करना चाहते हैं। अद्यतन: मैंने उल्लेख किया है कि तारीख का उदाहरण कई उदाहरणों में से एक है; अधिकांश समस्याएं अनुचित रूपांतरण से संबंधित लगती हैं। विशेष रूप से, टेक्स्ट फ़ील्ड जो संख्याओं या तिथियों की तरह दिखती हैं, समस्याओं का कारण बनती हैं।

वैकल्पिक रूप से, मैं एक मानक पाठ संपादक में पाठ फ़ाइल के साथ सीधे काम कर सकता था। यह सुनिश्चित करता है कि मैं जो दर्ज करता हूं वह दर्ज है। हालाँकि, यह डेटा दर्ज करने का एक बहुत ही अजीब तरीका है (कॉलम अप लाइन नहीं है; यह डेटा को केवल एक से अधिक टूल में दर्ज करना मुश्किल है।))।

सवाल

  • CSV या TSV डेटा फ़ाइलों के साथ काम करने के लिए एक अच्छी रणनीति क्या है? यानी, यह सुनिश्चित करने के लिए कि आप क्या दर्ज करते हैं, वास्तव में सही ढंग से व्याख्या की गई है, जबकि किस रणनीति ने डेटा दर्ज करना और हेरफेर करना आसान बना दिया है?

1
आप वास्तव में फाइलों पर किस तरह के ऑपरेशन करते हैं? मेरे दिमाग में, वह नाटकीय रूप से स्वीकार्य विकल्पों की सीमा को प्रभावित करता है। इसके अलावा, यह मुझे लगता है कि आप एक वर्ड प्रोसेसर में टीएसवी डेटा को संपादित कर सकते हैं और कॉलम को संरक्षित करने के लिए टैब को लाइन में लगा सकते हैं - जब तक कि आपके वर्ड प्रोसेसर को "स्मार्ट" रूपांतरण न करने के लिए सेट किया जा सकता है और प्लेनटेक्स्ट के रूप में सहेज सकता है, जो कई कर सकते हैं ।
वेन

@Wayne अच्छा बिंदु। क्योंकि मैं स्प्रेडशीट कार्यक्रमों के साथ बड़ा हुआ हूं, ऐसे कई शॉर्टकट हैं जिनसे मैं परिचित हूं (फ़ंक्शंस, कॉपी और पेस्ट, एक अतिरिक्त कॉलम जोड़ना, और बहुत कुछ)। ध्यान दें, मैं यहां डेटा विश्लेषण के बारे में बात नहीं कर रहा हूं, लेकिन सिर्फ एक साधारण सारणीबद्ध डेटा फ़ाइल बना रहा हूं (उदाहरण के लिए, मेरे कोड को संसाधित करने के लिए आवश्यक कुछ मेटा जानकारी)। जबकि मैं आर में इन सभी बुनियादी तालिका जोड़तोड़ कर सकता था, यह मेरे लिए बिल्कुल सहज नहीं है। शायद समय के साथ, आर में एक सीएसवी खोलना, कुछ छोटे बदलाव करना और इसे फिर से सहेजना मेरा पसंदीदा विकल्प बन जाएगा।
जेरोमे एंग्लीम

जवाबों:


14
  1. यदि आप R के साथ सहज हैं, तो आप अपना मूल data.frame बना सकते हैं और फिर उस पर इनपुट डेटा के लिए फिक्स () फ़ंक्शन का उपयोग कर सकते हैं। # 5 के समान लाइन के साथ, एक बार जब आप डेटा सेट करते हैं। आप अपने डेटा को प्राप्त करने, उसे मान्य करने और अगले को जोड़ने का अवसर प्रदान करने के लिए रीडलाइन (n = 1) (या जो भी) की एक श्रृंखला का उपयोग कर सकते हैं। पंक्ति। फिर फिक्सिंग () को फिक्सिंग छोड़ दें। स्कैन का उपयोग करके नीचे एक कार्यान्वित उदाहरण देखें ()।

  2. एक्सेल में एक और विकल्प गड़बड़ होगा, लेकिन आप 12/9 में टाइप कर सकते हैं, फिर एक और कॉलम मूल्यांकन = IFERROR (MONTH (DateEntryCell) / DAY (DataEntryCell), DataEntryfell) करें। लेकिन फिर आपको एक्सेल शीट और सीएसवी शीट को बनाए रखना होगा और आप सभी की शिकायत को लिखेंगे क्योंकि आप सीएसवी लिखेंगे।

  3. वैकल्पिक रूप से, जब तक आपके क्षेत्र अपेक्षाकृत कम हैं और एक सुसंगत लंबाई है एक नियमित पाठ संपादक को आपको TSV के साथ अच्छी तरह से सेवा करनी चाहिए। आप हमेशा इसे एक्सेल में लोड कर सकते हैं जब आप कर रहे हैं और सुनिश्चित करें कि प्रत्येक पंक्ति के लिए कॉलम की संख्या वही है जो आप इसे होने की उम्मीद करते हैं।
  4. Emacs कई प्लेटफार्मों पर उपलब्ध है और शायद इसके लिए कुछ है, जैसे http://www.emacswiki.org/emacs/CsvMode
  5. यदि आप एक हार्दिक आत्मा हैं, तो प्रोग्रामिंग भाषा में त्वरित रूप से कुछ करना, डेटा प्रविष्टि तुच्छ है, डेटा संपादन बहुत कठिन होगा।
  6. एक त्वरित Google खोज केवल इस उद्देश्य के साथ सॉफ़्टवेयर दिखाता है, लेकिन कोई भी मुफ्त सॉफ़्टवेयर किसी भी अच्छा नहीं लग रहा था।
  7. यह पागल लगता है, लेकिन सुपरयूजर पर किसी ने एक्सेस में संपादन तालिकाओं का सुझाव दिया और फिर उन्हें सीएसवी के रूप में निर्यात किया ... यह काम करने के लिए बस पागल है।
  8. यह .csv के रूप में सहेजने से शिकायत करने से एक्सेल को रोकता नहीं है, लेकिन आप अपने डेटा प्रविष्टि क्षेत्र से पहले एक एकल एपोस्ट्रोफ टाइप कर सकते हैं और यह इसे ऑटो-स्वरूपण के मामले में अकेला छोड़ देता है। अच्छी तरह से, यह (Office 2007 में कम से कम) सीएसवी फ़ाइल में एपोस्ट्रोफिस नहीं छोड़ता है।

अद्यतन: मैं इस समस्या पर बहुत जोर दे रहा हूं क्योंकि यह एक मुद्दा है जो मेरे पास भी है। अब तक मैंने जो डाटा-एंट्री देखी है, उसके लिए अब तक का सबसे अच्छा / आसान उपाय किलसिंसीएसवी है । यह "मुफ़्त" सॉफ़्टवेयर नहीं है, यह एक 30 दिन की परीक्षण अवधि और उचित मूल्य (~ $ 27) के साथ शेयरवेयर है। मुझे यकीन नहीं है कि मौजूदा सीएसवी को संपादित करने के लिए मैं इस पर कितना भरोसा करता हूं - मैंने इसे एक बहुत बड़ा (और संभवतः अच्छी तरह से स्वरूपित) सीएसवी सौंप दिया और यह सभी पंक्तियों को पढ़ने में विफल रहा। हालाँकि यह एक बहुत अच्छी तरह से (20 एमबी) बड़ी थी और बड़ी फ़ाइल के साथ समस्या मेरे हिस्से पर उपयोगकर्ता की त्रुटि हो सकती है।

आर उदाहरण:

#This function takes a what argument like in scan, 
#a list with the types to be used, see usage example 
#at the end of this code block
#dataEntry will keep reading in values until 
#the values it reads in matches what is in 
#"terminateon".
#limitations: Many
dataEntry <- function(what,terminateon)
{
  CONTINUE <- TRUE #Make sure we start the loop
  data <- NULL #Create empty data so that the data.frame can define itself
  ti <- NULL
  while(CONTINUE)
  {
    ti <- NULL    
    ti <- tryCatch(
      {as.data.frame(scan(what=what, nlines=1, multi.line=FALSE, comment.char="",quiet=TRUE))},
      error=function (e) {print("Error in data entry! Line not stored.")
                          return(NULL)},
      warning=function(w) {print("Error in data entry! Line not stored.")
                           return(NULL)},
      finally={ti <- NULL}
    ) #Try getting the data according to the parameters in 'what' one row at a time.
    if (!is.null(ti))
    {
      if ((ncol(ti)==length(what)) & (nrow(ti)==1)) {
        data <- rbind(data,ti) #If there wasn't an error, add ti to the previous value  
      } else {
        print("Too many or not enough values on previous entry.")
        print("Tail of current data:")
        print(tail(data))
      }
    }
    if (!is.null(ti) & all(ti == terminateon)) 
    {
      CONTINUE <- FALSE
      data <- data[-c(nrow(data)),]
    } #if we've recieved the final value we won't continue and the last row is invalid so we remove it
  }
  return(data)
}

dataEntry(list(x=integer(), y=numeric(), z=character()),terminateon=c(999,999,"Z"))

हां, और यह पता चला है कि मैंने पहले से ही डेबियन / उबंटू में पैकेज के csv-mode.elलिए धन्यवाद स्थापित किया है emacs-goodies-el- साफ।
डिर्क एडल्डबुलेटेल

1
+1, बिंदु # 1 के लिए मैंने कभी भी काम किया है (आर, स्टाटा, एसपीएसएस और एसएएस के अलावा) सभी स्टेट सॉफ्टवेयर इस प्रकार की कार्यक्षमता प्रदान करता है। इसलिए आपकी सलाह सामान्य होती है कि कोई भी सॉफ्टवेयर किसके साथ काम करना चाहता है।
एंडी डब्ल्यू

5

अपडेट: [R-Help से ईमेल के एक बड़े बैकलॉग के माध्यम से जा रहा है] मुझे " व्यवहारread.csv() " पर धागा याद दिलाया गया है । इसमें डंकन मर्डोक का उल्लेख है कि वह जेरोमी उल्लेखों में से कुछ के लिए सीएसवी के बजाय डेटा इंटरचेंज फॉर्मेट (डीआईएफ) फ़ाइलों का उपयोग करना पसंद करता है। मैंने सिर्फ यह कोशिश की है और Gnumeric इसे गलत करता है (दिनांक के रूप में 12/3 लोड करना), लेकिन OpenOffice.org इसे सही ढंग से पढ़ता है और 12/3 जानकारी को बरकरार रखता है। (किसी को भी एमएस एक्सेल में यह जाँच करने के लिए परवाह है?)

डीआईएफ फाइलें सादे पाठ हैं और स्प्रेडशीट और आर द्वारा पढ़ी जा सकती हैं (जब तक आप हाल के आर संशोधन (एसवीएन संशोधन> = r53778) का उपयोग करते हैं) सही प्रारूप में डेटा पढ़ेंगे।


मूल : मैं जब भी संभव हो डेटा संपादन / हेरफेर के लिए एक स्प्रेडशीट पूर्ण विराम का उपयोग करने से बचने की कोशिश करूंगा। यह अविश्वसनीय रूप से कठिन है, यदि असंभव नहीं है, तो आप किसी मौजूदा डेटा सेट में किए गए किसी भी परिवर्तन को दस्तावेज़ित करने के लिए, ताकि यह एक प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान के दृष्टिकोण से बहुत नियम बना सके। अधिक से अधिक, मैं मौजूदा डेटा को जल्दी से देखने के लिए एक स्प्रेडशीट का उपयोग करता हूं।

डेटा प्रोसेसिंग के लिए, मैं एक आर स्क्रिप्ट लिखना चाहता हूं जो कच्ची सीएसवी फ़ाइल लेगा और आवश्यक सभी आवश्यक प्रसंस्करण चरणों को लागू करेगा। मैं उस पटकथा की भारी व्याख्या करता हूं कि यह स्पष्ट करने के लिए कि मैं प्रत्येक चरण में क्या कर रहा हूं और क्यों। मेरी डेटा विश्लेषण स्क्रिप्ट तब डेटा प्रोसेसिंग स्क्रिप्ट को कॉल करेगी जो डेटा को लोड और प्रोसेस करती है।

डेटा प्रविष्टि के लिए, पाठ संपादक में या स्प्रेडशीट में डेटा दर्ज करना अधिक कठिन है? मुझे संदेह है कि आपके द्वारा उत्तरार्द्ध के लिए जिन समस्याओं का उल्लेख किया गया है, वे सीएसवी डेटा को एक पाठ संपादक में दर्ज करने की कोशिश करने वालों से आगे नहीं निकलते हैं।

आप एक बेहतर स्प्रेडशीट आज़मा सकते हैं; OpenOffice.org दिनांक 12/3 को एक दिनांक के रूप में स्वरूपित करने से रोकता है (या यह इसे संख्यात्मक प्रतिनिधित्व में परिवर्तित करता है) भले ही एक प्रारूप "संख्यात्मक" पहले हो। दूसरी ओर Gnumeric 12/3 छोड़ देगा जैसा कि यदि आप कॉलम को "संख्यात्मक" के रूप में पहले स्वरूपित करते हैं।

आप OpenOffice.org को 'प्रविष्टियों में से एक के रूप में दिनांक 12/3 में सुधार नहीं करने के लिए बाध्य कर सकते हैं, अर्थात '12/3स्प्रेडशीट में 12/3 के रूप में प्रदर्शित किया जाएगा और पाठ के रूप में सहेजा जाएगा। यह संभवतः उपयोग करने के लिए काफी सुरक्षित है।

निश्चित नहीं है कि आप पाठ फ़ाइल में 12/3 के रूप में 12/3 संग्रहीत क्यों चाहते हैं - आर को ऐसा कैसे पढ़ना चाहिए?

सुविधाओं को खोने या सक्रिय पत्रक को बचाने के बारे में चेतावनी पर आपकी टिप्पणी वास्तव में समस्याएं नहीं हैं? (यदि वे हैं, तो मैं अपने जीवन में आपकी समस्याएं चाहता हूं ;-)


प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान के संबंध में, यदि फ़ाइल प्रारूप CSV है, तो परिवर्तन किए जाने पर CSV फ़ाइल को आसानी से कमिटमेंट के साथ संस्करण नियंत्रण में रखा जा सकता है। क्या यह प्रजनन योग्य शोध के लिए पर्याप्त होगा? डेटा प्रविष्टि के संबंध में, मैं अक्सर दक्षता को अधिकतम करने के लिए दूसरों को फिक्स चौड़ाई प्रारूप में कच्चे डेटा प्रविष्टि करने के लिए करता हूं या प्राप्त करता हूं; हालाँकि मैं CSV या TSV में डेटा संग्रहीत करना पसंद करता हूं (मुझे यह अधिक पारदर्शी लगता है); संख्यात्मक के रूप में एक कॉलम को प्रारूपित करने के संबंध में। यह जानकारी संभवतः बचत पर खो जाएगी।
जेरोमे एंग्लीम

12/3 के संबंध में, मेरे पास एक बहुविकल्पी परीक्षा का एक उदाहरण था जहां इसने 12 को 3 से विभाजित किया था। हालाँकि, मैं इसे एक उदाहरण के रूप में अधिक उपयोग करता हूं। जब मेरे पास एक बड़ी CSV फ़ाइल होती है, तो मैं एक भी अनुचित रूपांतरण नहीं चाहता। चेतावनियों के साथ, अगर मैं दिन में 10 बार सीएसवी फाइलें खोल रहा हूं, तो चेतावनी थकाऊ है। वे यह भी कम स्पष्ट करते हैं कि मैंने वास्तव में सीएसवी फ़ाइल को बचाया है या नहीं। शेख़ी के लिए क्षमा करें।
जेरोमे एंग्लीम

@Jeromy हाँ, यह होगा, यदि आप एक एकल परिवर्तन (या एकल डेटा प्रसंस्करण कदम) के बारे में सख्त थे जिसे आप तुरंत बचाते हैं और प्रतिबद्ध करते हैं। मेरा मतलब स्क्रिप्ट का उपयोग करके आर (जैसा कि यह मेरी पसंदीदा भाषा है) में प्रसंस्करण करने के बारे में एक नोट शामिल नहीं है। इस तरह से मैं डेटा सहयोगियों के साथ काम करता हूं; मेरे पास स्प्रैडशीट में एक त्वरित नज़र हो सकती है, फिर csv को R में पढ़ें और एक स्क्रिप्ट लिखें जिसमें सभी डेटा प्रोसेसिंग चरण शामिल हैं जिन्हें मुझे लागू करने की आवश्यकता है। मैं उस स्क्रिप्ट पर टिप्पणी करता हूं, इसलिए मेरे पास यह रिकॉर्ड है कि मैंने क्या किया और मैंने इसे क्यों किया और मैंने मूल डेटा फ़ाइल को बिल्कुल भी नहीं बदला है।
मोनिका को बहाल करें - जी। सिम्पसन

@ चेतावनी: चेतावनियों पर उचित बिंदु। मैंने लंबे समय से उन्हें शोर के रूप में फ़िल्टर किया है ताकि वे मुझे परेशान न करें। मैंने अभी Gnumeric और OpenOffice.org का परीक्षण किया है और वे 12/3 के साथ एक सीएसवी को स्वचालित रूप से तारीखों में बदल देते हैं - वह बकवास है! इसलिए मैं देख रहा हूं कि आपका क्या मतलब है। इसे रोकने का एक ही तरीका है कि उन डेटा को टेक्स्ट के रूप में संग्रहीत किया जाए और उस डेटा प्रकार को लोड / आयात पर मजबूर किया जाए।
मोनिका को बहाल करें - जी। सिम्पसन

@Jeromy: re: संख्यात्मक फॉर्मेटिंग खोना - हाँ, यह तब तक होगा, जब तक आप आयात पर "संख्यात्मक" (Gnumeric) या "OpenOffice.org" में "टेक्स्ट" के रूप में कॉलम प्रकार निर्दिष्ट नहीं करते हैं। रूपांतरण से बचने के लिए इसे पाठ के रूप में संग्रहीत करना (मेरा संपादित उत्तर देखें) बेहतर हो सकता है - आपको अभी भी आयात पर डेटा प्रकार निर्दिष्ट करना होगा ...
Monica - G. Simpson

3

मेरा सुझाव है कि आप Google परिष्कृत (http://code.google.com/p/google-refine/) देखें। मुझे लगता है कि CSV फ़ाइलों को संपादित करने के लिए एक बहुत अच्छा उपकरण है


क्या आप यह बता सकते हैं कि यह प्रश्न में रणनीति के अनुरोध का जवाब कैसे देता है ?
whuber

3

मैं CSV और TSV फ़ाइलों के साथ काम करने से बचूँगा। इसके बजाय एसक्यूएल का उपयोग करना सीखें और अपने डेटा की डेटमाट या डेटाबेस (डीबी) कॉपी पर ही काम करें या आप एसएएस या आर का उपयोग अपने डेटाबेस के लिए पस्स्ट्र्रू कनेक्शन के साथ कर सकते हैं। इस तरह आप एक्सेल में (या जो भी स्प्रेडशीट प्रोग्राम का उपयोग कर रहे हैं) को कॉपी और पेस्ट करने या त्रुटियों को करने के लिए पेस्ट करने के बजाय अपने डेटा को बल्क अपडेट कर सकते हैं। DB सिस्टम का उपयोग करने का लाभ यह है कि आप लॉगिंग और जल्दी से आपके द्वारा किए गए रोलबैक परिवर्तनों को सक्षम कर सकते हैं यदि वे त्रुटि में किए गए हैं और सभी परिवर्तनों का ऑडिट किया जा सकता है। इसके अलावा, अखंडता बाधाओं को आपके DB तालिकाओं पर यह सुनिश्चित करने के लिए रखा जा सकता है कि आप गलत तरीके से अपडेट न करें या चर / कॉलम को अनुचित तरीके से परिवर्तित न करें (जैसे कि तारीखें तारीखों के रूप में रहती हैं और अन्य जानकारी उचित रूप से डाली जाती हैं)। मैं जीता'

यदि आप स्प्रेडशीट पसंद करते हैं, क्योंकि यह किसी भी तरह आपके डेटा प्रविष्टि की सुविधा प्रदान करता है, तो मैं डेटाबेस के साथ आने वाले ग्राफिकल यूजर इंटरफेस टूल / आईडीई (जैसे Microsoft प्रबंधन स्टूडियो) का उपयोग करके या किसी लिंक किए गए संस्करण में खींचकर हर डेटाबेस पर काबू पा सकता हूं। आपके डेटाबेस में विशेष रूप से आपके डेटा को दर्ज करने और डेटा की कमी को लागू करने के लिए डिज़ाइन की गई प्रणाली (उदाहरण के लिए एक्सेस या कस्टम डेटा इंटरफ़ेस में लिंक किए गए टेबल फॉर्म)। आप अन्य कार्यक्रमों का भी उपयोग कर सकते हैं जो आपको एक्सेल में दोनों दुनिया के सर्वश्रेष्ठ और डेटा अपडेट करने की अनुमति देंगे और उन परिवर्तनों को अपने डेटाबेस में प्रचारित करेंगे ( उदाहरण के लिए https://www.youtube.com/watch?v=5iyuF_mDSac देखें ) ।


2

यह सवाल पूछने के बाद, मुझे CSVed पर एक नज़र डालनी शुरू हुई

वेबसाइट से:

CSVed एक आसान और शक्तिशाली CSV फ़ाइल संपादक है, आप किसी भी विभाजक के साथ अलग किए गए किसी भी CSV फ़ाइल में हेरफेर कर सकते हैं।

मुझे यकीन नहीं है कि किसी को भी इसके साथ अनुभव है।


मैंने इसे स्थापित करने की कोशिश की। एक त्वरित प्रयास के बाद यह डेटा प्रविष्टि के लिए बकवास की तरह लग रहा था; शायद अगर मैंने इसे एक लंबा प्रयास दिया तो मैं यह पता लगाने में सक्षम हो जाऊंगा कि इसे प्रभावी ढंग से कैसे उपयोग किया जाए, लेकिन मुझे संदेह नहीं है।
रुसलपिएरेसी

क्या आप यह बता सकते हैं कि यह प्रश्न में रणनीति के अनुरोध का जवाब कैसे देता है ?
whuber

2

एक्सेल सीएसवी के अनुकूल नहीं है। उदाहरण के लिए, यदि आप एक्सेल में "1,300" दर्ज करना चाहते हैं, और इसे अल्पविराम से अलग किए गए मान के रूप में सहेजते हैं, तो यह आपको जाने देगा! यह एक बड़ी समस्या हो सकती है (दूसरों से फाइल प्राप्त करते समय मैं इसका नियमित आधार पर सामना करता हूं)।

मैं व्यक्तिगत रूप से OpenOffice.org Calc का उपयोग करता हूं, मैं ऊपर सूचीबद्ध कई समाधानों का भी उपयोग करता हूं, हालांकि इनमें से कई में कार्यक्षमता और उपयोग में आसानी नहीं है जो नियमित संपादन के लिए आवश्यक हैं। OOO Calc एक्सेल की तुलना में बहुत अधिक बुद्धिमान है, हालांकि एक स्प्रेडशीट प्रोग्राम होने के नाते, आपको अभी भी "12/3" के बजाय "= 12/3" दर्ज करना होगा अन्यथा आप एक गणना के बजाय एक मान दर्ज करेंगे।

यह एक चक्कर दे दो, आप निराश नहीं होंगे।


1

मुझे ग्नुमेरिक पसंद है क्योंकि यह दूसरों की तरह इतना बेवकूफ-प्रतिरोधी होने की कोशिश नहीं करता है (यह खोई हुई कार्यक्षमता के बारे में चिल्लाता नहीं है) और बड़े डेटा के साथ काम करता है ... फिर भी मुझे लगता है कि यह केवल लिनक्स है।


1
इस सवाल का अनुसरण करते हुए, मैंने एक शिकार किया: एक विंडोज वर्जन प्रोजेक्ट्स है
।gnome.org/gnumeric/downloads.shtml

1
हालांकि यह केवल वर्तमान शीट को बचाने के बारे में चेतावनी देता है (जो जेरोमी के बग-भालू में से एक था), और इसमें तारीखों को 12/3 संख्याओं तक ठीक से सहेजने की कष्टप्रद विशेषता है जब तक कि आप मैन्युअल रूप से निर्दिष्ट नहीं करते कि वे आयात पर संख्यात्मक हैं (डेटा) बाहरी डेटा> पाठ फ़ाइल आयात करें ...) लोड नहीं।
मोनिका को बहाल करें - जी। सिम्पसन

क्या आप यह बता सकते हैं कि यह प्रश्न में रणनीति के अनुरोध का जवाब कैसे देता है ?
whuber

1

बस रॉन के संपादक का उपयोग करें । इसकी 'मदद' के बिना एक्सेल की तरह।

साइट से:

रॉन संपादक एक शक्तिशाली सारणीबद्ध पाठ, या सीएसवी, संपादक है। यह अलग पाठ के किसी भी प्रारूप को खोल सकता है, जिसमें मानक अल्पविराम और टैब अलग की गई फाइलें (CSV और TSV) शामिल हैं, और उनकी सामग्री और संरचना पर कुल नियंत्रण की अनुमति देता है।

न केवल सारणीबद्ध पाठ फ़ाइलों को संपादित किया जा सकता है, बल्कि उन्हें आसानी से फ़िल्टर किया जा सकता है और आवश्यक रूप से कई अतिरिक्त दृश्यों में संक्षेपित किया जा सकता है, शक्तिशाली विश्लेषण कार्यक्षमता को जोड़ सकता है।

  • लाइसेंस: व्यक्तिगत उपयोग / मूल्यांकन के लिए नि: शुल्क
  • पर चलता है: विंडोज 32/64-बिट 2000 / XP / 2003 / Vista /

क्या आप यह समझा सकते हैं कि यह प्रश्न में रणनीति के अनुरोध का जवाब कैसे देता है ?
whuber

1

मैं व्यक्तिगत रूप से CSV फ़ाइलों को प्रबंधित करने के लिए "रिलेशनल डेटाबेस" के विचार का उपयोग करना पसंद करता हूं। सीएसवी फाइलें एक्सचेंज डेटा के लिए अच्छी हैं, लेकिन इसमें कोई व्यावसायिक तर्क नहीं है। CSV के साथ काम करने का मेरा अनुभव "विश्लेषण को परिष्कृत करने के लिए व्यवसाय के साथ कई पुनरावृत्तियाँ हैं"। केवल सादे पाठ फ़ाइलों (CSV) के साथ काम करने से कई चुनौतियाँ सामने आएंगी। उदाहरण के लिए, CSV फ़ाइल "क्या डेटा विशिष्ट बनाती है" नहीं दिखाएगी, अर्थात, "प्रत्येक पंक्ति के लिए प्राथमिक कुंजी" क्या है। यह बाद में बड़ी समस्याओं का कारण बनेगा, जब हमारे पास जुड़ने के लिए अन्य डेटा स्रोत होंगे।

SQLite CSV को रिलेशनल डेटाबेस में बनाने के लिए एक अच्छा उपकरण है, और CSV के समान, इसका आदान-प्रदान करना आसान है, और सेट किए गए किसी भी सर्वर की आवश्यकता नहीं है। इससे भी महत्वपूर्ण बात, यह Rऔर अन्य सांख्यिकीय सॉफ्टवेयर में बहुत अच्छी तरह से समर्थित है ।

मेरी रणनीति हमेशा रिलेशनल डेटाबेस में "क्लीन किए गए डेटा" को बनाए रखती है। और प्रत्येक टेबल की प्राथमिक कुंजी पर इसे स्पष्ट रखें।

यहाँ एक उदाहरण है कि वास्तविक शब्द में क्या हो सकता है (मान लीजिए हम किताबें बेच रहे हैं):

  • दिन 1, मुझे एक CSV फ़ाइल मिली जिसमें सभी ग्राहक जानकारी थी।
  • दिन 2, मुझे एक और CSV फ़ाइल मिली जिसमें सभी उत्पाद (पुस्तक) जानकारी हैं। किसी कारण से, व्यवसाय ने कोई आईएसबीएन उपलब्ध नहीं बताया और पुस्तक का नाम और लेखक का नाम प्राथमिक कुंजी है।
  • दिन 3, व्यापार पाया पुस्तक संस्करण के लिए जिम्मेदार होने की जरूरत है, वे दिन 2 के सीएसवी को "अधिलेखित" करने के लिए एक और सीएसवी भेजते हैं।
  • दिन 4, व्यवसाय में पाए गए ग्राहक जानकारी को अपडेट किया जा सकता है (जैसे पता परिवर्तन), वे ग्राहक जानकारी का अद्यतन संस्करण भेजते हैं।

अब, आप स्वच्छ डेटा का लाभ देख सकते हैं और उन्हें रिलेशनल डेटाबेस में रख सकते हैं। प्राथमिक कुंजी के रूप में ग्राहक आईडी के साथ, और प्राथमिक कुंजी के रूप में पुस्तक का नाम, लेखक और संस्करण। डेटा अपडेट करना और आवश्यकतानुसार बदलावों को शामिल करना बहुत आसान है। साथ ही प्राथमिक कुंजी नए आने वाले डेटा के लिए "अड़चन" और "पवित्रता जांच" भी देती है।


0

यदि आप एक्सेल के "आयात डेटा" सुविधा का उपयोग करते हैं, तो यह आपको प्रत्येक कॉलम के लिए डेटा प्रकार का चयन करने का विकल्प देगा। आप सभी कॉलम चुन सकते हैं और "टेक्स्ट" डेटा प्रकार का उपयोग कर सकते हैं।


क्या आप यह बता सकते हैं कि यह प्रश्न में रणनीति के अनुरोध का जवाब कैसे देता है ?
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.