जैसा कि मैंने अपनी टिप्पणी में उल्लेख किया है , प्रश्न के वास्तविक उत्तर के लिए पर्याप्त विवरण नहीं है। चूँकि आपको सही शब्द खोजने और आपके प्रश्न को तैयार करने में मदद की आवश्यकता है, इसलिए मैं सामान्य रूप से संक्षेप में बोल सकता हूँ।
आप जिस शब्द की तलाश कर रहे हैं वह डेटा सफाई है । यह कच्चे, खराब स्वरूपित (गंदे) डेटा लेने और विश्लेषण के लिए इसे आकार में लाने की प्रक्रिया है। स्वरूपों को बदलना और नियमित करना ("दो" " ) और पुनर्गठन पंक्तियों और स्तंभों में विशिष्ट डेटा सफाई कार्य हैं। → 2
कुछ अर्थों में, डेटा सफाई किसी भी सॉफ्टवेयर में की जा सकती है और एक्सेल के साथ या आर के साथ की जा सकती है। दोनों के लिए पेशेवरों और विपक्ष होंगे:
- एक्सेल: एक्सेल लगभग निश्चित रूप से डेटा की सफाई के लिए सबसे आम विकल्प है (आर फॉर्च्यून # 59 पीडीएफ देखें )। यह सांख्यिकीविदों द्वारा एक खराब विकल्प भी माना जाता है। प्राथमिक कारण यह है कि यह सुनिश्चित करना कठिन है कि आपने सब कुछ पकड़ लिया है, या कि आपने हर चीज को पहचान लिया है, और आपके द्वारा किए गए परिवर्तनों का कोई रिकॉर्ड नहीं है, इसलिए आप उन परिवर्तनों को बाद में फिर से नहीं कर सकते हैं। एक्सेल का उपयोग करने के लिए उल्टा यह है कि यह देखना आसान होगा कि आप क्या कर रहे हैं, और आपको बदलाव करने के लिए बहुत कुछ जानने की जरूरत नहीं है। (सांख्यिकीविद् बाद के एक अतिरिक्त चुनाव पर विचार करेंगे ।)
आर: आर को एक मजबूत सीखने की अवस्था की आवश्यकता होगी। यदि आप R या प्रोग्रामिंग से बहुत परिचित नहीं हैं, तो जिन चीजों को एक्सेल में बहुत जल्दी और आसानी से किया जा सकता है, वे आर में प्रयास करने के लिए निराश होंगे। दूसरी तरफ, अगर आपको कभी ऐसा करना है, तो वह सीखना होगा समय अच्छा कटा। इसके अलावा, R में डेटा को साफ करने के लिए अपने कोड को लिखने और सहेजने की क्षमता ऊपर सूचीबद्ध विपक्ष को समाप्त कर देगी। निम्नलिखित कुछ लिंक हैं जो आर में इन कार्यों के साथ आरंभ करने में आपकी सहायता करेंगे:
ढेर अतिप्रवाह पर आपको बहुत सारी अच्छी जानकारी मिल सकती है :
क्विक-आर भी एक मूल्यवान संसाधन है:
संख्यात्मक मोड में संख्याएँ प्राप्त करना:
R के बारे में जानने के लिए एक और अमूल्य स्रोत UCLA की सांख्यिकी वेबसाइट है :
अंत में, आप हमेशा अच्छे पुराने Google के साथ बहुत सी जानकारी पा सकते हैं:
- यह खोज: आर में डेटा की सफाई , कई ट्यूटोरियल लाती है (जिनमें से कोई भी मैंने एफटीआर के माध्यम से काम नहीं किया है)।
अद्यतन: यह आपके डेटासेट की संरचना के बारे में एक सामान्य समस्या है जब आपके पास 'अध्ययन इकाई' (आपके मामले में, एक व्यक्ति) के अनुसार कई माप हैं। यदि आपके पास प्रत्येक व्यक्ति के लिए एक पंक्ति है, तो आपके डेटा को 'विस्तृत' रूप में कहा जाता है, लेकिन तब आपके पास आवश्यक रूप से आपके प्रतिक्रिया चर के लिए कई कॉलम होंगे, उदाहरण के लिए। दूसरी ओर, आपके पास आपके प्रतिक्रिया चर के लिए सिर्फ एक कॉलम हो सकता है (लेकिन प्रति व्यक्ति कई पंक्तियाँ हैं, परिणामस्वरूप), जिस स्थिति में आपके डेटा को 'लंबे' रूप में कहा जाता है। इन दो प्रारूपों के बीच स्थानांतरण को अक्सर आपके डेटा को 'रीशैपिंग' कहा जाता है, खासकर आर दुनिया में।
- इस के लिए मानक अनुसंधान कार्य है ? आकृति बदलें । UCLA के आँकड़े सहायता वेबसाइट पर उपयोग करने के लिए एक मार्गदर्शिका है
reshape()
।
- कई लोगों को लगता
reshape
है कि इसके साथ काम करना मुश्किल है। हैडली विकम ने reshape2 नामक एक पैकेज का योगदान दिया है , जिसका उद्देश्य प्रक्रिया को सरल बनाना है। हैशले 2 के लिए हैडली की निजी वेबसाइट यहाँ है , क्विक-आर अवलोकन यहाँ है , और यहाँ एक अच्छा दिखने वाला ट्यूटोरियल है ।
- एसओ पर बहुत सारे सवाल हैं कि डेटा को कैसे फिर से जोड़ना है। उनमें से ज्यादातर व्यापक से लंबे समय तक जाने वाले हैं, क्योंकि आमतौर पर डेटा विश्लेषकों का सामना होता है। आपका प्रश्न लंबे समय से व्यापक तक जाने के बारे में है, जो बहुत कम आम है, लेकिन इसके बारे में अभी भी कई धागे हैं, आप इस खोज के माध्यम से देख सकते हैं ।
- यदि आपका दिल एक्सेल के साथ ऐसा करने की कोशिश कर रहा है, तो यहाँ एक्सेल रीस्पेप कार्यक्षमता को दोहराने के लिए एक्सेल के लिए VBA मैक्रो लिखने के बारे में एक धागा है: VBA का उपयोग करके एक्सेल में पिघल / पुनरावृत्ति करें?
data.table
,dplyr
,plyr
, औरreshape2
- मैं एक्सेल और पिवट तालिका से बचने की सलाह देते हैं यदि संभव हो तो।