एक शोध परियोजना के लिए, मैं यह पता लगाने की कोशिश कर रहा हूं कि कितनी बार रोगियों को विभिन्न अस्पताल विभागों में भर्ती कराया गया है। प्रत्येक विभाग के लिए मेरे पास डेटा लोड के साथ एक एक्सेल फ़ाइल है, लेकिन इसे दो कॉलमों तक नीचे ले जाया गया है: रोगी आईडी और दिनांक स्वीकार किए जाते हैं। प्रत्येक रोगी (उनमें से लगभग 300) को कई बार लोड किया गया है, इसलिए प्रत्येक शीट में 20,000 से अधिक पंक्तियाँ हैं, कुछ इस प्रकार है:
ID1 23/07/15
ID1 25/08/15
ID1 09/01/16
ID2 14/06/14
ID2 12/08/15
केवल दो या तीन की तुलना में प्रति रोगी अधिक तरीके हैं।
अब मैं स्पष्ट रूप से 20,000 पंक्तियों (प्रति फ़ाइल, जिनमें से मेरे पास छह हैं) से गुजरना और हाथ से सब कुछ गिनना नहीं चाहता। जो मुझे चाहिए वो एक तरीका है:
क) पूरी पंक्तियों को एक दूसरे के बाद वाली डुप्लिकेट तिथियों को हटा दें (किसी कारण से एक ही रोगी के पास अक्सर दो समान पंक्तियों में दो समान प्रवेश तिथियां होती हैं)
तथा
b) पहले कॉलम में समान आईडी के आधार पर, Excel में प्रति मरीज (कुल पंक्तियों) की संख्या की गणना की जाती है।
एक बिट के लिए इसके साथ खेलने के बाद मैंने एक दूसरे के साथ डुप्लिकेट को उजागर करने के तरीके ढूंढे हैं (सशर्त स्वरूपण के साथ), लेकिन मैं एक्सेल को मेरे लिए पूरी पंक्ति को हटाने, या गिनती करने के लिए नहीं कर सकता।
क्या एक्सेल में इसे हासिल करने का कोई तरीका है, या मुझे यह सब हाथ से करना पड़ेगा?