मेरे पास प्रविष्टियों की एक लंबी सूची के साथ एक पाठ फ़ाइल के रूप में मेरे संदर्भ हैं और प्रत्येक में दो (या अधिक) फ़ील्ड हैं।
पहला कॉलम संदर्भ का url है; दूसरा कॉलम शीर्षक है जो प्रवेश कैसे किया गया था इसके आधार पर थोड़ा भिन्न हो सकता है। तीसरे क्षेत्र के लिए भी जो मौजूद हो भी सकता है और नहीं भी।
मैं उन प्रविष्टियों को पहचानना चाहता हूं लेकिन उन प्रविष्टियों को नहीं हटाता जिनमें पहला क्षेत्र (संदर्भ url) समरूप है। मैं इसके बारे में जानता हूं, sort -k1,1 -u
लेकिन यह स्वचालित रूप से (गैर-अंतःक्रियात्मक) सभी को हटा देगा, लेकिन पहली हिट। वहाँ एक तरीका है बस मुझे पता है तो मैं जो बनाए रखने के लिए चुन सकते हैं?
एक ही प्रथम फ़ील्ड ( http://unix.stackexchange.com/questions/49569/
) के तीन रेखाओं के नीचे के अर्क में , मैं पंक्ति 2 रखना चाहूंगा क्योंकि इसमें अतिरिक्त टैग (सॉर्ट, CLI) हैं और # 1 और # 3 लाइनों को हटा दें:
http://unix.stackexchange.com/questions/49569/ unique-lines-based-on-the-first-field
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field sort, CLI
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field
क्या ऐसे "डुप्लिकेट" की पहचान करने में मदद करने के लिए एक कार्यक्रम है? फिर, मैं व्यक्तिगत रूप से # 1 और # 3 लाइनों को हटाकर सफाई कर सकता हूं?