मेरे पास एक टेक्स्ट डॉक्यूमेंट है जिसमें टेक्स्ट का भार है जो हर अक्षर के बाद एक अतिरिक्त जगह जोड़ देता है!
उदाहरण:
T h e b o o k a l s o h a s a n a n a l y t i c a l p u r p o s e w h i c h i s m o r e i m p o r t a n t…
दिखने में:
T␣h␣e␣␣b␣o␣o␣k␣␣a␣l␣s␣o␣␣h␣a␣s␣␣a␣n␣␣a␣n␣a␣l␣y␣t␣i ␣c␣a␣l␣␣p␣u␣r␣p␣o␣s␣e␣␣w␣h␣i␣c␣h␣␣i␣s␣␣m␣o␣r␣e␣␣i␣ m␣p␣o␣r␣t␣a␣n␣t ...
ध्यान दें कि हर अक्षर के बाद एक अतिरिक्त जगह होती है, इसलिए लगातार शब्दों के बीच दो स्थान होते हैं।
क्या कोई ऐसा तरीका है जो मुझे मिल सकता है awk
या sed
अतिरिक्त रिक्त स्थान को हटाने के लिए? (दुर्भाग्य से यह पाठ दस्तावेज़ बड़े पैमाने पर है और मैन्युअल रूप से जाने के लिए बहुत लंबा समय लगेगा।)
मैं सराहना करता हूं कि यह सिर्फ एक सरल बैश स्क्रिप्ट के साथ हल करने के लिए शायद एक बहुत अधिक जटिल समस्या है क्योंकि कुछ प्रकार की पाठ मान्यता भी होनी चाहिए।
मैं इस समस्या से कैसे संपर्क कर सकता हूं?
echo 't h i s i s a n e x a m p l e' | sed 's/ //g'
echo 'T h i s ; i s .a n 9 8 e x a m p l e' | perl -pe 's/[a-z]\K (?=[a-z])//ig'