मैं पाठ और फ़ाइल उपयोगिताओं के साथ उपयोग के लिए सादे पाठ को एमएस वर्ड सामग्री निर्यात कर रहा हूं । मेरे पास एक बाधा है जहां एमएस सॉफ्टवेयर में लाइन नंबरिंग सुविधा को सक्षम किया गया है, और अंतिम आउटपुट में लाइन संख्या के किसी भी संदर्भ को उस नंबरिंग से मेल खाना चाहिए । तो "नंबरिंग लाइन्स" दर्ज करें:
( पो, ईए )
स्पष्ट रूप से वर्ड के लिए , उस तरह की नंबरिंग न्यूलाइन पर लाइनों को नहीं तोड़ती है, यह सही मार्जिन (या कुछ) के बाद "लाइनों" को तोड़ती है । एक स्क्रिप्ट की तरह docx2txt
, इसके लिए यह डिफ़ॉल्ट रूप से खाता नहीं है और लगता है कि न्यूलाइन पर लाइनों को तोड़ता है। इसलिए यदि मैं grep -n
नंबरिंग के साथ उपयोग करता हूं , तो लाइनें स्रोत रेखा संख्या सुविधा से मेल नहीं खाएंगी, जैसा कि ऊपर सचित्र है। यह प्रलेखन से बिल्कुल स्पष्ट नहीं है कि मुझे इस मामले में जिस तरह से फ़ाइलों की आवश्यकता है उसे बदलने के लिए पर्ल स्क्रिप्ट को संपादित करने की आवश्यकता कैसे होगी:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
मैंने इसके \n
लिए प्रतिस्थापन की कोशिश की , \r\n
लेकिन यह मेरे लिए काम नहीं करता है। इसलिए मैंने निम्नलिखित सेटिंग्स के साथ वर्ड से सीधे दस्तावेजों को निर्यात करने का सहारा लिया ( सादे पाठ के रूप में सहेजें , v.2013,64pc पर):
- यूनिकोड (UTF-8)
- (CR / LF) के साथ लाइन ब्रेक + एंड लाइन डालें
- चरित्र प्रतिस्थापन की अनुमति दें
और अब वास्तव में जब मैं फ़ाइलों का उपयोग करता हूं .txt
तो स्रोत नंबरिंग सुविधा और grep -n
आउटपुट में लाइन नंबरों के बीच एक परिपूर्ण मिलान होता है।
- क्या ऐसी कोई विशिष्ट कॉन्फ़िगरेशन / प्रक्रिया है जिसके बारे में मुझे पता होना चाहिए
docx2txt
या एक समान कमांड लाइन उपयोगिता है जिसने मुझे लाइन टूटने से बचाने के लिए अपनी .docx फ़ाइलों को सादे पाठ में बदलने की अनुमति दी होगी , जैसे मैंने वर्ड का सहारा लिए बिना ? - MS Word दस्तावेज़ (जिसमें उच्चारण अक्षर शामिल हो सकते हैं) को निर्यात करने के लिए फ़ाइल / पाठ उपयोगिताओं के साथ लाइन ब्रेक और फ़ॉर्मेटिंग के संबंध में सर्वोत्तम अभ्यास , क्या हैं ; और क्या मैंने सीआर / एलएफ डालने के लिए चुनी गई सेटिंग्स के साथ कोई नकारात्मक प्रभाव डाला है?
नमूना
जैसा कि सुझाव दिया गया है मैं एक नमूना प्रदान करता हूं। इस rar आर्काइव में , मैंने एक .docx फ़ाइल को साधारण पैराग्राफ के साथ बंडल किया, और इसके निर्यात की गई .Txt फाइल को वर्ड के साथ उपरोक्त विकल्पों के साथ प्रयोग किया । उत्तरार्द्ध की तुलना docx2txt
स्रोत फ़ाइल पर डिफ़ॉल्ट रन के साथ की जा सकती है ।