स्वरूपण खोए बिना पीडीएफ से पाठ की नकल कैसे करें?


39

जब मैं एक पीडीएफ फाइल के बाहर और एक टेक्स्ट एडिटर में टेक्स्ट कॉपी करता हूं, तो यह कई तरह से समाप्त हो जाता है। बोल्ड और इटैलिक की तरह स्वरूपण खो जाते हैं; पाठ के एक पैराग्राफ के भीतर सॉफ्ट लाइन ब्रेक हार्ड लाइन ब्रेक में परिवर्तित हो जाते हैं; दो लाइनों पर एक शब्द को तोड़ने के लिए डैश तब भी संरक्षित किए जाते हैं जब उन्हें नहीं होना चाहिए; और सिंगल और डबल कोट्स को बदल दिया जाता है? संकेत।

आदर्श रूप से, मैं एक पीडीएफ से पाठ को कॉपी करने में सक्षम होना चाहता हूं और इसे HTML कोड में रूपांतरित किया गया है, "स्मार्ट कोट्स" में कनवर्ट किया गया है "और ', और लाइन ब्रेक ठीक से किया गया है। क्या ऐसा करने का कोई तरीका है?


2
वर्ड 2013 पीडीएफ खोल सकता है। पूरा नहीं। लेकिन करने योग्य
प्रत्नाला

संबंधित हो सकते हैं: superuser.com/a/455278/13787
स्टीवन आर। लूमिस

जवाबों:


53

सबसे पहले, आपको समझना होगा कि पीडीएफ क्या है। पीडीएफ एक मुद्रित पृष्ठ की नकल करने के लिए डिज़ाइन किए गए हैं, और वे केवल आउटपुट स्वरूप के रूप में डिज़ाइन किए गए हैं , न कि इनपुट प्रारूप। एक पीडीएफ मूल रूप से एक नक्शा है जिसमें वर्णों का सटीक स्थान (व्यक्तिगत पत्र या विराम चिह्न, आदि) या चित्र हैं। ज्यादातर मामलों में , एक पीडीएफ इस बात की जानकारी भी संग्रहीत नहीं करता है कि एक शब्द कहां समाप्त होता है और दूसरा शुरू होता है, बहुत कम चीजें जैसे सॉफ्ट ब्रेक बनाम पैरा ब्रेकिंग के लिए हार्ड ब्रेक।

(कुछ हालिया PDF इस सामान के बारे में कुछ जानकारी संग्रहीत करते हैं, लेकिन यह एक नई तकनीक है, और आप इस तरह से PDF ढूंढने में भाग्यशाली होंगे। यदि आपने किया भी है, तो भी आपके पीडीएफ दर्शक को इसके बारे में पता नहीं होगा।)

वैसे भी, यह आपके सॉफ्टवेयर पर निर्भर है कि किसी तरह के "आर्टिफिशियल इंटेलिजेंस" को लागू करने के लिए केवल अलग-अलग वर्णों के स्थानों से निकालने के लिए कि एक शब्द क्या है, एक पैराग्राफ क्या है, और इसी तरह। अलग-अलग सॉफ्टवेयर दूसरों की तुलना में बेहतर करने जा रहे हैं, और यह इस बात पर भी निर्भर करेगा कि पीडीएफ कैसे बनाया गया था। किसी भी मामले में, आपको कभी भी सही परिणाम की उम्मीद नहीं करनी चाहिए । आउटपुट पीडीएफ होने के स्रोत स्रोत के रूप में ही नहीं है। यदि आप कर सकते हैं तो प्राप्त करने का प्रयास करना बेहतर है।

आपकी तरह की समस्या का मानक समाधान एडोब एक्रोबेट प्रोफेशनल (महंगे वाले, मुफ्त पाठक नहीं) को पीडीएफ को HTML में बदलने के लिए उपयोग करना है। यहां तक ​​कि सही परिणाम भी नहीं मिलने वाले हैं।

मुफ्त सॉफ्टवेयर है जिसका उपयोग पीडीएफ से टेक्स्ट को फॉर्मेटिंग के कुछ तरीकों से निकालने के लिए किया जा सकता है, लेकिन फिर से, सही परिणाम की उम्मीद न करें। देखें, उदाहरण के लिए, कैलिबर (जो RTF प्रारूप में परिवर्तित हो सकता है), pdftohtml / pdfreflow या AbiWord वर्ड प्रोसेसर (सभी आयात / निर्यात प्लग इन सक्षम के साथ)। OpenOffice के लिए एक पीडीएफ आयात प्लगइन भी है।

लेकिन कृपया इनमें से किसी भी परिणाम के साथ पूर्णता की उम्मीद न करें। आप यहाँ अनाज के खिलाफ जा रहे हैं। पीडीएफ सिर्फ एक संपादन योग्य इनपुट प्रारूप के रूप में नहीं है।


2
5 साल बाद एक प्रतिक्रिया: कोई बड़ा सुधार नहीं: मुझे इसे एचटीएमएल (एक्रोबैट एक्स का उपयोग करके) में बदलना था फिर प्रत्येक पंक्ति को एक एमएसवर्ड तालिका में डालें। (शब्द या एक्सेल के लिए बचत या txt ने सब कुछ गड़बड़ कर दिया है, क्रोम से अतीत की नकल करना या तो काम नहीं करता है)। अभी भी एक (बहुत) स्मार्ट सॉफ्टवेयर की प्रतीक्षा कर रहा है।
जिंसावे

ऊपर बताई गई सीमाओं के साथ, "फ़ॉर्मेटिंग के साथ कॉपी" कार्य को भी राइट क्लिक करके, ऊपर बताई गई सीमाओं के साथ
जिंसावे

1
क्योंकि यह स्वीकृत उत्तर है, मेरा सुझाव है कि आप भी (नए) विकल्प का उल्लेख करते हैं जो प्रत्नाला ने अपनी टिप्पणी में लिखा था - वर्ड 2013 से सीधे पीडीएफ खोलें। कुछ पीडीएफ़ पर मैंने कोशिश की थी कि उपरोक्त सभी सॉफ़्टवेयर की तुलना में बेहतर परिणाम मिले।
बॉर्नटूकोड

8

एक और विकल्प मुफ्त पीडीएफ दर्शक, फॉक्सिट (इसके अच्छे) का उपयोग करना और डाउनलोड करना है। तब आप 'इस रूप में सहेजें' को चुन सकते हैं और इसे टेक्स्ट फ़ाइल में बदलने के लिए .txt का चयन कर सकते हैं। यह सभी स्वरूपण को संरक्षित करेगा। डननो कि क्या आप Adobe में भी ऐसा कर सकते हैं क्योंकि मैंने कुछ समय पहले इसका उपयोग बंद कर दिया था जब मैंने फॉक्सिट में बदल दिया।


"इस रूप में सहेजें ... पाठ" ने मेरे लिए कई मुफ्त पीडीएफ़ दर्शकों के साथ काम किया।
जेफ

मैं फॉक्सिट का उपयोग करता हूं, और बस कोशिश की, मैं इसे संरक्षित स्वरूपण नहीं कहूंगा। और मैं चाहता था कि सभी सभ्य लाइन एंडिंग और एक पैरा के रूप में प्रत्येक पैराग्राफ।
प्रार्थना करें

Txt का उपयोग करके आप सभी फॉर्मेटिंग को ढीला कर देंगे: फोंट, बोल्ड, इटैलिक, रंग और निश्चित रूप से अधिक उन्नत विकल्प
स्कैन


5

एक बहुत अच्छा ऑनलाइन टूल है जिसे सेज-दा कहा जाता है । इसके उन्नत पीडीएफ हेरफेर के साथ संबंधित है। डाउनलोड करने के लिए कोई सॉफ्टवेयर नहीं है। जैसा कि यह एक नया ऑनलाइन टूल है यह अभी बीटा में है। यह आपको एक पीडीएफ से पाठ निकालने की अनुमति देता है, साथ ही साथ अन्य पीडीएफ कार्यात्मकता के असंख्य प्रदान करता है

http://www.sejda.com/

सेजडा कार्यों की एक संक्षिप्त वीडियो समीक्षा 14 नवंबर 2012 को संशोधन 3 द्वारा की गई थी, इसे यहां पाया जा सकता है:

http://revision3.com/tzdaily/sejda-online-pdf


1
एक अभी भी कमांड लाइन टूल डाउनलोड कर सकता है : sejda.org/download (मुझे नहीं लगता कि यह फ़ॉर्मेटिंग के साथ टेक्स्ट को निकालने की अनुमति देता है ?)
Arjan

मैंने पहले ही अर्जन के ऊपर सेजदा की सिफारिश कर दी है
साइमन

1
है ना? मेरा मतलब सिर्फ इतना है: आप कह रहे हैं कि यह एक ऑनलाइन टूल है, लेकिन एक ही चीज़ को डाउनलोड कर सकते हैं। इसके अलावा, इसे और आगे देखना: मुझे नहीं लगता कि यह प्रारूपण को संरक्षित करेगा, जैसे पूछा गया था?
अर्जन

मैं अच्छी तरह से जानता हूं कि प्रारूप के संरक्षण का अनुरोध किया गया था, लेकिन जब तक आप कोशिश नहीं करेंगे तब तक आपको कभी पता नहीं चलेगा।
साइमन

सुविधाओं के धन के साथ एक नि: शुल्क उपकरण के रूप में, और इसके बीटा से बाहर भी नहीं - खोने के लिए कुछ भी नहीं है, लेकिन कोशिश करें। समय के साथ इसका फीचर सेट संभवत: बढ़ाया जाएगा, लेकिन अब वास्तव में शिकायत नहीं की जा सकती।
साइमन

4

आप इसके लिए Adobe Acrobat Pro का उपयोग कर सकते हैं।

तालिकाओं के लिए: एक्रोबैट 9/10 के साथ कुछ चुनिंदा तालिकाओं की सुविधा थी। एक्रोबैट एक्स के साथ आप केवल Save As> Spreadsheet> Excel पर क्लिक कर सकते हैं। यहां तक ​​कि यह एक लंबे स्प्रेडशीट में पृष्ठों को समेटता है। बहुत बढ़िया सुविधा।

पाठ के लिए: एमएस वर्ड को निर्यात करने के लिए एक समान सुविधा मौजूद है। इस रूप में सहेजें> वर्ड> वर्ड डॉक।

सूत्रों का कहना है:


4

एक ब्राउज़र के साथ अपनी पीडीएफ फाइल खोलें (Google क्रोम और फ़ायरफ़ॉक्स का परीक्षण किया जाता है) फिर अपने पाठ को वहां कॉपी करें।


अफसोस की बात है कि यह मेरे लिए फ़ायरफ़ॉक्स में काम नहीं किया।
रीब

बंद करे। FF ने फ़ॉन्ट आकार कम से कम रखा। क्रोम बुरी तरह से विफल रहा, यहां तक ​​कि लाइन-फीड भी नहीं।
nd34567s32e

0

फॉक्सिट मूल फ़ाइल को सामान्य पीडीएफ के रूप में प्रदर्शित करने या पाठ के रूप में Ctrl + 6 दबाकर बीच में टॉगल करेगा (पाठ मोड के ज़ूम स्तर के साथ थोड़ा फ़िडलिंग के साथ पढ़ने और कॉपी करने के बीच स्थिति में आगे और पीछे बहुत अधिक कूद नहीं है)


0

मुझे यह बहुत उपयोगी लगा ( लाइन ब्रेक्स हटाएं ):

यहां मैन्युअल रूप से सभी लाइन ब्रेक को हटाने के बिना इसे हल करने के लिए एक उपयोगी चाल है। मूल रूप से, यह सब करता है स्वचालित रूप से सभी अवांछित लाइन विराम को एक स्थान के साथ बदल देता है, जिससे सभी पाठ एक ही पैराग्राफ में एक साथ चलते हैं:

1- पीडीएफ से मनचाहा टेक्स्ट कॉपी करें।

2- एक नए वर्ड डॉक्यूमेंट में पेस्ट करें।

3- "संपादित करें" पर क्लिक करें और फिर "बदलें"

4- सुनिश्चित करें कि आप "क्या खोजें" फ़ील्ड में हैं

5- "अधिक" और फिर "विशेष" पर क्लिक करें

6- "पैराग्राफ मार्क" (सूची के ऊपर) का चयन करें

7- “बदलें” फ़ील्ड में क्लिक करें

8- स्पेस बार को एक बार दबाएं

9- "सभी को बदलें" पर क्लिक करें

10- “ओके” पर क्लिक करें और फिर “फाइंड एंड रिप्लेस” बॉक्स को बंद करें।


-1

आप एडोब रीडर से एमएस एक्सेल में कॉपी कर सकते हैं और जिस तरह से चाहते हैं उसे फॉर्मेट (टेबल) कर सकते हैं और फिर एक्सेल से कॉपी और पेस्ट कर सकते हैं। यह समाधान महान काम करता है। आपको महंगे एडोब पेशेवर कॉपी खरीदने की आवश्यकता नहीं है।


प्रश्न पाठ पर चर्चा करता है। क्या आपको लगता है कि यह HTML कोड को फ़ॉर्मेट करने सहित पाठ के लिए एक अच्छा सामान्य समाधान होगा?
फिक्सर 1234

-1

मैं एक तालिका में आयोजित एक पीडीएफ के पाठ और प्रारूप को बचाने की कोशिश कर रहा था। एक्रोबेट प्रोफेशनल में, मुझे एहसास हुआ कि एक 'सेव अस' विकल्प है जो एक्सेल डॉक्यूमेंट के रूप में बचत करता है। इसने मेरी जरूरतों के लिए अच्छा काम किया। मैंने यह भी देखा कि इसमें सेव अस वर्ड डॉक्यूमेंट का ऑप्शन भी है। मैंने हालांकि यह कोशिश नहीं की।


2
यह user156787 के उत्तर को दोहराता है।
फिक्सर 1234
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.