पीडीएफ को पीडीएफ में परिवर्तित करना / ए?


11

लिनक्स पर यादृच्छिक मूल के पीडीएफ को देखते हुए, मैं कैसे करूं:

  • पुष्टि करें कि क्या यह पीडीएफ / ए प्रारूप में है?
  • अगर यह पीडीएफ / ए प्रारूप में नहीं है, तो इसे कम से कम निष्ठा के साथ पीडीएफ / ए में परिवर्तित करें?

मुझे पता है कि रूपांतरण से दस्तावेज़ के विदेशी तत्वों का नुकसान हो सकता है, लेकिन मान लेते हैं कि अपेक्षाकृत दूर के भविष्य में दस्तावेज़ को खोलने की क्षमता ऐसी महत्वपूर्ण विशेषताओं की तुलना में अधिक महत्वपूर्ण है (जो उपलब्ध नहीं हो सकती है / ऐसे में पठनीय है वैसे भी एक समय)। मैं रूपांतरण की सटीकता की दृष्टि से पुष्टि करने में सक्षम होऊंगा जब मैं मूल रूप से दस्तावेज़ों को मूल फ़ाइल को खोलने में सक्षम नहीं होने की तुलना में साइड से देख सकता हूं।

जवाबों:


9

पहचान

मुझे यह उपकरण मिला जो ऐसा लगता है कि आप पीडीएफ / ए फाइलों की पहचान करने के लिए क्या उपयोग कर सकते हैं। इसे DROID (डिजिटल रिकॉर्ड और ऑब्जेक्ट पहचान) कहा जाता है । यह जावा आधारित है और इसे GUI या कमांड-लाइन से चलाया जा सकता है।

अंश

DROID एक सॉफ्टवेयर टूल है जिसे द नेशनल आर्काइव्स ने फाइल फॉर्मेट की स्वचालित बैच पहचान के लिए विकसित किया है। डिजिटल संरक्षण विभाग द्वारा अपने व्यापक डिजिटल संरक्षण गतिविधियों के हिस्से के रूप में विकसित, DROID को किसी भी डिजिटल भंडार की मूलभूत आवश्यकता को पूरा करने के लिए डिज़ाइन किया गया है, जो सभी संग्रहीत डिजिटल ऑब्जेक्ट्स के सटीक प्रारूप की पहचान करने और उस पहचान को एक केंद्रीय रजिस्ट्री से जोड़ने में सक्षम हो उस प्रारूप और उसकी निर्भरता के बारे में तकनीकी जानकारी।

यह देखते हुए कि यह राष्ट्रीय अभिलेखागार द्वारा प्रायोजित है, मैं मानूंगा कि ऐसा करने के लिए यह सही उपकरण है, पीडीएफ / ए प्रारूप के उद्देश्य को देखते हुए। इसके अलावा परियोजना खुला स्रोत है और कोड जीथब पर उपलब्ध है और साथ ही राष्ट्रीय अभिलेखागार की वेबसाइट से द्विआधारी रूप में पैक किया गया है ।

मान्यता और रूपांतरण

यदि आप सत्यापन और रूपांतरण करने के लिए एक उपकरण की तलाश कर रहे हैं, तो मेरा मानना ​​है कि PDFBox ऐसा कर सकता है। पीडीएफबॉक्स पीडीएफ / ए सत्यापन को उनकी वेबसाइट के सामने पृष्ठ पर सूचीबद्ध करता है। यह एक और जावा अनुप्रयोग 8-) है।

वेबसाइट से उद्धरण

पीडीएफ / ए
वैधता पीडीएफ के खिलाफ पीडीएफ / एक आईएसओ मानक।

अपने मुख्य पृष्ठ के बाईं ओर स्थित कमांड लाइन टूल सेक्शन में टूल के लिए निम्न उपयोग को दर्शाते हैं:

$ java -jar pdfbox-app-x.y.z.jar org.apache.pdfbox.ConvertColorspace [OPTIONS] <inputfile> <outputfile>

veraPDF एक अन्य उपकरण है जो PDF / A को मान्य करने में सक्षम है; यह ओपन प्रिजर्वेशन फाउंडेशन के रेफरेंस टूल सेट का हिस्सा है। यह भी एक जावा अनुप्रयोग है।

रूपांतरण

केवल रूपांतरण करने के लिए, मैंने इस पद्धति को शीर्षक वाले ब्लॉग पोस्ट से पाया: मौजूदा पीडीएफ को पीडीएफ / ए में परिवर्तित करने का नि : शुल्क तरीका , जो निम्नलिखित कार्यों का उपयोग करता है:

  • भूत-प्रेत 8.64 ही।
  • PDFBox 0.7.3
  • PDFmarks (अतिरिक्त मेटा डेटा की आपूर्ति करने के लिए फ़ाइल)
  • PDFA_def.ps
  • USWebCoatedSWOP.icc

उपरोक्त आदेश के साथ आप निम्न कमांड का उपयोग करते हैं:

$ gs -sDEVICE=pdfwrite -q -dNOPAUSE -dBATCH -dNOSAFER     \
-dPDFA -dUseCIEColor -sProcessColorModel=DeviceCMYK       \
-sOutputFile=Out_PDFA.pdf PDFA_def.ps pdfmarks IN_PDF.pdf

यह मौसा के बिना नहीं है। लेख उनमें से एक पर हाइपरलिंक्स पर प्रिंट झंडे को ठीक करने पर चर्चा करता है। लेख एक जावा अनुप्रयोग प्रदान करता है जिसे आप इनको ठीक करने के लिए उपयोग कर सकते हैं:

$ java FixPrintFlag Out_PDFA.pdf New_verifiablePDFA.pdf

यह सुंदर नहीं है, लेकिन व्यावहारिक प्रतीत होता है। देखें लेख अधिक जानकारी के लिए।

संदर्भ


मुझे यह एक कोशिश देनी होगी - यह काफी आशाजनक लग रहा है। थोड़ी सी फ़िदालिंग के साथ इसे सीयूपीएस-पीडीएफ प्रिंटर में एकीकृत करना भी संभव हो सकता है; /etc/cups/cups-pdf.conf में सेटिंग्स हैं जो उस उद्देश्य के लिए आशाजनक दिखती हैं। समय लेने के लिए शुक्रिया! वास्तव में अभी इसका परीक्षण नहीं किया गया है, लेकिन मैं इस पर वापस जाऊंगा (उम्मीद है कि कल)।
एक CVn

@ माइकलकॉर्जलिंग - सवाल के लिए धन्यवाद। मैंने पहले कभी पीडीएफ / ए प्रारूप के बारे में नहीं सुना था और हमें काम पर इस सटीक चीज़ की आवश्यकता है। तो आपने मुझे इस सामान के बारे में जानने के लिए एक जीनियस की तरह दिखने में मदद की 8- 8-।
स्लम

क्या है pdfmarks?
एंड्रयू


1

फ़ाइल पहचान के लिए, कमांड fileअक्सर मददगार होती है। यह आपकी फ़ाइल को जादुई संख्या, फ़ाइल पहचानकर्ता, एन्कोडिंग जानकारी आदि के लिए देखेगा, ताकि यह किसी भी उपयोगी जानकारी को दे सके।

पीडीएफ फाइलों के विशेष मामले में, उपयोग pdfinfoविशेष रूप से उपयोगी है। मेरे मामले में, एक जेंटू वितरण, यह popplerएक पीडीएफ प्रतिपादन पुस्तकालय के साथ पैक किया गया है ।


1
pdfinfo -metaऔर देखने से xmpmeta/RDF/Description/conformanceलगता है कि पीडीएफ PDF / A है (कि नोड है A) या नहीं (नोड मौजूद नहीं है या कोई अन्य मान है)। यह एक शुरुआत है!
एक CVn

0

यहाँ एक बैश कमांड लाइन स्क्रिप्ट है जो बस कर रही है:

#!/bin/bash

pdf_input=$1
ps_output=${pdf_input%.*}.ps
pdfa_output=${pdf_input%.*}_a.pdf
pdftops $input $ps_output

gs -dPDFA -dBATCH -dNOPAUSE -dNOOUTERSAVE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=$pdfa_output $ps_output

इसे PDF2pdfa.sh नामक फ़ाइल में सहेजें जो आपके मार्ग में है, फिर इसे इस तरह से कॉल करें:

pdf2pdfa.sh input.pdf

यह input_a.pdf बनाएगा।


2
(1) कृपया बताएं कि यह क्या करता है। (२) क्या है input? मैं देखता हूं pdf_input, लेकिन क्या है input? (3) आपको हमेशा शेल वेरिएबल्स को उद्धृत करना चाहिए जब तक कि आपके पास एक अच्छा कारण न हो, और आपको यकीन है कि आप जानते हैं कि आप क्या कर रहे हैं। कृपया टिप्पणियों में प्रतिक्रिया न दें;  इसे स्पष्ट और अधिक पूर्ण बनाने के लिए अपना उत्तर संपादित करें।
जी-मैन '2:15 पर मोनिका'
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.