डाउनलोड किए गए पीडीएफ और XML में एम्बेडेड एक ही पीडीएफ के बीच कच्चे पाठ में अंतर [बंद]

मैं SECD के EDGAR डेटाबेस पर सार्वजनिक रूप से उपलब्ध कंपनी बुरादा देख रहा हूं। प्रत्येक फाइलिंग के लिए, एक .txt फाइल होती है जिसमें एक्सएमएल फॉर्मेट (मैं एक शुरुआती) जैसा दिखता है, फाइलिंग के बारे में विस्तृत जानकारी होती है। कभी-कभी यह तुरंत उपयोगी पाठ होता है, लेकिन कुछ मामलों में, जानकारी एक पीडीएफ फाइल है जो एएससीआईआई की तरह दिखने वाले कच्चे प्रारूप में एम्बेडेड होती है। उदाहरण के लिए,

<PDF>
begin 644 filename1.pdf
M)5!$1BTQ+C4-)>+CS],-"C(X(#`@;V)J#3P\+TQI;F5A<FEZ960@,2],(#0T
M-34Y+T\@,S`O12`R-S@T,B].(#0O5"`T-#,P,B]((%L@-#0Q(#(P.%T^/@UE
M;F1O8FH-("`@("`@("`@("`@("`@("`@#0HS."`P(&]B:@T\/"],96YG=&@@
M-C,O4F]O="`R.2`P(%(O241;/$1#0S%%,T$W,S9%0S8V-#`R-C-$.3DS1C(R
...
[...lots of text like this...]
...
)#0HE)45/1@T*
`
end
</PDF>

तथ्य यह है कि यह कच्चा है आश्चर्य की बात नहीं है। एक नौसिखिए के रूप में मेरे लिए क्या आश्चर्य की बात है कि (1) अगर मैं उस कच्चे पाठ को नोटपैड में कॉपी / पेस्ट करने की कोशिश करता हूं और aspdf के रूप में सहेजता हूं, तो एक्रोबैट फ़ाइल को नहीं पढ़ सकता है, और (2) जब मैं डाउनलोड करता हूं (क्रोम का उपयोग करके)। वास्तविक .pdf फाइलिंग से, जो EDGAR सिस्टम पर कहीं और उपलब्ध है, और इसे Notepad ++ में खोलें, कच्चा टेक्स्ट XML-फ़ाइल के कच्चे टेक्स्ट से बहुत अलग दिखता है , भले ही मैं उनसे उसी फाइल को एनकोड करने की उम्मीद करता हूं। उदाहरण के लिए,

%PDF-1.5
%âãÏÓ
28 0 obj
<</Linearized 1/L 44559/O 30/E 27842/N 4/T 44302/H [ 441 208]>>
endobj

38 0 obj
<</Length 63/Root 29 0 R/ID[<DCC1E3A736EC6640263D993F227A4DC8><71A0C1AA5F566D44A5466B14A0F219D4>]/Info 27 0 R/Filter/FlateDecode/W[1 2 1]/Index[28 23]/DecodeParms<</Columns 4/Predictor 12>>/Size 51/Prev 44303/Type/XRef>>stream
xÚbbd``b`ª@‚±  H0{    ¶‡@‚»Ä
Ö§a¬Ÿ˜Vƒt00’Fügœõ
 À =¸   ê
endstream
endobj
...

मैं जिन फ़ाइलों के बारे में बात कर रहा हूँ, वे यहाँ पाई जा सकती हैं:
.txt फ़ाइल .pdf फ़ाइल

एक्रोबेट XML .txt फ़ाइल से कच्चा पाठ क्यों नहीं पढ़ सकता है? वहाँ एक तरीका है कि आसानी से तो यह पठनीय है बदलने के लिए है? जब मैं वास्तविक पीडीएफ डाउनलोड करता हूं तो कच्चा टेक्स्ट इतना अलग क्यों दिखता है? क्या वे एक ही फ़ाइल के अलग-अलग प्रतिनिधित्व हैं, या प्रकाशित .pdf वास्तव में .txt फ़ाइल से निकाले जा सकने वाली फ़ाइल से बहुत भिन्न फ़ाइल है?

मैंने ASCII और यूनिकोड के विभिन्न प्रकारों के बारे में जानकारी खोजने की कोशिश की, और द ऐब्सोल्यूट मिनिमम हर सॉफ्टवेयर डेवलपर को बिल्कुल पाया , यूनिकोड और कैरेक्टर सेट्स के बारे में पॉजिटिव पता होना चाहिए (कोई बहाना नहीं!) , लेकिन यह नहीं देखा कि इसे पीडीएफ फाइलों में कैसे लागू किया जाए। मैंने खोज की कोशिश की कि एक्सएमएल में एम्बेडेड पीडीएफ फाइलों को कैसे निकाला जाए, लेकिन ऐसा जवाब नहीं मिला जिससे मदद मिली हो। मैंने नोटपैड ++ में एन्कोडिंग प्रकारों के बीच परिवर्तित करने का प्रयास किया, जो फलदायक नहीं था।

— अत्तिला द फन
स्रोत

यह एक उत्तर होगा यदि प्रश्न पहले से ही बंद नहीं किया गया था: "पाठ जैसा" पीडीएफ जो आपने दिखाया है वह वास्तव में एक यूनुकोडेड संस्करण है। जब आप इसे क्रोम का उपयोग करते हुए पीडीएफ-लिंक से डाउनलोड करते हैं, तो यह वास्तविक बाइनरी पीडीएफ को डाउनलोड कर रहा है, न कि uuencoded संस्करण। यदि आपने नोटपैड ++ में पाठ जैसा संस्करण सहेजा है some.pdf.uu, तो एक uudecodeपर चलता है some.pdf.uu, यह कुछ एक्रोबैट पढ़ सकता है में पीडीएफ को निकाल देगा।

— 18 अक्टूबर को पीटरसीजे

उपरोक्त टिप्पणी ने मेरे प्रश्न का उत्तर दिया। मैं उत्तर को स्वीकार नहीं कर सकता क्योंकि प्रश्न बंद है, और मैं अपर्याप्त प्रतिष्ठा के कारण टिप्पणी को रद्द नहीं कर सकता।

— फन