मैं SECD के EDGAR डेटाबेस पर सार्वजनिक रूप से उपलब्ध कंपनी बुरादा देख रहा हूं। प्रत्येक फाइलिंग के लिए, एक .txt फाइल होती है जिसमें एक्सएमएल फॉर्मेट (मैं एक शुरुआती) जैसा दिखता है, फाइलिंग के बारे में विस्तृत जानकारी होती है। कभी-कभी यह तुरंत उपयोगी पाठ होता है, लेकिन कुछ मामलों में, जानकारी एक पीडीएफ फाइल है जो एएससीआईआई की तरह दिखने वाले कच्चे प्रारूप में एम्बेडेड होती है। उदाहरण के लिए,
<PDF>
begin 644 filename1.pdf
M)5!$1BTQ+C4-)>+CS],-"C(X(#`@;V)J#3P\+TQI;F5A<FEZ960@,2],(#0T
M-34Y+T\@,S`O12`R-S@T,B].(#0O5"`T-#,P,B]((%L@-#0Q(#(P.%T^/@UE
M;F1O8FH-("`@("`@("`@("`@("`@("`@#0HS."`P(&]B:@T\/"],96YG=&@@
M-C,O4F]O="`R.2`P(%(O241;/$1#0S%%,T$W,S9%0S8V-#`R-C-$.3DS1C(R
...
[...lots of text like this...]
...
)#0HE)45/1@T*
`
end
</PDF>
तथ्य यह है कि यह कच्चा है आश्चर्य की बात नहीं है। एक नौसिखिए के रूप में मेरे लिए क्या आश्चर्य की बात है कि (1) अगर मैं उस कच्चे पाठ को नोटपैड में कॉपी / पेस्ट करने की कोशिश करता हूं और aspdf के रूप में सहेजता हूं, तो एक्रोबैट फ़ाइल को नहीं पढ़ सकता है, और (2) जब मैं डाउनलोड करता हूं (क्रोम का उपयोग करके)। वास्तविक .pdf फाइलिंग से, जो EDGAR सिस्टम पर कहीं और उपलब्ध है, और इसे Notepad ++ में खोलें, कच्चा टेक्स्ट XML-फ़ाइल के कच्चे टेक्स्ट से बहुत अलग दिखता है , भले ही मैं उनसे उसी फाइल को एनकोड करने की उम्मीद करता हूं। उदाहरण के लिए,
%PDF-1.5
%âãÏÓ
28 0 obj
<</Linearized 1/L 44559/O 30/E 27842/N 4/T 44302/H [ 441 208]>>
endobj
38 0 obj
<</Length 63/Root 29 0 R/ID[<DCC1E3A736EC6640263D993F227A4DC8><71A0C1AA5F566D44A5466B14A0F219D4>]/Info 27 0 R/Filter/FlateDecode/W[1 2 1]/Index[28 23]/DecodeParms<</Columns 4/Predictor 12>>/Size 51/Prev 44303/Type/XRef>>stream
xÚbbd``b`ª@‚± H0{ ¶‡@‚»Ä
Ö§a¬Ÿ˜Vƒt00’Fügœõ
À =¸ ê
endstream
endobj
...
मैं जिन फ़ाइलों के बारे में बात कर रहा हूँ, वे यहाँ पाई जा सकती हैं:
.txt फ़ाइल
.pdf फ़ाइल
एक्रोबेट XML .txt फ़ाइल से कच्चा पाठ क्यों नहीं पढ़ सकता है? वहाँ एक तरीका है कि आसानी से तो यह पठनीय है बदलने के लिए है? जब मैं वास्तविक पीडीएफ डाउनलोड करता हूं तो कच्चा टेक्स्ट इतना अलग क्यों दिखता है? क्या वे एक ही फ़ाइल के अलग-अलग प्रतिनिधित्व हैं, या प्रकाशित .pdf वास्तव में .txt फ़ाइल से निकाले जा सकने वाली फ़ाइल से बहुत भिन्न फ़ाइल है?
मैंने ASCII और यूनिकोड के विभिन्न प्रकारों के बारे में जानकारी खोजने की कोशिश की, और द ऐब्सोल्यूट मिनिमम हर सॉफ्टवेयर डेवलपर को बिल्कुल पाया , यूनिकोड और कैरेक्टर सेट्स के बारे में पॉजिटिव पता होना चाहिए (कोई बहाना नहीं!) , लेकिन यह नहीं देखा कि इसे पीडीएफ फाइलों में कैसे लागू किया जाए। मैंने खोज की कोशिश की कि एक्सएमएल में एम्बेडेड पीडीएफ फाइलों को कैसे निकाला जाए, लेकिन ऐसा जवाब नहीं मिला जिससे मदद मिली हो। मैंने नोटपैड ++ में एन्कोडिंग प्रकारों के बीच परिवर्तित करने का प्रयास किया, जो फलदायक नहीं था।
some.pdf.uu
, तो एकuudecode
पर चलता हैsome.pdf.uu
, यह कुछ एक्रोबैट पढ़ सकता है में पीडीएफ को निकाल देगा।