Libdirectory / file का पता लगाना .docx फाइलें बनाना


17

जैसा कि कहीं और देखा गया है , डॉक्स, xlsx और pttx ज़िप हैं। करते हैं, अपने वेब आवेदन करने के लिए उन्हें अपलोड करने file(के माध्यम से libmagicऔर python-magic) ज़िप होने के रूप में उन्हें पता लगाता है।

मैं डेटाबेस में फ़ाइल की सामग्री को ब्लॉब के रूप में संग्रहीत करता हूं, लेकिन स्वाभाविक रूप से मैं उपयोगकर्ता पर भरोसा नहीं करना चाहता कि यह किस प्रकार की फ़ाइल है। इसलिए मैं fileडाउनलोड के दौरान एक फ़ाइल नाम बनाना और उस पर भरोसा करना चाहूंगा ।

मुझे पता है कि कोई भी संशोधित कर सकता है /etc/magicलेकिन प्रारूप ( magic(5)) मेरे लिए बहुत जटिल है। मुझे डेबियन बग पर इस मुद्दे पर एक बग रिपोर्ट मिली लेकिन 2008 से यह जल्द ही किसी भी समय तय नहीं हुआ है।

मुझे लगता है कि मेरा एकमात्र अन्य विकल्प वास्तव में उपयोगकर्ता पर भरोसा करना है (लेकिन अभी भी सामग्री को एक बूँद के रूप में संग्रहीत करता है) और केवल फ़ाइल नाम के आधार पर फ़ाइल एक्सटेंशन की जांच करें। इस तरह मैं कुछ एक्सटेंशन को अस्वीकार कर सकता हूं और दूसरों को अनुमति दे सकता हूं। और जब उपयोगकर्ता अपनी फ़ाइल को फिर से डाउनलोड करता है, तो वह इसे किसी भी तरह से अपलोड कर सकता है। लेकिन यह समाधान असुरक्षित है अगर फ़ाइल दूसरों के साथ साझा की जाती है, क्योंकि आप इसे अपलोड करने की अनुमति देने के लिए फ़ाइल का नाम बदल सकते हैं।

कोई विचार?

अंत में, मुझे डॉक्स आदि के लिए मैजिक नंबरों की एक सूची मिली , लेकिन मैं इन्हें magic(5)प्रारूप में बदलने में असमर्थ हूं ।

जवाबों:


17

आप उपयोग कर सकते हैं

0       string  PK\x03\x04\x14\x00\x06\x00      Microsoft Office Open XML Format

आपके द्वारा दी गई जानकारी के आधार पर सामान्य फ़ाइल प्रकार की पहचान करने के लिए / etc / जादू में।

(हालांकि, यह सार्वभौमिक नहीं हो सकता है: PK\x03\x04\x00\x14\x08\x08लिब्रे ऑफिस-जनरेटेड एक्सएलएसएक्स फाइलों की शुरुआत में देखा गया है।)

उबंटू के बाद के संस्करणों में .docx, .pptx और .xlsx फ़ाइलों की सही पहचान की जाती है। फ़ाइल उपयोगिता के लिए sorce कोड में चारों ओर खुदाई करने पर मुझे वह ~/file-5.09/magic/Magdir/msooxmlफ़ाइल मिली, जो पहचान करती है। आप फ़ाइल की एक प्रति प्राप्त कर सकते हैं और इसे अपनी /etc/magicफ़ाइल में जोड़ सकते हैं।


फ़ाइल की प्रतिलिपि शामिल है जिसे v 1.5 में अद्यतन किया गया है


# $File: msooxml,v 1.5 2014/08/05 07:38:45 christos Exp $
# msooxml:  file(1) magic for Microsoft Office XML
# From: Ralf Brown <ralf.brown@gmail.com>

# .docx, .pptx, and .xlsx are XML plus other files inside a ZIP
#   archive.  The first member file is normally "[Content_Types].xml".
#   but some libreoffice generated files put this later. Perhaps skip
#   the "[Content_Types].xml" test?
# Since MSOOXML doesn't have anything like the uncompressed "mimetype"
#   file of ePub or OpenDocument, we'll have to scan for a filename
#   which can distinguish between the three types

# start by checking for ZIP local file header signature
0       string      PK\003\004
!:strength +10
# make sure the first file is correct
>0x1E       regex       \\[Content_Types\\]\\.xml|_rels/\\.rels
# skip to the second local file header
# since some documents include a 520-byte extra field following the file
# header, we need to scan for the next header
>>(18.l+49) search/2000 PK\003\004
# now skip to the *third* local file header; again, we need to scan due to a
# 520-byte extra field following the file header
>>>&26      search/1000 PK\003\004
# and check the subdirectory name to determine which type of OOXML
# file we have.  Correct the mimetype with the registered ones:
# http://technet.microsoft.com/en-us/library/cc179224.aspx
>>>>&26     string      word/       Microsoft Word 2007+
!:mime application/vnd.openxmlformats-officedocument.wordprocessingml.document
>>>>&26     string      ppt/        Microsoft PowerPoint 2007+
!:mime application/vnd.openxmlformats-officedocument.presentationml.presentation
>>>>&26     string      xl/     Microsoft Excel 2007+
!:mime application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
>>>>&26     default     x       Microsoft OOXML
---

लेकिन वीरता के लिए यहां V1.2 छोड़ दिया।

यहाँ एक प्रति भी शामिल है क्योंकि उपरोक्त लिंक तारीख से बाहर जा सकता है क्योंकि फ़ाइल पैकेज अद्यतन किया गया है।

#------------------------------------------------------------------------------
# $File: msooxml,v 1.2 2013/01/25 23:04:37 christos Exp $
# msooxml:  file(1) magic for Microsoft Office XML
# From: Ralf Brown <ralf.brown@gmail.com>

# .docx, .pptx, and .xlsx are XML plus other files inside a ZIP
#   archive.  The first member file is normally "[Content_Types].xml".
# Since MSOOXML doesn't have anything like the uncompressed "mimetype"
#   file of ePub or OpenDocument, we'll have to scan for a filename
#   which can distinguish between the three types

# start by checking for ZIP local file header signature
0               string          PK\003\004
# make sure the first file is correct
>0x1E           string          [Content_Types].xml
# skip to the second local file header
#   since some documents include a 520-byte extra field following the file
#   header,  we need to scan for the next header
>>(18.l+49)     search/2000     PK\003\004
# now skip to the *third* local file header; again, we need to scan due to a
#   520-byte extra field following the file header
>>>&26          search/1000     PK\003\004
# and check the subdirectory name to determine which type of OOXML
#   file we have
#   Correct the mimetype with the registered ones:
#     http://technet.microsoft.com/en-us/library/cc179224.aspx
>>>>&26         string          word/           Microsoft Word 2007+
!:mime application/vnd.openxmlformats-officedocument.wordprocessingml.document
>>>>&26         string          ppt/            Microsoft PowerPoint 2007+
!:mime application/vnd.openxmlformats-officedocument.presentationml.presentation
>>>>&26         string          xl/             Microsoft Excel 2007+
!:mime application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
>>>>&26         default         x               Microsoft OOXML
!:strength +10

1
मैंने उस फ़ाइल की सामग्री (msooxml) को / etc / जादू (डेबियन पर) जोड़ा और यह काम कर गया।
Jay K

यह मेरे लिए भी काम करता है - हालांकि मैंने ~/file-5.11/magic/Magdir/msooxmlस्रोत का उपयोग करने की गलती की है , जो कुछ पावरपॉइंट उदाहरण फ़ाइलों के लिए काम नहीं करता था जो मैं उपयोग कर रहा था। संस्करण file-5.17हालांकि महान काम करता है (शायद टैब के साथ कुछ करने के लिए या ... डननो)।
dsummersl

एफडब्ल्यूआईडब्ल्यू, मैंने साइंटिफिक लिनक्स 6 पर यह कोशिश की, लेकिन यह अभी भी file5.04 पर है , जो 64 अक्षरों पर माइम टाइप टैग को काटता है (लेकिन आपको इसके बारे में चेतावनी देता है) @ स्टैनले-सी के रूप में उल्लेख किया गया है। मैंने Mac OS X Mavericks की भी कोशिश की, लेकिन नियमों को लागू करने के लिए इसे प्राप्त नहीं कर सका (हालाँकि इसने मुझे [और दूसरे नियम से बचने की आवश्यकता नहीं है) के बारे में चेतावनी दी थी।
jwadsack

ध्यान दें कि "Microsoft OOXML" केवल। Microsoft फाइलें ही नहीं, "Microsoft Word
2007+

4

फ़ाइल, संस्करण 5.13 से पहले, MIME प्रकार को 64 वर्णों तक काट देगा। इसलिए msooxml की सामग्री का उपयोग करते हुए, फ़ाइल-नी कमांड से MIME प्रकार "माइम एप्लिकेशन / vnd.openxmlformats-officedocument.wordprocessingml.d; charset = Binary" हो जाता है।


0

अगर libreoffice के docx का उपयोग करें तो आप सामग्री (नीचे) / / / जादू में जोड़ सकते हैं:

# start by checking for ZIP local file header signature
0               string          PK\003\004
!:strength +10
>1104           search/300      PK\003\004
# and check the subdirectory name to determine which type of OOXML
# file we have.  Correct the mimetype with the registered ones:
# http://technet.microsoft.com/en-us/library/cc179224.aspx
>>&26           string          word/           Microsoft Word 2007+
!:mime application/vnd.openxmlformats-officedocument.wordprocessingml.document
>>&26         string          ppt/            Microsoft PowerPoint 2007+
!:mime application/vnd.openxmlformats-officedocument.presentationml.presentation
>>&26         string          xl/             Microsoft Excel 2007+
!:mime application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
>>&26         default         x               Microsoft OOXML

यह कोशिश की, लेकिन यह कुछ पहले गलत तरीके से पता लगाया xlsx- फ़ाइलों को ठीक से पता लगाया जा रहा है, लेकिन यह भी कुछ पहले से सही ढंग से पता लगाया
xlsx-
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.