ब्लॉक डिवाइस कंटेंट को आर्काइव करने के लिए टार (आदि) कैसे मनाएं?


13

मेरे पास छह लिनक्स लॉजिकल वॉल्यूम हैं जो एक वर्चुअल मशीन को एक साथ वापस करते हैं। वीएम वर्तमान में शटडाउन है, इसलिए उनकी लगातार छवियां लेना आसान है।

मैं एक संग्रह में सभी छह छवियों को एक साथ पैक करना चाहता हूं। तुच्छ रूप से, मैं ऐसा कुछ कर सकता था:

cp /dev/Zia/vm_lvraid_* /tmp/somedir
tar c /tmp/somedir | whatever

लेकिन निश्चित रूप से एक अतिरिक्त प्रतिलिपि बनाता है। मैं अतिरिक्त कॉपी से बचना चाहूंगा।

स्पष्ट दृष्टिकोण:

tar c /dev/Zia/vm_lvraid_* | whatever

काम नहीं करता है, क्योंकि टार फाइलों को एक विशेष (इस मामले में सहानुभूति) को पहचानता है और मूल रूप ln -sसे संग्रह में संग्रहीत करता है। या, के साथ --dereferenceया सीधे कहा गया है /dev/dm-X, यह उन्हें विशेष (डिवाइस फ़ाइलों) के रूप में पहचानता है और मूल रूप mknodसे संग्रह में संग्रहीत करता है।

मैंने इस व्यवहार को ओवरराइड करने के लिए कमांड-लाइन विकल्प के लिए खोज की है, और कोई भी नहीं खोज सका। मैंने भी कोशिश की cpio, एक ही समस्या है, और इसे वहां से आगे निकलने के लिए कोई विकल्प नहीं मिला। मैंने भी कोशिश की 7z(डिट्टो)। उसी के साथ pax। मैंने भी कोशिश की zip, जो सिर्फ खुद को भ्रमित कर गया।

संपादित करें: GNU टार और GNU cpio के स्रोत कोड को देखते हुए, ऐसा प्रतीत होता है कि उनमें से कोई भी ऐसा नहीं कर सकता है। कम से कम, गंभीर चालबाजी के बिना नहीं (डिवाइस फ़ाइलों की विशेष हैंडलिंग को अक्षम नहीं किया जा सकता)। तो, गंभीर प्रवंचना के सुझावों की सराहना की जाएगी या वैकल्पिक उपयोगिताओं।

TLDR: क्या कोई ऐसा आर्काइव है जो कई डिस्क छवियों को एक साथ (कच्चे उपकरणों से लिया गया) पैक करेगा और उस आउटपुट को स्ट्रीम करेगा, बिना अतिरिक्त डिस्क डिस्क के? मेरी प्राथमिकता एक सामान्य प्रारूप में आउटपुट होगी, जैसे कि POSIX या GNU टार।


मैंने इसे मना लिया।
8

जवाबों:


11

इसलिए हाल ही में मैं इसके साथ करना चाहता था tar। कुछ जांच ने मुझे संकेत दिया कि यह एक छोटी सी बकवास से अधिक था जो मैं नहीं कर सकता था। मैं इस अजीब split --filter="cat >file; tar -r ..."बात के साथ आया था , लेकिन, ठीक है, यह बहुत धीमा था। और जितना मैंने पढ़ा था tarकि यह उतना ही निरर्थक था।

आप देखते हैं, tarसिर्फ रिकॉर्ड की एक संक्षिप्त सूची है। घटक फ़ाइलों को किसी भी तरह से बदला नहीं जाता है - वे पूरे संग्रह में हैं। लेकिन वे 512-बाइट ब्लॉक सीमाओं पर बंद कर दिए जाते हैं , और हर फ़ाइल से पहले एक हेडर होता है । बस। हेडर प्रारूप वास्तव में बहुत सरल है।

तो, मैंने अपना लिखा tar। मैं इसे कहते ... shitar

z() (IFS=0; printf '%.s\\0' $(printf "%.$(($1-${#2}))d"))
chk() (IFS=${IFS#??}; set -f; set -- $(     
        printf "$(fmt)" "$n" "$@" '' "$un" "$gn"               
);  IFS=; a="$*"; printf %06o "$(($(
        while printf %d+ "'${a:?}"; do a=${a#?}; done 2>/dev/null
)0))")                                                                 
fmt() { printf '%s\\'"${1:-n}" %s "${1:+$(z 99 "$n")}%07d" \
    %07o %07o %011o %011o "%-${1:-7}s" ' 0' "${1:+$(z 99)}ustar  " %s \
    "${1:+$(z 31 "$un")}%s"
}

यह वास्तव में मांस और आलू है। यह हेडर लिखता है और चक्षुम की गणना करता है - जो, अपेक्षाकृत बोलने वाला, केवल कठिन हिस्सा है। यह ustarहेडर प्रारूप करता है ... हो सकता है । कम से कम, यह tarसोचता है कि जीएनयू को लगता है कि ustarहेडर प्रारूप इस बिंदु पर है कि यह शिकायत नहीं करता है। और वहाँ यह करने के लिए और अधिक है, यह सिर्फ इतना है कि मैं वास्तव में अभी तक इसे समन्वित नहीं किया है। यहाँ, मैं आपको दिखाता हूँ:

for f in 1 2; do echo hey > file$f; done
{ tar -cf - file[123]; echo .; } | tr \\0 \\n | grep -b .

0:file1                      #filename - first 100 bytes
100:0000644                  #octal mode - next 8
108:0001750                  #octal uid,
116:0001750                  #gid - next 16
124:00000000004              #octal filesize - next 12
136:12401536267              #octal epoch mod time - next 12
148:012235                   #chksum - more on this
155: 0                       #file type - gnu is weird here - so is shitar
257:ustar                    #magic string - header type
265:mikeserv                 #owner
297:mikeserv                 #group - link name... others shitar doesnt do
512:hey                      #512-bytes - start of file   
1024:file2                   #512 more - start of header 2
1124:0000644
1132:0001750
1140:0001750
1148:00000000004
1160:12401536267
1172:012236
1179: 0
1281:ustar  
1289:mikeserv
1321:mikeserv
1536:hey
10240:.                     #default blocking factor 20 * 512

वह है tar। सब कुछ \0nulls के साथ गद्देदार तो मैं सिर्फ पठनीयता के लिए ewlines emमें बदल जाते हैं \n। और shitar:

#the rest, kind of, calls z(), fmt(), chk() + gets $mdata and blocks w/ dd
for n in file[123]
do d=$n; un=$USER; gn=$(id --group --name)
   set -- $(stat --printf "%a\n%u\n%g\n%s\n%Y" "$n")
   printf "$(fmt 0)" "$n" "$@" "$(chk "$@")" "$un" "$gn"
   printf "$(z $((512-298)) "$gn")"; cat "$d"  
   printf "$(x=$(($4%512));z $(($4>512?($x>0?$x:512):512-$4)))"
done |
{ dd iflag=fullblock conv=sync bs=10240 2>/dev/null; echo .; } |
tr \\0 \\n | grep -b .

आउटपुट

0:file1                 #it's the same. I shortened it.
100:0000644             #but the whole first file is here
108:0001750
116:0001750
124:00000000004
136:12401536267
148:012235              #including its checksum
155: 0
257:ustar  
265:mikeserv
297:mikeserv
512:hey
1024:file2
...
1172:012236             #and file2s checksum
...
1536:hey
10240:.

मैं कहता हूँ कि वहाँ की तरह क्योंकि यह उद्देश्य नहीं है shitar- tarपहले से ही है कि खूबसूरती से। मैं सिर्फ यह दिखाना चाहता था कि यह कैसे काम करता है - जिसका मतलब है कि मुझे इस पर छूने की जरूरत है chksum। अगर यह नहीं था कि मैं सिर्फ ddएक tarफ़ाइल के सिर से बाहर हो जाएगा और इसके साथ किया। यह कभी-कभी काम भी कर सकता है, लेकिन संग्रह में कई सदस्य होने पर यह गड़बड़ हो जाता है। फिर भी, चुक्सम वास्तव में आसान है।

सबसे पहले, इसे 7 रिक्त स्थान बनाएं - (जो एक अजीब गनु बात है, मुझे लगता है, जैसा कि कल्पना 8 कहती है, लेकिन जो भी - एक हैक एक हैक है) । फिर हेडर में हर बाइट के ऑक्टल वैल्यूज को जोड़ें। वह आपका चाकसूम है। इसलिए आपको शीर्षलेख करने से पहले फ़ाइल मेटाडेटा की आवश्यकता है, या आपके पास एक चक्सम नहीं है। और वह एक ustarसंग्रह है, ज्यादातर।

ठीक है। अब, इसका क्या करना है:

cd /tmp; mkdir -p mnt     
for d in 1 2 3                                                
do  fallocate -l $((1024*1024*500)) disk$d
    lp=$(sudo losetup -f --show disk$d)
    sync
    sudo mkfs.vfat -n disk$d "$lp"
    sudo mount  "$lp" mnt
    echo disk$d file$d | sudo tee mnt/file$d
    sudo umount mnt
    sudo losetup -d "$lp"
done

यह तीन 500M डिस्क चित्र, प्रारूप और प्रत्येक बनाता है, और प्रत्येक के लिए एक फ़ाइल लिखता है।

for n in disk[123]
do d=$(sudo losetup -f --show "$n")
   un=$USER; gn=$(id --group --name)
   set -- $(stat --printf "%a\n%u\n%g\n$(lsblk -bno SIZE "$d")\n%Y" "$n")
   printf "$(fmt 0)" "$n" "$@" "$(chk "$@")" "$un" "$gn"
   printf "$(z $((512-298)) "$gn")"
   sudo cat "$d"
   sudo losetup -d "$d"
done | 
dd iflag=fullblock conv=sync bs=10240 2>/dev/null |
xz >disks.tar.xz

नोट - जाहिर तौर पर ब्लॉक डिवाइस हमेशा सही तरीके से ब्लॉक होंगे। बहुत आसान है।

यह tarडिस्क डिवाइस फ़ाइलों की सामग्री को इन-स्ट्रीम करता है और आउटपुट को पाइप करता है xz

ls -l disk*
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep  3 01:01 disk1
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep  3 01:01 disk2
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep  3 01:01 disk3
-rw-r--r-- 1 mikeserv mikeserv    229796 Sep  3 01:05 disks.tar.xz

अब, सच्चाई का क्षण ...

 xz -d <./disks.tar.xz| tar -tvf -
-rw-r--r-- mikeserv/mikeserv 524288000 2014-09-03 01:01 disk1
-rw-r--r-- mikeserv/mikeserv 524288000 2014-09-03 01:01 disk2
-rw-r--r-- mikeserv/mikeserv 524288000 2014-09-03 01:01 disk3

हुर्रे! निष्कर्षण ...

xz -d <./disks.tar.xz| tar -xf - --xform='s/[123]/1&/'  
ls -l disk*
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep  3 01:01 disk1
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep  3 01:01 disk11
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep  3 01:01 disk12
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep  3 01:01 disk13
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep  3 01:01 disk2
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep  3 01:01 disk3
-rw-r--r-- 1 mikeserv mikeserv    229796 Sep  3 01:05 disks.tar.xz

तुलना ...

cmp disk1 disk11 && echo yay || echo shite
yay

और माउंट ...

sudo mount disk13 mnt
cat mnt/*
disk3 file3

और इसलिए, इस मामले में, shitarठीक है, मुझे लगता है। मैं बल्कि उन सभी चीजों में नहीं जाना चाहूँगा जो यह अच्छा नहीं करेगी । लेकिन, मैं कहूंगा कि - कम से कम फाइलनाम में नई स्टोरीलाइन्स न करें।

आप भी कर सकते हैं - और हो सकता है कि मैंने जिन विकल्पों की पेशकश की है, उन्हें देखते हुए squashfs। न केवल आप स्ट्रीम से निर्मित एकल संग्रह प्राप्त करते हैं - लेकिन यहmount कर्नेल में सक्षम और अंतर्निहित है vfs:

से छद्म file.example :

# Copy 10K from the device /dev/sda1 into the file input.  Ordinarily
# Mksquashfs given a device, fifo, or named socket will place that special file
# within the Squashfs filesystem, this allows input from these special
# files to be captured and placed in the Squashfs filesystem.
input f 444 root root dd if=/dev/sda1 bs=1024 count=10

# Creating a block or character device examples

# Create a character device "chr_dev" with major:minor 100:1 and
# a block device "blk_dev" with major:minor 200:200, both with root
# uid/gid and a mode of rw-rw-rw.
chr_dev c 666 root root 100 1
blk_dev b 666 0 0 200 200

आप btrfs (send|receive)जो भी stdinपसंद किए गए कंप्रेसर में एक सबवॉल्म को स्ट्रीम करने के लिए उपयोग कर सकते हैं । इससे पहले कि आप इसे संपीड़न कंटेनर के रूप में उपयोग करने का निर्णय लें, यह सबवोल्यूम मौजूद नहीं है।

फिर भी, के बारे में squashfs...

मुझे विश्वास नहीं होता कि मैं यह न्याय कर रहा हूँ। यहाँ एक बहुत ही सरल उदाहरण दिया गया है:

 cd /tmp; mkdir ./emptydir
 mksquashfs ./emptydir /tmp/tmp.sfs -p \
    'file f 644 mikeserv mikeserv echo "this is the contents of file"'                             

Parallel mksquashfs: Using 6 processors
Creating 4.0 filesystem on /tmp/tmp.sfs, block size 131072.
[==================================================================================|] 1/1 100%
Exportable Squashfs 4.0 filesystem, gzip compressed, data block size 131072
        compressed data, compressed metadata, compressed fragments,... 
###...
###AND SO ON
###...

echo '/tmp/tmp.sfs /tmp/imgmnt squashfs loop,defaults,user 0 0'|
    sudo tee -a /etc/fstab >/dev/null

mount ./tmp.sfs     
cd ./imgmnt
ls

total 1
-rw-r--r-- 1 mikeserv mikeserv 29 Aug 20 11:34 file

cat file

this is the contents of file

cd ..
umount ./imgmnt

इसके लिए केवल इनलाइन -pतर्क है mksquash। आप अपनी -pfपसंद के अनुसार उनमें से कई के साथ एक फ़ाइल स्रोत कर सकते हैं। प्रारूप सरल है - आप नए संग्रह के फाइल सिस्टम में लक्ष्य फ़ाइल के नाम / पथ को परिभाषित करते हैं, आप इसे एक मोड और एक मालिक देते हैं, और फिर आप इसे बताते हैं कि किस प्रक्रिया को निष्पादित करना है और जिसमें से stdout पढ़ना है। आप जितने चाहें उतने बना सकते हैं - और आप LZMA, GZIP, LZ4, XZ ... हम्म का उपयोग कर सकते हैं ... आपकी पसंद के अनुसार कम्प्रेशन फ़ॉर्मेट हैं। और अंतिम परिणाम एक संग्रह है जिसमें आप cd

प्रारूप पर अधिक हालांकि:

यह, निश्चित रूप से, न केवल एक संग्रह है - यह एक संकुचित, माउंटनीय लिनक्स फ़ाइल-सिस्टम छवि है। इसका प्रारूप लिनक्स कर्नेल है - यह एक वेनिला कर्नेल समर्थित फाइल सिस्टम है। इस तरह यह वैनिला लिनक्स कर्नेल के समान सामान्य है। इसलिए अगर आपने मुझसे कहा कि आप एक वेनिला लिनक्स सिस्टम चला रहे हैं, जिस पर tarप्रोग्राम स्थापित नहीं हुआ है तो मैं संदिग्ध हो जाऊंगा - लेकिन मैं शायद आपको विश्वास करूँगा। लेकिन अगर आपने मुझसे कहा कि आप एक वेनिला लिनक्स सिस्टम चला रहे हैं, जिस पर squashfsफाइल सिस्टम समर्थित नहीं था, तो मुझे विश्वास नहीं होगा।


माइक, क्या हम आपको एक छोटा आत्म निहित उदाहरण बनाने के लिए परेशान कर सकते हैं ताकि लोग इसके साथ प्रयोग कर सकें? ऐसा लगता है कि आप ऊपर के कम से कम हिस्से को कर रहे होंगे, लेकिन मुझे यकीन नहीं है। में input f 444 root root dd if=/dev/sda1 bs=1024 count=10च फ़ाइल इनपुट है? शायद एक खिलौना डिवाइस बनाना बेहतर होगा, इसे डेटा से भरें, और इससे लिखें? और क्या इस सब के लिए जड़ की आवश्यकता है?
फहीम मीठा

@FaheemMitha - हां मैं ऐसा कर सकता हूं, लेकिन मैंने यहां ऐसा नहीं किया। लिंक आधिकारिक दस्तावेज के लिए है - यह सीधे इसे से लिया गया है। यह बेहतर होगा अगर मैं एक कमांड उदाहरण है। मैंने पहले किया है - यह बहुत अच्छा है। वैसे भी - inputफाइल squashfsआर्काइव में एक फाइल है - फाइलसिस्टम इमेज जो कमांड चलाने से होती है। जब आप ऐसा करते हैं, mksquashतो इन pseudofile कमांड्स को चलाने वाले कमांड्स के लिए निर्दिष्ट कर सकते हैं और जिसमें stdoutसे कंप्रेस टाइम पर कैप्चर किया जाता है।
mikeserv

@FaheemMitha - ओह, और इसे संपीड़ित करने के लिए रूट की आवश्यकता नहीं है , हालांकि यह माउंटिंग करना हो सकता है - यह एक फाइल सिस्टम छवि है जो परिणाम देती है। यह एक ही फाइल सिस्टम है जिसमें सभी लिनक्स लाइव डिस्क उपयोग करते हैं। वास्तव में - एक बहुत अच्छी बात है - यह है कि आप रूट किए बिना उन छद्म फाइलों का उपयोग करके एक रूट स्वामित्व वाली छवि बना सकते हैं - जैसे कि आपकी डिवाइस फाइलें और मनमाने ढंग से MAJ: MIN नंबर सेट करना।
mikeserv

मुझे लगता है कि डिवाइस फ़ाइल बनाना, इसे लिखना और फिर इसे बिना बढ़ते हुए, कभी भी, संभव होना चाहिए? तो, शायद इसे रूट की आवश्यकता नहीं है, जो स्पष्ट रूप से बेहतर होगा।
फहीम मीठा

खैर, यहाँ कोई btrfs शामिल नहीं है, इसलिए यह काम नहीं करेगा। लेकिन स्क्वाशफ पागल है यह काम कर सकता है। हालांकि यह एक सामान्य संग्रह प्रारूप नहीं होने का नकारात्मक पहलू है।
derobert

4

आपने मुझे कुछ समय के लिए परेशान कर दिया, और मुझे लगता है कि मुझे एक समाधान मिल गया है जो काम करेगा।

मुझे लगता है कि आप -si{NAME}ध्वज का उपयोग करके 7z के साथ जो चाहें प्राप्त कर सकते हैं ।

आप अपनी जरूरत के हिसाब से ढल सकेंगे।

7z a test.7z -siSDA2.txt < /dev/sda1
7z a test.7z -siSDA2.txt < /dev/sda2

7z l test.7z 

7-Zip [64] 9.20  Copyright (c) 1999-2010 Igor Pavlov  2010-11-18
p7zip Version 9.20 (locale=en_US.UTF-8,Utf16=on,HugeFiles=on,8 CPUs)

Listing archive: test.7z

--
Path = test.7z
Type = 7z
Method = LZMA
Solid = -
Blocks = 2
Physical Size = 1770
Headers Size = 162

   Date      Time    Attr         Size   Compressed  Name
------------------- ----- ------------ ------------  ------------------------
2014-08-19 22:01:08 .....         6314          804  SDA1.txt
2014-08-19 22:01:11 .....         6314          804  SDA2.txt
------------------- ----- ------------ ------------  ------------------------
                                 12628         1608  2 files, 0 folders

संपादित करें : बिल्ली के बेकार उपयोग को हटा दें


एक छोटा सा उदाहरण देना उपयोगी होगा जिसे लोग आजमा सकते हैं। जैसे एक ब्लॉक डिवाइस बनाएं, उसे लिखें, फिर उसमें से लिखें। जड़ की आवश्यकता नहीं एक प्लस होगा।
फहीम मीठा

उदाहरण में / dev / sda1 एक ब्लॉक डिवाइस है। बिल्ली कमांड का उद्देश्य डिवाइस की सामग्री को stdout.Then 7z में संग्रहित करने (या अद्यतन) को डंप करने का है, और स्टड से -si पैरामीटर द्वारा निर्दिष्ट फ़ाइल नाम में डेटा को संग्रहीत करना है। संग्रह के भीतर परिणाम प्रत्येक ब्लॉक डिवाइस (ओं) की सामग्री है। डिवाइस से डेटा पढ़ने के लिए "कैट" कमांड को रूट की आवश्यकता है।
टोनी

यह बिल्ली का एक बेकार उपयोग है , लेकिन अन्यथा बिल को अच्छी तरह से फिट बैठता है। अजीब तरह से मेरे 7zमैनपेज का उल्लेख नहीं है -सी एक फ़ाइल नाम ले सकता है, लेकिन यह काम करता है। यह सही नहीं है (आउटपुट को कहीं पाइप नहीं किया जा सकता है), लेकिन निश्चित रूप से अब तक का सबसे अच्छा है जो एक सामान्य प्रारूप में आउटपुट करता है।
derobert

@FaheemMitha को रूट की आवश्यकता है या नहीं यह आपके सिस्टम पर अनुमति सेटिंग्स पर निर्भर करने वाला है, हालांकि केवल रूट ही नए ब्लॉक डिवाइस बना सकता है।
derobert

@derobert ने बिल्ली को हटा दिया :)
टोनी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.