यहां एक छोटा ऐप है जो किसी भी डिस्क या निर्देशिका में ट्यूमर को खोजने के लिए गहरे नमूने का उपयोग करता है। यह निर्देशिका के पेड़ को दो बार चलाता है, एक बार इसे मापने के लिए, और दूसरी बार निर्देशिका के तहत 20 "यादृच्छिक" बाइट्स के लिए पथ प्रिंट करने के लिए।
void walk(string sDir, int iPass, int64& n, int64& n1, int64 step){
foreach(string sSubDir in sDir){
walk(sDir + "/" + sSubDir, iPass, n, n1, step);
}
foreach(string sFile in sDir){
string sPath = sDir + "/" + sFile;
int64 len = File.Size(sPath);
if (iPass == 2){
while(n1 <= n+len){
print sPath;
n1 += step;
}
}
n += len;
}
}
void dscan(){
int64 n = 0, n1 = 0, step = 0;
// pass 1, measure
walk(".", 1, n, n1);
print n;
// pass 2, print
step = n/20; n1 = step/2; n = 0;
walk(".", 2, n, n1);
print n;
}
आउटपुट मेरे प्रोग्राम फ़ाइल निर्देशिका के लिए इस तरह दिखता है:
7,908,634,694
.\ArcSoft\PhotoStudio 2000\Samples\3.jpg
.\Common Files\Java\Update\Base Images\j2re1.4.2-b28\core1.zip
.\Common Files\Wise Installation Wizard\WISDED53B0BB67C4244AE6AD6FD3C28D1EF_7_0_2_7.MSI
.\Insightful\splus62\java\jre\lib\jaws.jar
.\Intel\Compiler\Fortran\9.1\em64t\bin\tselect.exe
.\Intel\Download\IntelFortranProCompiler91\Compiler\Itanium\Data1.cab
.\Intel\MKL\8.0.1\em64t\bin\mkl_lapack32.dll
.\Java\jre1.6.0\bin\client\classes.jsa
.\Microsoft SQL Server\90\Setup Bootstrap\sqlsval.dll
.\Microsoft Visual Studio\DF98\DOC\TAPI.CHM
.\Microsoft Visual Studio .NET 2003\CompactFrameworkSDK\v1.0.5000\Windows CE\sqlce20sql2ksp1.exe
.\Microsoft Visual Studio .NET 2003\SDK\v1.1\Tool Developers Guide\docs\Partition II Metadata.doc
.\Microsoft Visual Studio .NET 2003\Visual Studio .NET Enterprise Architect 2003 - English\Logs\VSMsiLog0A34.txt
.\Microsoft Visual Studio 8\Microsoft Visual Studio 2005 Professional Edition - ENU\Logs\VSMsiLog1A9E.txt
.\Microsoft Visual Studio 8\SmartDevices\SDK\CompactFramework\2.0\v2.0\WindowsCE\wce500\mipsiv\NETCFv2.wce5.mipsiv.cab
.\Microsoft Visual Studio 8\VC\ce\atlmfc\lib\armv4i\UafxcW.lib
.\Microsoft Visual Studio 8\VC\ce\Dll\mipsii\mfc80ud.pdb
.\Movie Maker\MUI\0409\moviemk.chm
.\TheCompany\TheProduct\docs\TheProduct User's Guide.pdf
.\VNI\CTT6.0\help\StatV1.pdf
7,908,634,694
यह मुझे बताता है कि निर्देशिका 7.9gb है, जिनमें से
- ~ 15% Intel Fortran संकलक को जाता है
- ~ 15% VS .NET 2003 में जाता है
- ~ 20% VS 8 पर जाता है
यह पूछने के लिए पर्याप्त सरल है कि क्या इनमें से कोई भी उतार दिया जा सकता है।
यह उन फ़ाइल प्रकारों के बारे में भी बताता है जो फ़ाइल सिस्टम में वितरित किए जाते हैं, लेकिन साथ में अंतरिक्ष की बचत के लिए एक अवसर का प्रतिनिधित्व करते हैं:
- ~ 15% मोटे तौर पर .cab और .MSI फ़ाइलों में जाता है
- ~ 10% मोटे तौर पर लॉगिंग टेक्स्ट फ़ाइलों में जाता है
यह बहुत सारी अन्य चीजों को भी दिखाता है, जो कि मैं शायद बिना कर सकता था, जैसे "स्मार्टडेविस" और "सीई" समर्थन (~ 15%)।
यह रैखिक समय लेता है, लेकिन इसे अक्सर नहीं करना पड़ता है।
यह पाया गया है कि चीजों के उदाहरण:
- कई सहेजे गए कोड रिपॉजिटरी में DLL की बैकअप प्रतियाँ, जिन्हें वास्तव में सहेजने की आवश्यकता नहीं है
- एक अस्पष्ट निर्देशिका के तहत सर्वर पर किसी की हार्ड ड्राइव की बैकअप प्रतिलिपि
- अस्थायी अस्थायी इंटरनेट फ़ाइलें
- प्राचीन डॉक्टर और मदद फ़ाइलों को लंबे समय तक चलने की जरूरत है