मेरे पास एक बहुत बड़ी विरासत वाली साइट है जिसका शाब्दिक रूप से हजारों पीडीएफ है जो कभी-कभी किसी डेटाबेस में खाता है, लेकिन अक्सर पृष्ठ पर लिंक होते हैं, और साइट पर अधिकांश हर निर्देशिका में संग्रहीत होते हैं।
मैंने अपनी साइट पर सभी लिंक का पालन करने के लिए एक php क्रॉलर लिखा है, और फिर मैं तुलना कर रहा हूं कि निर्देशिका संरचना के एक डंप के खिलाफ, लेकिन क्या कुछ आसान है?