हाल ही में मुझे पता चला है कि जिस डेटा की आपको आवश्यकता है, उसे प्राप्त करने के लिए एक वेबसाइट के HTML को पार्स करने के लिए एक regex का उपयोग करना कार्रवाई का सबसे अच्छा कोर्स नहीं है।
तो मेरा प्रश्न सरल है: इस डेटा को प्राप्त करने के लिए सबसे अच्छा / सबसे कुशल और आम तौर पर स्थिर तरीका क्या है?
मुझे ध्यान देना चाहिए कि:
- कोई एपीआई नहीं है
- कोई अन्य स्रोत नहीं है जहां मैं डेटा प्राप्त कर सकता हूं (कोई डेटाबेस, फ़ीड और ऐसे नहीं)
- स्रोत फ़ाइलों तक कोई पहुँच नहीं है। (सार्वजनिक वेबसाइटों से डेटा)
- मान लें कि डेटा सामान्य पाठ है, एक html पृष्ठ में तालिका में प्रदर्शित किया गया है
मैं वर्तमान में अपनी परियोजना के लिए अजगर का उपयोग कर रहा हूं, लेकिन एक भाषा स्वतंत्र समाधान / युक्तियां अच्छी होंगी।
एक पक्ष के सवाल के रूप में: जब अजाक्स कॉल द्वारा वेबपेज का निर्माण किया जाता है, तो आप इसके बारे में कैसे जाएंगे?
संपादित करें:
HTML पार्सिंग के मामले में, मुझे पता है कि डेटा प्राप्त करने का कोई वास्तविक स्थिर तरीका नहीं है। जैसे ही पेज बदलता है, आपके पार्सर के लिए किया जाता है। इस मामले में मेरे पास स्थिर होने का मतलब है: पृष्ठ को पार्स करने का एक कुशल तरीका, जो मुझे हमेशा एक ही परिणाम देता है (डेटा के समान सेट के लिए) जाहिर है कि पृष्ठ नहीं बदलता है।