मैं हाल ही में पायथन सीख रहा हूं और एक वेब-स्क्रैपर के निर्माण में अपना हाथ डुबो रहा हूं। यह कुछ भी फैंसी नहीं है; इसका एकमात्र उद्देश्य सट्टेबाजी की वेबसाइट से डेटा प्राप्त करना और यह डेटा एक्सेल में डालना है।
अधिकांश मुद्दे हल हैं और मैं चारों ओर एक अच्छा सा गड़बड़ कर रहा हूं। हालांकि मैं एक मुद्दे पर भारी बाधा मार रहा हूं। यदि कोई साइट घोड़ों की एक तालिका लोड करती है और सट्टेबाजी की मौजूदा कीमतों को सूचीबद्ध करती है तो यह जानकारी किसी भी स्रोत फ़ाइल में नहीं है। सुराग यह है कि यह डेटा कभी-कभी लाइव होता है, कुछ दूरस्थ सर्वर से संख्या स्पष्ट रूप से अपडेट की जाती है। मेरे पीसी पर HTML में बस एक छेद होता है जहां उनके सर्वर उन सभी दिलचस्प डेटा के माध्यम से जोर दे रहे हैं जिनकी मुझे आवश्यकता है।
अब डायनामिक वेब कंटेंट के साथ मेरा अनुभव कम है, इसलिए यह चीज कुछ ऐसी है जिससे मुझे अपना सिर घुमाने में परेशानी हो रही है।
मुझे लगता है कि जावा या जावास्क्रिप्ट एक कुंजी है, यह अक्सर पॉप अप होता है।
खुरचनी बस एक तुलना इंजन है। कुछ साइटों में एपीआई हैं, लेकिन मुझे उन लोगों के लिए इसकी आवश्यकता है जो नहीं करते हैं। मैं पाइथन 2.7 के साथ स्क्रेपी लाइब्रेरी का उपयोग कर रहा हूं
अगर यह सवाल बहुत ज्यादा खुला है तो मैं माफी मांगता हूं। संक्षेप में, मेरा सवाल यह है: इस गतिशील डेटा को परिमार्जन करने के लिए कैसे स्क्रैप का उपयोग किया जा सकता है ताकि मैं इसका उपयोग कर सकूं? ताकि मैं वास्तविक समय में सट्टेबाजी के इस डेटा को मिटा सकूं?
Firefox
एक्सटेंशन पर प्रयास करें जैसे कि httpFox
या liveHttpHeaders
पेज को लोड करें जो अजाक्स अनुरोध का उपयोग कर रहा है। स्क्रेपी स्वचालित रूप से अजाक्स अनुरोधों की पहचान नहीं करता है, आपको मैन्युअल रूप से उपयुक्त अजाक्स URL की खोज करनी होगी और फिर उसके साथ अनुरोध करना होगा।