सिर रहित ब्राउज़र और स्क्रैपिंग - समाधान [बंद]


368

मैं ब्राउज़र स्वचालित परीक्षणों के लिए संभावित समाधानों की सूची डालने की कोशिश कर रहा हूं और स्कैटरिंग में सक्षम हेडलेस ब्राउज़र प्लेटफॉर्म।


BROWSER परीक्षण / स्क्रैपिंग:

  • सेलेनियम - ब्राउज़र स्वचालन में पॉलीग्लॉट फ्लैगशिप, पायथन, रूबी, जावास्क्रिप्ट, सी #, हास्केल और अधिक के लिए बाइंडिंग, तेजी से परीक्षण की तैनाती के लिए फ़ायरफ़ॉक्स के लिए आईडीई (एक एक्सटेंशन के रूप में)। सर्वर के रूप में कार्य कर सकता है और इसमें कई सुविधाएँ हैं।

JAVASCRIPT

  • PhantomJS - जावास्क्रिप्ट , स्क्रीन कैप्चर और ऑटोमेशन के साथ हेडलेस परीक्षण, वेबकिट का उपयोग करता है । संस्करण 1.8 के रूप में सेलेनियम के वेबड्राइवर एपीआई को कार्यान्वित किया जाता है, इसलिए आप किसी भी वेबड्राइवर को बांध सकते हैं और परीक्षण सेलेनियम के अनुकूल होंगे
  • SlimerJS - PhantomJS के समान है, का उपयोग करता है छिपकली की (Firefox) के बजाय वेबकिट
  • CasperJS - JavaScript , PhantomJS और SlimerJS दोनों पर निर्मित है, इसमें अतिरिक्त विशेषताएं हैं
  • भूत चालक - फैंटमज के लिए वेबड्राइवर वायर प्रोटोकॉल का जावास्क्रिप्ट कार्यान्वयन ।
  • नई PhantomCSS - सीएसएस प्रतिगमन परीक्षण। एक CasperJS PhantomJS और साथ दृश्य प्रतिगमन परीक्षण स्वचालित के लिए मॉड्यूल Resemble.js
  • नई WebdriverCSS -दृश्य प्रतिगमन परीक्षण को स्वचालित करने केलिए Webdriver.io के लिएप्लगइन
  • नया PhantomFlow - परीक्षण के माध्यम से उपयोगकर्ता प्रवाह का वर्णन और कल्पना करें। वेब उपयोगकर्ता इंटरफ़ेस परीक्षण के लिए एक प्रयोगात्मक दृष्टिकोण।
  • new trifleJS - इंटरनेट एक्सप्लोरर इंजन का उपयोग करने के लिए PhantomJS API को पोर्ट करता है।
  • नई कैस्परज आईडीई (वाणिज्यिक)

Node.js

  • नोड-फैंटम - फैंटमजेएस और नोड.जेएस के बीच की खाई को पाटता है
  • WebDriverJs - सेलेनियम टीम द्वारा नोड के लिए सेलेनियम WebDriver बाइंडिंग
  • WD.js - वेबड्राइवर / सेलेनियम 2 के लिए नोड मॉड्यूल
  • yiewd - नवीनतम हार्मनी जनरेटर का उपयोग करते हुए WD.js रैपर! उपज के साथ कॉलबैक पिरामिड से छुटकारा पाएं
  • ZombieJs - पूरी तरह से तेज़, हेडलेस फुल-स्टैक टेस्टिंग नोड.जेएस का उपयोग करके
  • नाइटवॉचज - नोड जेएस आधारित परीक्षण समाधान सेलेनियम वेबड्राइवर का उपयोग करके
  • चिमेरा - चिमेरा: सब कुछ कर सकता है जो प्रेत करता है, लेकिन एक पूर्ण जेएस वातावरण में
  • Dalek.js - सेलेनियम वेबड्राइवर के माध्यम से जावास्क्रिप्ट के साथ स्वचालित क्रॉस ब्राउज़र परीक्षण
  • Webdriver.io - पूर्वनिर्धारित 50+ क्रियाओं के साथ WebDriver बाइंडिंग का बेहतर कार्यान्वयन
  • दुःस्वप्न - एक उच्च स्तरीय एपीआई के साथ इलेक्ट्रॉन पुल।
  • jsdom - वेब स्क्रैपिंग की ओर दर्जी। Node.js में कार्यान्वित एक बहुत हल्का डोम, जावास्क्रिप्ट के साथ पृष्ठों का समर्थन करता है।
  • new Puppeteer - नोड लाइब्रेरी जो क्रोम या क्रोमियम को नियंत्रित करने के लिए एक उच्च-स्तरीय एपीआई प्रदान करती है। कठपुतली डिफ़ॉल्ट रूप से बिना सिर के चलती है।

वेब स्क्रैपिंग / खनन

  • स्क्रेपी - पायथन , मुख्य रूप से स्क्रेपर / माइनर - तेज, अच्छी तरह से प्रलेखित और, अच्छी खनन तैनाती के लिए Django डायनेमिक स्क्रेपर के साथ जोड़ा जा सकता है , या PaaS (सर्वर-कम) परिनियोजन के लिए स्क्रेपी क्लाउड , टर्मिनल में काम करता है या एक सर्वर स्टैंड-अलोन proces , सेलेरी के साथ इस्तेमाल किया जा सकता है , ट्विस्टेड के ऊपर बनाया गया है
  • घोंघा - नोडजेएस मॉड्यूल, अभी तक अप्राप्त
  • नोड-क्रॉलर - नोड.जेएस मॉड्यूल, अभी तक अप्रयुक्त।

ऑनलाइन उपकरण


संबंधित लिंक और संसाधन

प्रशन:

  • किसी भी शुद्ध Node.js समाधान या Nodejs को PhanthomJS / CasperJS मॉड्यूल जो वास्तव में काम करता है और प्रलेखित है?

उत्तर: काइमेरा उस दिशा में जाने के लिए लगता है, चेकआउट काइमेरा

  • अन्य समाधान सेलेनियम की तुलना में आसान जावास्क्रिप्ट इंजेक्शन में सक्षम हैं?

  • क्या आप कोई शुद्ध रूबी उपाय जानते हैं?

उत्तर: रूबी द्वारा रबी आधारित समाधानों के साथ बनाई गई सूची की जाँच करें

  • क्या आप किसी संबंधित तकनीक या समाधान को जानते हैं?

इस प्रश्न को संपादित करने और अपनी इच्छानुसार सामग्री जोड़ने के लिए स्वतंत्र महसूस करें! आपके योगदानों के लिए धन्यवाद!


1
पता नहीं है कि क्या आप चाहते हैं, लेकिन मैं वेबपेज क्रॉल करने के लिए उस मॉड्यूल को पसंद करता हूं, डोम का निरीक्षण करना और इतने पर: npmjs.org/package/crawler । यह jsdom का उपयोग करता है, और आप चयनकर्ता-इंजन के रूप में jQuery कर सकते हैं। यह एक (जो क्रॉलर का उपयोग करता है) भी दिलचस्प लगता है: npmjs.org/package/snailer
hereandnow78

मुझे नोड-फैंटम मॉड्यूल के साथ बहुत सफलता मिली है। यह बहुत सीधे आगे है और काफी अच्छी तरह से प्रलेखित है। यह जावास्क्रिप्ट इंजेक्शन का समर्थन करता है।
जोश सी।

1
मुझे यकीन है कि आप जानते हैं कि घोस्टड्राइवर सेलेनियम-वेबड्राइवर का एक कार्यान्वयन है जो कि फैंटम जेएस का उपयोग करता है
रॉबी

2
आपको यह मददगार भी लग सकता है: blog.screen-scraper.com/2010/06/28/…
todd

1
दृश्य स्क्रैपिंग और तुलना के लिए: फैंटमसीएसएस और फैंटमफ्लो
फेलिपएल्स

जवाबों:


35

अगर रूबी आपकी बात है, तो आप भी कोशिश कर सकते हैं:

इसके अलावा, नोकोगिरी रत्न का उपयोग स्क्रैपिंग के लिए किया जा सकता है:

पैकेट प्रकाशन द्वारा स्क्रैपिंग के लिए नोकोगिरी का उपयोग कैसे करें, इसके बारे में एक समर्पित पुस्तक है


ऊपर के पुस्तकालयों की तुलना में वियर एक हजार गुना आसान है।
पावन कटपल्ली

अजगर "वेबबोट" के लिए पुस्तकालय आसान वेब स्वचालन के लिए समृद्ध सुविधाएँ प्रदान करता है।
नटेश ने

11

http://triflejs.org/ प्रेत की तरह है लेकिन IE पर आधारित है


हालांकि यह लिंक प्रश्न का उत्तर दे सकता है, लेकिन उत्तर के आवश्यक भागों को शामिल करना और संदर्भ के लिए लिंक प्रदान करना बेहतर है। लिंक-केवल उत्तर अमान्य हो सकते हैं यदि लिंक किए गए पृष्ठ बदल जाते हैं।
सतीश

5
यह सामान्य रूप से अच्छा लगता है, फिर भी यह प्रश्न अपने आप में संसाधनों का एक संग्रह है। सूची में शामिल किए जाने वाले संक्षिप्त विवरण के साथ एक लिंक प्रारूप को फिट बैठता है और समझ में आता है।
फेडेरिको गलासी

7

जेएस-आधारित सेलेनियम का एक प्रकार है डेल्केज । यह न केवल स्वचालित सीमांत-परीक्षणों का लक्ष्य रखता है, आप इसके साथ स्क्रीनशॉट भी कर सकते हैं। इसमें सभी महत्वपूर्ण ब्राउज़रों के लिए वेबड्राइवर्स हैं। दुर्भाग्य से उन वेबड्राइवर को सुधारने लायक लगता है (बस फ़ायरफ़ॉक्स को "छोटी गाड़ी" कहने के लिए नहीं)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.