लिंक्डइन वेब स्क्रैपिंग


11

मैंने हाल ही में लिंक्डइन एपीआई से जुड़ने के लिए एक नया आर पैकेज खोजा । दुर्भाग्य से लिंक्डइन एपीआई के साथ शुरू होने के लिए बहुत सीमित लगता है; उदाहरण के लिए, आप केवल कंपनियों पर मूल डेटा प्राप्त कर सकते हैं, और यह व्यक्तियों पर डेटा से अलग है। मैं किसी दिए गए कंपनी के सभी कर्मचारियों पर डेटा प्राप्त करना चाहता हूं, जिसे आप साइट पर मैन्युअल रूप से कर सकते हैं , लेकिन एपीआई के माध्यम से संभव नहीं है।

अगर यह लिंक्डइन पेजिनेशन (पेज का अंत देखें) को मान्यता देता है तो import.io सही होगा ।

क्या किसी को किसी वेब स्क्रैपिंग टूल या तकनीक के बारे में पता है जो लिंक्डइन साइट के वर्तमान प्रारूप पर लागू है, या अधिक लचीले विश्लेषण करने के लिए एपीआई झुकने के तरीके? अधिमानतः आर या वेब आधारित, लेकिन निश्चित रूप से अन्य दृष्टिकोणों के लिए खुला है।


2
वेब स्क्रैपिंग लिंक्डइन उनकी सेवा की शर्तों के खिलाफ है। देखें लिंक्डइन "क्या करें" और "क्या न करें" "उपयोग करने के लिए मैनुअल या स्वचालित सॉफ्टवेयर का प्रयोग करें, उपकरणों, लिपियों रोबोट, अन्य साधनों या प्रक्रियाओं," खरोंच, "" क्रॉल "या" मकड़ी "सेवाओं या किसी भी: - न करें संबंधित डेटा या जानकारी? "
ब्रायन स्पियरिंग

जवाबों:


10

सुंदर सूप विशेष रूप से वेब क्रॉलिंग और स्क्रैपिंग के लिए डिज़ाइन किया गया है, लेकिन अजगर के लिए लिखा गया है न कि R:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/


2
मुझे नहीं लगता था कि सुंदर सूप आपको पृष्ठों पर पुनरावृत्त करने की अनुमति देता है, आप कर सकते हैं । धन्यवाद
christopherlovell

3

स्क्रेपी एक महान पायथन लाइब्रेरी है जो विभिन्न साइटों को तेजी से परिमार्जन करने और आपकी कोड संरचना को बेहतर बनाने में आपकी सहायता कर सकती है। सभी साइटों को क्लासिक टूल के साथ पार्स नहीं किया जा सकता है, क्योंकि वे गतिशील जेएस सामग्री निर्माण का उपयोग कर सकते हैं। इस कार्य के लिए सेलेनियम का उपयोग करना बेहतर है (यह वेब साइटों के लिए एक परीक्षण रूपरेखा है, लेकिन यह एक महान वेब स्क्रैपिंग टूल भी है)। इस लाइब्रेरी के लिए पायथन रैपर भी उपलब्ध है। Google में आप कुछ तरकीबें खोज सकते हैं जो आपको Scrapy के अंदर सेलेनियम का उपयोग करने में मदद कर सकती हैं और आपके कोड को स्पष्ट, व्यवस्थित कर सकती हैं, और आप Scrapy लाइब्रेरी के लिए कुछ बेहतरीन टूल का उपयोग कर सकती हैं ।

मुझे लगता है कि सेलेनियम क्लासिक टूल्स की तुलना में लिंकेडिन के लिए बेहतर स्क्रैपर होगा। बहुत सारी जावास्क्रिप्ट और गतिशील सामग्री है। इसके अलावा, यदि आप अपने खाते में प्रमाणीकरण करना चाहते हैं और सभी उपलब्ध सामग्री को परिमार्जन करना चाहते हैं, तो आपको साधारण पुस्तकालयों जैसे अनुरोधों या urllib का उपयोग करके क्लासिक प्रमाणीकरण के साथ बहुत सारी समस्याएं मिलेंगी ।


1

मुझे संबंधित अनुभागों के चयन के लिए चयनकर्ता गैजेट प्लग-इन के साथ संयोजन में rvest पसंद है ।

मैंने मंचों के माध्यम से पृष्ठ पर अंकुश लगाने के लिए rvest और निर्मित छोटी स्क्रिप्ट का उपयोग किया है:

  1. ऑब्जेक्ट के "पेज n" के लिए देखें
  2. एम निकालें
  3. पृष्ठ संरचना के आधार पर, 1 से m लिंक की सूची बनाएं (जैसे www.sample.com/page1)
  4. लिंक की पूरी सूची के माध्यम से खुरचनी

0

अगर आप अजगर को जानते हैं तो मैं भी सुंदर के साथ जाऊंगा। मामले में आप नहीं बल्कि कोड जावास्क्रिप्ट / JQuery (और आप Node.js से परिचित हैं), तो आप चेकआउट करने के लिए चाहते हो सकता है CoffeeScript (देखें ट्यूटोरियल ) मैं पहले से ही वेब पृष्ठों स्क्रैप के लिए इसे सफलतापूर्वक इस्तेमाल किया कई अवसरों पर।


0

lxml पायथन में एक अच्छा वेब स्क्रैपिंग लाइब्रेरी है। सुंदर सूप lxml पर एक आवरण है। तो, lxml स्क्रैप और सुंदर सूप दोनों की तुलना में तेज़ है और इसमें बहुत आसान सीखने की अवस्था है।

यह एक खुरचनी का एक उदाहरण है जो मैंने इसे एक व्यक्तिगत परियोजना के लिए बनाया था, जो वेब पृष्ठों पर पुनरावृति कर सकता है।


0

BeautifulSoup लिंक्डइन पर काम नहीं करता है। कर्कश नीतियों का उल्लंघन करता है। ऑक्टोपर्से केवल विंडोज के लिए है। क्या कोई और तरीका है? मैं एक व्यक्ति के खाते के लिए समान लोगों के डेटा को निकालना चाहता हूं। कृपया सहायता कीजिए!


1
कृपया इसे टिप्पणी के रूप में पोस्ट करें, या एक नया प्रश्न पूछें
क्रिस्टोफरोवेल्ल

यह महत्वपूर्ण जानकारी है, लेकिन यदि यह एक उत्तर माना जाता है, तो कृपया इसमें प्रश्न को हटा दें।
पिथिकोस

0

यहां, मैं अपने सफलतापूर्वक अनुभव साझा करता हूं।

ऑक्टोपर्स एक महान मुफ्त वेब स्क्रैपिंग टूल है । मैंने इसका उपयोग लिंक्डिन डेटा को सफलतापूर्वक परिमार्जन करने के लिए किया, और लिंक्डिन से डेटा निकालने के लिए यहां एक विस्तृत वीडियो ट्यूटोरियल है ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.