बड़े Amazon S3 / Cloudfront लॉग के लिए वेबस्टेट्स?


5

मैं कुछ वेबस्टेट्स प्राप्त करने के लिए हमारे अमेज़ॅन एस 3 एक्सेस लॉग को पार्स करने का एक तरीका खोजने की कोशिश कर रहा हूं।

मैं AWStats 7 का उपयोग करने की कोशिश कर रहा हूं, लेकिन मुझे इस बात की जानकारी है कि किसी दिए गए महीने के 9 दिन बाद यह किसी भी अधिक लॉग को संसाधित नहीं कर सकता है क्योंकि यह मेमोरी से बाहर चलाता है। इस सर्वर में 4gigs मेमोरी है

हमारे S3 लॉग बल्कि बड़े हैं (~ 1gig / दिन) और जल्द ही CloudFront लॉग 10-20gigs / day हो सकते हैं।

क्या कोई ऐसा सॉफ्टवेयर है जो S3 (और जल्द ही क्लाउडफ्रंट) लॉग से वेबस्टैट जनरेट कर सकता है?

मुझे s3stat.com के बारे में पता है, लेकिन मुझे कुछ चाहिए जो मैं अपने दम पर चला सकूं।


मैं उन्हें थोड़ा सा पायथन स्क्रिप्ट के साथ वेब्लाइज़र का उपयोग करके संसाधित करता हूं ताकि डेटा थोड़ा सा घूम सके ताकि यह ठीक से काम कर सके। वैबलाइज़र के माध्यम से प्रत्येक लॉग को व्यक्तिगत रूप से डेटाबेस को अपडेट करने के बजाय एक बड़ी फ़ाइल में लॉग को मिलाएं और उस प्रक्रिया को करने की कोशिश करें।
स्मज करें

क्या आपके पास कोड है जो s3 लॉग को प्रारूप में परिवर्तित करता है जिसे वेबलाइज़र समझ सकता है? या वेबमास्टर के लिए अधिमानतः पैच s3 / क्लाउडफ़्रंट लॉग को समझने के लिए? अभी के लिए मेरे लॉग दिन से विभाजित हैं।
Mxx

बेतकल्लुफ़ नहीं, मैं अगर मैं इसे हड़पने जब मैं घर आज रात प्राप्त कर सकते हैं और सार पर यह छड़ी देखेंगे
धब्बा

अरे @Sam आपके पास उस स्क्रिप्ट को खोजने का मौका था?
एमएक्स

जवाबों:


3

मैं सुझाव देता हूं कि GoAccess । हम ~ 35mins के बारे में 120 मिलियन हिट पार्स कर रहे हैं, जो कि आवारा लोगों की तुलना में तेज़ है। ऐसा लगता है कि यह बहुत राम का उपभोग नहीं करता है। (<1GB) यह 8GB रैम सिस्टम पर चल रहा है।

आप इसे एक कोशिश हालांकि देना चाहिए।


नोट: मैं अमेज़न S3 एक्सेस लॉग से परिचित नहीं हूँ। यदि यह इस पर लागू नहीं होता है तो इस उत्तर को हटाने के लिए स्वतंत्र महसूस करें।
माइक

GoAccess बहुत दिलचस्प लगता है और मैं इसे अपने सर्वर पर आज़माता हूँ। साझा करने के लिए धन्यवाद। हालाँकि, मुझे नहीं लगता कि यह इस कार्य के लिए एक अच्छा मैच है। GoAccess एक स्नैपशॉट जैसी रीयल-टाइम / निकट-रीयल-टाइम जानकारी के लिए डिज़ाइन किया गया है। हमें इस तरह की छाप की जरूरत नहीं है। एक दिन पुराने आँकड़े पर्याप्त हैं। एक सप्ताह पुराना भी अच्छा है क्योंकि हमें ऐतिहासिक / विश्लेषणात्मक जानकारी के लिए इसकी अधिक आवश्यकता है। यह भी लगता है कि GoAccess मूल रूप से S3 लॉग को पार्स नहीं कर सकता है या पार्स की गई रिपोर्ट को सहेज सकता है। हर बार 30gigs + / महीने के लॉग से गुजरना धीमा होगा। इसके अलावा, हम सभी लंबे समय तक रखना होगा, मैं वास्तव में ऐसा नहीं चाहता।
Mxx

यह वास्तव में अमेज़ॅन S3 या क्लाउडफ्रंट के लिए बहुत दिलचस्प लगता है: pypi.python.org/pypi/s3stat
Kayla

0

मैं आपके क्लाउडफ़ास्ट लॉग डायरेक्टरी (केएसए को बकेट-> फ़ोल्डर- gzip -> लॉग से क्वेरी करना जानता हूं) के खिलाफ SQL क्वेरी चलाने के लिए EMR पर कर्मसफ़ेयर विश्लेषक चलाने पर विचार करूँगा।

http://aws.amazon.com/elasticmapreduce/karmasphere/


1
क्या वेब आँकड़े के लिए karmasphere के लिए टेम्पलेट्स / प्रीसेट का उपयोग करने के लिए कुछ तैयार है? मुझे लगता है कि यह मुझे हमेशा के लिए सोचने और सभी मानक चीजों को लिखने के लिए चाहिए, जो मुझे वेबस्टैट्स पैकेज से देखने की उम्मीद है। (साथ ही अभी मैंने EMR के साथ कभी काम नहीं किया है)
Mxx
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.