क्या एक संदेश शरीर की शीर्ष रेखाओं को अधिक भारी रूप से स्कोर करने के लिए स्पैमस्समैन प्राप्त करने का एक तरीका है?

मेल सर्वर पर फ़िल्टर के माध्यम से बहुत सी स्पैम मिल रही हैं, जो कि (अविश्वसनीय रूप से स्पष्ट) वजन घटाने या शीर्ष पर अन्य स्कैम टेक्स्ट की कुछ पंक्तियों के साथ शुरू करने की अपेक्षाकृत सरल चाल के साथ चलती हैं, इसके बाद प्रोग्रामिंग प्रलेखन से पाठ का एक बड़ा निकाय है। - या, सभी की सबसे बुरी, स्टैक एक्सचेंज से पाठ स्क्रैप किया गया । सबसे अच्छे रूप में, स्पैमास हत्यारे इसे BAYES_50 के रूप में मानते हैं, और ऐसा होता है कि बाकी संदेशों का निर्माण सावधानीपूर्वक किया जाता है ताकि वे अन्य ट्रिगर्स को न मारें। (उदाहरण के लिए, हेडर न्यूनतम और सही हैं।) अक्सर, शामिल अंशों को मेरे वैध हितों के साथ पर्याप्त रूप से संरेखित किया जाता है कि कुल मिलाकर संदेश BAYES_00 के रूप में स्कोर किया जाता है, क्योंकि बहुत ही अनचाहा टोकन केवल sysadmin समस्या को हल करने के रसदार बजट से अभिभूत हैं।

शीर्ष भाग स्पष्ट रूप से स्पैमी है (और वास्तव में पहले से प्राप्त और स्पैम संदेशों के रूप में प्रशिक्षित होने के समान है) कि मैं इस तरह से चकित हो रहा हूँ - लेकिन स्पष्ट रूप से यह है। यह एक अलग पास की तरह लगता है जिसने संदेश के शीर्ष 25 (या तो) लाइनों को स्कोर किया और वजन किया जो समस्या को हल करेगा। क्या इसे करने का कोई तरीका है?

कई लोगों ने कस्टम रेगुलर एक्सप्रेशन लिखने का सुझाव दिया है। मैं इसमें शामिल नहीं होना चाहता, क्योंकि यह लगातार हारने वाली लड़ाई है। बेइज़ियन स्पैम छँटाई के व्यापक उपयोग में आने से पहले लोगों ने ऐसा किया था, और यह आमतौर पर भयानक था। कोई भी इंसान नहीं रख सकता । यह केवल प्रत्येक स्पैम संदेश के लिए कुंजी को हटाने से अधिक प्रभावी नहीं है, और मेरी ओर से बहुत अधिक काम करता है।

बायेसियन स्पैम फ़िल्टरिंग काम करता है। यह इस स्पैम पर भी काम करता है, अगर मैं " फोल्ड ऊपर " भाग को विभाजित करता हूं और सिर्फ उस हिस्से का विश्लेषण करता हूं , जिसमें डिकॉय / चैफ हटा दिया गया है। सवाल यह है: मैं ऐसा करने के लिए स्पैमाससिन कैसे प्राप्त कर सकता हूं?

spam spamassassin

— mattdm
स्रोत

क्या बायेसियन फ़िल्टर सक्षम है?

— कोंडायबस

@ कोंडायबास हां। और यह समस्या का एक हिस्सा है, क्योंकि पैडिंग टेक्स्ट शीयर मात्रा के द्वारा स्पैमी भाग से आगे निकल जाता है।

— Mattdm

आपने किस MTA का उपयोग किया है?

— कोंडायबस

आपने इन स्पैम्स पर कितना बाइसियन प्रशिक्षण लिया है? मुझे उम्मीद है कि बायेसियन एल्गोरिथम इसे लंबे समय से पहले काम करेगा।

— mc0e

@ mc0e यह नहीं हो सकता। यह सिर्फ जादुई रूप से स्मार्ट नहीं है। एक अधिक परिष्कृत मशीन-लर्निंग सिस्टम शायद यह कर सकता था, लेकिन मुझे लगता है कि उम, "एक सरल चाल" जो मैं यहां पूछ रहा हूं वह भी होगा।

— mattdm

मैं खुद एक (छोटे) ज्वलंत विरोधी स्पैम सेनानी हूँ। और कई समस्याओं के कारण जैसा कि आप मुठभेड़ करते हैं, मैंने खुद को गंदे काम करना समाप्त कर दिया, सालों पहले।

अब, यह आपके विशेष प्रश्न का उत्तर नहीं है, बल्कि आपकी विशेष समस्या का है। तो कृपया इसकी वजह से निराश न हों।

मैंने इस समस्या को कैसे हल किया, यह sa_filter-post.pl स्क्रिप्ट को संशोधित करने के लिए किया गया था, जिसका उपयोग XMail सर्वर द्वारा किया गया था, जो ईमेल फ़ाइल पर स्पैमक को कॉल करता है और वहां कुछ मामूली सामान करता है, पूरी फाइल को संसाधित करने के लिए नहीं, बल्कि इसके आधार पर विशिष्ट भागों पर आधारित होता है। कुछ विशिष्ट नियम (मेरे द्वारा हार्डकोड)। हाँ, regex'es लेकिन अब तक वे मेरे लिए काम करते हैं (मेरे पास इससे पहले और बाद में अन्य लिपियों का एक गुच्छा है ताकि एक भूमिका निभा सकें)

उदाहरण के लिए, मेरे पास एक रेगेक्स है जो फोनेनस को निकालता है। स्पैमर ने उसे पूर्ण रूप से छोड़ दिया, ताकि वह सीधे फ़ाइल के मध्य 400 वर्णों को संसाधित करने के लिए निकल जाए (मुझे परीक्षण और त्रुटि से 400 मिला, वास्तव में 200 से शुरू हुआ)। ध्यान दें कि फ़ाइल में जो है, उसकी तुलना में आप जो देखते हैं, उसके बीच से बाहर निकालना बहुत कठिन है।

एक और एक है जिसमें "उत्पादों", एक डमी हैडर और उपयोग करने योग्य पाद लेख के साथ html तालिका की समान संरचना है, इसलिए मैं उन लोगों को बाहर निकालता हूं, मैं "उत्पादों" टिप्पणियों के कॉलम को बाहर निकालता हूं और फिर स्पैम पर पास करता हूं।

और इसी तरह, आप चित्र प्राप्त करें।

लेकिन सभी नियम सही नहीं हैं, इसलिए मैं यहां प्रत्येक नियम के लिए एक निजी स्कोर प्रदान करके थोड़ा जादू करता हूं, जिसे मैं हार्डकोड करता हूं और जब जरूरत होती है, तो नियम के आधार पर व्यवहार करता है (और कभी-कभी मैं सभी नियमों को हटाने के लिए समाप्त होता है) )। मैं फिर एसए स्कोर को निजी स्कोर से संशोधित करता हूं। मैंने ऐसा इसलिए किया क्योंकि किसी कारणवश SA ने केवल 4 अंक दिए थे। 4. नियमों पर स्पष्ट रूप से स्पैम करने के लिए कुछ ऐसा जो मेरे पास सही पकड़ के लिए मजबूत भावनाएं थीं। इसलिए मैंने उन्हें केवल 5.0 से ऊपर जाने के लिए थोड़ा बढ़ावा दिया, कुछ पोस्ट-प्रोसेसिंग स्क्रिप्ट के साथ मिलकर जो कुछ अन्य चर को ध्यान में रखते हैं (ईमेल का स्रोत, ईमेल का लक्ष्य, हेडर की संरचना, आदि), यह स्पैम को कम या ज्यादा मारता है बाहर।

अब मुझे एहसास हुआ कि आप जो चाहते थे, वह नहीं है, लेकिन मेरे मामले में यह मुझे पूरी शक्ति देता है कि क्या स्कैन किया जाता है, यह सिर्फ इतना है कि मुझे चीजों को मैन्युअल रूप से सेट करने की जरूरत है और फिर हर बार और फिर थोड़ा स्पर्श करें- मूल्यों / regex'es पर अप।

लेकिन आपके मामले में चीजें बहुत आसान हैं क्योंकि आपको बस इतना करना है कि एक साधारण बैश स्क्रिप्ट का उपयोग करें जिसे स्पैम के बजाय आपके एमएक्स द्वारा बुलाया जाएगा और यह है कि स्क्रिप्ट का उपयोग हेड कमांड केवल पहले बाइट की संख्या को प्राप्त करने के लिए करें जो आप चाहते हैं और स्पैम के लिए उस अस्थायी फ़ाइल को पास करें।

स्क्रिप्ट की सामग्री आपके मेल सर्वर पर थोड़ी निर्भर करेगी, लेकिन यह पता लगाना मुश्किल नहीं होना चाहिए।

(ध्यान दें कि मैंने केवल अपने सेटअप के बारे में बात की है ताकि आप इस विकल्प की संभावनाओं को देख सकें)

पुनश्च: मुझे व्यक्तिगत रूप से इस तरह के स्पैम ईमेल (प्रोग्रामिंग से संबंधित अच्छाइयों के साथ) कभी नहीं मिले, इसलिए मुझे आश्चर्य है कि अगर आपने किसी को पेशाब नहीं किया है और अब आप लक्षित हैं। यह विशेष रूप से तैयार किए गए ईमेल की व्याख्या करेगा। इस संभावना के बारे में सोचने का कारण यह है कि वर्षों पहले, जब मैं विभिन्न आईटी मंचों और समूहों पर बहुत सक्रिय था, तो मैंने कुछ लोगों को हर बार पेशाब किया और फिर मुझे ईमेल स्पैमिंग सहित अपने सर्वर पर विभिन्न प्रकार के हमले हुए। । लेकिन वापस तो बेवकूफ यह स्मार्ट नहीं थे :)

— ciuly
स्रोत