मैं एक पायथन MapReduce शब्द गणना कार्यक्रम लिख रहा हूं। समस्या यह है कि डेटा के बारे में कई गैर-वर्णमाला वर्ण बिखरे हुए हैं, मुझे यह पोस्ट स्ट्रिपिंग सब कुछ मिल गया है लेकिन पायथन में एक स्ट्रिंग से अल्फ़ान्यूमेरिक वर्ण है जो रेगेक्स का उपयोग करके एक अच्छा समाधान दिखाता है, लेकिन मुझे यकीन नहीं है कि इसे कैसे लागू किया जाए
def mapfn(k, v):
print v
import re, string
pattern = re.compile('[\W_]+')
v = pattern.match(v)
print v
for w in v.split():
yield w, 1
मुझे डर है कि मुझे यकीन नहीं है कि reउस मामले के लिए लाइब्रेरी या रेगेक्स का उपयोग कैसे किया जाए । मुझे यकीन नहीं है कि vकिसी भी गैर-अल्फ़ान्यूमेरिक वर्णों के बिना नई पंक्ति को पुनः प्राप्त करने के लिए आने वाली स्ट्रिंग (पुस्तक की पंक्ति) को रेगेक्स पैटर्न कैसे लागू किया जाए।
सुझाव?
vएक पुस्तक की एक पूरी पंक्ति है (विशेष रूप से डिकी डिक), मैं शब्द से जा रहा हूँ शब्द चार द्वारा नहीं। तो कुछ शब्दों में अंत में "अकर्मण्यता", "अकर्मण्यता" के साथ मानचित्र नहीं होता है।