Hadoop ने काट दिया / असंगत काउंटर नाम

Question 1

अभी के लिए, मेरे पास एक Hadoop जॉब है जो एक बहुत बड़े नाम के साथ काउंटर बनाता है।

उदाहरण के लिए, निम्नलिखित एक stats.counters.server-name.job.job-name.mapper.site.site-name.qualifier.qualifier-name.super-long-string-which-is-not-within-standard-limits:। इस काउंटर को वेब इंटरफेस और getName()मेथड कॉल पर अलग किया गया है। मुझे पता चला है कि Hadoop की काउंटर अधिकतम नाम की सीमाएँ हैं और यह सेटिंग्स आईडी mapreduce.job.counters.counter.name.maxइस सीमा को कॉन्फ़िगर करने के लिए है। इसलिए मैंने इसे बढ़ा दिया 500और वेब इंटरफेस अब पूरा काउंटर नाम दिखाता है। लेकिन getName()काउंटर पर अभी भी नाम छोटा है।

क्या कोई, कृपया, मुझे यह समझाएं या मेरी गलतियों पर ध्यान दें? धन्यवाद।

EDIT 1

मेरा Hadoop सर्वर कॉन्फ़िगरेशन में HDFS, YARN के साथ एकल सर्वर शामिल है, और इस पर स्वयं मानचित्र को कम करता है। मैप-कम करने के दौरान, कुछ काउंटर वेतन वृद्धि होती है और नौकरी पूरी होने के बाद, ToolRunnerमैं उपयोग के साथ काउंटर प्राप्त करता हूं org.apache.hadoop.mapreduce.Job#getCounters।

EDIT 2

Hadoop संस्करण निम्नलिखित है:

Hadoop 2.6.0-cdh5.8.0
Subversion http://github.com/cloudera/hadoop -r 042da8b868a212c843bcbf3594519dd26e816e79 
Compiled by jenkins on 2016-07-12T22:55Z
Compiled with protoc 2.5.0
From source with checksum 2b6c319ecc19f118d6e1c823175717b5
This command was run using /usr/lib/hadoop/hadoop-common-2.6.0-cdh5.8.0.jar

मैंने कुछ अतिरिक्त जांच की और ऐसा लगता है कि यह मुद्दा मेरी जैसी स्थिति का वर्णन करता है। लेकिन यह बहुत भ्रमित करने वाला कारण है कि मैं काउंटरों की संख्या बढ़ाने में सक्षम हूं, लेकिन काउंटर के नाम की लंबाई नहीं ...

EDIT 3

आज, मैंने हडोप के आंतरिक समय को खत्म करने में बहुत समय बिताया। कुछ दिलचस्प चीजें:

org.apache.hadoop.mapred.ClientServiceDelegate#getJobCountersविधि TRUNCated नामों और पूर्ण प्रदर्शन नामों के साथ यार्न से काउंटरों का एक गुच्छा देता है ।
नक्शे और रीड्यूसर को डीबग करने में असमर्थ था, लेकिन लॉगिंग की मदद से ऐसा लगता है कि org.apache.hadoop.mapreduce.Counter#getNameविधि reducer निष्पादन के दौरान सही तरीके से काम करती है।

Question 2

Hadoop कोड में ऐसा कुछ भी नहीं है जो इसके नामकरण के बाद काउंटर नामों को काट देता है। इसलिए, जैसा कि आप पहले ही बता चुके हैं, mapreduce.job.counters.counter.name.maxकाउंटर के नाम की अधिकतम लंबाई ( डिफ़ॉल्ट मान के रूप में 64 प्रतीकों के साथ ) को नियंत्रित करता है ।

यह सीमा कॉल के दौरान लागू की जाती है AbstractCounterGroup.addCounter/findCounter। प्रतिक्रियाशील स्रोत कोड निम्नलिखित है :

@Override
public synchronized T addCounter(String counterName, String displayName,
                                 long value) {
  String saveName = Limits.filterCounterName(counterName);
  ...

और वास्तव में :

public static String filterName(String name, int maxLen) {
  return name.length() > maxLen ? name.substring(0, maxLen - 1) : name;
}

public static String filterCounterName(String name) {
  return filterName(name, getCounterNameMax());
}

जैसा कि आप देख सकते हैं, काउंटर का नाम सम्मान के साथ काट दिया जा रहा है mapreduce.job.counters.max। अपनी बारी पर, Hadoop कोड में केवल एक ही स्थान है जहाँ कॉल किया Limits.init(Configuration conf)जाता है ( LocalContainerLauncherवर्ग से बुलाया जाता है ):

class YarnChild {

  private static final Logger LOG = LoggerFactory.getLogger(YarnChild.class);

  static volatile TaskAttemptID taskid = null;

  public static void main(String[] args) throws Throwable {
    Thread.setDefaultUncaughtExceptionHandler(new YarnUncaughtExceptionHandler());
    LOG.debug("Child starting");

    final JobConf job = new JobConf(MRJobConfig.JOB_CONF_FILE);
    // Initing with our JobConf allows us to avoid loading confs twice
    Limits.init(job);

मेरा मानना है कि आपके द्वारा देखे जाने वाले काउंटर नामों को ठीक करने के लिए आपको निम्न चरणों का पालन करने की आवश्यकता है:

mapreduce.job.counters.counter.name.maxकॉन्फ़िगरेशन मान समायोजित करें
YARN / MapReduce सेवा पुनरारंभ करें
अपना काम फिर से चलाएं

मुझे अब भी लगता है कि मुझे लगता है कि पुरानी नौकरियों के लिए अलग-अलग नाम होंगे।

Question 3

getName() लगता है कि पदावनत कर दिया जाएगा

वैकल्पिक रूप से, getUri()जो 255 की डिफ़ॉल्ट अधिकतम लंबाई के साथ आता है , का उपयोग किया जा सकता है।

दस्तावेज़ लिंक: getUri()

व्यक्तिगत रूप से इसे आजमाया नहीं गया है, लेकिन यह इस समस्या का एक संभावित समाधान है।