"अवरुद्ध नौकरियों"


1

मैं एक दूरस्थ क्लस्टर ( वेस्टग्रिड> बुगाबू ) पर काम कर रहा हूं, जिस पर मैं एक .pbsफाइल के माध्यम से प्रक्रियाएं प्रस्तुत करता हूं । मेरी ऐसी .pbsदिखती है

#!/bin/bash
#PBS -l procs=1
#PBS -l walltime=100:00:00
#PBS -N SimulationName
#PBS -m ea
#PBS -M myname@gmail.com
#PBS -l pmem=3000mb
#PBS -t 1-100

echo "Starting run at: `date`"

R --vanilla --args ${PBS_ARRAYID} < /Path/To/code.R

echo "Job finished with exit code $? at: `date`"

, जहां PBS_ARRAYIDप्रत्येक विशिष्ट कार्य के लिए 1 से 100 का मान लिया जाएगा। /Path/To/code.Rमें लिखी गई कुछ बाइनरी फ़ाइल के लिए एक आर रैपर है C। जब मैं नौकरी प्रस्तुत करता हूं

$ qsub mypbs.pbs

सब कुछ ठीक काम करने लगता है। उम्मीद के अनुसार सिमुलेशन चलता है और मुझे आउटपुट मिला है। मुद्दा यह है कि कुछ बिंदु पर, जब सिमुलेशन चल रहा है, मैं अक्सर "अवरुद्ध नौकरियों" में अजीब नौकरियां देखता हूं।

$ showq -u myName

active jobs------------------------
JOBID              USERNAME      STATE PROCS   REMAINING            STARTTIME


0 active jobs            0 of 4516 processors in use by local jobs (0.00%)
                        428 of 436 nodes active      (98.17%)

eligible jobs----------------------
JOBID              USERNAME      STATE PROCS     WCLIMIT            QUEUETIME


0 eligible jobs   

blocked jobs-----------------------
JOBID              USERNAME      STATE PROCS     WCLIMIT            QUEUETIME

30004048[]          matthey  NotQueued     1  2:02:00:00  Wed Mar 23 12:56:27
30156104[]          matthey  NotQueued     1  2:02:00:00  Mon Mar 28 01:14:16

2 blocked jobs   

Total jobs:  2

जॉब आईडी वास्तव में उन लोगों के समान है जो दौड़ते हैं (या पहले भाग गए थे) लेकिन इन दो अवरुद्ध नौकरियों PBS_ARRAYIDमें वर्ग कोष्ठक के बीच कोई भी नहीं है । ये नौकरियां लंबे समय तक वहां रहती हैं और मैं उन्हें हटा नहीं सकता

$ qdel 30004048[]

qdel: nonexistent job id: 30004048[]

साथ ही, मैं कोई भी नई नौकरी (जो कि मुख्य समस्या है) जमा नहीं कर सकता क्योंकि मुझे संदेश प्राप्त हो गया है

$ qsub mypbs.pbs

qsub: submit error (Maximum number of jobs already in queue MSG=Job 30893576.b0 violates the global server limit of 500 jobs queued per user)

हालांकि मैं इस सर्वर सीमा का उल्लंघन नहीं करता। आखिरकार ये "NotQueued" नौकरियां गायब हो जाती हैं, लेकिन केवल अपेक्षाकृत लंबे समय के बाद।

यह समस्या मेरे साथ अतीत में और इस क्लस्टर के सभी उपयोगकर्ताओं के बीच कई बार हुई है, मुझे लगता है कि यह इस समस्या का एकमात्र अनुभव है। समर्थन से संपर्क करने पर, वे आमतौर पर किसी भी तरह से दो नौकरियों को समाप्त कर देते हैं, लेकिन अभी तक मुझे इस समस्या का कोई दीर्घकालिक समाधान नहीं मिला है।

  • क्या आपको पता है कि क्या चल रहा है?
  • क्या मैं इन दो अजीब नौकरियों को हटा सकता हूं?
  • मैं फिर से होने वाली ऐसी चीजों से कैसे बच सकता हूं?

जवाबों:


0

"ये नौकरियां लंबे समय तक वहाँ रहती हैं" मुझे लगता है कि दो साल के बाद उन्हें अंतिम रूप दिया गया है। वैसे भी, मैं एक ही सवाल ("क्या मैं इन (…) अजीब [सरणी] नौकरियों" को हटा सकता हूं) और (टाइपराइटर) उद्धरण चिह्नों (एकल या दोहरे) के उपयोग ने समस्या को हल कर दिया:

qdel "job_identifier[]"

पूर्ण सरणी को हटाने के लिए। इसके अतिरिक्त आप विकल्प के $PBS_ARRAYIDसाथ एक विशिष्ट (या एक सीमा) निर्दिष्ट कर सकते हैं-t


क्या आप अपने उत्तर के लिए कुछ और संदर्भ प्रदान कर सकते हैं?
पेट्सव

क्षमा करें, मैं वास्तव में आपके अनुरोध को नहीं समझता। इसलिए मैंने दूसरे प्रश्न का उत्तर देने की कोशिश की: "क्या मैं इन दो अजीब नौकरियों को हटा सकता हूं"। और इसका उत्तर निम्न तरीके से है। या आप सीमा विकल्प पर निम्नलिखित टिप्पणी से भ्रमित हैं?
डेनियल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.