मैं एक दूरस्थ क्लस्टर ( वेस्टग्रिड> बुगाबू ) पर काम कर रहा हूं, जिस पर मैं एक .pbs
फाइल के माध्यम से प्रक्रियाएं प्रस्तुत करता हूं । मेरी ऐसी .pbs
दिखती है
#!/bin/bash
#PBS -l procs=1
#PBS -l walltime=100:00:00
#PBS -N SimulationName
#PBS -m ea
#PBS -M myname@gmail.com
#PBS -l pmem=3000mb
#PBS -t 1-100
echo "Starting run at: `date`"
R --vanilla --args ${PBS_ARRAYID} < /Path/To/code.R
echo "Job finished with exit code $? at: `date`"
, जहां PBS_ARRAYID
प्रत्येक विशिष्ट कार्य के लिए 1 से 100 का मान लिया जाएगा। /Path/To/code.R
में लिखी गई कुछ बाइनरी फ़ाइल के लिए एक आर रैपर है C
। जब मैं नौकरी प्रस्तुत करता हूं
$ qsub mypbs.pbs
सब कुछ ठीक काम करने लगता है। उम्मीद के अनुसार सिमुलेशन चलता है और मुझे आउटपुट मिला है। मुद्दा यह है कि कुछ बिंदु पर, जब सिमुलेशन चल रहा है, मैं अक्सर "अवरुद्ध नौकरियों" में अजीब नौकरियां देखता हूं।
$ showq -u myName
active jobs------------------------
JOBID USERNAME STATE PROCS REMAINING STARTTIME
0 active jobs 0 of 4516 processors in use by local jobs (0.00%)
428 of 436 nodes active (98.17%)
eligible jobs----------------------
JOBID USERNAME STATE PROCS WCLIMIT QUEUETIME
0 eligible jobs
blocked jobs-----------------------
JOBID USERNAME STATE PROCS WCLIMIT QUEUETIME
30004048[] matthey NotQueued 1 2:02:00:00 Wed Mar 23 12:56:27
30156104[] matthey NotQueued 1 2:02:00:00 Mon Mar 28 01:14:16
2 blocked jobs
Total jobs: 2
जॉब आईडी वास्तव में उन लोगों के समान है जो दौड़ते हैं (या पहले भाग गए थे) लेकिन इन दो अवरुद्ध नौकरियों PBS_ARRAYID
में वर्ग कोष्ठक के बीच कोई भी नहीं है । ये नौकरियां लंबे समय तक वहां रहती हैं और मैं उन्हें हटा नहीं सकता
$ qdel 30004048[]
qdel: nonexistent job id: 30004048[]
साथ ही, मैं कोई भी नई नौकरी (जो कि मुख्य समस्या है) जमा नहीं कर सकता क्योंकि मुझे संदेश प्राप्त हो गया है
$ qsub mypbs.pbs
qsub: submit error (Maximum number of jobs already in queue MSG=Job 30893576.b0 violates the global server limit of 500 jobs queued per user)
हालांकि मैं इस सर्वर सीमा का उल्लंघन नहीं करता। आखिरकार ये "NotQueued" नौकरियां गायब हो जाती हैं, लेकिन केवल अपेक्षाकृत लंबे समय के बाद।
यह समस्या मेरे साथ अतीत में और इस क्लस्टर के सभी उपयोगकर्ताओं के बीच कई बार हुई है, मुझे लगता है कि यह इस समस्या का एकमात्र अनुभव है। समर्थन से संपर्क करने पर, वे आमतौर पर किसी भी तरह से दो नौकरियों को समाप्त कर देते हैं, लेकिन अभी तक मुझे इस समस्या का कोई दीर्घकालिक समाधान नहीं मिला है।
- क्या आपको पता है कि क्या चल रहा है?
- क्या मैं इन दो अजीब नौकरियों को हटा सकता हूं?
- मैं फिर से होने वाली ऐसी चीजों से कैसे बच सकता हूं?