Salome HOME
Copyright update 2020
[tools/libbatch.git] / src / Slurm / BatchManager_Slurm.cxx
index 17a7773a4d120b88933f3b1d05c0822e2cfaf983..1c7f8d7bdb5537957a1fba259510bc8131de9952 100644 (file)
@@ -1,23 +1,23 @@
-//  Copyright (C) 2007-2013  CEA/DEN, EDF R&D, OPEN CASCADE
+// Copyright (C) 2007-2020  CEA/DEN, EDF R&D, OPEN CASCADE
 //
-//  Copyright (C) 2003-2007  OPEN CASCADE, EADS/CCR, LIP6, CEA/DEN,
-//  CEDRAT, EDF R&D, LEG, PRINCIPIA R&D, BUREAU VERITAS
+// Copyright (C) 2003-2007  OPEN CASCADE, EADS/CCR, LIP6, CEA/DEN,
+// CEDRAT, EDF R&D, LEG, PRINCIPIA R&D, BUREAU VERITAS
 //
-//  This library is free software; you can redistribute it and/or
-//  modify it under the terms of the GNU Lesser General Public
-//  License as published by the Free Software Foundation; either
-//  version 2.1 of the License.
+// This library is free software; you can redistribute it and/or
+// modify it under the terms of the GNU Lesser General Public
+// License as published by the Free Software Foundation; either
+// version 2.1 of the License, or (at your option) any later version.
 //
-//  This library is distributed in the hope that it will be useful,
-//  but WITHOUT ANY WARRANTY; without even the implied warranty of
-//  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
-//  Lesser General Public License for more details.
+// This library is distributed in the hope that it will be useful,
+// but WITHOUT ANY WARRANTY; without even the implied warranty of
+// MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+// Lesser General Public License for more details.
 //
-//  You should have received a copy of the GNU Lesser General Public
-//  License along with this library; if not, write to the Free Software
-//  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
+// You should have received a copy of the GNU Lesser General Public
+// License along with this library; if not, write to the Free Software
+// Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
 //
-//  See http://www.salome-platform.org/ or email : webmaster.salome@opencascade.com
+// See http://www.salome-platform.org/ or email : webmaster.salome@opencascade.com
 //
 /*
  *  BatchManager_Slurm.cxx :
@@ -55,14 +55,11 @@ namespace Batch {
   }
 
   // Method to submit a job to the batch manager
-  const JobId BatchManager_Slurm::submitJob(const Job & job)
+  const JobId BatchManager_Slurm::runJob(const Job & job)
   {
     Parametre params = job.getParametre();
     const string workDir = params[WORKDIR];
 
-    // export input files on cluster
-    exportInputFiles(job);
-
     // build command file to submit the job and copy it on the server
     string cmdFile = buildCommandFile(job);
 
@@ -124,7 +121,7 @@ namespace Batch {
     ofstream tempOutputFile;
     string tmpFileName = Utils::createAndOpenTemporaryFile("slurm-script", tempOutputFile);
 
-    tempOutputFile << "#!/bin/bash" << endl;
+    tempOutputFile << "#!/bin/bash -l" << endl;
     tempOutputFile << "#SBATCH --output=" << workDir << "/logs/output.log." << rootNameToExecute << endl;
     tempOutputFile << "#SBATCH --error=" << workDir << "/logs/error.log." << rootNameToExecute << endl;
 
@@ -151,9 +148,13 @@ namespace Batch {
     else if (params.find(MEMPERCPU) != params.end())
       tempOutputFile << "#SBATCH --mem-per-cpu=" << params[MEMPERCPU] << endl;
     if (params.find(QUEUE) != params.end())
-      tempOutputFile << "#SBATCH --partition=" << params[QUEUE] << endl;
+      tempOutputFile << "#SBATCH --qos=" << params[QUEUE] << endl;
+    if (params.find(PARTITION) != params.end())
+      tempOutputFile << "#SBATCH --partition=" << params[PARTITION] << endl;
     if (params.find(WCKEY) != params.end())
       tempOutputFile << "#SBATCH --wckey=" << params[WCKEY] << endl;
+    if (params.find(NBNODE) != params.end())
+      tempOutputFile << "#SBATCH --nodes=" << params[NBNODE] << endl;
     if (params.find(EXTRAPARAMS) != params.end())
       tempOutputFile << params[EXTRAPARAMS] << endl;
 
@@ -164,8 +165,8 @@ namespace Batch {
     }
 
     // generate nodes file
-    tempOutputFile << "LIBBATCH_NODEFILE=`mktemp nodefile-XXXXXXXXXX`" << endl;
-    tempOutputFile << "srun hostname > $LIBBATCH_NODEFILE" << endl;
+    tempOutputFile << "LIBBATCH_NODEFILE=$(mktemp nodefile-XXXXXXXXXX)" << endl;
+    tempOutputFile << "srun hostname > \"$LIBBATCH_NODEFILE\"" << endl;
     tempOutputFile << "export LIBBATCH_NODEFILE" << endl;
 
     // Launch the executable
@@ -182,7 +183,7 @@ namespace Batch {
     tempOutputFile << endl;
 
     // Remove the node file
-    tempOutputFile << "rm $LIBBATCH_NODEFILE" << endl;
+    tempOutputFile << "rm \"$LIBBATCH_NODEFILE\"" << endl;
 
     tempOutputFile.flush();
     tempOutputFile.close();
@@ -215,17 +216,44 @@ namespace Batch {
 
   JobInfo BatchManager_Slurm::queryJob(const JobId & jobid)
   {
-    // define command to query batch
-    string subCommand = "squeue -o %t -j " + jobid.getReference();
+    // First try to query the job with "squeue" command
+    string subCommand = "squeue -h -o %T -j " + jobid.getReference() + " 2>/dev/null";
     string command = _protocol.getExecCommand(subCommand, _hostname, _username);
     LOG(command);
     string output;
-    Utils::getCommandOutput(command, output);
-    // We don't test the return code here because with jobs finished since a long time Slurm
-    // returns an error and a message like "slurm_load_jobs error: Invalid job id specified".
-    // So we consider that the job is finished when we get an error.
+    int status = Utils::getCommandOutput(command, output);
+    LOG("status: " << status << ", output: " << output);
+    bool found = false;
+    JobInfo jobinfo;
+    if (status == 0) {
+        try {
+            jobinfo = JobInfo_Slurm(jobid.getReference(), output);
+            found = true;
+        } catch (const RunTimeException & exc) {
+            LOG(exc);
+        }
+    }
 
-    JobInfo_Slurm jobinfo = JobInfo_Slurm(jobid.getReference(), output);
+    // If "squeue" failed, the job may be finished. In this case, try to query the job with
+    // "sacct".
+    if (! found) {
+        string subCommand = "sacct -X -o State%-10 -n -j " + jobid.getReference();
+        string command = _protocol.getExecCommand(subCommand, _hostname, _username);
+        LOG(command);
+        string output;
+        int status = Utils::getCommandOutput(command, output);
+        LOG("status: " << status << ", output: " << output);
+        if (status == 0) {
+            try {
+                jobinfo = JobInfo_Slurm(jobid.getReference(), output);
+            } catch (const RunTimeException & exc) {
+                LOG(exc);
+                throw(exc);
+            }
+        } else {
+            throw RunTimeException("sacct command failed with return code: " + status);
+        }
+    }
     return jobinfo;
   }