PBS Professionalで実行(qsub)したジョブのプロセス追跡方法

Shiratori Altair
Shiratori Altair
Altair Employee
edited September 2023 in Altair HPCWorks - 日本語

PBS Professionalで実行(qsub)したジョブのプロセス追跡方法

 

ジョブプロセスの情報は、ジョブの属性であるSession ID、および、各計算ノードに作成される

<jobid>.<pbsサーバホスト名>.JBファイルの情報をprintjobコマンドで表示することによって確認できます。

 

以下、確認例です。

* 計算ノード上でプロセスを確認するにはroot権限で実施する必要がありますが、rootでコマンドを実行することを推奨するものではありません。
 sudoなど必要なセキュリティ設定を実施することを推奨します。


1.ジョブのsession idと実行ノードを確認

[user01@pbs-head ~]$ qsub opt.sh
56.pbs-head
[user01@pbs-head ~]$ qstat -as 56

pbs-head:
                                                            Req'd  Req'd   Elap
Job ID          Username Queue    Jobname    SessID NDS TSK Memory Time  S Time
--------------- -------- -------- ---------- ------ --- --- ------ ----- - -----
56.pbs-head     user01   workq    OPTTEST     13219   1   2    --    --  R 00:00
   Job run at Thu Sep 28 at 17:28 on (node01:ncpus=2)
[user01@pbs-head ~]$


* 上記"qstat -as <jobid>"のアウトプットの"SessID"列でsession idを確認、2列目のコメントで実行ノード名を確認します。
 (上記例ではsession idが"13219"、実行ノードがnode01です。)

2.実行ノード上でsession idを元にした関連プロセスを確認


[root@node01 ~]# ps -g 13219
   PID TTY          TIME CMD
 13219 ?        00:00:00 bash
 13241 ?        00:00:00 56.pbs-head.SC
 13242 ?        00:00:00 optistruct
 13280 ?        00:00:00 tclsh8.5
 13284 ?        00:00:11 optistruct_2022
13286 ?        00:00:00 radflex_2022_li


3.実行ノードが複数あるマルチノードジョブの場合は、各ノード毎に、$PBS_HOME/mom_priv/jobsディレクトリに存在する"<jobid>.pbs-head.JB"ファイルに対して printjobを実行しsidを確認します。

[root@node01 jobs]# pwd
/var/spool/pbs/mom_priv/jobs
[root@node01 jobs]# printjob 56.pbs-head.JB | grep sid
        sid:            13219