問題解決、サポートに関する情報の収集、pbs_snapshotについて
PBS Professionalの問題に関して、サポートを依頼する前に以下の情報を収集します。
1. 一般情報
1-1.問題の内容、ご質問内容
事象の具体的な内容。ジョブが関連する事象の場合はJOBID、PBSサーバに関する事象の場合はサーバホスト名、
計算ノードに関する問題の場合は計算ノード(vnode)名などは必須となります。
1-2.時系列情報
問題の発生時刻を基準に前後のイベントの記録
1-3.問題の再現性
複数回問題が発生している。継続して問題発生中である。一回のみ発生、その後、同事象は未確認等。
1-4.問題の再現手順
再現方法がある場合はその手順
1-5.そのほかの切り分け情報など
2. 情報取得tool pbs_snapshotを使用した情報取集
pbs_snapshotはPBS Professionalのversion, log, 設定、OS versionなどを取得するツールです。
・PBS Professional version 202x.x以降で使用可能
・Linuxのみ使用可
・root権限が必要(複数ホストを指定した場合はそれぞれの権限)
・pbs_server,pbs_momがインストールされているserverで実行可能
【取得例】pbs-head, および計算ノード node01, node02の情報を過去に遡って3日分取得する例
[root@pbs-head ~]# pbs_snapshot --accounting-logs=3 --daemon-logs=3 --additional-hosts='node01,node02' -o /tmp
2023-06-27 15:03:47,340 INFO Capturing snapshot from host node01
2023-06-27 15:03:47,340 INFOCLI2 node01(run_cmd): ssh node01 ls -1 /opt/pbs/python/bin/python
2023-06-27 15:03:47,342 INFO Capturing snapshot from host node02
2023-06-27 15:03:47,342 INFOCLI2 node02(run_cmd): ssh node02 ls -1 /opt/pbs/python/bin/python
...
...
Snapshot available at: /tmp/snapshot_20230627_15_03_47.tgz
*ファイル作成ディレクトリの指定
-o オプションで任意のディレクトリを指定します。
例: -o /tmp
*情報取得対象サーバの指定
--additional-hostsオプションでカンマで区切って指定します。
--additional-hostsオプションを指定しない場合、pbs_snapshotを実行したserver上の情報のみ取得します。
logファイルサイズなどが大きい場合は--additional-hostsオプションを使用せずserver毎に
それぞれpbs_snapshotを個別に実行して情報を取得してください。
例:--additional-hosts='node01,node02'
*取得期間
--daemon-logs,--accountingオプションでaccountingログの取得日数を指定します。
数値はpbs_snapshotを実行した日を含めて遡ってn日を意味します。
n日内に事象があった日時を含めるようにしてください。
例:--accounting-logs=3
:--daemon-logs=3
*pbs_snapshotの詳細は以下ドキュメントをご確認ください
PBS Professional <version> Reference Guide
https://altairone.com/Marketplace?queryText=pbs&tab=Download&app=PBS+Professional
3. toolを使用しない情報収集
以下の情報はpbs_snapshotで取得・確認できない情報であり個別に取得・確認が必要です。
3-1.Databaseログの取得
$PBS_HOME\datastore/log配下にあるログを取得します。
【取得例】
[root@pbs-head ~]# . /etc/pbs.conf
[root@pbs-head ~]# tar -czvf /tmp/datastore_logs.tar $PBS_HOME/datastore/log/
tar: メンバ名から先頭の `/' を取り除きます
/var/spool/pbs/datastore/log/
/var/spool/pbs/datastore/log/pbs_dataservice_log.Tue
...
...
3-2.coreファイルの確認
以下のディレクトリ配下に"core_nnnn"のような名称のファイルが作成されていないかの確認をします。
特に、PBSデーモン(pbs_server,pbs_sched,pbs_momがダウンした場合など)の障害調査に必須となります。
$PBS_HOME/server_priv
$PBS_HOME/sched_priv
$PBS_HOME/mom_priv