問題解決、サポートに関する情報の収集、pbs_snapshotについて

Shiratori Altair
Shiratori Altair
Altair Employee

PBS Professionalの問題に関して、サポートを依頼する前に以下の情報を収集します。

 

1. 一般情報

1-1.問題の内容、ご質問内容

    事象の具体的な内容。ジョブが関連する事象の場合はJOBID、PBSサーバに関する事象の場合はサーバホスト名、

 計算ノードに関する問題の場合は計算ノード(vnode)名などは必須となります。

1-2.時系列情報
    問題の発生時刻を基準に前後のイベントの記録

1-3.問題の再現性
  複数回問題が発生している。継続して問題発生中である。一回のみ発生、その後、同事象は未確認等。

1-4.問題の再現手順
  再現方法がある場合はその手順

1-5.そのほかの切り分け情報など

 

 


2. 情報取得tool pbs_snapshotを使用した情報取集


  pbs_snapshotはPBS Professionalのversion, log, 設定、OS versionなどを取得するツールです。 

 ・PBS Professional version 202x.x以降で使用可能
 ・Linuxのみ使用可
 ・root権限が必要(複数ホストを指定した場合はそれぞれの権限)
 ・pbs_server,pbs_momがインストールされているserverで実行可能


【取得例】pbs-head, および計算ノード node01, node02の情報を過去に遡って3日分取得する例

[root@pbs-head ~]# pbs_snapshot --accounting-logs=3 --daemon-logs=3 --additional-hosts='node01,node02' -o /tmp
2023-06-27 15:03:47,340 INFO     Capturing snapshot from host node01
2023-06-27 15:03:47,340 INFOCLI2 node01(run_cmd): ssh node01 ls -1 /opt/pbs/python/bin/python
2023-06-27 15:03:47,342 INFO     Capturing snapshot from host node02
2023-06-27 15:03:47,342 INFOCLI2 node02(run_cmd): ssh node02 ls -1 /opt/pbs/python/bin/python
...
...
Snapshot available at: /tmp/snapshot_20230627_15_03_47.tgz

 


*ファイル作成ディレクトリの指定


 -o オプションで任意のディレクトリを指定します。

 例: -o /tmp

 

*情報取得対象サーバの指定

 --additional-hostsオプションでカンマで区切って指定します。
 --additional-hostsオプションを指定しない場合、pbs_snapshotを実行したserver上の情報のみ取得します。
  logファイルサイズなどが大きい場合は--additional-hostsオプションを使用せずserver毎に
  それぞれpbs_snapshotを個別に実行して情報を取得してください。

 例:--additional-hosts='node01,node02'

 

*取得期間

 --daemon-logs,--accountingオプションでaccountingログの取得日数を指定します。
  数値はpbs_snapshotを実行した日を含めて遡ってn日を意味します。
  n日内に事象があった日時を含めるようにしてください。

 例:--accounting-logs=3
  :--daemon-logs=3


*pbs_snapshotの詳細は以下ドキュメントをご確認ください

PBS Professional <version> Reference Guide

https://altairone.com/Marketplace?queryText=pbs&tab=Download&app=PBS+Professional

 

 

 

3. toolを使用しない情報収集


  以下の情報はpbs_snapshotで取得・確認できない情報であり個別に取得・確認が必要です。

3-1.Databaseログの取得

 $PBS_HOME\datastore/log配下にあるログを取得します。

 

【取得例】
[root@pbs-head ~]# . /etc/pbs.conf
[root@pbs-head ~]# tar -czvf /tmp/datastore_logs.tar $PBS_HOME/datastore/log/
tar: メンバ名から先頭の `/' を取り除きます
/var/spool/pbs/datastore/log/
/var/spool/pbs/datastore/log/pbs_dataservice_log.Tue
...
...

 

 

3-2.coreファイルの確認

以下のディレクトリ配下に"core_nnnn"のような名称のファイルが作成されていないかの確認をします。
特に、PBSデーモン(pbs_server,pbs_sched,pbs_momがダウンした場合など)の障害調査に必須となります。

 $PBS_HOME/server_priv
 $PBS_HOME/sched_priv
 $PBS_HOME/mom_priv