드레스룸 시스템행거 인테리어

반응형

NVIDIA-SMI 소개 및 이해하기

 

GPU의 상태를 확인하는 방법

 

# nvidia-smi

  1. Driver version : 사용하고 있는 GPU_Driver version

  2. CUDA Version : 사용하고 있는 CUDA_version이 아니다. 사용하고 있는 드라이버의 추천 cuda version이다.
  3. GPU/FAN : 0-7까지는 GPU_number이며 N/A가 표기 된곳은 Fan이 장착 되어있는 GPU사용시 사용 %로 표기된다.

    tip :tesla계열의 gpu는 fan이 없다. 쿼드로 계열 및 Geforce,rtx등에 fan이 있다.
     
  4. name : tesla v100 (gpu model)

    persistence-m : off - 파워지속성 모드이다 default는 off이다. on으로 변경시 nvidia-smi -pm 1 & nvidia-smi -p 1 70 파워제한을 걸 수 있다. 전력 손실은 있지만, gpu사용시 지연되는 시간을 아낄 수 있다.

    Temp : GPU온도 일정 온도가 지나면 성능 저하 및 gpu drop 이 발생한다.

    Perf : Perfomance mode P0 ~ P12 까지 있지만 보통 P0, P2, P8 등만 본듯 하다. 숫자가 작을수록 많은 high-performance 상태이다.

    Pwr:usage/cap : gpu의 usage 현재 사용량과 / cap 최대용량으로 보면 될것 같다.

  5. bus-id : mainboard 슬롯에는 bus-id 라는 것이 있다.  bus-id 0000:04:00.0을 확인 후mainboard에 해당하는 위치의 gpu를 찾을 수있다. 상당히 중요하다.

    disp.a : linux설치 시 server와 desktop버전이 있다. desktop버전이 설치되면 화면 출력을gpu_card로 하는것이 좋다.
    ( GPU_card에 oupput이 존재하는것에 한해서만 ) disp.a off로 보통은 있지만 on되어 있다면 그 GPU_card에 출력이 되고 있다는 것이다.

    memory-usage : GPU별 gpu_memory 크기가 다르다 2744MiB사용중이고 16130MiB가 gpu total memory이다.

  6. volatile GPU-util : GPU 성능치로 보면 될것같다. 현재는 100%성능을 사용하고 있는중이다.
     
    uncorr.ecc : GPU ecc 모드를 on /off를 표기한다 0은 현재 error count이다.
    ecc 를 끄기 위해서는 nvidia-smi -e 0 을 사용한다. ecc가 계속 검출되면 현재 작업중인 job에 문제가 생길수있다 (hang)

    Compute M : 현재 사용중이 compute mode가 나온다.
    0. Default  1. Exclusive_thread  2. Prohibited  3. Exclusive_Process  # nvidis-smi -c 0

  7. Processes : GPU 0-7번 PID process ID 등 현재 사용중인 내용들이 나와있다.

     

반응형

'GPU' 카테고리의 다른 글

CUDA 설치  (0) 2020.06.16
CUDNN  (0) 2020.06.15
2080Ti-TF_benchmark_test  (0) 2020.06.14
NVML:Driver/library verion mismatch  (0) 2020.06.12
nvidia-driver설치  (0) 2020.06.12

이 글을 공유합시다

facebook twitter kakaoTalk kakaostory naver band