CUDA Version: 사용하고 있는 CUDA_version이 아니다. 사용하고 있는 드라이버의 추천 cuda version이다.
GPU/FAN : 0-7까지는 GPU_number이며 N/A가 표기 된곳은 Fan이 장착 되어있는 GPU사용시 사용 %로 표기된다.
tip :tesla계열의 gpu는 fan이 없다. 쿼드로 계열 및 Geforce,rtx등에 fan이 있다.
name: tesla v100 (gpu model)
persistence-m: off - 파워지속성 모드이다 default는 off이다. on으로 변경시 nvidia-smi -pm 1 & nvidia-smi -p 1 70 파워제한을 걸 수 있다. 전력 손실은 있지만, gpu사용시 지연되는 시간을 아낄 수 있다.
Temp : GPU온도 일정 온도가 지나면 성능 저하 및 gpu drop 이 발생한다.
Perf : Perfomance mode P0 ~ P12 까지 있지만 보통 P0, P2, P8 등만 본듯 하다. 숫자가 작을수록 많은 high-performance 상태이다.
Pwr:usage/cap : gpu의 usage 현재 사용량과 / cap 최대용량으로 보면 될것 같다.
bus-id: mainboard 슬롯에는 bus-id 라는 것이 있다. bus-id 0000:04:00.0을 확인 후mainboard에 해당하는 위치의 gpu를 찾을 수있다. 상당히 중요하다.
disp.a : linux설치 시 server와 desktop버전이 있다. desktop버전이 설치되면 화면 출력을gpu_card로 하는것이 좋다. ( GPU_card에 oupput이 존재하는것에 한해서만 ) disp.a off로 보통은 있지만 on되어 있다면 그 GPU_card에 출력이 되고 있다는 것이다.
memory-usage : GPU별 gpu_memory 크기가 다르다 2744MiB사용중이고 16130MiB가 gpu total memory이다.
volatile GPU-util : GPU 성능치로 보면 될것같다. 현재는 100%성능을 사용하고 있는중이다. uncorr.ecc: GPU ecc 모드를 on /off를 표기한다 0은 현재 error count이다. ecc 를 끄기 위해서는 nvidia-smi -e 0 을 사용한다. ecc가 계속 검출되면 현재 작업중인 job에 문제가 생길수있다 (hang)
Compute M : 현재 사용중이 compute mode가 나온다. 0. Default 1. Exclusive_thread 2. Prohibited 3. Exclusive_Process # nvidis-smi -c 0
Processes : GPU 0-7번 PID process ID 등 현재 사용중인 내용들이 나와있다.