1. GPU 0.5초마다 사용현황 체크
watch -d -n 0.5 nvidia-smi
watch -d 옵션은 이전 출력결과와 비교하여 변경된 부분을 표시해 준다.
-n 옵션은 명령어의 결과를 초단위 간격으로 출력해 주는 기능(디폴트 값은 2초)
cuda 또는 NVIDIA 버전 호환 문제롤 torch에서 gpu 사용 불가인 경우 cuda 버전과 nvidia 버전을 업그레이드 시켜 주거나 아니면 호환되는 torch버전을 설치한다.
기존에 torch가 설치 되어 있으면 삭제하고 설치한다.
pip3 uninstall torch torchvision
2. GPU 모델명 확인
nvidia-smi --query | fgrep 'Product Name'
Product Name : NVIDIA RTX A6000
Product Name : NVIDIA RTX A6000
Product Name : NVIDIA RTX A6000
3. 전체적인 GPU 정보 확인
nvidia-smi
Mon May 20 08:57:25 2024
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.57 Driver Version: 515.57 CUDA Version: 11.7 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA RTX A6000 Off | 00000000:3B:00.0 Off | Off |
| 30% 55C P8 18W / 300W | 76MiB / 49140MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 1 NVIDIA RTX A6000 Off | 00000000:5E:00.0 Off | Off |
| 30% 44C P8 18W / 300W | 2MiB / 49140MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 2 NVIDIA RTX A6000 Off | 00000000:AF:00.0 Off | Off |
| 30% 51C P8 22W / 300W | 2MiB / 49140MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
4. CUDA 버전에 맞는 pytorch 설치
https://pytorch.org/get-started/previous-versions/
위 사이트에서 호환 가능한 버전 확인
CUDA 버전이 11.7 이니까 아래 명령어로 설치한다.
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
/* 아나콘다 가상환경으로 설치해서 conda로 install하고 테스트 하니 torch import 오류가 나서 pip로 다시 설치
해주니 오류가 해결 되었다 conda로 설치하고 안될때 pip로 설치 */
5. CUDA torch 사용 가능 여부 확인
python 을 실행 시킨후
/* cuda torch 사용가능 여부 확인 */
import torch
torch.cuda.get_device_name() # CUDA를 실행하고 있는 기기 이름을 나타낸다.
torch.cuda.is_available() # CUDA의 활성 여부를 나타낸다.
/* tensorflow 사용가능 여부확인 */
from tensorflow.python.client
import device_lib
device_lib.list_local_deviecs()
(base) cbw@gpusystem:~$ python
Python 3.11.5 (main, Sep 11 2023, 13:54:46) [GCC 11.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import torch
>>> torch.cuda.get_device_name()
'NVIDIA RTX A6000'
>>> torch.cuda.is_available()
True
>>>
이렇게 메세지가 나오면 성공적으로 torch에서 GPU를 사용할 수 있다.
'IT > AI' 카테고리의 다른 글
jupyterlab(주피터노트북) 외부접속 설정 (0) | 2024.05.20 |
---|---|
ollama 우분투 22.04에 설치 하기 (0) | 2024.05.20 |
우분투 22.04 원격접속 XRDP 설정 (0) | 2024.05.20 |
AI로 만든 합성 사진 메타 자동 라벨링 툴 개발 중 (0) | 2024.02.09 |
[마이크로소프트]MS 코파일럿에서 'GPT-4 터보' 무료 이용 가능 (0) | 2024.02.09 |
댓글