yolov5 학습에러

dkdwkim15 · 6월 25, 2024, 10:01오전

안녕하세요 ubuntu 20.04에서 nvidia driver 535이고 cuda는 12.2 cudnn은 8.9.6을 사용하고 있는데 yolov5으로 데이터 셋을 학습시키려고 하는데
dokyeong@dokyeong:~/catkin_ws/src/yolov5$ python3 train.py --img 416 --batch 16 --epochs 50 --data ./data/data.yaml --cfg ./models/yolov5s.yaml --weight yolov5s-cls.pt --device 0 --name "pothole"
train: weights=yolov5s-cls.pt, cfg=./models/yolov5s.yaml, data=./data/data.yaml, hyp=data/hyps/hyp.scratch-low.yaml, epochs=50, batch_size=16, imgsz=416, rect=False, resume=False, nosave=False, noval=False, noautoanchor=False, noplots=False, evolve=None, evolve_population=data/hyps, resume_evolve=None, bucket=, cache=None, image_weights=False, device=0, multi_scale=False, single_cls=False, optimizer=SGD, sync_bn=False, workers=8, project=runs/train, name=pothole, exist_ok=False, quad=False, cos_lr=False, label_smoothing=0.0, patience=100, freeze=[0], save_period=-1, seed=0, local_rank=-1, entity=None, upload_dataset=False, bbox_interval=-1, artifact_alias=latest, ndjson_console=False, ndjson_file=False
github: skipping check (offline), for updates see GitHub - ultralytics/yolov5: YOLOv5 🚀 in PyTorch > ONNX > CoreML > TFLite
YOLOv5 v7.0-331-gab364c98 Python-3.8.10 torch-2.3.0+cu121 CUDA:0 (NVIDIA GeForce RTX 3060 Laptop GPU, 5938MiB)

hyperparameters: lr0=0.01, lrf=0.01, momentum=0.937, weight_decay=0.0005, warmup_epochs=3.0, warmup_momentum=0.8, warmup_bias_lr=0.1, box=0.05, cls=0.5, cls_pw=1.0, obj=1.0, obj_pw=1.0, iou_t=0.2, anchor_t=4.0, fl_gamma=0.0, hsv_h=0.015, hsv_s=0.7, hsv_v=0.4, degrees=0.0, translate=0.1, scale=0.5, shear=0.0, perspective=0.0, flipud=0.0, fliplr=0.5, mosaic=1.0, mixup=0.0, copy_paste=0.0
Comet: run 'pip install comet_ml' to automatically track and visualize YOLOv5 runs in Comet
TensorBoard: Start with 'tensorboard --logdir runs/train', view at http://localhost:6006/
Overriding model.yaml nc=80 with nc=2

             from  n    params  module                                  arguments

0 -1 1 1 -1 1 2 -1 1 3 -1 1 4 5 6 7 8 9 10 11 -1 1 12 [-1, 6] 1 13 14 15 -1 1 16 [-1, 4] 1 17 18 19 [-1, 14] 1 20 21 22 [-1, 10] 1 23 24 [17, 20, 23] 1 YOLOv5s summary: 3520 models.common.Conv [3, 32, 6, 2, 2]
18560 models.common.Conv [32, 64, 3, 2]
18816 models.common.C3 [64, 64, 1]
73984 models.common.Conv [64, 128, 3, 2]
-1 2 115712 models.common.C3 [128, 128, 2]
-1 1 295424 models.common.Conv [128, 256, 3, 2]
-1 3 625152 models.common.C3 [256, 256, 3]
-1 1 1180672 models.common.Conv [256, 512, 3, 2]
-1 1 1182720 models.common.C3 [512, 512, 1]
-1 1 656896 models.common.SPPF [512, 512, 5]
-1 1 131584 models.common.Conv [512, 256, 1, 1]
0 torch.nn.modules.upsampling.Upsample [None, 2, 'nearest']
0 models.common.Concat [1]
-1 1 361984 models.common.C3 [512, 256, 1, False]
-1 1 33024 models.common.Conv [256, 128, 1, 1]
0 torch.nn.modules.upsampling.Upsample [None, 2, 'nearest']
0 models.common.Concat [1]
-1 1 90880 models.common.C3 [256, 128, 1, False]
-1 1 147712 models.common.Conv [128, 128, 3, 2]
0 models.common.Concat [1]
-1 1 296448 models.common.C3 [256, 256, 1, False]
-1 1 590336 models.common.Conv [256, 256, 3, 2]
0 models.common.Concat [1]
-1 1 1182720 models.common.C3 [512, 512, 1, False]
18879 models.yolo.Detect [2, [[10, 13, 16, 30, 33, 23], [30, 61, 62, 45, 59, 119], [116, 90, 156, 198, 373, 326]], [128, 256, 512]]
214 layers, 7025023 parameters, 7025023 gradients, 16.0 GFLOPs

Transferred 186/349 items from yolov5s-cls.pt
AMP: checks passed
optimizer: SGD(lr=0.01) with parameter groups 57 weight(decay=0.0), 60 weight(decay=0.0005), 60 bias
train: Scanning /home/dokyeong/catkin_ws/src/yolov5/pothole/train/labels.cache..
val: Scanning /home/dokyeong/catkin_ws/src/yolov5/pothole/valid/labels.cache...

AutoAnchor: 5.12 anchors/target, 1.000 Best Possible Recall (BPR). Current anchors are a good fit to dataset
Plotting labels to runs/train/pothole3/labels.jpg...
Image sizes 416 train, 416 val
Using 8 dataloader workers
Logging results to runs/train/pothole3
Starting training for 50 epochs...

  Epoch    GPU_mem   box_loss   obj_loss   cls_loss  Instances       Size

0%| | 0/31 [00:00<?, ?it/s]Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS1_20NormForwardOperationEmb, version libcudnn_cnn_infer.so.8
0%| | 0/31 [00:00<?, ?it/s]
Traceback (most recent call last):
File "train.py", line 851, in
main(opt)
File "train.py", line 626, in main
train(opt.hyp, opt, device, callbacks)
File "train.py", line 393, in train
scaler.scale(loss).backward()
File "/home/dokyeong/.local/lib/python3.8/site-packages/torch/_tensor.py", line 525, in backward
torch.autograd.backward(
File "/home/dokyeong/.local/lib/python3.8/site-packages/torch/autograd/init.py", line 267, in backward
_engine_run_backward(
File "/home/dokyeong/.local/lib/python3.8/site-packages/torch/autograd/graph.py", line 744, in _engine_run_backward
return Variable._execution_engine.run_backward( # Calls into the C++ engine to run the backward pass
RuntimeError: GET was unable to find an engine to execute this computation
이렇게 에러가 뜹니다 어떻게 해결해야되나요?

bot · 6월 25, 2024, 10:05오전

아래 답변은 OpenAI의 GPT-4-Turbo 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.

안녕하세요, dkdwkim15님. YOLOv5 학습 중에 발생한 문제로 어려움을 겪고 계신 것 같아 보입니다. 문제 상황을 정리해보면, Ubuntu 20.04 환경에서 NVIDIA 드라이버 535, CUDA 12.2, cuDNN 8.9.6을 사용하시며 YOLOv5 학습을 시도하셨고, 학습 시작 시 libcudnn_cnn_train.so.8 관련 에러가 발생하여 학습이 진행되지 않는 상황으로 보입니다.

이 문제는 주로 CUDA와 cuDNN 라이브러리 간의 호환성 문제, 혹은 설치된 라이브러리가 제대로 시스템에 인식되지 않았을 때 발생할 수 있습니다. 해결 방법으로는 다음과 같은 절차를 시도해볼 수 있습니다.

cuDNN 설치 확인 및 재설치: 현재 설치된 cuDNN이 시스템에 제대로 설치되어 있고, CUDA 12.2와 호환되는 버전인지 확인합니다. 필요하다면 cuDNN을 재설치할 수 있습니다. NVIDIA 공식 홈페이지에서 CUDA 12.2와 호환되는 cuDNN 버전을 다운로드하여 설치하세요.
환경 변수 설정: CUDA와 cuDNN이 설치된 후, 해당 라이브러리들이 시스템에서 제대로 인식될 수 있도록 환경 변수를 설정해야 합니다. ~/.bashrc 파일 또는 ~/.profile 파일에 다음과 같이 환경 변수를 추가합니다.

export PATH=/usr/local/cuda-12.2/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.2/lib64:$LD_LIBRARY_PATH

PyTorch 및 Torchvision 호환성 확인: 사용 중인 PyTorch 버전이 CUDA 12.2를 지원하는지 확인합니다. 필요하다면 PyTorch를 CUDA 12.2를 지원하는 버전으로 업데이트합니다. PyTorch 공식 웹사이트에서 호환 버전을 확인할 수 있습니다.
시스템 재시작: 환경 변수 변경 후 시스템을 재시작하여 변경 사항을 적용합니다.
학습 스크립트 재실행: 위의 단계를 모두 수행한 후, 다시 학습 스크립트를 실행하여 문제가 해결되었는지 확인합니다.

아래는 PyTorch와 CUDA, cuDNN 호환성을 확인할 수 있는 PyTorch 공식 설치 가이드 링크입니다. 여기서 자세한 정보와 설치 명령어를 찾을 수 있습니다.

PyTorch 공식 설치 가이드: https://pytorch.org/get-started/locally/

위의 단계를 따라도 문제가 해결되지 않는다면, 추가적으로 CUDA와 cuDNN 설치 경로를 확인하거나, 다른 버전의 CUDA와 cuDNN으로 시도해볼 수도 있습니다. 문제 해결에 도움이 되길 바랍니다. 만약 추가적인 정보가 필요하거나 다른 문제가 발생한다면 언제든지 질문해주세요.

답변이 어떠셨나요? 괜찮았다고 생각하신다면 아래 를 한 번 눌러주시길 부탁드려요!

dkdwkim15 · 6월 25, 2024, 10:14오전

libcudnn_cnn_train.so.8 -> libcudnn_cnn_train.so.8.9.6
libcudnn_ops_infer.so.8 -> libcudnn_ops_infer.so.8.9.6
libcudnn_adv_infer.so.8 -> libcudnn_adv_infer.so.8.9.6
libcudnn_ops_train.so.8 -> libcudnn_ops_train.so.8.9.6
libcudnn_adv_train.so.8 -> libcudnn_adv_train.so.8.9.6
libcudnn_cnn_infer.so.8 -> libcudnn_cnn_infer.so.8.9.6
libcudnn.so.8 -> libcudnn.so.8.9.6 이렇게 되어있습니다 제 컴퓨터에는

bot · 6월 25, 2024, 10:15오전

아래 답변은 Anthropic의 Claude-3 Opus 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.

안녕하세요 dkdwkim15님, YOLOv5 학습 중에 발생한 에러에 대해 함께 해결 방법을 찾아보겠습니다.

먼저 에러 메시지를 보면 CUDA 라이브러리인 libcudnn_cnn_train.so.8을 로드하는데 실패했다는 내용이 반복적으로 나옵니다. 해당 라이브러리에서 특정 symbol을 찾지 못해 발생한 에러로 보입니다.

이는 설치된 CUDA, cuDNN 버전과 PyTorch 버전 간의 호환성 문제일 가능성이 큽니다. 현재 CUDA 12.2, cuDNN 8.9.6을 사용 중이시고, PyTorch 버전은 2.3.0+cu121로 나와있네요.

제 제안 사항은 다음과 같습니다:

우선 CUDA 12.2와 호환되는 cuDNN 버전을 설치해보시는 걸 추천드립니다. CUDA 12.2는 cuDNN 8.8.1 이상을 권장합니다. 현재보다 낮은 버전인 8.7.0 등을 설치해보시는 것도 좋을 것 같습니다.
PyTorch 버전을 낮추는 것도 고려해보세요. 현재 사용 중인 2.3.0 대신 1.12.1+cu116 등 CUDA 11 기반 빌드로 다운그레이드 해보시는 걸 추천드립니다.

아래는 CUDA 12.1, cuDNN 8.6.0, PyTorch 2.0.1+cu117 조합에서 YOLOv5 학습을 성공적으로 진행한 예시 코드입니다. 버전을 참고해보시면 도움이 될 것 같네요.

# CUDA, cuDNN 버전 확인 
nvcc -V
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

# 가상환경 생성 & 활성화
conda create -n yolo python=3.9
conda activate yolo

# PyTorch 설치 (CUDA 11.7 버전)
pip install torch==2.0.1+cu117 torchvision==0.15.2+cu117 --extra-index-url https://download.pytorch.org/whl/cu117

# YOLOv5 학습 진행
git clone https://github.com/ultralytics/yolov5.git
cd yolov5
pip install -r requirements.txt
python train.py --data data.yaml --weights yolov5s.pt --img 640 --batch 16 --epochs 3 --device 0

만약 위 내용으로도 해결이 어려우시다면, 에러 로그와 함께 CUDA, cuDNN, PyTorch 버전 정보를 추가로 알려주시면 좀 더 자세한 조언을 드릴 수 있을 것 같습니다.

아래 링크의 PyTorch 공식 문서에서 각 CUDA 버전에 맞는 PyTorch와 cuDNN 권장 버전을 확인하실 수 있습니다.

https://pytorch.org/get-started/previous-versions/

해당 문제가 PyTorch나 YOLOv5 라이브러리 자체의 이슈일 가능성도 배제할 순 없습니다. 위 내용으로 해결이 안 된다면 GitHub 이슈 페이지 등을 참고해보시는 것도 좋겠네요.

도움이 되셨기를 바라며, 추가 문의 사항 있으시면 언제든 말씀해 주세요!

답변이 어떠셨나요? 괜찮았다고 생각하신다면 아래 를 한 번 눌러주시길 부탁드려요!

bot · 6월 25, 2024, 10:41오전

아래 답변은 Google의 Gemini Pro 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.

안녕하세요, 문제를 잘 읽어보니 훈련 중에 발생한 오류 같습니다. 오류 메시지는 다음과 같습니다.

RuntimeError: GET was unable to find an engine to execute this computation

이 오류는 일반적으로 다음과 같은 경우에 발생합니다.

잘못된 데이터 유형 사용
잘못된 연산자 사용
지원되지 않는 연산 수행

이를 해결하려면 다음 단계를 수행해 보세요.

데이터 유형 확인: 학습 중에 사용하는 데이터 유형이 올바른지 확인하세요. 예를 들어, float32 또는 float64입니다.
연산자 확인: 사용하는 연산자(예: 가중치 기울기 계산을 위한 .backward())가 올바른지 확인하세요.
지원되는 연산 확인: 사용하는 연산이 PyTorch에서 지원되는지 확인하세요. PyTorch 문서를 참조하거나 공식 포럼에 질문하세요.
CUDA 사용 여부 확인: CUDA를 사용하고 있는 경우 CUDA 드라이버 및 설치가 최신인지 확인하세요.
라이브러리 버전 확인: 사용하는 PyTorch 및 CUDA 라이브러리 버전이 호환되는지 확인하세요.
CUDA 장치 확인: 올바른 CUDA 장치를 사용하고 있는지 확인하세요.

위 단계를 수행해도 문제가 해결되지 않으면 추가 디버깅이 필요할 수 있습니다. 코드 스니펫이나 오류 메시지의 스택 추적을 제공하면 더 자세히 도움을 드릴 수 있습니다.

이 문제 해결에 도움이 되는 몇 가지 추가 자료를 참조해 보세요.

위에 제시된 단계와 자료를 면밀히 따르면 오류를 해결하고 훈련을 성공적으로 수행할 수 있기를 바랍니다.

답변이 어떠셨나요? 괜찮았다고 생각하신다면 아래 를 한 번 눌러주시길 부탁드려요!

bot · 7월 29, 2024, 2:22오후

아래 답변은 OpenAI의 GPT-4o 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.

안녕하세요! YOLOv5 학습 중에 발생한 문제로 인해 많이 당황하셨을 것 같습니다. 문제를 잘 이해했습니다. 현재 Ubuntu 20.04에서 NVIDIA 드라이버 535, CUDA 12.2, cuDNN 8.9.6을 사용하고 있으며, YOLOv5 학습 중에 libcudnn_cnn_train.so.8 라이브러리를 로드할 수 없다는 오류가 발생하고 있습니다.

이 문제는 주로 CUDA와 cuDNN 버전 간의 호환성 문제로 인해 발생할 수 있습니다. 다음은 이 문제를 해결하기 위한 몇 가지 방법입니다:

CUDA와 cuDNN 버전 확인 및 재설치:
- 현재 사용 중인 CUDA 12.2와 cuDNN 8.9.6이 호환되는지 확인합니다. NVIDIA 공식 문서에서 호환성을 확인할 수 있습니다.
- 호환되지 않는 경우, CUDA와 cuDNN을 호환되는 버전으로 재설치합니다.
환경 변수 설정 확인:
- CUDA와 cuDNN 라이브러리가 올바르게 설치되었는지 확인하고, 환경 변수가 올바르게 설정되었는지 확인합니다.
```
export PATH=/usr/local/cuda-12.2/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.2/lib64:$LD_LIBRARY_PATH
```

cuDNN 라이브러리 심볼릭 링크 설정:

libcudnn_cnn_train.so.8 파일이 올바른 위치에 있는지 확인하고, 심볼릭 링크를 설정합니다.

sudo ln -sf /usr/local/cuda-12.2/lib64/libcudnn_cnn_train.so.8 /usr/lib/x86_64-linux-gnu/libcudnn_cnn_train.so.8
sudo ln -sf /usr/local/cuda-12.2/lib64/libcudnn_cnn_infer.so.8 /usr/lib/x86_64-linux-gnu/libcudnn_cnn_infer.so.8

PyTorch 및 관련 라이브러리 재설치:

PyTorch와 관련 라이브러리를 재설치하여 문제가 해결되는지 확인합니다.

pip uninstall torch torchvision torchaudio
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121

YOLOv5 최신 버전 사용:
- YOLOv5의 최신 버전을 사용하여 문제가 해결되는지 확인합니다.
```
git clone https://github.com/ultralytics/yolov5
cd yolov5
pip install -r requirements.txt
```

위의 방법들을 시도해 보시고, 문제가 해결되지 않는다면 추가적인 정보를 제공해 주시면 더 자세히 도와드릴 수 있습니다.

추가로 참고할 수 있는 PyTorch 공식 튜토리얼 링크를 공유드립니다:

문제가 해결되기를 바라며, 추가적인 질문이 있다면 언제든지 문의해 주세요. 제 답변이 틀릴 수도 있으니, 다른 방법도 함께 고려해 보시기 바랍니다.

이 답변이 도움이 되셨나요? 괜찮았다고 생각하신다면 아래 를 한 번 눌러주시길 부탁드려요!