본문으로 건너뛰기

새로운 버전 생성하기

"모델 훈련" 페이지에서 "버전 생성" 버튼을 눌러 버전 생성 페이지로 이동합니다.

버전 생성 준비

버전 생성

  • 데이터셋 분할 비율을 설정하고, 데이터 전처리 옵션을 선택하여 인공지능 학습용 버전을 준비합니다.

    모델 준비

    • 학습 파일 정보: 선택한 데이터셋의 전체 파일수, 라벨링 수, 클래스 수 정보가 표시됩니다.

    • 학습/시험 데이터 분할

      • 학습 데이터, 검증 데이터, 테스트 데이터로 비율을 분배하여 학습하는 것은 기계 학습에서 일반적으로 사용되는 중요한 방법 중 하나입니다. 이 방법은 전체 데이터셋을 세 가지 서로 다른 세트로 나누어 사용함으로써 모델의 성능을 평가하고 개선하는 데 도움을 줍니다.

        • 학습 데이터(Training Data): 모델이 학습하는 데 사용되는 데이터입니다. 학습 데이터는 모델이 가중치를 조정하고 패턴을 파악하는 데 사용됩니다.

        • 검증 데이터(Validation Data): 학습 중에 모델의 성능을 평가하고 조정하기 위해 사용되는 데이터입니다. 학습 데이터로 학습한 모델을 검증 데이터로 평가하여 하이퍼파라미터를 조정하거나 모델의 일반화 성능을 확인합니다.

        • 테스트 데이터(Test Data): 모델의 최종 성능을 평가하기 위해 사용되는 데이터입니다. 학습된 모델이 처음 보는 데이터에 대해 얼마나 잘 수행되는지를 평가하는 데 사용됩니다.

      • 이러한 데이터 분할은 일반적으로 전체 데이터의 일정 비율로 나누어지며, 예를 들어 전체 데이터의 60~80%가 학습 데이터, 10~20%가 검증 데이터, 나머지 10~20%가 테스트 데이터로 할당될 수 있습니다. 이 비율은 데이터의 규모와 특성에 따라 다를 수 있습니다.

    • 학습 데이터 증강

      • 데이터 증강(Data Augmentation)은 기계 학습에서 사용되는 데이터의 양과 다양성을 늘리는 기술입니다. 이 기술은 주어진 데이터에 변형을 가하거나 변형된 데이터를 생성하여 학습 모델의 성능을 향상시키는 데 사용됩니다. 주로 이미지, 텍스트, 오디오 등의 데이터에서 사용됩니다.
      • 예를 들어, 이미지 데이터의 경우 데이터 증강 기술은 이미지를 회전, 이동, 확대/축소, 반전, 노이즈 추가 등의 방법으로 변형합니다. 이렇게 함으로써 모델은 더 다양한 상황에서 학습되고, 일반화 능력을 향상시킬 수 있습니다. 이는 모델이 특정 상황에 과적합되는 것을 방지하고, 실제 환경에서의 성능을 향상시키는 데 도움이 됩니다.

데이터 비율 재설정

  • 데이터 비율 변경이 필요한 경우, "비율 재설정" 버튼을 눌러 학습, 검증, 테스트 데이터의 비율을 재설정할 수 있습니다.

  • 기본값은 다음 비율로 설정되어 있습니다.

    • 학습 데이터: 80%
    • 검증 데이터: 10%
    • 테스트 데이터: 10%
    비율 재설정

    • 인공지능 학습에서 데이터 분할 비율은 매우 중요합니다. 이 비율은 모델의 성능을 평가하고 일반화 능력을 확보하기 위해 데이터를 적절히 분할하는 방법을 결정합니다. 잘못된 비율을 사용하면 다음과 같은 문제가 발생할 수 있습니다.
      • 과적합(Overfitting): 너무 많은 데이터를 학습용으로 사용하고 테스트 데이터가 부족할 경우, 모델은 학습 데이터에 너무 적합하게 되어 일반화 능력이 떨어질 수 있습니다. 이는 새로운 데이터에 대한 예측 성능이 저하되는 결과를 초래할 수 있습니다.
      • 과소적합(Underfitting): 반대로, 학습 데이터가 너무 적고 테스트 데이터가 많으면 모델이 충분히 학습하지 못해 성능이 낮을 수 있습니다. 이 경우 모델이 데이터의 패턴을 제대로 학습하지 못하게 됩니다.
      • 성능 평가의 불확실성: 테스트 데이터가 충분하지 않으면 모델의 성능을 신뢰할 수 없게 됩니다. 작은 테스트 데이터 셋은 모델 성능 평가의 변동성을 증가시켜, 모델이 실제 환경에서 얼마나 잘 작동할지를 정확하게 예측하기 어렵게 합니다.

  • "비율 재설정" 모달 창이 나타나면 슬라이드 레버를 이동시켜 학습, 검증, 시험 데이터의 비율을 조절하고 "저장" 버튼을 눌러 비율 재설정을 완료합니다.

비율 재설정 모달

학습 데이터 증강

  • 학습 데이터 증강은 데이터셋에 포함된 기존 데이터에 다양한 증강 기법을 적용하는 단계입니다. 사용을 원할 경우, 적용하고자 하는 증강 옵션을 체크(다중체크 가능)합니다.

  • D-Lab Flow에서는 다음과 같은 증강 기능을 지원합니다.

    • 이미지 좌우 반전
    • 이미지 상하 반전
    • 이미지 90° 회전 (우측)
    • 이미지 180° 회전 (우측)
    • 이미지 270° 회전 (우측)
    학습 데이터 증강

"모델 준비" 버튼을 눌러 버전 생성을 완료 합니다.

모델 준비 버튼