추론 AI 평가 서비스를 사용하면 특정 사용 사례 전반에서 모델 성능을 평가할 수 있습니다. 평가를 모델 성능의 관측 가능성이라고 할 수도 있습니다. Vertex AI에서 제공하는 모델 평가는 다음과 같은 여러 가지 방법으로 일반적인 머신러닝 워크플로에 적합할 수 있습니다.
- 모델을 학습시킨 후 모델을 배포하기 전에 모델 평가 측정항목을 검토하세요. 여러 모델 간에 평가 측정항목을 비교하여 배포할 모델을 결정할 수 있습니다. 
- 모델을 프로덕션에 배포한 후에는 새로운 수신 데이터로 모델을 주기적으로 평가합니다. 평가 측정항목에 모델 성능이 저하된 것으로 표시되면 모델을 다시 학습시키는 것이 좋습니다. 이 프로세스를 지속적 평가라고 합니다. 
이러한 측정항목을 해석하고 사용하는 방법은 비즈니스 니즈와 모델이 해결하도록 학습한 문제에 따라 달라집니다. 예를 들어 거짓음성보다 거짓양성의 톨러레이션(toleration)이 더 낮을 수도 있고 그 반대일 수도 있습니다. 이러한 유형의 질문은 모델을 반복할 때 집중할 측정항목에 영향을 줍니다.
예측 AI 모델 평가 서비스에서 제공하는 몇 가지 주요 측정항목은 다음과 같습니다.
특성
Vertex AI로 모델을 평가하려면 학습된 모델, 일괄 추론 출력, 정답 데이터 세트가 있어야 합니다. 다음은 Vertex AI를 사용하는 일반적인 모델 평가 워크플로입니다.
- 모델 학습 이 작업은 AutoML 또는 커스텀 학습을 사용하여 Vertex AI에서 수행할 수 있습니다. 
- 모델에서 일괄 추론 작업을 실행하여 추론 결과를 생성합니다. 
- 사람들의 판단에 따라 "정확하게 분류된" 데이터에 해당하는 정답 데이터를 준비합니다. 정답은 일반적으로 모델 학습 과정 중에 사용한 테스트 데이터 세트입니다. 
- 모델에서 평가 작업을 실행합니다. 이 작업은 정답 데이터와 비교해서 일괄 추론 결과의 정확도를 계산합니다. 
- 평가 작업으로부터 발생하는 측정항목을 분석합니다. 
- 모델을 반복하여 모델 정확도를 높일 수 있는지 확인합니다. 여러 평가 작업을 실행하고 모델 또는 모델 버전 간에 여러 작업의 결과를 비교할 수 있습니다. 
Vertex AI에서 모델 평가를 여러 방식으로 실행할 수 있습니다.
- Google Cloud 콘솔에서 Vertex AI Model Registry를 통해 평가를 만듭니다. 
- Vertex AI의 모델 평가를 Vertex AI Pipelines에서 파이프라인 구성요소로 사용합니다. 자동화된 MLOps 워크플로의 일부로 모델 평가를 포함하는 파이프라인 실행 및 템플릿을 만들 수 있습니다. - 모델 평가 구성요소를 자체 또는 일괄 추론 구성요소와 같은 다른 파이프라인 구성요소를 사용하여 실행할 수 있습니다. 
Vertex AI는 다음 모델 유형의 평가를 지원합니다.
이미지
분류
다음 Cloud Storage 위치에서 스키마 파일을 보고 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: 평균 정밀도라고도 하는 정밀도-재현율(PR) 곡선 아래의 면적입니다. 이 값의 범위는 0부터 1까지이며 값이 클수록 모델의 품질이 높습니다.
- 로그 손실: 모델 추론과 타겟 값 사이의 교차 엔트로피입니다. 이 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
- 신뢰도 기준점: 반환할 추론을 결정하는 신뢰도 점수입니다. 모델이 이 값 이상인 추론을 반환합니다. 신뢰도 기준점이 높을수록 정밀도는 높아지지만 재현율이 낮아집니다. Vertex AI는 다양한 기준점으로 신뢰도 측정항목을 반환하여 기준점이 정밀도와 재현율에 미치는 영향을 보여줍니다.
- 재현율: 모델이 올바르게 예측한 이 클래스의 추론 비율입니다. 참양성률이라고도 합니다.
- 정밀도: 모델이 생성한 올바른 분류 추론의 비율입니다.
- 혼동 행렬: 혼동 행렬은 모델이 결과를 올바르게 예측한 빈도를 보여줍니다. 잘못 예측된 결과의 경우 행렬에는 모델이 대신 예측한 항목이 표시됩니다. 혼동 행렬을 통해 모델의 두 결과가 '혼동'되는 위치를 파악할 수 있습니다.
테이블 형식
분류
다음 Cloud Storage 위치에서 스키마 파일을 보고 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: 평균 정밀도라고도 하는 정밀도-재현율(PR) 곡선 아래의 면적입니다. 이 값의 범위는 0부터 1까지이며 값이 클수록 모델의 품질이 높습니다.
- AuROC: 수신자 조작 특성 곡선 아래의 면적입니다. 이 범위는 0부터 1까지이며 값이 클수록 모델의 품질이 높다는 것을 나타냅니다.
- 로그 손실: 모델 추론과 타겟 값 사이의 교차 엔트로피입니다. 이 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
- 신뢰도 기준점: 반환할 추론을 결정하는 신뢰도 점수입니다. 모델이 이 값 이상인 추론을 반환합니다. 신뢰도 기준점이 높을수록 정밀도는 높아지지만 재현율이 낮아집니다. Vertex AI는 다양한 기준점으로 신뢰도 측정항목을 반환하여 기준점이 정밀도와 재현율에 미치는 영향을 보여줍니다.
- 재현율: 모델이 올바르게 예측한 이 클래스의 추론 비율입니다. 참양성률이라고도 합니다.
- 재현율 1: 추론 점수가 가장 높고 각 예시의 신뢰도 기준점을 상회하는 라벨만 고려한 재현율(참양성률)입니다.
- 정밀도: 모델이 생성한 올바른 분류 추론의 비율입니다.
- 정밀도 1: 추론 점수가 가장 높고 각 예시의 신뢰도 기준점을 상회하는 라벨만 고려한 정밀도입니다.
- F1 점수: 정밀도와 재현율의 조화 평균입니다. F1은 정밀도와 재현율 사이의 균형을 찾고 있고 클래스 분포가 균등하지 않을 때 유용한 측정항목입니다.
- F1 점수 1점: 정밀도 1과 재현율 1의 조화 평균입니다.
- 혼동 행렬: 혼동 행렬은 모델이 결과를 올바르게 예측한 빈도를 보여줍니다. 잘못 예측된 결과의 경우 행렬에는 모델이 대신 예측한 항목이 표시됩니다. 혼동 행렬을 통해 모델의 두 결과가 '혼동'되는 위치를 파악할 수 있습니다.
- 참음성 개수: 모델이 네거티브 클래스를 올바르게 예측한 횟수입니다.
- 참양성 개수: 모델이 포지티브 클래스를 올바르게 예측한 횟수입니다.
- 거짓음성 개수: 모델이 네거티브 클래스를 실수로 예측한 횟수입니다.
- 거짓양성 개수: 모델이 포지티브 클래스를 실수로 예측한 횟수입니다.
- 거짓양성률: 예측된 모든 결과 중에서 잘못 예측된 결과의 비율입니다.
- 거짓양성률 1: 각 예시의 추론 점수가 가장 높고 신뢰도 기준점을 상회하는 라벨만 고려한 거짓양성률입니다.
- 모델 특성 기여 분석: Vertex AI는 각 특성이 모델에 미치는 영향을 보여줍니다. 이 값은 각 특성의 백분율로 제공됩니다. 백분율이 높을수록 특성이 모델 학습에 더 큰 영향을 미칩니다. 이 정보를 검토하여 가장 중요한 모든 특성이 데이터 및 비즈니스 문제에 적합한지 확인해야 합니다.
회귀
다음 Cloud Storage 위치에서 스키마 파일을 보고 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE: 평균 절대 오차(MAE)는 타겟 값과 예측 값의 절대차 평균입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
- RMSE: 평균 제곱근 오차는 타겟 값과 예측 값 간의 평균 제곱 차이에 대한 제곱근입니다. RMSE는 MAE보다 이상점에 더 민감합니다. 따라서 큰 오차가 염려된다면 RMSE이 더 유용한 평가 측정항목입니다. MAE에서처럼, 값이 작을수록 모델 품질이 높음을 의미합니다(0은 완벽한 예측자를 나타냅니다).
- RMSLE: 평균 제곱근 대수 오차 측정항목은 RMSE와 유사합니다. 단, RMSLE는 예측 값과 실제 값+1의 자연 로그를 사용합니다. RMSLE는 과대 추론보다 과소 추론에 더 높은 페널티를 적용합니다. 작은 추론값 차이보다 큰 추론값 차이에 더 높은 페널티를 적용하고 싶지 않은 경우에 적합한 측정항목입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다. RMSLE 평가 측정항목은 모든 라벨 및 예측 값이 음수가 아닌 경우에만 반환됩니다.
- r^2: r 제곱(r^2)은 라벨과 예측 값 사이의 피어슨 상관 계수 제곱입니다. 이 측정항목의 범위는 0부터 1까지입니다. 값이 클수록 회귀선에 더 가깝게 있음을 나타냅니다.
- 
MAPE: 평균 절대 백분율 오차(MAPE)는 라벨과 예측 값의 절대오차 백분율 평균입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
 타겟 열에 0 값이 포함된 경우 MAPE가 표시되지 않습니다. 이 경우 MAPE는 정의되지 않습니다.
- 모델 특성 기여 분석: Vertex AI는 각 특성이 모델에 미치는 영향을 보여줍니다. 이 값은 각 특성의 백분율로 제공됩니다. 백분율이 높을수록 특성이 모델 학습에 더 큰 영향을 미칩니다. 이 정보를 검토하여 가장 중요한 모든 특성이 데이터 및 비즈니스 문제에 적합한지 확인해야 합니다.
예측
다음 Cloud Storage 위치에서 스키마 파일을 보고 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE: 평균 절대 오차(MAE)는 타겟 값과 예측 값의 절대차 평균입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
- RMSE: 평균 제곱근 오차는 타겟 값과 예측 값 간의 평균 제곱 차이에 대한 제곱근입니다. RMSE는 MAE보다 이상점에 더 민감합니다. 따라서 큰 오차가 염려된다면 RMSE이 더 유용한 평가 측정항목입니다. MAE에서처럼, 값이 작을수록 모델 품질이 높음을 의미합니다(0은 완벽한 예측자를 나타냅니다).
- RMSLE: 평균 제곱근 대수 오차 측정항목은 RMSE와 유사합니다. 단, RMSLE는 예측 값과 실제 값+1의 자연 로그를 사용합니다. RMSLE는 과대 추론보다 과소 추론에 더 높은 페널티를 적용합니다. 작은 추론값 차이보다 큰 추론값 차이에 더 높은 페널티를 적용하고 싶지 않은 경우에 적합한 측정항목입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다. RMSLE 평가 측정항목은 모든 라벨 및 예측 값이 음수가 아닌 경우에만 반환됩니다.
- r^2: r 제곱(r^2)은 라벨과 예측 값 사이의 피어슨 상관 계수 제곱입니다. 이 측정항목의 범위는 0부터 1까지입니다. 값이 클수록 회귀선에 더 가깝게 있음을 나타냅니다.
- 
MAPE: 평균 절대 백분율 오차(MAPE)는 라벨과 예측 값의 절대오차 백분율 평균입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
 타겟 열에 0 값이 포함된 경우 MAPE가 표시되지 않습니다. 이 경우 MAPE는 정의되지 않습니다.
- WAPE: 가중치가 적용된 절대 백분율 오차(WAPE)는 모델에서 예측한 값과 관찰한 값 간에 관찰된 값의 전반적인 차이입니다. RMSE와 달리 WAPE는 개별 차이보다는 전체 차이에 가중치가 적용되며 낮은 값 또는 간헐적 값의 영향을 크게 받을 수 있습니다. 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
- RMSPE: 평균 제곱근 오차(RMPSE)는 절댓값이 아닌 실제 값의 RMSE로 표시됩니다. 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
- 분위수: 관찰된 값이 예측 값보다 낮을 확률을 나타내는 분위수의 백분율입니다. 예를 들어 0.5 분위수에서 관측된 값은 전체 시간의 50%만큼 예측값보다 낮을 것으로 예상됩니다.
- 관찰된 분위수: 지정된 분위수의 예측 값보다 작은 실제 값의 비율을 표시합니다.
- 확장 핀볼 손실: 특정 분위수에서의 확장 핀볼 손실입니다. 값이 작을수록 특정 분위수에서 모델의 품질이 높다는 것을 나타냅니다.
노트북 튜토리얼
AutoML: 테이블 형식
커스텀 학습: 테이블 형식
Vertex AI Model Registry
다음 단계
- Vertex AI를 사용하여 모델 평가 수행 방법 알아보기