실습 개요
AnyCompany Consulting에서는 문서에서 핵심 문구, 엔터티 및 감정을 추출하기 위해 자연어 처리(NLP) 기능을 통합하려고 합니다. 그리고 기존 애플리케이션에 NLP를 통합하기 위한 NLP 서비스로 Amazon Comprehend를 선택했습니다. AnyCompany Consulting은 문서용 엔드포인트와 모델 생성 프로세스를 시작하기 위해 문서 컬렉션에서 특정 용어를 식별하는 사용자 지정 엔터티 인식기 모델을 생성해 줄 것을 요청했습니다.
이 실습에서는 Amazon Comprehend를 사용해 사용자 지정 엔터티 인식 모델을 생성하고 테스트합니다.
목표
이 실습을 마치면 다음을 수행할 수 있습니다.
- Amazon Comprehend를 사용해 사용자 지정 엔터티 인식 모델 생성
- 사용자 지정 엔터티 인식 엔드포인트를 사용하여 실시간 분석 수행
필수 기술 지식
이 실습을 성공적으로 완료하려면 기본적인 AWS Management Console 탐색 방법을 알고 있어야 하며 Amazon S3 관련 사항을 숙지하고 있어야 합니다.
소요 시간
이 실습을 완료하려면 약 60분이 소요됩니다.
아이콘 설명
이 실습에서는 다양한 유형의 지침 및 참고 사항을 자세히 확인할 수 있도록 다양한 아이콘이 사용됩니다. 각 아이콘의 목적은 다음과 같습니다.
- 참고: 힌트, 팁 또는 중요한 가이드입니다.
- 주의: 특히 주의하여 확인해야 하거나 중요한 정보입니다(확인하지 않아도 장비 또는 데이터에 문제가 발생할 정도로 중요하지는 않지만 특정 단계를 반복해야 할 수 있음).
- 고려 사항: 자신의 환경에 개념을 적용하는 방법을 고려하거나 당면한 주제에 대한 대화를 시작하기 위해 일시 중지할 시점입니다.
- 파일 내용: 실행이 필요한 미리 생성된 스크립트 또는 파일의 내용을 표시하는 코드 블록입니다.
환경 개요
아래 다이어그램에 실습 환경의 기본 아키텍처가 나와 있습니다.
위 다이어그램에 나와 있듯이 훈련 데이터는 Amazon S3 버킷에 업로드됩니다. Amazon Comprehend는 해당 버킷의 훈련 데이터를 사용해 사용자 지정 엔터티 인식 모델을 훈련시킵니다. 엔드포인트를 사용하여 실시간으로 문서를 분석하면 훈련된 모델이 문서에 포함된 엔터티를 찾습니다.