Extract Text from Any Document with AI (OCR Tutorial)
1. PDF를 텍스트로 변환 및 활용 소개
본 영상에서는 PDF 문서를 텍스트로 변환하고 이를 다양한 목적으로 활용하는 방법에 대해 설명합니다. 예를 들어, 계약서에서 특정 항목을 추출하여 구글 시트에 자동으로 입력하는 과정을 자동화할 수 있습니다. 과거에는 수동으로 데이터를 입력해야 했지만, 이제는 100% 자동화가 가능합니다. 이를 위해 make.com이라는 플랫폼을 사용하며, 이 플랫폼에 대한 기초 강좌 링크도 제공됩니다. 또한, 본 영상에서 사용되는 설계도는 무료로 다운로드할 수 있으며, JSON 파일을 가져와 바로 사용할 수 있도록 안내합니다.
2. 자동화 워크플로우 트리거 설정
PDF 문서를 처리하고 구글 시트에 입력하는 자동화 워크플로우를 설정하기 위한 다양한 트리거 옵션이 존재합니다. 첫째, Gmail에서 문서를 가져오는 방법입니다. 예를 들어, 이메일로 계약서를 받으면 자동으로 워크플로우가 시작되도록 설정할 수 있습니다. 둘째, 구글 드라이브 폴더에 있는 문서를 활용하는 방법입니다. 클라이언트가 특정 폴더에 문서를 추가하면 자동으로 워크플로우가 시작됩니다. 셋째, CRM 시스템에 문서가 추가될 때 워크플로우를 시작하는 방법입니다. 이렇게 수집된 문서는 구글 시트뿐만 아니라 QuickBooks, Zoho, Salesforce 등 다양한 플랫폼으로 전송하여 결제 기록이나 고객 정보 업데이트 등에 활용할 수 있습니다.
3. OCR을 활용한 PDF 텍스트 변환 과정
자동화 워크플로우의 첫 번째 단계는 OCR(광학 문자 인식)을 사용하여 PDF 문서를 텍스트로 변환하는 것입니다. 구글 드라이브 폴더에 PDF 파일이 추가되면 워크플로우가 시작되고, OCR 과정을 통해 PDF 계약서가 일반 텍스트로 변환됩니다. 예를 들어, “계약서 (Contract) for Jon o catly”와 같이 텍스트가 추출됩니다. OCR 모듈에서는 구글 드라이브 폴더의 링크를 가져와 웹 콘텐츠 링크를 통해 파일을 다운로드하고, 이를 텍스트로 변환합니다. 이때, 구글 드라이브 폴더의 공유 설정이 ‘공개’로 설정되어 있어야 파일 다운로드가 가능합니다.
4. OpenAI Chat GPT를 이용한 정보 추출
텍스트로 변환된 문서에서 중요한 정보를 추출하기 위해 OpenAI의 Chat GPT 모듈이 사용됩니다. 계약서에서 각 품목, 이름, 설명, 수량, 가격, 소계 등의 정보를 추출하는 것이 목표입니다. Chat GPT는 키-값 쌍 형태로 데이터를 추출합니다. 여기서 키는 ‘송장 번호’, ‘총액’처럼 고정된 값을 의미하고, 값은 실제 송장 번호나 총액처럼 계약마다 달라지는 값을 의미합니다. Chat GPT 모듈에서는 시스템 메시지, 어시스턴트 메시지, 사용자 메시지 세 가지 유형의 메시지를 설정합니다. 시스템 메시지는 Chat GPT에게 문서 처리 봇으로서의 역할을 부여하고, 어시스턴트 메시지는 데이터 형식을 JSON으로 지정하여 원하는 출력 형태를 정의합니다. 사용자 메시지는 실제 계약서 텍스트를 Chat GPT에 전달하여 정보를 추출하도록 합니다. 추출된 데이터는 JSON 형식으로 반환되며, 각 품목별로 데이터가 정리됩니다.
5. 이터레이터를 이용한 데이터 전송 및 활용
Chat GPT를 통해 추출된 여러 품목 데이터를 구글 시트에 개별적으로 입력하기 위해 이터레이터(Iterator)라는 기능을 사용합니다. 이터레이터는 여러 개의 데이터 항목을 하나씩 순차적으로 처리하는 역할을 합니다. 첫 번째 품목부터 시작하여 구글 시트에 데이터를 입력하고, 다음 품목으로 이동하여 동일한 과정을 반복합니다. 이러한 방식으로 모든 품목 데이터를 구글 시트에 빠짐없이 입력할 수 있습니다. 이 외에도 추출된 데이터는 QuickBooks에 추가하여 결제 내역을 기록하거나, CRM 시스템에 업로드하여 고객 정보를 업데이트하는 등 다양한 방식으로 활용할 수 있습니다. Make.com은 이러한 데이터들을 활용하여 10,000개 이상의 다양한 애플리케이션과 연동할 수 있도록 지원합니다.