Chat GPT 4.0 업무 사용 사례 - PDF파일 또는 이미지로부터 텍스트 추출하기
오늘 포스팅에서는 Chat GPT로 이미지 파일에 있는 텍스트를 추출하는 방법을 알아보겠습니다. 업무를 하다보면 PDF파일이나 이미지로 된 문서들을 많이 접하게 됩니다. PDF 파일이나 이미지 파일을 텍스트화 하는 가장 전통적인 방법은 직접 눈으로 보면서 받아쓰는 것이 있고, 조금 더 세련된 방법으로 PDF파일이나 이미지를 OCR 프로그램을 돌려서 텍스트가 인식되는 파일로 변환하는 것입니다.
직접 타이핑하는 방식은 가장 쉬운 방식이지만 시간이 많이 걸리고 오타가 발생할 수 있습니다. 대안으로 OCR 프로그램을 통해서 텍스트를 드래그(Drag) 및 복사/붙여넣기 할 수 있는 방법이 있습니다. PDF-XChange Editor와 같은 PDF 편집 프로그램들은 기본적으로 프로그램 내에서 OCR 기능을 제공합니다. 그러나 파일을 OCR에는 상당한 시간이 걸리고, 업무를 하다보면 전체 PDF 파일을 OCR하기보다는 해당 파일의 특정한 부분만 텍스트로 바꾸어야 하는 경우가 많은데, 이러한 경우에는 불필요하게 전체 PDF 파일을 텍스트화 하는데에 시간을 쓰거나, PDF파일을 다시 작은 PDF 파일로 쪼개야 하는 문제점이 있습니다.
오늘은 Chat-GPT를 이용하여 간단하게 PDF 파일이나 이미지의 일정한 부분을 텍스트화 하는 방법에 대해서 알아보겠습니다. 금융감독원 전자공시시스템에서 다운로드 받은 삼성전자 정관을 기준으로 작업해보겠습니다. 사실 해당 파일은 이미 OCR이 되어 있어서 드래그+복사/붙여넣기 방식으로 텍스트화 할 수도 있으나, GPT를 사용하여 텍스트를 추출해보겠습니다.
마이크로소프트 기본 어플인 캡처 도구를 사용하여 OCR이 필요한 부분을 캡처합니다. 윈도우 왼쪽 하단 [시작] 창 - [찾기] 버튼 - "캡처 도구" 입력 시 빠르게 찾을 수 있습니다. 캡처 도구는 챗 GPT를 사용할 때 상당히 유용한 툴이라 저는 작업표시줄에 고정시켜 놓고 사용하고 있습니다.
캡처 도구를 사용하여 정관에서 원하는 부분을 캡처하였습니다. 다음에는 빨간색 동그라미 표시한 복사 버튼을 클릭하여 클립보드에 이미지를 저장한 후 Ctrl+V 버튼을 눌러서 GPT에 해당 파일을 붙여넣습니다. 그리고 해당 이미지 파일이 "삼성전자 정관"의 일부분이라고 GPT에게 알려줍니다. 파일/정보를 입력하면서 기본적인 맥락(Context)을 알려주는 것은 GPT가 맥락에 맞는 답을 찾아낼 때 상당한 도움이 됩니다.
입력을 마쳤으면 텍스트로 변환합니다. 다만 GPT 4o에서는 '텍스트로 추출'이나 '텍스트로 변환'과 같은 표현을 사용하면 아래와 같이 OCR이 불가능하다는 메세지가 출력되는 현상이 빈번하게 발생합니다. 추출/변환과 같은 표현을 사용하지 말고 '텍스트'라고만 프롬프트를 입력합니다.
변환/추출이라는 표현을 제외하고 "텍스트"라고만 입력하니 제2조 제8호까지의 내용을 추출하였습니다. 다음 포스팅에서는 PDF 파일을 업로드하고 텍스트를 추출하는 방법을 알아보겠습니다.