pdf 텍스트 추출 해보아요


카테고리 없음

Written by 즐거운 생활 on 2016. 9. 29. 08:00

에전에 구매대행 사이트를 운영을 했을 때 였습니다. 그 당시 일본에서 물품 포장과 한국으로의 배송을 해주는 업체와 계약을 맺고 업무를 진행 하고 있었는데요. 그당시 한달간 매출전표(?)를 pdf 파일로 받았었습니다. 하지만 대부분 일본어 이고 pdf 문서에 있는 텍스트를 검색을 일일이 해야 했었는데 꽤나 귀찮더라구요.


그래서 pdf 텍스트 추출을 할 수 있는 사이트를 확인을 해서 아주 간단하게 진행을 했던 적이 있었습니다. 최근에도 한번씩 이용을 하고 있는 사이트 인데요. 함께 알아보도록 할게요.



레티아 에서 제공하고 있는 OCR 프로그램을 활용 하는 방법 입니다. 이곳에서는 간단한 로그인만 하게되면 무료로 이용을 할 수가 있어요. 프로그램을 다운 받거나 사이트에서 이용을 하는 방법이 있는데요.



하루 10건 까지 사용을 할 수가 있습니다. 그리고 PDF 텍스트 추출 뿐 아니라 이미지에 있는 텍스트 까지 글자 인식을해서 이용을 할 수가 있어서 정말 활용도가 높다고 볼 수 있어요.



위와 같이 포털사이트에서 검색을 하셔서 들어오게 되면 메인화면으로 보실 수가 있어요. 그리고 서비스 부분에서 ROSE 문서인식 으로 이동을 하시면 됩니다.



기본적으로 암호화가 되어 있는 pdf 문서는 텍스트 인식을 할 수가 없다고 합니다. 그리고 카메라로 촬영한 이미지나 포토샵 등으로 만들어진 이미지의 경우 텍스트의 폰트가 대중적일 경우에는 모두 텍스트를 추출 할 수가 습니다.


몇가지 테스트를 해보았는데 충분히 읽을 수 있을 만한 고딕 형태의 폰트 이지만 영어 전용 폰트의 경우 제대로 나오지 않는 경우가 있더라구요. 한글은 대부분 인식이 되는듯 합니다.



소셜 로그인을 통해서만 진행을 할 수가 있습니다. 과거에는 전혀 이부분이 없었는데 언젠가 부터 생겼네요. 네이버나 페이스북 그리고 구글 중 하나를 선택을 하셔서 로그인을 하신뒤에 ocr을 이용할 수가 있어요.


물론 여러분 혼자 사용하는 컴퓨터가 아닌 공용PC 에서는 로그인 정보 유지 항목을 체크 해제를 한뒤 이용을 하셔야 합니다.



그리고 다음 화면에서 보면 변환할 이미지를 선택하라고 하는데요. 이미지 파일 뿐 아니라 우리가 하고자 하는 PDF 텍스트 추출을 위함이니 PDF 파일 역시 당연히 이용할 수 있습니다.


파일을 불러 온뒤에 우측 하단에 있는 다음 버튼을 눌러주세요. 파일의 언어를 선택할 수 있긴 하지만 현재는 한가지 밖에 안되는건 함정



그리고 사이트에서 PDF 텍스트 추출을 하는 것이다 보니 바로 진행이 되지 않습니다. 진행은 바로 되고 그 파일을 여러분들께서 직접 입력한 또는 소셜 로그인을 하면서 적용 되는 메일 주소로 변환된 파일을 보여주게 됩니다.


이런 식으로 간단하게 진행을 할 수가 있어요. 이번주 계속 비오는데 출근길, 등하교길 조심하시길 바래요~