pdf 텍스트 추출 하여 글자 복사하기


카테고리 없음

Written by 즐거운 생활 on 2018. 5. 30. 22:05

인터넷에서 매뉴얼 등을 다운 받게 되면 대부분의 경우 pdf 형식의 파일로 된 경우가 많이 있습니다. 만약 특정 문구나 일부 페이지의 텍스트 부분을 가져 오고 싶은 경우가 있을 수 있는데 이때에는 복사 붙여넣기가 안되는 것을 보실 수가 있으실 겁니다.


특정 환경이나 브라우저를 사용하고 계신 분은 텍스트 복사가 되는 경우도 있을 수 있는데요. 아닐 경우에는 어떻게 pdf 텍스트 추출을 하는지 간단하게 알아보는 시간을 가져보도록 할게요.



지금도 자주사용하고 있는 smallpdf 와 비슷한 사이트 입니다. 무료로 이용을 하실 수 있고 다양한 국가의 언어를 지원해 주고 있는 곳이죠.



아래에 사이트 링크를 드리도록 할건데요. allinpdf 라고 검색을 하셔도 접속을 하실 수 있을 것으로 보입니다. 최초 접속하시면 영어로 되어 있는데 우측 상단에서 언어를 선택 하실 수 있으십니다.



여기 를 클릭 하시면 접속하실 수 있으십니다. 지금 보시는 화면은 언어를 한국어로 변환을 한 모습이예요. 아래쪽에 적혀 있듯이 무료 온라인 pdf 변환 솔루션 인데 글자 오타가 조금 있네요.


일단 우리는 pdf 텍스트 복사를 하기 위해서 사용을 한건데 pdf 변환기 라고 되어 있는 항목을 눌러서 이용합니다. 사용방법은 pdf 에서 그대로 복사가 안되기 때문에 다른 형태의 문서로 변환을 해서 거기에 있는 텍스트를 가져 오는 방법을 사용할 거예요.



PDF 변환기로 들어온 모습입니다. 우리가 텍스트 추출을 할려고 하는 파일을 여기에 드래그앤 드랍이나 파일 선택을 눌러서 이용을 하시면 되실거 같아요.


그럼 다시 아래와 같은 화면이 보여지게 됩니다.



PDF 파일을 다양한 문서로 변환을 해서 이용을 하게 되는 것이죠. 대부분 DOC 형태로 이용하면 워드 문서로 내용을 보실 수가 있습니다.


변환을 완료를 해서 아래와 같은 화면이 나온 이후에 파일을 다운 받아서 이용하시면 변환된 내용을 보실 수 있으시고 대부분의 경우 PDF 텍스트 추출을 할 수 있게 될거예요.



하지만 이런 방식으로도 안될 경우가 있는데 이때에는 이미지 형태로 되어 있을 수 있습니다. 이때에는 ocr 사이트 혹은 프로그램을 이용을 하셔야 합니다. 대표적으로 레티아 abbyy ocr 서비스가 있으니 참고하시면 좋을거 같네요.


원하는 방식대로 pdf 텍스트 추출을 하신 다음에 글자 복사하기를 하실 수 있길 바라겠습니다.