Skip to main content
search
PRODUCT 2

itext by apryse / pdfOCR

By 2023년 08월 03일No Comments

pdfOCR

 

iText pdfOCR은 OCR 기능을 통해 스캔한 문서와 PDF, 이미지를 ISO 표준과 완벽하게 호환되는 PDF나 PDF/A-3u 파일로 변환하여 문서에 포함된 텍스트에 액세스하고 처리할 수 있도록 합니다.
우리는 매일 엄청난 양의 스캔 문서(인쇄된 텍스트 포함)와 이미지를 받습니다. 하지만, 컴퓨터가 읽을 수 있는 텍스트가 없으면 컨텐츠를 편집, 검색, 인덱스  하거나 처리할 수 없습니다.

Start with pdfOCR and the full iText Suite >       

Wathch our webinar recording here >

BENEFFITS

iText pdfOCR을 왜 사용하나요?

문서 관리의 주요 과제 중 하나는 액세스 할 수 없는 데이터와 편집할 수 없는 문서에 잠겨 있는 데이터를 처리하는 것 입니다. 인쇄된 텍스트가 포함된 문서를 스캔해도 편집하거나 검색할 수는 없지만 컨텐츠의 스캔 이미지가 있으면 OCR 기능으로 이 잠겨진 데이터를 사용할 수 있습니다.

OCR의 가장 일반적인 사용 사례 중 하나는 검색, 처리 또는 보관할 수 있는 문서를 생성하는 것 입니다. 일부 워드프로세서와 PDF 애플리케이션에서 PDF를 편집할 수 있는 OCR 기능을 제공하지만 여러 개의 문서를 수 작업하는 것은 실용적이지 않습니다.

iText pdfOCR은 OCR 프로세스를 자동화하고 문서 Workflow에 통합하는 방법을 제공합니다.

텍스트 자동 인식

iText pdfOCR은 텍스트 인식을 문서 Workflow 프로세스로 자동화할 수 있습니다.

장기 문서 보관에 이상적인 제품

  • iText pdfOCR은 PDF 전자 문서의 장기 보관과 보존을 위한 표준인 PDF/A-3u 호환 파일을 생성할 수 있습니다.
  • PAdES 표준을 기반으로 하는 디지털 서명으로 문서를 보호할 수도 있습니다.

iText를 사용하여 데이터 처리 및 변형

OCR을 사용하면 추가 처리 작업과 데이터 변환 작업을 수행할 수 있습니다. iText pdfOCR을 다른 iText 소프트웨어와 함께 사용하는 몇 가지 예는 다음과 같습니다 :

  • iText pdf2Data로 데이터를 추출할 특정 문서 요소를 정의합니다.
  • iText pdfSweep으로 인식한 텍스트를 안전하게 삭제, 편집합니다.
  • 추출된 텍스트를 사용하여 iText Core로 PDF 양식 필드(Form Fields)를 채울 수 있습니다.
  • iText pdfHTML을 PDF로 변환하기 위해 텍스트를 HTML 템플릿으로 병합합니다.
  • iText DITO로 인식된 텍스트를 사용하고, 데이터 바인딩과 조건부 포매팅(Conditional Formatting)을 PDF 템플릿에 추가합니다.

KEY FEATURES

iText pdfOCR의 주요 기능

텍스트와 분리된 레이어를 갖는 원본 이미지 데이터의 PDF(인식된 모든 텍스트가 단일 레이어된 PDF 포함), 또는 레이어가 병합된 평탄화 PDF가 출력되도록 설정할 수 있습니다. 장기 문서 보관에 적합한 문서가 필요한 경우, PDF/A-3u 출력이 지원되는 것은 추가 혜택입니다.

강력한 오픈 소스 Tesseract 4 엔진 사용

  • Tesseract 4는 요즘 인기 좋은 오픈 소스 OCR 엔진의 최신 버전입니다.
  • 텍스트 인식의 속도와 정확성을 향상하기 위해 LSTM(Long Short-Term Memory) 신경망을 사용합니다.

간단하고 유연한 API

  • API 사용이 간편하고 Java와 .NET 모두에 대한 일반적인 표준과 작업과 동일합니다.
  • 큰 노력 없이도 다양한 OCR 엔진을 지원할 수 있도록 추상화 프로세스로 개발되었습니다.

다중 인풋 이미지 지원

  • 단일 이미지나 이미지 목록을 한 번에 처리할 수 있습니다.
  • BMP, PNM, PNG, JFIF, JPEG 또는 TIFF 형식을 수용합니다.

텍스트만 추출하는 옵션 기능

  • iText pdfOCR은 문서의 텍스트를 인식하고 텍스트 파일로 내보낼 수 있습니다.
  • 외부 데이터베이스를 자동으로 추가하거나 다른 툴을 사용하여 작업할 수 있습니다.

Resources

여기에서 pdfOCR을 설치하고 사용하는데 필요한 자료를 찾을 수 있습니다.

기타 참고 자료(Other Resources)

iText를 사용할 준비가 되셨나요 ?

항상 그렇듯이, 기술적인 문의가 있는 경우 유효한 지원 구독라이센스(Subscription)로 지원팀에 문의하거나 Stack Overflow커뮤니티 지원(Community Support) 페이지를 방문하여 오픈 소스 AGPL 사용자를 위한 답변과 정보를 확인할 수 있습니다.  

Leave a Reply

Close Menu