BigData-DataAnalytics

AICR

naksani 2023. 12. 17. 11:32
728x90

AI/ML service 그룹 

 

문서에서 텍스트와 데이터를 자동으로 추출하는 서비스.

 

AICR은 딥러닝 기반의 이미지 인식 기술을 바탕으로 문서 형태의 이미지로부터 데이터를 추출하는 서비스입니다. 일반적인 OCR(Optical Character Recognition) 기술에 단어화, 문서 분류 및 데이터 추출과 관련된 특허 기반의 AI 딥러닝 기술을 접목하여 높은 정확도를 제공합니다. 또한, Samsung Cloud Platform의 오브젝트 스토리지와 연계하여 분석 대상 이미지와 분석 결과값을 안전하게 저장할 수 있습니다.


  • 최고의 문자 인식률

삼성SDS가 자체 개발한 이미지 전처리 기술과 문자 인식 알고리즘을 통해 이미지의 회전, 노이즈, 워터마크 등 문자 인식에 부정적인 요소들을 감소시켜 업계 최고 수준의 문자 인식 성능을 보유하고 있습니다. 이를 기반으로 문서 종류와 품질에 영향 없이 97개국 언어에 대해 정확히 문자를 인식할 수 있습니다.

 

  • 정확한 문서 구조 분석

고도화된 영상 처리 알고리즘이 탑재된 딥러닝 기반의 이미지 분석 모델이 문장, 테이블, 이미지, 비 문자 영역 등 문장 구조를 식별하여 문서에서 테이블과 양식 데이터(Key-value)를 정확하게 구분한 결과값을 제공합니다.

 

  • 인보이스 분석

AICR은 일반 문서 이미지뿐만 아니라 영수증, 물류 관련 문서(송장, B/L 등)와 같은 인보이스 분석도 제공합니다. 인보이스에서 텍스트, 테이블, 양식 데이터 (Key-value)를 정확히 구분하여 데이터를 추출함으로써 재무 업무를 효율화 할 수 있습니다.

 

  • 손쉬운 데이터 연동

API 호출 방식을 사용함에 따라 고객은 AICR에서 추출한 데이터를 사용 중인 애플리케이션에 편리하게 연계할 수 있습니다. Samsung Cloud Platform의 오브젝트 스토리지를 활용하여 분석 대상 이미지의 업로드 및 분석 결과값을 쉽게 저장할 수 있습니다.


  • 아키텍처 다이어그램

 

  • API 방식을 사용하여 이미지 타입별 텍스트 추출 기능 제공

추출 데이터 종류

– 텍스트 : 텍스트 및 위치 추출

– 테이블 : 테이블 구조를 파악하여 각 셀의 텍스트 및 위치 추출

– 양식 : 문서 양식을 구별하여 데이터를 Key-value 형태로 추출

문자 인식 제공 언어 : 7개 언어 계열 97개 국어 (한글, 라틴어 56개 국어, 키릴어 11개 국어, 아랍어 25개 국어, 중국어 2개 국어, 일본어, 태국어)

 

  • Demo 제공

Demo를 통한 AICR 기능/성능 테스트

 

  • 제약 사항

지원 이미지 포맷 : JPEG, PNG, PDF

분석 최대 용량 및 페이지 제한

– Console Demo 및 동기 API : 10MB, 1페이지

– 비동기 API : 이미지 파일(JPEG, PNG) 10MB, PDF 파일 50MB/150 페이지

 

  • API 호출 현황 조회

일/주/월별 API별 호출 현황 조회

API별 호출 수(전체/성공/실패) 조회

성공한 API 응답 시간 조회

 

  • 요금 기준

AICR (Artificial Intelligence Character Recognition : 인공지능 문자인식)은 스캔한 텍스트나 이미지 속에 있는 텍스트, 테이블 및 양식을 추출하여 데이터화하고 관리할 수 있는 서비스입니다.

AICR 요금은 대상 문서에서 추출되는 데이터 종류에 따라 페이지 단위로 과금됩니다.

* 데이터 종류 : 텍스트, 테이블(텍스트 포함), 양식(텍스트 포함), 테이블+양식(텍스트 포함)

'BigData-DataAnalytics' 카테고리의 다른 글

VISION API  (0) 2023.12.17
TEXT API  (0) 2023.12.17
AI&MLOPS PLATFORM  (0) 2023.12.17
AI/ML service  (0) 2023.12.17
QUICK QUERY  (0) 2023.12.17