발표자 소개
(전) 하나금융그룹 융합기술원
(전) 엔씨소프트 음성인식팀
발표 제목
Beyond Linear Context: Key Information Extraction from Semi-structured Documents
발표 내용
명함, 신용장, 영수증 등 이미지로 된 구조화 문서에서 정보를 추출하는데, OCR을 통하여 문맥 정보뿐만 아니라 단어의 위치 정보까지 결합하여 활용하는 multi-modal 접근 방법에 대해 소개
참고자료
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction
Spatial Dependency Parsing for Semi-Structured Document Information Extraction
Donut : Document Understanding Transformer without OCR
발표 자료 및 영상
발표 자료
발표 영상