루모스: 장면 텍스트 인식으로 더욱 강력해진 멀티모달 LLM

루모스는 텍스트 이해 능력을 갖춘 최초의 엔드투엔드 멀티모달 질문 답변 시스템으로, 이미지에서 텍스트를 추출하여 멀티모달 대규모 언어 모델(MM-LLM)에 입력하여 텍스트 이해를 돕습니다. (출처: ai.meta.com)

목록으로