루모스는 텍스트 이해 능력을 갖춘 최초의 엔드투엔드 멀티모달 질문 답변 시스템으로, 이미지에서 텍스트를 추출하여 멀티모달 대규모 언어 모델(MM-LLM)에 입력하여 텍스트 이해를 돕습니다. (출처: ai.meta.com)