728x90 반응형 long-context1 NVIDIA가 Eagle 2.5를 출시했습니다. 긴 장문 텍스트 이해 분야의 떠오르는 신성, 시각 언어 모델의 한계를 어떻게 극복할 것인가? 다중 모드 학습 분야에서 시각 언어 모델(VLM)의 급속한 발전은 다양한 모드를 통합하는 데 큰 잠재력이 있음을 보여주었습니다. 그러나 상당한 진전에도 불구하고 이러한 모델은 주로 짧은 텍스트 작업에 초점을 맞추고 있으며, 긴 텍스트를 이해하는 능력이 항상 약점이었습니다. 특히 긴 영상 이해와 고해상도 이미지/영상 이해를 다룰 때, 확장된 시각적 맥락을 효과적으로 처리하는 방법은 여전히 어려운 문제로 남아 있습니다.긴 텍스트를 이해하는 데 있어서의 딜레마와 과제긴 텍스트를 이해하는 데 부족한 점은 기존 시각 언어 모델이 데이터 세트 구축, 아키텍처 설계, 학습 전략, 컴퓨팅/메모리 병목 현상 등 많은 어려움에 직면하고 있기 때문입니다. 이전 연구에서는 컨텍스트 길이를 늘리려고 시도했지만, 그 결과는 .. 2025. 4. 28. 이전 1 다음 728x90 반응형