본문 바로가기
728x90
반응형

gpt-4o3

카카오, GPT-4o 수준 경량 AI 모델 'Kanana-1.5-v-3b' 오픈소스 공개 - 국내 최초 MoE 모델까지 카카오가 국내 AI 생태계에 또 한 번의 혁신을 가져왔습니다. 2025년 7월 24일, 카카오는 허깅페이스를 통해 GPT-4o와 견줄 수 있는 성능을 자랑하는 경량 멀티모달 AI 모델 'Kanana-1.5-v-3b'와 국내 최초 MoE(Mixture of Experts) 모델을 오픈소스로 공개했습니다.🚀 경량이지만 강력한 성능, Kanana-1.5-v-3b의 특징GPT-4o에 맞먹는 문서 이해 능력카카오의 새로운 멀티모달 언어모델 'Kanana-1.5-v-3b'는 경량 모델임에도 불구하고 이미지로 표현된 한국어와 영어 문서 이해 능력에서 글로벌 최고 수준인 GPT-4o와 견줄 만한 성능을 보여줍니다. 뉴시스특히 주목할 점은 다음과 같습니다:한국어 벤치마크에서 유사 사이즈 국내외 공개 모델 중 최고 점수.. 2025. 7. 27.
NVIDIA가 Eagle 2.5를 출시했습니다. 긴 장문 텍스트 이해 분야의 떠오르는 신성, 시각 언어 모델의 한계를 어떻게 극복할 것인가? 다중 모드 학습 분야에서 시각 언어 모델(VLM)의 급속한 발전은 다양한 모드를 통합하는 데 큰 잠재력이 있음을 보여주었습니다. 그러나 상당한 진전에도 불구하고 이러한 모델은 주로 짧은 텍스트 작업에 초점을 맞추고 있으며, 긴 텍스트를 이해하는 능력이 항상 약점이었습니다. 특히 긴 영상 이해와 고해상도 이미지/영상 이해를 다룰 때, 확장된 시각적 맥락을 효과적으로 처리하는 방법은 여전히 ​​어려운 문제로 남아 있습니다.긴 텍스트를 이해하는 데 있어서의 딜레마와 과제긴 텍스트를 이해하는 데 부족한 점은 기존 시각 언어 모델이 데이터 세트 구축, 아키텍처 설계, 학습 전략, 컴퓨팅/메모리 병목 현상 등 많은 어려움에 직면하고 있기 때문입니다. 이전 연구에서는 컨텍스트 길이를 늘리려고 시도했지만, 그 결과는 .. 2025. 4. 28.
NVIDIA, DAM-3B 발표: 이미지와 비디오의 현지화된 설명 “스타일”! 인공지능의 급속한 발전으로 다중 모드 학습이 점차 인기 있는 연구 분야가 되고 있습니다. 중요한 분야로서 시각 언어 모델(VLM)은 이미지와 비디오에 대한 전체적인 설명을 생성하는 데 있어 놀라운 성과를 거두었습니다. 하지만 이러한 모델에 이미지나 비디오의 특정 영역을 자세히 설명하도록 요청하면, 그 성능이 만족스럽지 않다는 것을 종종 발견하게 됩니다. 이러한 한계는 특히 비디오 데이터에서 두드러지게 나타나는데, 비디오는 공간 정보뿐만 아니라 시간적 동역학도 처리해야 하기 때문입니다. 다행히도 NVIDIA가 새롭게 출시한 DAM-3B(Describe Anything 3B) 모델이 우리에게 새로운 희망을 가져다줍니다.인공지능의 급속한 발전과 함께 멀티모달 학습은 점차 뜨거운 연구 분야로 떠오르고 있습니다.. 2025. 4. 28.
728x90
반응형