본문 바로가기
728x90
반응형

멀티모달2

혁신적인 AI 모델, SignGemma 공개! 최신 인공지능 기술의 집약체, SignGemma가 드디어 공개되었습니다. 이번 포스팅에서는 SignGemma가 무엇인지, 어떤 특징과 장점을 가지고 있는지, 그리고 실제 활용 사례까지 한눈에 볼 수 있도록 정리해드릴게요.SignGemma란?SignGemma는 구글이 개발한 차세대 멀티모달 AI 모델로, 특히 수어(수화) 인식 및 생성에 특화되어 있습니다. 기존 텍스트 기반 AI를 넘어, 영상과 이미지에서 수어를 정확하게 인식하고 이해할 수 있도록 설계되었습니다. https://x.com/i/status/1927375853551235160 X의 Google DeepMind님(@GoogleDeepMind)We're thrilled to announce SignGemma, our most capable mod.. 2025. 5. 28.
NVIDIA, DAM-3B 발표: 이미지와 비디오의 현지화된 설명 “스타일”! 인공지능의 급속한 발전으로 다중 모드 학습이 점차 인기 있는 연구 분야가 되고 있습니다. 중요한 분야로서 시각 언어 모델(VLM)은 이미지와 비디오에 대한 전체적인 설명을 생성하는 데 있어 놀라운 성과를 거두었습니다. 하지만 이러한 모델에 이미지나 비디오의 특정 영역을 자세히 설명하도록 요청하면, 그 성능이 만족스럽지 않다는 것을 종종 발견하게 됩니다. 이러한 한계는 특히 비디오 데이터에서 두드러지게 나타나는데, 비디오는 공간 정보뿐만 아니라 시간적 동역학도 처리해야 하기 때문입니다. 다행히도 NVIDIA가 새롭게 출시한 DAM-3B(Describe Anything 3B) 모델이 우리에게 새로운 희망을 가져다줍니다.인공지능의 급속한 발전과 함께 멀티모달 학습은 점차 뜨거운 연구 분야로 떠오르고 있습니다.. 2025. 4. 28.
728x90
반응형