보통 그림과 글자가 함께 있을 때 사람의 시선이 그림에 먼저 가는 것처럼, 여러 감각을 동시에 활용하는 ‘멀티모달 인공지능’도 특정 데이터에 더 크게 의존하는 경향이 있다. KAIST 연구진은 이러한 한계를 극복해, 그림과 글자를 모두 고르게 인식해 훨씬 더 정확한 예측을 가능케 하는 새로운 멀티모달 인공지능 학습 기술을 개발했다. KAIST는 전기및전자공학부 황의종 교수 연구팀이 다양한 데이터 유형을 한 번에 처리해야 하는 멀티모달 인공지능이 모든 데이터를 고르게 활용할 수 있도록 돕는 새로운 학습 데이터 증강 기술을 개발했다고 14일 밝혔다. 멀티모달 인공지능은 텍스트, 영상 등 여러 데이터를 동시에 활용해 판단하지만, 기존 AI 모델은 특정 정보(예: 텍스트 또는 이미지)에 치우쳐 판단하는 경향이 있었다. 이로 인해 예측 정확도가 떨어지고, 실제 환경에서의 일반화 성능이 제한되는 문제가 있었다. 연구팀은 이러한 편향을 해결하기 위해 일부러 서로 어울리지 않는 데이터를 섞어서 학습에 사용했다. 이를 통해 인공지능은 특정 데이터에만 의존하지 않고, 글과 그림, 소리 등 모든 정보를 균형 있게 활용하는 방법을 학습하게 된다. 또한 품질이 낮은 데이터는 보완하
다양한 문제 풀이 궤적과 의도 사례 (출처 : GIST) (왼쪽부터)GIST AI융합학부 김선동 교수, 김세진 박사후연구원, 황산하 석사과정 졸업생, 이승필 석사과정생, 전기전자컴퓨터공학과 이호성 학사 졸업생 (출처 : GIST) 광주과학기술원(GIST) 김선동 교수 연구팀이 사람의 문제 풀이 과정 속 ‘의도’를 추정·정렬하는 학습 알고리즘과 생성모델을 결합해 사람처럼 다양한 풀이 과정을 만들어내는 데이터 증강 기법을 제안했다. 연구팀은 이를 통해 단순 정답 산출을 넘어 인간과 유사한 추론 능력을 갖춘 인공지능을 구현했다고 25일 밝혔다. 기존 인공지능은 주어진 문제의 정답 도출에는 강점을 보였지만, 인간처럼 단계적 사고 과정을 거치는 추론 능력은 부족했다. 연구팀은 인간이 문제 해결 과정에서 겪는 시행착오와 다양한 풀이 전략에 주목했다. 특히 풀이 과정에는 단순한 행동의 나열이 아닌 목표와 전략, 즉 ‘의도’가 담겨 있다는 점에서 착안했다. 연구팀은 문제 풀이 과정을 세분화해 각 단계의 의도를 추정하고 이를 정렬하는 알고리즘을 개발했다. 이어 생성모델 중 하나인 지플로우넷(GFlowNet)을 활용해 다양한 풀이 경로를 생성하는 데이터 증강 기법을 적용했다.