NC AI가 음성·언어 기술 학회인 ‘INTERSPEECH 2025’에서 새로운 몬스터 사운드 생성·변환 AI 기술을 공개한다. 인터스피치는 국제 음성커뮤니케이션협회(ISCA)가 주관하는 세계 최대 규모의 음성·언어 기술 학회로, 오는 8월 17일부터 21일까지 네덜란드 로테르담에서 열리며, 올해 주제는 ‘공정하고 포용적인 음성 과학과 기술(Fair and Inclusive Speech Science and Technology)’이다. NC AI는 이번 학회에서 몬스터 사운드에 특화한 고품질 음색 변환 모델 구조와 학습 기법을 다룬 논문, 그리고 이를 웹 기반 실시간 변환 시스템으로 구현한 사례 논문 등 총 2편을 발표한다. 현장 부스에서는 관람객이 직접 목소리나 사운드를 입력하면 특정 몬스터의 울음이나 포효로 즉시 변환되는 체험형 데모도 제공한다. 현장 참석이 어려운 이들을 위해 온라인 체험 페이지도 함께 운영될 예정이다. 이번 기술은 MMORPG 게임을 비롯한 대규모 콘텐츠 제작 환경에서 몬스터 사운드 제작 방식을 획기적으로 개선할 수 있다는 평가를 받는다. CD 수준의 고해상도(44.1kHz) 분석을 통해 거친 숨소리, 포효, 웃음 등 몬스터 특유의 비
모티프테크놀로지스가 국가유산청, 국가유산진흥원과 손잡고 우리나라 국가유산을 기반으로 한 ‘한국적 콘텐츠 창작을 위한 멀티모달 AI’ 개발에 착수한다. 이번 프로젝트는 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 주관하는 ‘2025년 민간클라우드 기반 AI·데이터레이크 활용지원 사업’의 일환으로 추진된다. 범정부적 디지털 전환 전략 속에서 국가유산 데이터를 집약·가공해 새로운 혁신 서비스를 개발하는 데 목적이 있다. 이번 과제의 핵심은 국가유산의 정체성과 상징성을 반영한 한국형 이미지 생성 파운데이션 모델을 구축하고, 이를 기반으로 T2I(Text-to-Image) 멀티모달 AI 서비스를 개발하는 것이다. 누구나 쉽게 활용할 수 있도록 API 형태로 공개해 민간 기업과 1인 창작자 등 다양한 주체가 전통문화 관련 창작에 직접 활용할 수 있는 환경을 마련한다. 이를 위해 국가유산청과 국가유산진흥원이 보유한 문화유산, 자연유산, 무형유산 등 3종의 데이터를 수집·정제해 고품질 학습 데이터로 가공한다. 모티프테크놀로지스는 여기에 자사가 축적한 한국어 특화 텍스트 데이터를 결합해 문화유산 해설과 역사적 표현 같은 맥락적 요소를 정교하게 반영한다. 이를 통해 모
코오롱베니트가 국내 AI 기업의 사업화 지원 플랫폼으로 자리잡고 있다. 코오롱베니트는 AI 얼라이언스 참여사 노타와 협력해 자체 개발 영상 관제 솔루션 ‘NVA(Nota Vision Agent)’ 기반 프리패키지를 출시했다고 18일 밝혔다. 노타는 온디바이스 AI 전문 기업으로 최근 코오롱베니트·코오롱인더스트리와 협력해 김천2공장에서 8개 시나리오 기반 PoC(개념검증)를 마쳤다. 이를 바탕으로 국내 최초로 VLM(Visual Language Model, 시각·언어 통합 모델) 기술을 제조 현장에 적용해 상용화했다. 이 기술은 작업 절차 위반 감지, 객체 간 관계 분석, 복합 위험 징후 예측 등 고도화된 관제 기능을 제공하며 안전성과 품질을 동시에 높인다. 코오롱베니트는 노타의 소프트웨어와 자체 하드웨어 역량을 결합해 프리패키지 형태로 제품을 출시했다. 산업 현장은 물론 건물 관리, 물류 분야 등으로 확장 가능한 형태로, 고객은 손쉽게 AI를 도입할 수 있고 기업은 수익을 확보할 수 있다는 점에서 의미가 있다고 회사는 설명했다. AI 얼라이언스는 참여사의 기술을 빠르게 사업화할 수 있도록 프리패키지 출시를 늘려 나갈 계획이다. 단순 기술 협력에 그치지 않고
가트너가 2025 AI 하이프 사이클(Hype Cycle for Artificial Intelligence)을 통해 향후 AI 기술 혁신을 이끌 핵심 기술로 ‘AI 에이전트’와 ‘AI 레디 데이터’를 지목했다. 동시에 ‘멀티모달 AI’와 ‘AI TRiSM(AI 신뢰·위험·보안 관리)’ 기술이 향후 5년 내 주류가 될 것으로 전망되며 보다 책임감 있는 AI 구현의 필요성도 함께 제기됐다. 가트너는 이번 보고서에서 AI 기술 발전의 시간 흐름에 따라 기술 수명 주기와 시장 기대치의 변화를 분석했다. 그중에서도 AI 에이전트와 AI 레디 데이터는 낙관적인 기대와 기술적 가능성에 대한 투기적 전망이 더해지며 현재 기술 사이클의 정점에 위치한 것으로 나타났다. 하리타 칸다바투(Haritha Khandabattu) 가트너 시니어 디렉터 애널리스트는 “AI에 대한 투자는 여전히 활발하며, 생성형 AI에서 지속 가능한 AI 제공을 위한 기반 기술로 패러다임이 이동하고 있다”고 분석했다. AI 에이전트는 디지털 또는 물리적 환경에서 인지, 의사결정, 행동 수행을 통해 목표를 달성하는 자율 혹은 반자율 소프트웨어로 정의된다. 기업은 다양한 AI 기술과 대규모언어모델(LLM)을
슈퍼브에이아이가 과학기술정보통신부가 주관하는 ‘독자 AI 파운데이션 모델’ 구축 사업에서 LG AI연구원이 이끄는 컨소시엄의 핵심 파트너로 선정됐다. 이번 컨소시엄은 정부로부터 지원받는 5개 정예팀 중 하나로, 슈퍼브에이아이는 LG 계열사를 제외한 기업 중 유일하게 AI 모델 개발 주체로 참여한다. 슈퍼브에이아이는 멀티모달 기반의 차세대 파운데이션 모델 개발을 위해 시각, 언어, 행동 데이터를 종합적으로 설계하고 구축하는 역할을 맡는다. 특히 제조, 물류, 의료 등 실제 산업 환경과 밀접한 ‘피지컬 AI’ 구현을 위한 기반 모델 개발과 고품질 데이터 셋 구축에 집중한다. 피지컬 AI는 카메라, 라이다 등 센서로 현실 세계를 인식하고, 이를 언어·시각 정보와 통합한 후 판단을 내려 물리적 행동을 수행하는 AI 기술이다. 제조업 비중이 높은 한국은 피지컬 AI를 구현하기에 적합한 산업 환경과 데이터를 보유하고 있어, 이번 프로젝트가 글로벌 경쟁력 확보의 전환점이 될 것으로 기대된다. 슈퍼브에이아이는 이 과정에서 멀티모달 데이터셋을 오픈소스로 공개해 산업계 전반의 AI 도입 장벽을 낮춘다는 계획이다. 또한 슈퍼브에이아이는 국내 최초 산업용 비전 파운데이션 모델 ‘
NC AI가 과학기술정보통신부 주관 ‘독자 AI 파운데이션 모델’ 프로젝트에서 국가대표 기업으로 선정됐다. 국내 대표 기업들과 함께 대규모 ‘그랜드 컨소시엄’을 이끌며, 대한민국의 AI 주권 확보와 기술 독립을 위한 중심 축으로 자리매김했다. 이번 프로젝트는 대한민국이 글로벌 기술 경쟁 속에서 자체 AI 생태계를 구축하고자 추진하는 전략적 과제로, 반도체부터 모델, 서비스까지 전 영역을 아우르는 풀스택 AI 개발이 핵심이다. NC AI는 기술 총괄 리더이자 생태계 허브 역할을 맡으며, 54개 참여 기관과 함께 산업 특화형 파운데이션 모델 개발 및 확산에 나선다. 200여 명의 전문 인력과 14년간의 R&D 내공을 바탕으로 NC소프트에서 독립한 NC AI는 설립 6개월 만에 국가 전략 프로젝트의 핵심 기업으로 발탁됐다. 이는 단순한 기술력뿐 아니라, 장기적 투자와 기술 내재화를 통해 축적한 산업 지향형 AI 역량이 공식적으로 인정받은 결과다. NC AI가 주도한 그랜드 컨소시엄은 ETRI, KAIST, 서울대, 고려대, 연세대 등 주요 연구기관과 롯데이노베이트, 포스코DX, NHN, HL로보틱스, 미디어젠, 문화방송 등 기업을 포함한 14개 기술기관과
SK텔레콤(SKT)이 자체 개발한 LLM ‘A.X(에이닷 엑스)’를 기반으로 한 시각-언어모델(VLM)과 대규모 문서 해석 기술을 29일 공개하며 멀티모달 AI 경쟁력 강화에 나섰다. 이번 발표는 기업용 인공지능 활용도를 높이기 위한 기술 확장의 일환으로, 오픈소스 커뮤니티인 허깅페이스(Hugging Face)를 통해 두 가지 모델을 누구나 활용할 수 있도록 공개했다. 공개된 모델은 시각-언어모델 ‘A.X 4.0 VL Light’와 문서 해석용 인코더 ‘A.X Encoder’다. SKT는 이 두 기술을 통해 자체 LLM 생태계 확장은 물론 산업 전반에서 LLM 활용의 실용성과 범용성을 끌어올릴 계획이다. ‘A.X Encoder’는 LLM 학습과 실전 문서 처리에 특화된 고성능 인코더로, 문맥 파악과 정보 해석에 핵심적인 역할을 수행한다. 총 1억 4천9백만 개의 매개변수를 탑재한 이 모델은 한국어 자연어 처리 벤치마크 KLUE에서 평균 85.47점을 기록해, 글로벌 오픈소스 기준 성능지표를 상회했다. 특히 KLUE의 RoBERTa-base(80.19점)를 능가하는 수준으로, 한국어 해석 능력에서 세계 최고 수준의 성능을 입증했다. A.X Encoder는 최대
모션 생성 플랫폼 ‘바르코 애니메이션’, 음성 기반 립싱크 솔루션 ‘바르코 싱크페이스’ 공개 NC AI가 컴퓨터 그래픽 컨퍼런스 '시그래프(SIGGRAPH 2025)'에 참가해 자사의 콘텐츠 제작용 AI 기술을 글로벌 무대에 처음으로 선보인다. 오는 8월 10일부터 14일까지 캐나다 밴쿠버에서 열리는 이번 행사에서, NC AI는 차세대 모션 생성 플랫폼 ‘바르코 애니메이션’과 음성 기반 립싱크 솔루션 ‘바르코 싱크페이스’를 중심으로 게임·영상 제작 분야의 AI 활용 가능성을 집중 조명할 계획이다. 바르코 애니메이션은 텍스트 명령어만으로도 캐릭터 동작을 자동으로 생성할 수 있는 AI 기반 모션 빌더 플랫폼이다. 예를 들어 “활을 들고 계단을 올라간다”는 지시만으로 걷기, 활쏘기, 계단 오르기 등 복합 모션을 자동 생성하며, 캐릭터 체형에 맞게 동작을 조정하고 동작 간 연결도 자연스럽게 처리한다. 특히 기존 키워드 기반 정적 검색을 넘어, 자연어 검색과 AI 기반 ‘유사 모션 추천’ 기능까지 탑재돼 사용자가 원하는 모션을 직관적으로 찾을 수 있다. ‘채집’이라는 단어를 입력하면 전형적인 수집 동작뿐 아니라 해당 상황에 적합한 다양한 동작을 연산 기반으로 제안하는
김동환 대표, 한국인의 정서와 의료 환경에 맞는 한국형 AI 필요성 강조 생성형 인공지능(AI)이 의료 현장 전반을 근본적으로 변화시키고 있다. 지난 18일 부산에서 열린 'AI BUS 2025' 컨퍼런스에서 김동환 포티투마루 대표는 “AI는 더 이상 보조 수단이 아닌, 의료 팀의 일원이자 서비스 주체로 진화하고 있다”고 강조하며, 실제 적용 사례와 글로벌 기술 동향을 바탕으로 의료 분야의 혁신 로드맵을 제시했다. 김동환 대표는 발표 초반, AI 기술 발전 흐름을 알파고부터 챗GPT까지 짚으며 현재가 AI 트랜스포메이션(AX)의 분기점임을 설명했다. 그는 특히 “생성형 AI가 산업별로 빠르게 융합되고, 의료는 그 중에서도 가장 활발한 분야 중 하나”라고 밝혔다. 포티투마루는 언어 기반 AI 기술을 중심으로 다양한 도메인에 특화한 경량화 모델을 개발해 공급 중이며, 의료 분야에서도 국내외 병원 및 기관과 협업을 확대하고 있다. 김 대표는 병원 내 실제 적용 사례들을 소개하며 AI가 의료 서비스의 효율성과 안전성을 동시에 끌어올릴 수 있음을 강조했다. 대표적으로 부산대병원과 함께 진행 중인 프로젝트에서는 환자 데이터를 기반으로 진단 차트 자동화와 예후 예측 AI
글로벌 고객에게 제공 가능한 수준의 제품화에 성공한 사례로 남아 트웰브랩스가 AWS의 완전관리형 생성형 AI 플랫폼 ‘아마존 베드록(Amazon Bedrock)’에 자사 모델을 정식으로 공급하며, 글로벌 AI 생태계에서 한국 기술의 존재감을 확장하고 있다. 이번 공급은 한국 파운데이션 모델이 글로벌 플랫폼에 공식 편입된 첫 사례로, 기술 주권 실현의 이정표로 주목된다. 트웰브랩스는 ‘마렝고(Marengo)’와 ‘페가수스(Pegasus)’ 두 가지 영상 AI 모델을 베드록을 통해 전 세계 AWS 고객에게 제공한다. 이를 통해 고객사는 별도의 인프라 구축 없이 영상 콘텐츠 내 객체, 동작, 음향 등을 자연어 기반으로 분석하고 검색한다. AWS는 이번 협업으로 영상이해 모델을 직접 제공하는 첫 번째 클라우드 사업자가 됐으며, 트웰브랩스는 메타, 엔트로픽, 딥시크, 미스트랄AI 등과 함께 베드록 공식 모델 파트너로 자리잡았다. 영상 데이터는 디지털 환경에서 가장 활용이 어려운 자산 중 하나로 꼽힌다. 트웰브랩스의 AI 모델은 이러한 비정형 영상 데이터를 의미 기반의 분석 가능한 형태로 전환해, 콘텐츠 검색, 요약, 아카이빙 등의 작업을 빠르고 효율적으로 수행하도록
14B, 1.7B, 1.7B OCR, 임베딩 모델 등 총 4종 공개 NC AI가 멀티모달 인공지능(AI) 기술력의 집약체인 ‘VARCO-VISION 2.0’ 모델 4종을 공개하며 국내 AI 기술의 글로벌 경쟁력을 입증했다. 공개된 모델은 14B, 1.7B, 1.7B OCR, 임베딩 모델 등 총 4종으로 구성되며, 이미지와 텍스트, 비디오 정보를 동시에 이해하고 처리하는 고성능 비전-언어모델(VLM)이다. 이번 발표의 핵심은 140억 파라미터(14B) 규모의 멀티모달 모델로, NC AI는 해당 모델이 영문 이미지, 한국어 이미지 이해, OCR 분야에서 InternVL3, Ovis2, Qwen2.5-VL 등 글로벌 오픈소스 최고 성능 모델을 능가했다고 밝혔다. 또한 중소형 환경에서도 사용 가능한 1.7B 경량 모델과 OCR 특화 모델, 텍스트-이미지-비디오 간 의미적 유사도를 계산하는 임베딩 모델도 함께 선보였다. VARCO-VISION 2.0은 복잡한 문서, 표, 차트 등을 동시에 분석할 수 있는 다중 이미지 처리 역량과 한국어 중심의 텍스트 생성 능력, 한국 문화 이해도를 향상시킨 것이 특징이다. 특히, AnyRes 방식으로 다양한 해상도를 손실 없이 처리할
솔트룩스가 주관기관으로서 전 과정 총괄...올해부터 2년간 진행 예정 솔트룩스가 과학기술정보통신부 산하 한국지능정보사회진흥원(NIPA)이 주관하고 국가기록원이 추진하는 'AI 기반 지능형 기록정보 검색 솔루션 개발 및 실증' 사업을 수주했다고 8일 밝혔다. 이번 사업은 2025년부터 2년간 진행되며, 솔트룩스가 주관기관으로서 전 과정을 총괄하게 된다. 이번 과제의 핵심 목표는 국민 누구나 공공기록에 보다 빠르고 정확하게 접근할 수 있도록 고도화된 지능형 검색 시스템을 개발하고 실증하는 데 있다. 단순 키워드 검색에서 벗어나 의미 기반 탐색이 가능한 차세대 AI 검색 환경을 구현하는 것이 주된 방향이다. 솔트룩스는 협업 부처 및 보유 데이터를 기반으로 학습용 데이터를 구축하고, 검색 정확도를 90% 이상으로 끌어올리는 하이브리드 검색 시스템을 개발한다는 계획이다. 이를 위해 초거대 언어모델(LLM), 비전-언어 융합모델(VLM), 의미 임베딩 검색 기술을 통합한 멀티모달 검색 구조를 적용한다. 여기에 벡터 검색과 키워드 리랭킹을 조합한 RAG 구조를 통해 정밀한 정보 탐색이 가능하도록 설계할 예정이다. 사용자 피드백을 자동 반영해 지속적으로 시스템을 고도화할
김동환 대표, ‘The Age of Agentic AI – 생성형 AI 시대 인재상’ 주제로 특별 강연 포티투마루가 산학연 협력을 기반으로 한 생성형 AI 인재양성에 박차를 가한다. 포티투마루는 7월 2일 제주국제컨벤션센터에서 열린 ‘2025 한국컴퓨터종합학술대회’ 연계 워크숍을 통해 산업융합형 멀티모달 생성AI 기반 인재양성 사업의 성과와 협력 사례를 공유했다. 이번 워크숍은 과학기술정보통신부와 정보통신기획평가원이 주관하는 ‘생성AI 선도인재양성 사업’의 일환으로, 포티투마루가 주관기업으로 참여하고 성균관대, 부산대, UNIST, 인하대 등 4개 지역 거점 AI 대학원이 협력기관으로 참여했다. 본 사업은 석·박사급 고급 인재들이 실제 산업 현장에서 문제 해결 역량을 키울 수 있도록 교육과 실전 프로젝트를 병행하며, 지역을 넘은 전국적 AI 인재 생태계 조성을 목표로 한다. 워크숍에서는 각 대학의 책임교수들이 협력 과제의 연구 성과를 발표했다. 부산대 송길태 교수는 부산대병원과 협력한 멀티모달 환자 데이터 기반 의료 AI 모델 개발 사례를, 성균관대 이지형 교수는 사용자 페르소나를 반영한 개인화 생성 모델 기술 개발을 소개했다. UNIST 심재영 교수는 교통
미디어·방송, 공공·안전, 법률·수사기관 등 주요산업 중심으로 영상 AI 고도화 추진 트웰브랩스가 LG CNS와 영상 분석 기술 협력을 위한 업무협약(MOU)을 체결했다. 이번 협력은 멀티모달 기반 영상 이해 기술과 디지털 전환(AX) 역량의 결합을 통해 다양한 산업 분야에서 실질적인 AI 영상 솔루션을 공동 개발하고 사업화하는 것을 목표로 한다. 양사는 트웰브랩스의 영상 이해 특화 AI 모델(Video Foundation Model, VFM) 고도화를 위한 연구 개발과 더불어, 이를 실제 고객 환경에 적용하는 상용 서비스 구축에도 협력한다. 특히 미디어·방송, 공공·안전, 법률·수사기관 등 영상 데이터가 집중되는 산업을 중심으로 영상 AI 기술을 고도화하고, 새로운 비즈니스 기회를 함께 발굴할 예정이다. 트웰브랩스는 멀티모달 신경망 기술을 기반으로 영상 콘텐츠 내 인물, 사물, 텍스트, 행동 등을 복합적으로 이해하는 AI 모델을 개발해 왔다. 지난 4월에는 국내 AI 기업 최초로 아마존 베드록에 자사의 멀티모달 AI 모델 ‘마렝고(Marengo)’와 ‘페가수스(Pegasus)’를 공급하는 성과를 올리며 글로벌 경쟁력을 입증한 바 있다. LG CNS는 금융권
텍스트·이미지 동시 이해 및 정보를 종합적으로 추론하는 멀티모달 기능 보유 네이버가 고도화한 추론형 멀티모달 인공지능(AI) 모델 ‘하이퍼클로바X 씽크(HyperCLOVA X Think)’를 공개하며, 초거대 AI 기술 경쟁에 다시 한 번 시동을 걸었다. 이 모델은 언어뿐 아니라 시각 정보를 기반으로 사고하고 추론할 수 있는 능력을 갖춘 차세대 생성형 AI로, 국내외 주요 벤치마크에서 뛰어난 성과를 거두며 기술력을 입증했다. 네이버는 6월 30일 하이퍼클로바X 씽크의 개발을 완료하고, 모델 설계 및 성능에 대한 세부 내용을 담은 테크니컬 리포트를 발표했다. 특히 한국어 자연어처리(NLP) 벤치마크인 ‘KoBALT-700’ 기준으로 측정한 결과, 동일 규모의 국내외 추론 모델과 오픈소스 LLM을 모두 상회하는 성능을 보였다고 밝혔다. 이번에 공개된 모델은 단순한 언어 처리 능력에 머무르지 않는다. 텍스트와 이미지를 동시에 이해하고, 주어진 정보를 종합적으로 추론하는 멀티모달 기능을 갖췄다. 실제로 과학·기술·공학·수학(STEM) 유형의 문제를 이미지 형태로 입력하자, 이를 인식해 분석한 뒤 정답을 도출하는 과정을 성공적으로 수행한 사례도 소개됐다. 네이버는 해