김동환 대표, ‘The Age of Agentic AI – 생성형 AI 시대 인재상’ 주제로 특별 강연 포티투마루가 산학연 협력을 기반으로 한 생성형 AI 인재양성에 박차를 가한다. 포티투마루는 7월 2일 제주국제컨벤션센터에서 열린 ‘2025 한국컴퓨터종합학술대회’ 연계 워크숍을 통해 산업융합형 멀티모달 생성AI 기반 인재양성 사업의 성과와 협력 사례를 공유했다. 이번 워크숍은 과학기술정보통신부와 정보통신기획평가원이 주관하는 ‘생성AI 선도인재양성 사업’의 일환으로, 포티투마루가 주관기업으로 참여하고 성균관대, 부산대, UNIST, 인하대 등 4개 지역 거점 AI 대학원이 협력기관으로 참여했다. 본 사업은 석·박사급 고급 인재들이 실제 산업 현장에서 문제 해결 역량을 키울 수 있도록 교육과 실전 프로젝트를 병행하며, 지역을 넘은 전국적 AI 인재 생태계 조성을 목표로 한다. 워크숍에서는 각 대학의 책임교수들이 협력 과제의 연구 성과를 발표했다. 부산대 송길태 교수는 부산대병원과 협력한 멀티모달 환자 데이터 기반 의료 AI 모델 개발 사례를, 성균관대 이지형 교수는 사용자 페르소나를 반영한 개인화 생성 모델 기술 개발을 소개했다. UNIST 심재영 교수는 교통
미디어·방송, 공공·안전, 법률·수사기관 등 주요산업 중심으로 영상 AI 고도화 추진 트웰브랩스가 LG CNS와 영상 분석 기술 협력을 위한 업무협약(MOU)을 체결했다. 이번 협력은 멀티모달 기반 영상 이해 기술과 디지털 전환(AX) 역량의 결합을 통해 다양한 산업 분야에서 실질적인 AI 영상 솔루션을 공동 개발하고 사업화하는 것을 목표로 한다. 양사는 트웰브랩스의 영상 이해 특화 AI 모델(Video Foundation Model, VFM) 고도화를 위한 연구 개발과 더불어, 이를 실제 고객 환경에 적용하는 상용 서비스 구축에도 협력한다. 특히 미디어·방송, 공공·안전, 법률·수사기관 등 영상 데이터가 집중되는 산업을 중심으로 영상 AI 기술을 고도화하고, 새로운 비즈니스 기회를 함께 발굴할 예정이다. 트웰브랩스는 멀티모달 신경망 기술을 기반으로 영상 콘텐츠 내 인물, 사물, 텍스트, 행동 등을 복합적으로 이해하는 AI 모델을 개발해 왔다. 지난 4월에는 국내 AI 기업 최초로 아마존 베드록에 자사의 멀티모달 AI 모델 ‘마렝고(Marengo)’와 ‘페가수스(Pegasus)’를 공급하는 성과를 올리며 글로벌 경쟁력을 입증한 바 있다. LG CNS는 금융권
텍스트·이미지 동시 이해 및 정보를 종합적으로 추론하는 멀티모달 기능 보유 네이버가 고도화한 추론형 멀티모달 인공지능(AI) 모델 ‘하이퍼클로바X 씽크(HyperCLOVA X Think)’를 공개하며, 초거대 AI 기술 경쟁에 다시 한 번 시동을 걸었다. 이 모델은 언어뿐 아니라 시각 정보를 기반으로 사고하고 추론할 수 있는 능력을 갖춘 차세대 생성형 AI로, 국내외 주요 벤치마크에서 뛰어난 성과를 거두며 기술력을 입증했다. 네이버는 6월 30일 하이퍼클로바X 씽크의 개발을 완료하고, 모델 설계 및 성능에 대한 세부 내용을 담은 테크니컬 리포트를 발표했다. 특히 한국어 자연어처리(NLP) 벤치마크인 ‘KoBALT-700’ 기준으로 측정한 결과, 동일 규모의 국내외 추론 모델과 오픈소스 LLM을 모두 상회하는 성능을 보였다고 밝혔다. 이번에 공개된 모델은 단순한 언어 처리 능력에 머무르지 않는다. 텍스트와 이미지를 동시에 이해하고, 주어진 정보를 종합적으로 추론하는 멀티모달 기능을 갖췄다. 실제로 과학·기술·공학·수학(STEM) 유형의 문제를 이미지 형태로 입력하자, 이를 인식해 분석한 뒤 정답을 도출하는 과정을 성공적으로 수행한 사례도 소개됐다. 네이버는 해
사전 학습된 대규모 이미지 기반 AI 모델로, 추가 학습 없이 다양한 시각 작업에 적용 슈퍼브에이아이가 국내 최초 산업 특화 비전 파운데이션 모델 ‘제로(ZERO)’를 공개하며 AI 기술의 실용성과 확장성을 한 단계 끌어올렸다. 이번 모델은 단 90만 개의 데이터와 8개월의 개발 기간으로 글로벌 1위 수준의 성능을 구현해 업계의 이목을 끌고 있다. 제로는 사전 학습된 대규모 이미지 기반 AI 모델로, 추가 학습 없이도 다양한 시각 작업에 적용 가능한 것이 가장 큰 특징이다. 기존 텍스트 기반 LLM이 자연어 처리에서 역할을 해왔던 것처럼, 제로는 제조·물류·보안 등 산업 현장에서 이미지 인식과 분석을 수행하는 ‘비전 AI’로서의 역할을 맡는다. 슈퍼브에이아이는 이번 공개에서 AI 진입 장벽을 ‘제로’로 낮추겠다는 철학을 담아 네 가지 핵심 가치를 제시했다. 사전 준비 없이 바로 사용할 수 있는 ‘제로 학습’, 복잡한 설정이 필요 없는 ‘제로 복잡성’, 결과 확인까지 기다림이 없는 ‘제로 대기’, 다양한 환경에서도 일관된 성능을 제공하는 ‘제로 한계’가 그것이다. 이를 통해 기업은 데이터, 인력, 인프라 부족이라는 현실적 제약 없이 AI를 도입할 수 있게 됐다
AMD 인스팅트 MI250 GPU 기반 최초의 오픈소스 파운데이션 모델로 알려져 모티프테크놀로지스가 직접 설계·개발한 파운데이션 소형언어모델(sLLM) ‘Motif 2.6B’를 오픈소스로 공개하고, 허깅페이스(Hugging Face)에 등록했다고 10일 밝혔다. 이번에 공개된 모델은 26억 개 파라미터를 탑재한 소형 언어모델로, 모회사인 AI 인프라 기업 모레(Moreh)의 GPU 클러스터링 최적화 기술과 자원 효율화 전략을 바탕으로 개발됐다. 특히 AMD의 인스팅트 MI250 GPU 기반으로 구현된 최초의 오픈소스 파운데이션 모델이라는 점에서 기술적 차별성이 있다. 일반적인 초거대 모델과 달리 단일 GPU에서도 무리 없이 추론이 가능하다는 점은 실제 산업 적용성과 확장 가능성을 동시에 보여준다. 모티프테크놀로지스는 지난해 오픈AI GPT-4를 상회하는 한국어 성능의 모델을 개발했던 모레 AI 사업부 인력들이 주축이 되어 올해 2월 설립된 기업으로, 빠른 개발력과 고도화한 GPU 활용 역량을 기반으로 차별화된 모델을 선보이고 있다. 이번 ‘Motif 2.6B’는 단순히 소형이라는 점 외에도 성능 면에서 동급 및 상위 모델을 능가하는 결과를 보였다. 자체 벤치
알리바바가 영상 생성 및 편집을 위한 올인원 오픈소스 AI 모델 ‘Wan2.1-VACE(Video All-in-one Creation and Editing)’를 새롭게 공개했다. 이번 모델은 영상 제작의 복잡한 과정을 하나의 통합 모델로 구현하며 창작자의 생산성과 창의성을 동시에 높이는 데 초점을 맞췄다. Wan2.1-VACE는 멀티모달 입력(텍스트, 이미지, 영상 등)을 기반으로 한 영상 생성과 고급 편집 기능을 통합해 제공한다. 단순 영상 생성뿐만 아니라 객체 제어, 시공간 확장, 프레임 보간, 영상 내 선택 영역의 수정 및 리페인팅 등 정교한 후반작업까지 하나의 프레임워크에서 수행할 수 있다. 특히 이미지 한 장을 입력해 자연스러운 움직임을 생성하거나, 정적인 이미지를 동적인 콘텐츠로 전환하는 등 콘텐츠의 생동감을 극대화할 수 있는 기능도 포함돼 있다. 이번 모델에는 알리바바가 자체 설계한 영상 조건 유닛 ‘VCU(Video Condition Unit)’와 시공간 컨텍스트 표현을 위한 ‘컨텍스트 어댑터(Context Adapter)’ 구조가 적용됐다. 이로써 다양한 영상 생성 목적을 정형화된 구조 안에서 유연하게 수행할 수 있으며 SNS 숏폼, 광고,
상용 AI 모델이 갖는 구조적 취약점을 현실 기반 시나리오로 정량적 입증해 에임인텔리전스가 자사 AI 공격 프레임워크 ‘SUDO(Screen-based Universal Detox2Tox Offense)’를 주제로 한 논문이 세계 최고 권위의 자연어처리 학회 ACL 2025 인더스트리 트랙에 채택됐다고 밝혔다. 이번 논문은 반복 학습 기반의 정교한 공격 방식으로 상용 AI 에이전트의 보안 취약성을 실증한 연구로 평가받고 있다. SUDO 프레임워크는 AI 시스템의 거절 응답을 우회하는 단계를 구조화한 점이 특징이다. 공격자는 처음에 AI가 위험하다고 판단할 수 있는 지시를 무해하게 바꿔 입력하고, 화면 기반 정보를 바탕으로 실행 절차를 유도한다. 마지막 순간에는 다시 본래의 악성 명령으로 되돌려 AI가 스스로 실행하도록 유도한다. GPT Operator, MANUS, Omniparse, Claude for Computer Use 등 주요 상용 AI를 대상으로 진행된 실험에서 이 프레임워크는 높은 성공률을 보였다. 특히 앤트로픽의 클로드 모델에서는 공격 성공률이 최대 41.33%에 달했다. 이는 전통적인 명령 전달 방식보다 34%포인트, 단순 입력 대비 41%포
누구나 내려받아 학습하고 수정해 연구와 비즈니스에 적용할 수 있어 네이버가 자체 개발한 생성형 AI ‘하이퍼클로바X(HyperCLOVA X)’의 경량 모델을 상업적 용도로도 활용 가능한 오픈소스로 24일 공개한다. 국내 주요 기업 가운데 생성형 AI 모델을 상업 이용 목적으로 무료 공개하는 것은 이번이 처음이다. 네이버클라우드는 이번에 HyperCLOVA X SEED 3B, SEED 1.5B, SEED 0.5B 등 총 3종의 경량 모델을 오픈소스 형태로 배포한다. 누구나 내려받아 학습하고 수정해 연구와 비즈니스에 적용할 수 있다. 특히 기존에는 연구 용도로만 제한된 사례가 많았던 반면, 이번 공개 모델은 상업적 라이선스까지 지원돼 비용 부담으로 AI 도입을 망설였던 중소기업과 스타트업에 실질적인 기회를 제공할 전망이다. 공개된 모델 중 ‘SEED 3B’는 텍스트뿐 아니라 이미지와 영상까지 이해할 수 있는 시각언어모델로, 도표 해석, 사진 설명, 개체 인식 등 복합적인 작업 수행이 가능하다. 특히 한국어와 한국 문화 관련 시각 정보를 이해하는 벤치마크 9개에서 동급 미국, 중국 모델보다 높은 성능을 기록했고, 일부 대규모 외산 모델과도 유사한 결과를 보였다.
11월부터 시작하는 ‘국가 AI 컴퓨팅 센터’에 GPU 1만장 규모 도입 계획 밝혀 정부가 국내 AI 생태계의 글로벌 경쟁력을 끌어올리기 위해 총 1조8000억 원 규모의 추가경정예산을 투입한다. AI 컴퓨팅 자원 확보를 최우선 과제로 삼고, 이를 바탕으로 국가대표 AI 모델을 개발할 유망 기업을 선정해 집중 지원하는 전략이다. 과학기술정보통신부(이하 과기정통부)는 18일 임시국무회의를 통해 심의된 AI 추경 예산 가운데 약 1조4600억 원을 활용해 오는 11월부터 서비스를 시작하는 ‘국가 AI 컴퓨팅 센터’에 GPU 1만장 규모를 도입할 계획이라고 밝혔다. 이번 GPU 도입은 엔비디아의 H200과 블랙웰을 기준으로 추산됐으며, 참여 기업이 국내 여건과 비용 효율성을 고려해 최종 모델을 선택하게 된다. 센터 개소 전에는 민간 클라우드 기업들이 보유한 GPU 2600장을 AI 기업이 빌려 쓸 수 있도록 예산 1723억 원이 배정됐다. 특히 이 중 2000장은 차세대 대표 AI 모델을 개발할 ‘월드 베스트 거대언어모델(WBL)’ 프로젝트에 참여할 최대 5개 팀에 우선 지원된다. WBL 프로젝트에는 GPU 외에도 텍스트 및 멀티모달 데이터, 국내외 최고 수준의
산업 맞춤형 소형언어모델에 집중해 문서 중심 업무 자동화 추진 업스테이지 김성훈 대표가 "2025년은 AI가 거의 모든 영역에서 인간을 넘어서는 해가 될 것이다. 이에 우리는 고성능의 엔진을 기반으로 '일의 미래'를 만들어가는 데 집중하겠다"고 밝혔다. 업스테이지가 16일인 오늘 서울 여의도 콘래드 호텔에서 개최한 미디어 데이를 열고, 산업 전반의 업무 자동화 혁신과 글로벌 확장을 향한 전략을 밝혔다. 이날 업스테이지는 문서 기반의 AI 기술력과 산업 특화 소형언어모델(SLM) 경쟁력을 바탕으로 ‘일의 미래(Future of Work)’를 앞당기겠다는 청사진을 제시했다. 이를 위해 김성훈 대표, 이활석 CTO 등 주요 임원진이 참석했다. 김성훈 대표는 발표에서 “AI 기술이 비약적으로 발전하고 있음에도 불구하고, 여전히 많은 업무가 사람 손을 거쳐 이뤄지고 있다”며 “경제활동인구의 업무 생산성이 단 1%만 향상돼도 연간 14조 원의 경제적 효과를 거둘 수 있다”고 강조했다. 이어 그는 AI가 단순한 도구가 아니라 산업 전체의 업무 구조를 혁신할 핵심 인프라임을 언급했다. 업스테이지는 그간 독자 개발한 문서 처리 AI ‘다큐먼트 파스(DP)’와 한국어에 최적화
영상 인텔리전스 분야에서의 독보적 위치 각인시킨 사례로 남아 트웰브랩스가 아마존웹서비스(AWS)의 완전 관리형 AI 서비스 ‘아마존 베드록(Amazon Bedrock)’에 영상이해 AI 모델을 공식 공급한다. 글로벌 주요 AI 기업들과 어깨를 나란히 하며, 한국 기술의 저력을 전 세계에 각인시켰다. 트웰브랩스가 제공하는 모델은 멀티모달 AI 기반의 ‘마렝고(Marengo)’와 ‘페가수스(Pegasus)’로, 베드록에 탑재된 첫 번째 영상이해 특화 AI다. 아마존의 자체 모델인 Nova를 제외하면 유일한 영상 관련 모델로 선정되며, 영상 인텔리전스 분야에서의 독보적 위치를 다시 한 번 확인시켰다. 아마존 베드록은 고성능 AI 파운데이션 모델을 단일 API로 통합해 제공하는 AWS의 전략적 서비스다. 트웰브랩스를 비롯해 Meta, Anthropic, Mistral AI, DeepSeek, Stability AI 등이 참여하고 있다. 이 가운데 트웰브랩스는 한국 기업 최초로 모델을 탑재한 사례로 기록되며, 글로벌 AI 산업에서의 입지를 본격 확장하게 됐다. 트웰브랩스의 모델은 영상 내 객체, 동작, 배경 소리 등 다양한 요소를 자연어로 검색하고 이해할 수 있는 기
패러닷이 구글 딥마인드의 최신 영상 생성 모델 ‘Veo 2’를 정식 도입하고, 국내 기업 중 처음으로 서비스에 적용했다. Veo 2는 고도화된 물리 기반 이해와 정밀한 프롬프트 처리 능력을 바탕으로, 보다 사실적이고 자연스러운 고품질 영상을 생성하는 차세대 모델로 주목받고 있다. Veo 2는 기존 AI 영상 생성 모델과 비교해 인물 동작, 공간 구성, 카메라 움직임 등에서 탁월한 표현력을 갖춘 것이 특징이다. 다양한 렌즈 효과와 영화적 기법도 자연스럽게 반영할 수 있어, 크리에이터의 창의성을 영상에 그대로 녹여낼 수 있는 점이 강점이다. 사용자의 프롬프트를 충실하게 반영하는 응답 성능 또한 향상돼 정교한 영상 콘텐츠 제작이 가능해졌다. 캐럿은 구글의 정식 승인을 받아 현재 Veo 2를 클로즈드 베타 형태로 일부 기업 고객에게 우선 제공하고 있다. 현재는 5초 길이의 720p 해상도 영상 생성이 가능하며, 향후 4K 화질과 최대 2분 길이까지 확장할 계획이다. Veo 2 도입을 기념해 오는 7일까지 해당 기능에 대해 30% 할인 프로모션도 진행 중이다. 장진욱 패러닷 대표는 “캐럿이 국내 대표 AI 영상 플랫폼으로서 글로벌 최고 수준의 모델을 빠르게 탑재할 수
알리바바 클라우드가 새로운 엔드투엔드 멀티모달 AI 모델 ‘Qwen2.5-Omni-7B’를 공개했다. Qwen2.5-Omni-7B는 텍스트, 이미지, 음성, 영상 등 다양한 입력 정보를 실시간으로 처리하며, 자연스러운 텍스트 응답과 음성 출력을 동시에 지원하는 이 모델은 모바일 기기와 노트북 등 엣지 디바이스에 최적화된 멀티모달 AI의 새로운 기준을 제시한다. 이번에 공개된 Qwen2.5-Omni-7B는 70억 개 파라미터 규모의 컴팩트한 구조에도 불구하고, 고성능 멀티모달 처리 능력을 제공한다. 실시간 음성 상호작용, 음성 기반 명령 수행, 시청각 데이터 통합 해석 등에서 우수한 성능을 발휘하며, 시각 장애인을 위한 실시간 음성 안내, 동영상 기반 요리 가이드, 지능형 고객 응대 시스템 등 다양한 실용적 활용이 가능하다. 알리바바 클라우드는 해당 모델을 허깅페이스(Hugging Face), 깃허브(GitHub), 모델스코프(ModelScope) 등 주요 오픈소스 플랫폼을 통해 공개했으며, 자사의 멀티모달 챗봇 서비스 ‘큐원 챗(Qwen Chat)’에서도 활용할 수 있도록 했다. 알리바바 클라우드는 현재까지 총 200개 이상의 생성형 AI 모델을 오픈소스로
챗GPT 내에서 다양한 형태의 비주얼 콘텐츠 제작 가능해져 오픈AI가 최근 공개한 새로운 이미지 생성 인공지능(AI) 기능이 출시 직후부터 폭발적인 인기를 끌며 서버 과부하를 일으켰다. 샘 올트먼 오픈AI CEO는 27일(현지시간) 자신의 SNS 계정을 통해 “이미지 모델을 사람들이 이렇게 좋아하는 걸 보니 기쁘다”면서, “GPU가 녹아내릴 정도로 사용량이 급증해 일시적으로 사용을 제한할 수밖에 없다”고 밝혔다. 이번에 공개된 ‘챗GPT-4o 이미지 생성’ 기능은 오픈AI의 멀티모달 모델 GPT-4o에 이미지 생성 기능을 통합한 최초의 모델이다. 사용자는 복잡한 프롬프트를 일일이 작성하지 않아도, 의도만 전달하면 AI가 이를 해석해 이미지를 생성해 준다. 단순한 그림부터 다이어그램, 인포그래픽, 로고, 명함, 카툰, 반려동물 일러스트, 프로필 사진 편집까지 다양한 형태의 비주얼 콘텐츠 제작이 가능하다. 특히 새롭게 개선된 기능 중 주목할 만한 부분은 텍스트 인식과 배치 정확도다. 예를 들어 ‘여러 종류의 고래를 보여주는 포스터를 만들어 달라’는 요청을 하면, 고래의 모습과 종류 이름을 정확히 매칭해 시각적으로 구성할 수 있다. 이는 기존 이미지 생성 모델이
개선된 성능과 비용 효율성 갖춰...교차 리전 추론으로 지연시간 최소화 아마존웹서비스(AWS)가 차세대 생성형 AI 기반 파운데이션 모델(FM)인 '아마존 노바(Amazon Nova)'를 아시아태평양 및 유럽연합(EU) 지역에 출시했다고 7일 밝혔다. 이번 출시를 통해 서울, 도쿄, 뭄바이, 싱가포르, 시드니 등 아태 지역과 스톡홀름, 프랑크푸르트, 파리 등 유럽 주요 리전에서 해당 모델을 이용할 수 있게 됐다. 아마존 노바는 AWS가 자체 개발한 최첨단 AI 모델로, 개선된 성능과 비용 효율성을 갖춘 것이 특징이다. 특히 이번 모델은 여러 리전에 걸쳐 사용자의 요청을 자동으로 라우팅하는 ‘교차 리전 추론(Cross-Region Inference)’을 지원하며, 이를 통해 지연시간을 최소화하고 불필요한 비용 발생을 방지했다. 이번에 출시된 아마존 노바 모델은 총 세 가지다. 텍스트 전용의 초저비용 모델 '노바 마이크로(Nova Micro)', 이미지와 비디오를 포함한 멀티모달 입력을 처리하는 경제적인 모델 '노바 라이트(Nova Lite)', 그리고 다양한 업무에서 높은 정확성과 속도를 제공하는 고성능 모델 '노바 프로(Nova Pro)'다. 세 가지 모델