AI가 그리는 미래, 멀티모달 기술이 바꿀 산업 지형은?

URL복사

멀티모달 AI의 발전은 기계가 인간의 다양한 커뮤니케이션 방식을 이해하는 능력을 한층 향상시키고 있다. (출처 : 게티이미지뱅크)

최근 빅테크는 단순한 텍스트 기반 AI에서 한 걸음 나아가 사용자의 다양한 요구를 만족시키기 위해 음성과 영상을 포함하는 멀티모달 AI 개발에 박차를 가하고 있다. 이러한 기술 진화는 텍스트에서 멀티미디어로 정보를 처리하는 방식의 전환을 의미하며, 사용자 인터페이스와 디지털 커뮤니케이션의 패러다임을 재정립하고 있다. 멀티모달 AI의 발전은 기계가 인간의 다양한 커뮤니케이션 방식을 이해하는 능력을 한층 향상시키고 있다.

멀티모달 기술로 혁신하는 커뮤니케이션

멀티모달 AI는 텍스트를 포함해 음성, 이미지, 비디오 등 다양한 유형의 정보 입력을 통합해 처리하고, 이를 바탕으로 정교한 출력을 제공하는 AI 기술이다.

이 기술은 각기 다른 데이터 소스에서 정보를 수집하고 해석함으로써 사용자에게 자연스러운 상호작용을 가능하게 하며, 다양한 상황에 맞는 응답을 생성한다. 현대인은 디지털 컨텐츠 소비의 변화와 사용자 경험의 향상을 추구한다. 이 과정에서 자연스러운 커뮤니케이션을 원한다는 특징이 있다. 한 예로, 음성인식 기능은 이제 일상생활에서 어렵지 않게 찾아볼 수 있다.

이러한 수요에 부응해 빅테크 기업들은 AI의 음성 인식 및 처리 능력을 강화하는 추세다. 또한, 비디오 컨텐츠의 소비가 증가함에 따라 영상 생성 및 편집 기능도 AI의 주요 개발 영역으로 부상하고 있다. 멀티모달 AI의 발전은 다양한 산업에 걸쳐 혁신을 가져올 것으로 예상된다.

한 예로, 교육 분야에서는 맞춤형 학습 자료 생성을, 의료 분야에서는 정밀한 진단 지원 시스템이 가능해질 것으로 보인다. 자동차 산업에서는 운전자와 차량 간의 상호작용을 강화하는 데 초점을 맞추고 있다. 멀티모달 기술은 향후 몇 년 간 주요 기술 트렌드로 자리 잡을 것으로 보인다. 사용자 경험을 혁신하고, 새로운 형태의 디지털 상호작용을 가능하게 하는 이 기술은 사용자에게 새로운 가능성을 제시할 것으로 예상된다.

어도비, 영상 생성 AI 모델 발표

어도비가 동영상 생성 AI 모델을 공개했다. 어도비는 연례 제품 콘퍼런스 ‘어도비 맥스 2024’에서 동영상 생성 AI ‘파이어플라이 비디오(Firefly Video)’의 테스트 버전을 출시한다고 밝혔다. 파이어플라이 비디오는 텍스트나 이미지를 이용해 영상을 생성하는 AI 모델이다. 영상 편집은 물론, 영상 편집 프로그램인 어도비의 ‘프리미어 프로(Premiere Pro)’에 통합돼 생성형 확장 기능으로 영상을 추가할 수 있다.

예를 들어 중간에 영상 촬영분이 빠졌거나, 뒷부분이 부족한 경우 AI가 앞뒤를 연결하며 동영상을 생성한다. 어도비는 “이 AI는 라이선스가 있는 콘텐츠를 이용하기에 상업적으로 사용하기에 안전하다. 어린이나 공인이 등장하는 동영상은 제작하지 않는다”고 설명했다.

음성 대화·시각 인식 기능 추가한 MS

마이크로소프트(MS)가 자사의 제품에 탑재한 AI 서비스 ‘코파일럿’에 음성 대화와 시각 인식 기능 등을 추가했다. 추가된 기능 중 하나인 ‘코파일럿 보이스’ 기능은 사용자가 여러 아이디어를 진전시키는 브레인스토밍 과정에서 문답하거나 힘든 하루를 마무리하며 속내를 털어놓는 대화도 가능하다. 네 가지 음성 옵션 중에서 이용자가 원하는 음성을 선택할 수 있다.

‘코파일럿 비전’은 사용자가 제시한 웹페이지의 텍스트나 사진 이미지를 놓고 AI와 실시간으로 대화할 수 있는 기능이다. MS는 특히 코파일럿 비전 기능을 출시하며 안전과 보안을 최우선으로 고려했다고 강조했다. 이 기능은 옵트-인 방식으로, 이용자가 원할 경우에만 제공되며 이 기능을 통해 처리된 콘텐츠는 저장되거나 AI 학습에 사용되지 않고 해당 기능 이용이 종료되는 순간 데이터가 영구적으로 폐기된다.

구글 ‘영상 내용도 검색 가능해진다’

구글은 동영상 속 내용을 음성으로 물어보고 답을 구할 수 있는 새로운 기능을 출시한다고 밝혔다. 기존 검색은 텍스트를 입력하거나 정지된 이미지 속 내용에 대해서만 검색이 가능했다. 이번에는 동영상 속 내용도 검색이 가능하게 업그레이드됐다.

새 기능은 이미지로 검색이 되지 않을 때 동영상을 촬영해 음성으로 질문할 수 있다. 구글의 AI 기반 서비스인 ‘구글 렌즈’를 통해 촬영하면 동영상 내용과 질문을 기반으로 검색 결과가 제공된다. 리즈 리드 구글 검색 책임자는 수족관을 예로 들며 “물고기 무리가 왜 일제히 헤엄치는지 알아보고 싶을 수도 있다”며 “이제 인터넷으로 물고기를 검색하고 질문을 작성할 필요가 없다”고 설명했다.

메타, 동영상 생성 AI 선보여

메타는 동영상 생성 AI 모델 ‘무비 젠(Movie Gen)’을 공개했다. 무비 젠은 텍스트 입력으로 최대 16초 길이의 새 동영상을 만들 수 있는 AI 모델이다. 기존 동영상을 편집하고 오디오를 생성하며, 사진을 사용해 실제 인물이 등장하는 맞춤형 동영상도 만들 수 있다. 메타는 하마가 물속에서 헤엄치고, 코알라가 서핑을 즐기고, 남극의 펭귄이 옷을 갈아입는 등 무비 젠을 이용한 만든 동영상도 공개했다.

메타는 “무비 젠은 간단한 텍스트 입력으로 맞춤형 동영상과 소리를 제작하고, 기존 동영상을 편집하고, 개인 이미지를 독특한 동영상으로 변환하는 방법을 보여준다"고 설명했다. 무비 젠은 일부 내부 직원과 일부 영화 제작자를 포함한 소수의 외부 파트너에게만 우선 제공된다. 메타는 내년에 인스타그램과 왓츠앱, 메신저 등 자사의 소셜미디어 앱에 탑재할 계획이다.

음성대화 위한 개발 툴 공개한 오픈AI

오픈AI는 개발자가 AI 모델을 기반으로 앱에서 음성 대화 서비스를 만들 때 이용할 수 있는 도구인 실시간 API와 대화 완성 API를 공개한다고 밝혔다. 오픈AI는 이 도구를 이용하면 개발자가 여러 모델을 조합하는 과정을 거칠 필요 없이 단 한 번의 API 조작으로 자연스러운 대화 환경을 구축한다고 설명했다. 회사 측은 이번에 공개한 도구들이 고객 지원 상담이나 언어 학습 보조 기능 등을 강화하는 데 쓰일 수 있다고 소개했다.

오픈AI는 개발자가 AI 생성 이미지나 텍스트를 개선하도록 해주는 도구인 미세조정 API도 선보였다. 이 도구는 향상된 시각 검색과 물체 감지 등의 기능으로 대상 이미지를 잘 이해하는 능력을 제공해 차량 자율주행 분야에서도 쓰일 수 있을 것으로 전망된다. 또한, 대규모 AI 모델을 이용해 상대적으로 작은 모델을 학습시킬 수 있게 하고 이전에 처리한 텍스트 AI 정보를 재사용하게 해주는 프롬프트 캐싱 기능도 공개했다.

헬로티 서재창 기자 |

[인더스트리 솔루션 인사이트] AW 2026 주목할 베스트 솔루션 (2편)

제36회 스마트공장·자동화산업전(AW 2026)은 제조 인공지능 전환(AX) 시대를 관통하는 산업·공장 자동화(FA) 및 스마트 팩토리(Smart Factory) 기술의 현재와 미래를 집약적으로 보여주는 아시아 최대 산업자동화 전시회다. 내년 전시 현장에서는 제조 경쟁력을 좌우할 솔루션이 등판했고, 이를 기반으로 한 전시회는 각종 산업의 전략이 교차하는 바로미터 역할을 해왔다. 그동안 AW에서 소개된 수많은 기술과 제품은 국내 제조기업의 체질을 강화하고 글로벌 시장에서 차별화된 경쟁력을 확보하는 토대가 됐다. 이번 특집에서는 내년 3월 열리는 AW 2026에 참가한 기업들 가운데, 제조 AX 시대를 이끌 주목할 만한 제품과 솔루션을 조명한다. [특집] AW 2026 주목할 베스트 솔루션 (2편) [스마트 물류] 공장은 이미 자동화됐다, 문제는 ‘물류의 뇌’ [스마트 제조 SW] 데이터 끊김 없는 공장…“ERP·MES 유기적 결합이 지능형 공장 이끌어” [로보틱스] 중국서 검증된 로봇 하드웨어 파워, 국내 로봇 제조 시장의 ‘메기 효과’ 될까 [스마트 물류] 바퀴 달린 모든 것을 AMR로…업계가 ‘맞춤형 자율주행’에 주목하는 이유 [제조 AI] 제조 AI 성공

애로우, 공기열원 히트펌프로 보는 차세대 HVAC 설계 전략

애로우 일렉트로닉스(이하 애로우)가 공기열원 히트펌프(ASHP)를 탈탄소화와 에너지 효율 향상을 동시에 실현하는 차세대 HVAC 시스템의 핵심 대안으로 제시했다. 애로우는 ASHP를 단순한 냉난방 설비가 아닌 규제 대응, 지속가능성 전략, 시장 차별화를 함께 충족하는 확장 가능한 플랫폼으로 정의하며 주거용부터 상업용까지 폭넓은 적용 가능성을 강조한다. ASHP 확산 과정에서는 투자 대비 효과, 확장성, 지속가능성이라는 비즈니스 요구와 함께 극한 환경에서도 유지되는 신뢰성, 안정적인 제어와 통신, 에너지·환경 규제 준수라는 기술적 과제가 동시에 제기된다. 애로우는 이러한 복합 요구를 개별 기술 단위가 아닌 시스템 수준에서 통합적으로 설계해야 한다는 점을 핵심 전제로 제시한다. 특히 미국 혁신 및 제조법(AIM 법)에 따른 냉매 규제 변화는 HVAC 설계 전반의 구조적 전환을 촉발하고 있다. 2025년 이후 고(高) 지구온난화지수(GWP) 냉매 사용이 제한되면서 R-32, R-454B 등 저GWP 냉매로의 전환이 요구되고 있으며 이는 냉매 교체를 넘어 제어 로직, 센서 구성, 안전 메커니즘, 전력 전자 장치까지 포함한 시스템 아키텍처 전반의 재설계를 의미한다.

[인더스트리 솔루션 인사이트] 사람을 닮은 기계, 산업을 다시 쓰다

휴머노이드 로봇(Humanoid Robot)은 더 이상 먼 미래의 상상이 아니다. 산업과 사회 전반에서 ‘체화 AI(Embodied AI)’의 결정체로 자리매김하며, 새로운 패러다임 전환을 예고하고 있다. 이번 특집은 휴머노이드 혁명이 어떻게 진행되고 있는지, 그리고 왜 지금이 그 변곡점인지를 조망한다. 작은 온디바이스 AI(On-device AI)부터 정밀한 로봇 핸드, 실행 가능한 피지컬 AI(Physical AI)까지. 각 기사는 로봇이 단순한 기계적 존재를 넘어 스스로 판단하고 행동하는 지능형 주체로 진화하는 과정을 담고 있다. 이번 특집을 통해 독자들은 ‘움직이는 인공지능’의 현재와 미래를 입체적으로 이해할 수 있을 것이다. [특집] 사람을 닮은 기계, 산업을 다시 쓰다 [휴머노이드 로봇] 로봇의 다음 폼팩터는 ‘인간형’…현재진행형 ‘휴머노이드 혁명’ [로봇 핸드] 휴머노이드 완성의 열쇠 ‘로봇 핸드’…원익로보틱스, ‘정밀 조작’ 혁신에 힘 싣다 [온디바이스 AI] AI 시대, ‘작지만 똑똑한’ 로봇이 뜬다…이미 예고된 온디바이스 AI 혁명 [로봇 기술적 과제] 중국·미국은 달리고 있다…한국 로봇 기술, AI 접목으로 반격 시동 [피지컬 AI] 실행

[인더스트리 솔루션 인사이트] 비용에서 전략으로...물류 산업의 빅 리셋

물류 산업은 지금 거대한 전환의 한복판에 서 있다. 인공지능(AI)과 각종 플랫폼 기술이 촉발한 혁신은 단순히 배송 속도를 높이는 차원을 넘어, 물류를 첨단 전략 산업으로 재편하고 있다. 이번 특집은 이러한 흐름을 세 가지로 풀어냈다. 첫 번째는 물류가 ‘스마트’에서 ‘AI 물류’로 넘어가는 과정이다. 무인화·자동화·데이터 기반 운영은 이미 현장을 바꾸고 있으며, 글로벌 경쟁력 확보의 핵심이 되고 있다. 두 번째는 ‘화물 추적(Cargo Visibility)’이다. 단순한 위치 확인을 넘어 화물 상태와 리스크까지 실시간으로 관리하는 체계는 물류를 ‘비용’ 산업에서 ‘전략’ 산업으로 끌어올리고 있다. 마지막은 글로벌 무역 격변 속에서 중소 포워더의 생존 전략이다. 대기업과 IT 플랫폼이 주도하는 시장에서 서비스형 소프트웨어(SaaS) 기반 디지털 전환(DX)은 생존의 문제임을 보여준다. 중요한 것은 물류는 이제 국가 경제와 글로벌 경쟁력의 전면에 서 있는 미래 산업이라는 점이다. [특집] 비용에서 전략으로…물류 산업의 빅 리셋 [변화, 혁신 그리고 물류] AI와 플랫폼이 뒤흔드는 물류…혁신 없이는 버티기 힘들다 [Cargo Visibility] 물류가 전략 산

[인더스트리 솔루션 인사이트] 로봇이 다시, 인간을 정의하다...휴머노이드 AI 시대 시작

로봇은 더 이상 공장의 팔과 다리가 아니다. 그것은 인간이 무엇을 하고, 무엇을 하지 않아야 하는지를 다시 묻는 철학적 존재로 진화하고 있다. 산업용 로봇에서 피지컬 AI(Physical AI), 그리고 휴머노이드로 이어지는 변화의 흐름은 단순한 자동화의 진보가 아니다. 그것은 인간의 노동·공간·역할을 재정의하며, 사회 구조 전체를 다시 짜는 ‘문명적 전환’의 서막이다. 이번 특집은 그 전환의 최전선에 선 네 명의 전문가를 통해 로봇의 진짜 미래를 탐구한다. 김진오 한국AI·로봇산업협회장이 제시한 ‘로봇 트랜스포메이션(RX)’은 산업을 설계의 언어로 재해석하며, 류석현 한국기계연구원장이 이끄는 ‘K-휴머노이드’는 인간과 산업의 공진화를 그린다. 글렌 버세스 몬트리올대학교 교수는 데이터 생태계의 격차를, 데니스 홍 캘리포니아 대학교 로스앤젤레스 교수는 인간 중심의 로봇 철학을 말한다. 그들이 던지는 메시지는 하나다. "로봇은 인간을 대체하지 않는다. 인간을 확장한다” [특집] 로봇이 다시, 인간을 정의하다...휴머노이드 AI 시대 시작 [로봇 트랜스포메이션] “RX가 먼저, AX는 그다음”…로봇 트랜스포메이션이 바꾼 산업지도 [K-휴머노이드] “사람을 닮은 로

스포트라이트