최근 빅테크는 단순한 텍스트 기반 AI에서 한 걸음 나아가 사용자의 다양한 요구를 만족시키기 위해 음성과 영상을 포함하는 멀티모달 AI 개발에 박차를 가하고 있다. 이러한 기술 진화는 텍스트에서 멀티미디어로 정보를 처리하는 방식의 전환을 의미하며, 사용자 인터페이스와 디지털 커뮤니케이션의 패러다임을 재정립하고 있다. 멀티모달 AI의 발전은 기계가 인간의 다양한 커뮤니케이션 방식을 이해하는 능력을 한층 향상시키고 있다. 멀티모달 기술로 혁신하는 커뮤니케이션 멀티모달 AI는 텍스트를 포함해 음성, 이미지, 비디오 등 다양한 유형의 정보 입력을 통합해 처리하고, 이를 바탕으로 정교한 출력을 제공하는 AI 기술이다. 이 기술은 각기 다른 데이터 소스에서 정보를 수집하고 해석함으로써 사용자에게 자연스러운 상호작용을 가능하게 하며, 다양한 상황에 맞는 응답을 생성한다. 현대인은 디지털 컨텐츠 소비의 변화와 사용자 경험의 향상을 추구한다. 이 과정에서 자연스러운 커뮤니케이션을 원한다는 특징이 있다. 한 예로, 음성인식 기능은 이제 일상생활에서 어렵지 않게 찾아볼 수 있다. 이러한 수요에 부응해 빅테크 기업들은 AI의 음성 인식 및 처리 능력을 강화하는 추세다. 또한, 비
월간 활성 이용자 1억7500명 달성...현재까지 논의된 주제 5000만 가지 이상 인스타그램의 텍스트 기반 소셜 플랫폼 스레드가 앱 출시 1주년을 맞아 그간의 주요 기록을 담은 인포그래픽을 공개했다. 스레드는 누구나 자유롭게 자신의 생각과 관심사를 표현할 수 있는 공간으로 거듭나겠다는 비전 아래 인스타그램이 작년 7월 출시한 텍스트 기반의 소셜미디어 서비스다. 인스타그램 계정을 사용해 로그인한 후, 최대 500자 길이의 텍스트와 링크, 사진, 동영상, 오디오 등 게시물을 통해 전 세계 사람들과 소통할 수 있다. 지난 1년간 스레드는 다채로운 대화와 실시간 소식 공유의 장으로 자리매김했다. 현재 스레드에서는 1억7500명의 월간 활성 이용자가 일상과 생각을 활발하게 나누고 있다. 스레드는 인스타그램의 해시태그처럼 게시물에 주제를 태그할 수 있는데, 지금까지 스레드에서 논의된 주제만 5000만 가지 이상인 것으로 집계됐다. 또한, 텍스트 기반의 SNS인 만큼 오늘날 전체 스레드 게시물의 63% 이상은 이미지 없이 텍스트로만 작성된 것으로 나타났다. 국내의 경우 전체 게시물의 25%가 이미지를 포함해 시각적 요소를 중시하는 한국 이용자들의 특성을 확인할 수 있었
부적절한 콘텐츠 제재 자동화함으로써 사용자 안전 개선할 수 있어 지코어는 오디오, 텍스트 및 사용자 제작 동영상 콘텐츠를 실시간으로 탐지하고 관리하도록 돕는 ‘지코어 AI 콘텐츠 모더레이션 솔루션’을 출시했다. 이를 통해 온라인 서비스 제공업체는 인공지능(AI) 또는 머신러닝(ML) 경험이 없이도 부적절한 콘텐츠에 대한 제재를 자동화함으로써 사용자 안전을 개선하고 EU의 디지털 서비스법이나 영국의 온라인 안전법안 등과 같은 국가별 규정을 준수할 수 있다. 짧은 댓글에서부터 롱폼 동영상에 이르기까지, 어린이가 접근할 수 있는 콘텐츠를 호스팅하는 모든 플랫폼은 사용자가 생성하는 콘텐츠를 모더레이션(탐지/관리)해 폭력적이거나 불법적이고, 연령에 부적절한 콘텐츠로부터 시청자를 보호할 수 있어야 한다. 사용자를 유해한 콘텐츠에 노출시킨 기업에는 명예 훼손, 법적 조사, 서비스 정지, 운영 금지, 벌금 등이 부과될 수 있다. 하지만 사용자 제작 동영상 콘텐츠의 기하급수적 증가로 사람이 유해하고 불법적인 콘텐츠를 직접 식별해 내기는 어렵다. 모더레이터가 따라가지 못 할만큼의 많은 양으로 과부하가 걸리거나, 비용이 과도하게 발생하거나, 비효율적인 운영으로 인해 위반사항을
이용자와 실시간 음성 대화를 진행함으로써 질문 및 답변 요청할 수 있어 오픈AI가 13일(현지시간) 보고 듣고 말하는 새로운 AI 모델을 공개했다. 오픈AI의 미라 무라티 최고기술책임자(CTO)는 이날 라이브 행사를 통해 'GPT-4o(GPT-포오)'라는 이름의 이 새 AI 모델을 공개하고, 시연을 선보였다. GPT-4o는 주로 텍스트를 통해 대화할 수 있었던 기존 모델과 달리 이용자와 실시간 음성 대화를 통해 질문하고 답변을 요청할 수 있는 AI 모델이다. 새 모델의 'o'는 모든 것이라는 '옴니(omni)'를 뜻한다. 이 모델은 텍스트는 물론, 청각과 시각으로도 추론하고 이를 말하는 한층 똑똑해진 음성 어시스턴트다. 특히, 이용자 질문에 곧바로 답이 제공된다. GPT-4o의 응답 시간은 최소 232밀리초, 평균 320밀리초로, 이는 인간의 응답시간과 비슷하다고 오픈AI는 설명했다. 이전 모델인 GPT-3.5는 평균 2.8초, GPT-4가 응답에 5.4초가 걸렸다. GPT-4o는 사람처럼 대화가 가능하고, 답 제공 중에 끼어들어도 대화는 계속 이어진다. 이날 시연에서 휴대전화로 '내가 좀 긴장한 상태인데 어떻게 진정할 수 있을까'라고 묻자, '숨을 깊이 들
문의 65%가 문서 AI 기술 관련 내용..전년 대비 2배 이상 증가 이파피루스가 AI 특화 문서 데이터 추출 기술을 앞세워 시장 확대를 위한 전략을 밝혔다. 이파피루스는 올해 1분기 글로벌 고객 문의 중 65%가 문서 AI 기술에 관련된 내용으로, 전년 동기 대비 2배 이상 증가했다고 발표했다. 특히 지난 연말 오픈AI의 ‘챗GPT’에 학습 및 문서 처리 서비스를 위한 PDF 기술을 공급하면서 오픈AI의 기업 고객까지 해당 기술을 사용하게 되는 등 AI 업계에서의 영향력을 한층 강화했다. 이파피루스 김정희 대표는 “텍스트 데이터를 AI가 이해하는 형태로 추출하는 기술은 대규모언어모델(LLM)이나 RAG(Retrieval Augmented Generation)와 같은 자연어 처리 모델의 훈련 및 활용에 필수적”이라며 “과거엔 텍스트 추출 기술이 소수의 LLM 훈련 기업에만 수요가 있었다면 최근엔 LLM을 직접 활용하고자 하는 일반 기업까지 시장이 크게 확대됐다. 이에 LLM 학습을 위한 텍스트 추출 기술 수요도 함께 증가했다”고 전했다. LLM에 대한 수요 증가는 LLM과 RAG의 결합으로 이뤄졌다. LLM을 활용한 AI 솔루션은 그럴듯한 오류나 거짓말을 결
지속적인 업데이트로 현재 총 239명 AI 음성 서비스하고 있어 코난테크놀로지의 인공지능 성우 ‘코난보이스’가 3D캐릭터를 활용한 콘텐츠 수요증가에 따라 서비스 업데이트를 단행했다. 22년 론칭된 코난보이스는 간편하게 사용할 수 있는 AI 3D 콘텐츠 제작 서비스로, 음성합성에서 출발해 현재는 영상 콘텐츠까지 원스톱 제작 가능하다. 경쟁사 대비 33배 빠른 속도 및 고품질의 음성이 특징이며 지속적인 업데이트를 통해 현재 총 239명의 AI 음성을 서비스하고 있다. 특히 TTS(Text to Speech) 서비스 중 최초로 3D캐릭터 자동제작 기능을 선보였다. 스크립트만 입력하면 AI 캐릭터가 입 모양을 맞춰 자동으로 더빙해주며, 본인이 원하는 3D 캐릭터까지 개인화해 각종 교육 콘텐츠를 손쉽게 만들어낸다. 코난보이스는 이번 개편을 통해 연간 요금제를 정식 출시하고, 커스터마이징 배경화면 제작기능을 새롭게 내놓았다. 연간 요금제는 기존 월간 요금제 대비 최대 30%까지 할인된 금액으로 서비스가 제공된다. 또한, 사용자가 원하는 영상, 이미지, PPT 등을 업로드하면 즉시 배경화면으로 반영된다. 교육 콘텐츠 제작을 위해 PPT 강의자료를 삽입할 경우, 대본은 자
현지 시장에 맞게 해당 국가의 문화적 뉘앙스를 반영해 번안하는 '현지화'가 중요 딥엘이 글로벌 기업 마케터를 대상으로 한 AI 번역 설문조사 결과를 발표했다. 이번 설문조사는 미국 리서치 회사 레지나 코르소 컨설팅에 의뢰해 진행한 것으로, 미국, 일본, 독일, 프랑스 내 임직원 수 100명 이상의 글로벌 기업 임원급 마케터를 대상으로 글로벌 비즈니스의 AI 번역기 효과를 확인하기 위해 진행됐다. 이번 설문조사는 번역과 현지화에 초점을 뒀다. 번역이 원본 텍스트의 의미를 보존해 한 언어에서 다른 언어로 변환하는 작업이라면, 현지화는 현지 시장에 맞게 해당 국가의 문화적 뉘앙스를 반영해 번안한다. 딥엘은 번역과 현지화 작업이 비즈니스 성과에 미치는 영향, 마케팅 팀의 AI 번역기 및 AI 기반 작문 툴 활용 방식, AI 번역기 사용 시 겪는 어려움 등을 확인하기 위해 설문조사를 진행했다. 조사 결과, 많은 기업이 AI 툴을 활용하며, AI 툴이 기업의 ROI에 긍정적인 영향을 주는 것으로 확인됐다. 설문조사에 응한 마케터의 77%는 AI 기반 작문 툴을 활용한다고 답변했으며, 응답자의 98%가 구체적으로 기계 번역을 이용한다고 답변했다. 응답자의 96%가 현지화
텍스트·이미지 읽는 생성형 AI 시스템 개발에 초점 맞춰 인텔이 외부 투자를 받아 생성형 인공지능(AI) 회사를 분사하기로 했다고 로이터통신이 3일(현지시간) 보도했다. '아티큘레이트 AI(Articul8 AI)'라는 사명의 신설 법인에는 글로벌 투자회사 디지털브릿지 등이 투자자로 참여한다. 인텔은 이 회사의 상장은 계획하고 있지 않다. 아티큘레이트 AI는 기업 고객에 최적화한 안전한 생성형 AI 소프트웨어 플랫폼을 개발하며, 인텔이 보스턴컨설팅그룹과 진행한 기업용 AI 기술을 모태로 하고 있다. 인텔은 당시 자사 슈퍼컴퓨터를 이용, 오픈소스와 내부 기술을 조합해 텍스트와 이미지를 읽을 수 있는 생성형 AI 시스템을 개발했다. 이후 개인 정보 보호 및 보안 문제를 해결할 수 있게끔 보스턴컨설팅그룹 자체 데이터 센터 내에서 실행될 수 있도록 시스템을 수정했다. 아룬 수브라마니안 전 인텔 부회장이 CEO로 내정됐다. 헬로티 서재창 기자 |
1000억 개 이상 매개변수와 2조 개 이상 토큰 사전 학습 능력 갖춰 텐센트가 지난 7일 중국 선전에서 개최된 연례 컨퍼런스 ‘글로벌 디지털 에코시스템 서밋’에서 자체 개발한 초거대 AI 모델 '훈위안(Hunyuan)'을 공개했다. 중국 기업들은 이제 텐센트의 클라우드 플랫폼을 통해 훈위안에 접속하며, 기업의 특정 니즈에 맞춰 세밀하게 조정해 사용한다. 훈위안은 1000억 개 이상의 매개변수와 2조 개 이상의 토큰 사전 학습 능력을 갖췄으며, 우수한 중국어 처리 능력과 고급 논리 추론 기능에 더불어 안정적인 작업 실행 능력을 보유하고 있다. 이 AI 모델은 이미지 생성, 텍스트 인식, 카피라이팅, 고객 서비스 등 다양한 기능을 지원해 금융, 공공 서비스, 소셜 미디어, 전자 상거래, 물류 운송, 게임 등의 주요 산업에서 중요한 역할을 할 것으로 기대되고 있다. 기업은 지난 6월 첫 출시된 텐센트의 서비스형 모델(MaaS)을 기반으로 자체 고유의 거대 모델을 훈련하는 것에서 나아가 자체 비즈니스를 위한 강력한 맞춤형 AI 도구를 구축하게 됐다. 현재 텐센트의 MaaS는 20개의 주요 산업군에 걸쳐 총 50개 이상의 솔루션이 포함된 거대 AI 모델을 기업에 제
美 저작권법, 유명인 권리 보호에 집중된 반면 개인 목소리가 복제되는 경우는 도외시 텍스트, 이미지, 음성을 넘나드는 생성형 인공지능(AI)의 발달이 목소리가 무기인 성우의 활동 영역까지 위협하고 있다. 24일(현지시간) 미국 일간 워싱턴포스트(WP)에 따르면, 아일랜드 성우 레미 미셸 클라크는 올해 1월 한 문자-음성 변환 웹사이트에서 '올리비아'라는 가상의 인물이 자신과 똑같은 말씨와 목소리를 내는 걸 발견했다. 이 웹사이트는 올리비아가 오디오북에 최적화한 깊고 차분한 목소리를 갖고 있다고 홍보하고 있었다. 올리비아의 목소리를 직접 들어 본 클라크는 WP에 "당신의 목소리가 바뀌고 조작된 것을 보는 건 너무 기괴한 일"이라고 불쾌감을 드러냈다. 생성형 AI 프로그램이 섬뜩할 정도의 정확도로 사람의 목소리를 구현해내면서, 오디오북이나 비디오 게임, 광고에 등장하는 이름 없는 성우들의 일자리가 위협받고 있다. 목소리는 알려졌지만, 그에 대한 권한을 행사할 만큼 힘이 없기 때문이다. WP는 AI가 만들어내는 음성, 텍스트 등은 저작권 조항에서 다뤄진 적이 없어 성우들이 법적 보호를 받기도 어렵다고 지적했다. 회사와 성우 간 계약 체결 시 사측이 성우의 목소리를
헬로티 함수미 기자 | 셀바스 AI는 인공지능 조서, 상담록 작성 솔루션 '셀비 노트(Selvy Note)'의 공공시장 확대 적용이 기대된다고 밝혔다. 셀비 노트의 전국 경찰청 적용 확대에 이어, 정부가 지자체 아동학대전담 공무원의 실제 업무부담이 줄어들 수 있도록 녹취록(AI 회의록) 작성 장비를 시군구에 지원하겠다고 발표함에 따라 셀바스 AI의 공공시장 진입을 가속화할 계획이다. ‘셀비 노트’는 조사, 상담 내용을 정확하게 인식해 조서 및 상담록을 작성해 주는 솔루션이다. 화자(피해자와 조사관)를 분리해 실시간으로 문서화하고, 진술에 따라 관련 매뉴얼 및 화자간 대화에서 키워드를 추출해 수사 지원 컨텐츠 등을 통해 조사를 지원하는 'AI 수사가이드'가 탑재되어 있어 조서 작성 업무 부담을 최소화해주는 솔루션으로 호평받고 있다. 특히 조서 및 상담록을 실시간 작성 가능할 뿐 아니라 조사, 상담 내용 녹음 후 필요할 때 비실시간 작성도 가능하다. 한 장소가 아닌 여러 장소에서 조사 및 상담이 가능하도록 이동형 기능도 지원한다. 최근 아동학대, 군 내부 성피해 등 범죄 사례가 지속적으로 증가하고 있다. 다만 범죄 증가율 대비 담당 인력은 이를 따라가지 못하는