무하유가 2년 연속 ‘국회도서관 융복합서비스 데이터셋 구축 사업’의 주관사업자로 선정됐다고 25일 밝혔다. 무하유는 국회도서관에서 제공 중인 AI 의정분석 서비스 ‘아르고스’에 정책 이슈, 통계용어, 뉴스기사·법률명 매핑 데이터셋 등을 구축함으로써 아르고스의 뉴스 분석 서비스를 지원할 예정이다. 구축 데이터셋의 종류는 정책 이슈 모니터링, 뉴스 기사 문맥에 따른 긍·부정 반응, 통계 및 일반용어, 법률 및 이슈 연혁, 표·그림 등이다. 법률에 해당하는 이슈 키워드와 제개정일·의안·회의록·주요 사건 및 인물에 대한 정보는 물론, 통계 표의 제목 및 매칭 키워드 등도 구축할 계획이다. 무하유는 데이터셋 구축 전문 플랫폼인 ‘데이터 팩토리’를 운영하고 있다. 지난 13년간 AI 표절검사 서비스 카피킬러, AI 채용 서비스 프리즘, AI 면접 서비스 몬스터 등을 개발 및 운영하며 구축해 온 노하우가 집약됐다. 실제 AI 기술을 토대로 한 다양한 서비스를 운영해왔기 때문에 데이터 확보를 위해 외주 업체를 활용하지 않고도 고품질 학습 데이터를 꾸준히 쌓으며 기술을 고도화하고 있다. 데이터 팩토리는 법학·문헌정보학·언어학·사회과학 등 인문학적 지식을 가진 숙련 인력으로
RAG 기술 성능 측정해 순위를 매겨, 기업에 적합한 솔루션을 비교 도입하도록 지원 올거나이즈가 RAG 리더보드인 '알리(Alli) RAG 리더보드'를 공개한다고 29일 밝혔다. RAG(Retrieval Augmented Generation, 검색증강생성)란 생성형 AI의 환각 현상을 최소화하는 대안으로 주목받는 기술이다. 사전 학습한 데이터만을 활용하는 게 아닌, 기업 내부 데이터 등 이미 존재하는 데이터에서 답을 찾아낸다. 이들 답변 중 질문 및 검색어의 맥락을 고려한 후 가장 적절한 대답을 제공하는 식이다. 올거나이즈의 RAG 리더보드는 RAG 기술의 성능을 측정해 순위를 매겨, 기업 AI 실무자가 가장 적절한 솔루션을 비교 도입할 수 있도록 돕는다. 올거나이즈의 알리 RAG 리더보드는 금융, 공공, 의료, 법률, 커머스의 5개 분야에 대한 한국어 RAG 성능을 평가한다. 답변 유사도 및 정확도를 판단하는 5개의 평가 툴로 RAG 성능을 평가해 신뢰도를 높이고 오차를 줄였다. 우선 각 분야별로 2~300페이지의 문서를 업로드한 후, 분야마다 사용자가 할 법한 질문 60개를 생성했다. 질문별로 RAG가 답변을 생성하면, 5개의 평가 툴 중 3개 이상에서
한국 특유의 지식과 문화적 맥락 평가하는 데이터셋과 성과 공유 예정 원라인에이아이가 이탈리아 토리노에서 열리는 '2024 국제 컴퓨터 언어학, 언어 자원 및 평가 공동 국제 학회(LREC-COLING 2024)'에 참가, 한글 언어모델 평가에 특화된 데이터셋 및 연구결과를 발표한다고 15일 밝혔다. 원라인에이아이는 금융 도메인 생성형 언어모델 관련한 연구 결과를 꾸준히 발표해왔다. 이번 학회에도 한국 특유의 지식과 문화적 맥락을 평가하는 데이터셋과 성과를 공유할 예정이다. 대규모 말뭉치로 훈련된 대형 언어모델(LLMs)은 다양한 작업에서 인상적인 능력을 보여주며 영어를 넘어 다른 언어로 이 모델을 적용하려는 노력이 지속된다. 하지만 그 평가 방법론에 대한 관심은 비교적 적은데, 현재 다국어 벤치마크는 주로 영어로 제작된 벤치마크를 번역하여서 사용하고 있기에 각국의 독특한 문화적 및 언어적 늬앙스를 포착하는 능력이 제한된다. 이전 한글 벤치마크가 자연어 이해나 추론 능력을 평가하는 데 중점을 둔 반면, 이번 학회에서 발표하는 한국어 벤치마크 데이터셋은 지식의 깊이 자체를 강조한다는데 차이점이 있다. 한국어 어휘, 문화, 지리, 역사에 대한 지식이 대화 상황에서
학습용 데이터셋 190만 장, 누구나 활용 가능하도록 무료 제공 인피닉이 자사 홈페이지를 통해 자율주행 연구개발용 데이터셋을 공개한다고 29일 밝혔다. 인피닉은 자율주행 기술 개발 생태계 조성에 기여하기 위해 한화시스템의 지능형 열화상 카메라 모듈인 ‘퀀텀레드’로 수집한 약 190만 장의 이미지 파일 데이터셋을 무료로 공개한다. 열상 센서는 미세먼지, 안개, 눈, 비 등 다양한 악천후 상황에서 주변 환경을 잘 인식하고 물체를 인지/식별할 수 있는 센서다. 또, 먼 거리에서도 쉽게 생물체를 인지하고 사고를 예방할 수 있다는 강점이 있어 사고 방지를 위한 자율주행 연구에 꼭 필요하다. 그러나 높은 가격과 낮은 기술 접근성으로 인해 국방산업을 제외하면 다른 산업에서 활용이 제한돼 왔다. 인피닉은 한화시스템과의 기술 협력으로 확보한 고품질 학습용 데이터셋을 외부에 무료로 공개해 국내 자율주행 연구 역량 발전과 우수한 엔지니어들을 육성하는 데 기여할 것으로 기대하고 있다. 이번에 공개하는 데이터셋은 인피닉 홈페이지에서 확인할 수 있으며, 학계∙연구기관∙개발자 등 누구나 신청만 하면 다운로드할 수 있다. 인피닉 데이터 2본부 김계승 전무는 “고품질 학습용 데이터셋 공개
광범위한 영역 포함하는 고품질 데이터셋 구축 성료 무하유가 15일 '국회도서관 융복합서비스 데이터셋 구축 사업'을 성료했다고 밝혔다. 무하유는 이번 사업을 통해 국회도서관에서 제공 중인 AI 의정분석 서비스 '아르고스'에 법률 관련 Q&A 데이터셋을 구축했고, 이를 통해 국회 및 공공 관련 법규 등 법률 관련 질의사항에 대화형 문답으로 쉽게 설명함으로써 이용자의 편의성을 높였다. 무하유는 원활한 사업 추진을 위해 법률 지식을 보유한 전문가들을 포함한 데이터셋 구축인력을 구성했다. 이는 법률에 관련 이슈 키워드와 제개정일·의안·회의록·주요 사건 및 인물에 대한 정보는 물론, 통계 표의 제목 및 매칭 키워드 등 광범위한 영역을 포함하는 고품질 데이터셋 구축 성료로 이어졌다. HWP와 PDF 파일 내 법률 관련 통계 표 또는 이미지의 제목 및 매칭 키워드 데이터도 구축해 국회도서관의 콘텐츠 품질을 강화했다. 표 및 이미지 데이터 구축은 무하유의 표절검사 서비스 내에 적용된 이미지 인식 및 추출 기술을 활용해 자동으로 해당 데이터를 추출한 후, 다차원의 품질 검수를 실시하는 식으로 이뤄졌다. 한편, 무하유는 700만 건 이상의 AI 학습 데이터를 구축해온 노
워크데이는 생산성을 높이며 업무 프로세스를 간소화하고 의사 결정을 개선할 수 있는 새로운 생성형 인공지능(AI) 역량을 발표했다. 워크데이의 연례 고객 컨퍼런스인 워크데이 라이징(Workday Rising)에서 선보인 이 새로운 역량은 워크데이 플랫폼 전반에 걸쳐 인사 및 재무팀 뿐만 아니라 전사 관리자를 비롯한 직원 개개인에게 혜택을 제공한다. 워크데이는 AI와 머신러닝(ML)을 플랫폼의 핵심에 내재화시켜 모든 애플리케이션에 신속하게 최첨단 솔루션을 제공하게 된다. 워크데이 AI 모델은 자사 시스템에서 매년 처리되는 6250억 건의 트랜잭션을 기반으로 운영되며 따라서 세계 최대의 가장 정제된 인사 및 재무 데이터셋으로 일관되게 정확하고 유의미하며 신뢰할 수 있는 결과를 생성한다. 워크데이의 생성형 AI 접근법은 플랫폼 전략, 탁월한 데이터셋, 그리고 인간과 기계간의 협력 등이 아우러진 차별적 전략이다. 사얀 차크라보르티 워크데이 공동 사장은 "생성형 AI는 우리가 알고 있는 일의 개념을 완전히 바꿔버릴 수 있는 잠재력이 있다"며 "이를 책임 있게 적용한다면 성과를 제고하면서 우리가 진정으로 해야 하는 가치 있는 일에 집중할 수 있게 해준다"고 말했다. 그는
예지보전의 첫 걸음은 데이터를 통해 의사결정할 수 있는 시스템을 마련하는 데부터 시작된다. 그리고 예지보전 목표를 향해서 구축 단계 및 프로세스 정립을 해나가는 것이 반드시 필요하다. 하지만 최종 목표를 향해가는 여정의 단계는 결코 쉽지만 않다. 예지보전을 목표로 중소·중견기업의 단계별 추진 방안과 설비 데이터를 활용한 통합 모니터링 및 분석 플랫폼 도입 사례를 소개한다. 예지보전의 첫 걸음은 데이터를 통해 의사결정할 수 있는 시스템을 마련하는 것이 가장 중요한 포인트이다. 그 단계를 보면, 먼저 제조 현장에는 설비나 로봇, 센서에서 다양한 데이터가 발생한다. 이러한 하위 레벨의 데이터들은 ERP, MES, CMMS, SCM 등 제조 인프라 시스템과 연동하여 모니터링 및 분석을 통해 생산과 품질에 영향을 미치는 문제점을 파악할 수 있다. 그리고 이렇게 도출된 데이터들은 생산, 품질뿐만 아니라 설비, 에너지에 대한 부분까지 정확한 의사결정을 돕는다. 최근엔 데이터 기반의 스마트공장들이 구축되면서, 근무환경 개선 및 불필요한 업무를 제거해 생산성과 업무 효율성이 증가하고 있다. 또한, 관리자가 문제 원인을 파악하고 구체적인 개선 계획을 수립해 데이터를 통한 관리
ETRI, 연세의대, 서울여대 등과 의료 데이터 라벨링 기술 표준화 연구 개발 지속 예정 인그래디언트가 의료 AI 산업 활성화를 위해 의료 데이터 가공 분야 국제 표준 개발과 함께, 관련 제품을 개발한다. 인그래디언트는 ISO/IEC JTC1 WG12 산하 3D프린팅과 스캐닝 작업 그룹 회의에 ‘데이터셋 표준 운영 프로세스’에 대한 국제 표준을 제안해 승인됐다고 밝혔다. 이번 성과는 지난 2020년부터 ETRI와 함께 진행한 범부처전주기의료기기 연구개발 사업인 ‘인공지능 의료기기 성능 평가 표준 개발’ 과제의 결과물로, 인공지능 의료기기 성능 시험을 위한 데이터셋 개발과 운영에 대한 국제 표준 개발을 추진해 왔다. 공동연구팀의 최종 목표는 질병의 진단과 예측 등에 활용되는 빅데이터 및 인공지능 기술이 적용된 다양한 의료기기에 대한 성능 평가 방법과, 이에 필요한 데이터 라벨링 국제 표준 및 기준 데이터를 개발하는 것이다. 세부 연구 과제로는 ▲인공지능 기반 의료기기 성능 평가 방법 국제 표준 개발 ▲인공지능 기반 의료기기 성능 평가를 위한 데이터 국제 표준 개발 ▲인공지능 기반 의료기기 성능 평가용 기준 데이터 개발 ▲데이터 표준을 지원하는 라벨링 도구 SW
테스트웍스는 30일인 오늘 구축된 데이터 셋의 오류를 검증 및 분석하는 인공지능 데이터 품질 검증 전문 도구인 ‘ADQ’ 베타버전을 발표했다. 인공지능의 서비스 상용화 및 성능 향상을 위한 품질 좋은 데이터 확보를 위해서는 데이터 구축 시점부터 품질에 대한 지속적인 관리가 필요하지만, 국내 인공지능 데이터 품질 검증은 초기 단계며 표준화된 방법이 없는 상황이다. 인공지능 데이터 셋 구축 업체들이 자체 개발한 다양한 라벨링 도구가 있지만 대부분의 도구는 데이터 라벨링과 라벨링 자동화 그리고 라벨러의 작업 관리에 초점이 맞춰져 있다. 데이터 품질에 대한 검증 및 지속적인 관리를 위해서는 구축 시점부터 데이터 검증을 위한 프로세스 수립을 시작으로 검증 작업 관리, 검증 후 결과 분석 보고서를 제공하는 전문 도구가 필요하다. 테스트웍스의 ADQ는 인공지능 데이터 품질 검증에 최적화된 도구로 구축된 데이터 셋의 오류 여부를 검증하고 관련 분석 정보를 제공한다. 이를 통해 인공지능 모델의 고품질 학습 데이터 셋 구축 및 관리에 필요한 시간 및 비용 절감에 기여할 것으로 보인다. ADQ는 인공지능 데이터 품질 검증을 수행해야 하는 기업 및 기관의 현업에서 겪는 어려움을
헬로티 김진희 기자 | 최신 침해사고를 재현한 인공지능(AI) 데이터셋이 민간에 개방되면서 보다 많은 조직이 AI의 혜택을 누리고 보안 체계를 강화할 것으로 전망된다. 이글루시큐리티는 2021년 한국인터넷진흥원(KISA)의 ‘사이버보안 인공지능 데이터셋(침해사고 분야)’ 구축 사업에 참여해 주요 침해사고를 재현한 1억2000만건의 데이터셋 구축을 완료했다고 지난 26일 밝혔다. 한국인터넷진흥원(KISA)은 K-사이버방역 추진 전략 중 하나로 악성코드와 침해사고 분야에서 AI 침해 대응에 적용할 수 있는 8억 건 이상의 AI 데이터셋을 구축하는 ‘사이버보안 AI 데이터셋 구축 사업’을 추진했다. 민간 개방된 침해사고 데이터셋을 토대로 국내 보안 조직들이 신·변종 보안 위협에 선제 대응할 수 있는 기반을 마련하는 것이 이번 사업의 골자다. 이번 사업 중 최신 침해사건 재현 분야는 2015년부터 AI 알고리즘과 AI 학습 데이터 개발에 공을 들여온 이글루시큐리티가 담당했다. 이글루시큐리티는 다년간의 AI 시스템 구축·운영 역량과 대규모 위협 대응 경험을 토대로 국내외 주요 침해사고를 재현한 AI 데이터셋을 구축하고 검증하는 역할을 맡았다. 이글루시큐리티는 15건의
헬로티 임근난 기자 | ESG(Environmental, Social, Governance) 혁신을 위한 인공지능 경진대회가 본격 개최됐다. 연구개발특구진흥재단(이사장 강병삼)은 인공지능팩토리(대표 김태영)의 인공지능플랫폼 서비스를 활용해 지난 달 29일부터 ‘제1회 연구개발특구 인공지능 경진대회 AI SPARK 챌린지 : ESG 혁신’ 대회를 개최하고 있다. 특구 내 데이터 활용 및 인공지능 도입 확산을 통한 디지털 전환 촉진을 위해 마련된 이번 대회는 ‘ESG 혁신’을 전면에 내세웠다는 점에서 주목받고 있다. 최근 ESG가 기업 환경에서 핫한 키워드로 떠오르고 있다. 금전적 이익뿐만 아니라 기업의 지속가능성은 물론, 사회적 영향까지 고려한 투자 기준이 통용되고 있는 것이다. 이러한 광풍에 기업들 역시 대책 마련에 고심 중이다. 실적이 아닌 환경, 복지, 사회적 기여까지 고려해야 하는 상황에 놓이게 됐기 때문이다. 특구재단은 이러한 변화와 마주해 있는 기업들의 문제를 해결하기 위해 인공지능 경진대회를 개최, 모델 개발을 통해 실질적인 대안을 마련할 수 있도록 지원한다는 계획이다. 특히 기존에 진행되었던 ESG 관련 대회와 달리, 아이디어톤에서 그치지 않고