한국교육일보
교육일반학술
서울대 공대 컴퓨터공학부 김현우 박사, 국제 최우수 AI 학회 EMNLP에서 국내 대학 연구자 최초 논문상 수상
김대성  |  keilbo@keilbo.com
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
승인 2024.01.11  20:57:48
트위터 페이스북 미투데이 요즘 네이버 구글 msn
왼쪽부터 Liwei Jiang(UW, AI2), 김현우(서울대, AI2), Ronan Le Bras(AI2)가 ‘EMNLP 2023’에서 ‘Outstanding Paper Award’를 수상한 후 기념 촬영을 하고 있다
왼쪽부터 Liwei Jiang(UW, AI2), 김현우(서울대, AI2), Ronan Le Bras(AI2)가 ‘EMNLP 2023’에서 ‘Outstanding Paper Award’를 수상한 후 기념 촬영을 하고 있다

서울대학교 공과대학은 컴퓨터공학부 김현우 박사와 김건희 교수가 미국 시애틀 앨런 인공지능 연구소(Allen Institute for AI, AI2) 및 워싱턴 대학교(University of Washington)의 최예진 교수 등과 함께 진행한 연구가 국제 최우수 자연어처리 학술대회 ‘EMNLP 2023’에서 ‘Outstanding Paper Award’를 수상했다고 밝혔다.

국내 대학 연구진이 EMNLP에서 수상을 한 것은 이번이 최초다.

기존 인공지능(AI) 대화 분야는 고질적으로 데이터 부족 문제에 시달려왔다. 일상에서 이뤄지는 대화들은 데이터로 기록되지 않는 경우가 대부분이기 때문이다. 문자 메세지나 이메일 같은 형태로 대화가 기록되더라도 여러 법적 제약들이 존재하기 때문에 이를 연구에 활용하기에는 어려웠다.

이의 대안으로 그동안 크라우드 소싱을 통해 대화 데이터셋을 제작해왔지만 비용도 많이 들고, 만들 수 있는 데이터셋 크기도 작은 문제점이 있다. 그 결과, 기존 대화 관련 연구들은 모두 소수의 작은 데이터셋 위에서 이뤄져 범용성에 큰 제약이 있었다.

수상 논문인 ‘사회 상식 맥락화 기법을 통한 백만 단위의 대화 증류(SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization)’는 이를 해결하기 위해 거대 언어모델(large language model, LLM)과 기호 기반 상식 그래프(symbolic commonsense knowledge graph)를 함께 사용해 데이터셋을 효율적으로 자동 구축하는 방법론인 CO_3 증류 프레임워크(distillation framework)를 제시했다.

기존에 크라우드 소싱 활용 시에는 대화 하나당 길게는 몇 분이 걸리던 작업을 6초 내외로 단축시킨다. 연구팀은 이를 통해 세계 최초로 150만 규모의 세계 최대 고품질 일상 대화 데이터셋인 ‘SODA’를 무료로 공개했는데, 이는 기존 데이터셋 대비 100배 큰 규모다.

이 밖에도 대화의 자연스러움, 일관성, 구체성 등 품질 또한 기존 크라우드 소싱 기반 대화 데이터셋에 비해 2배 이상 뛰어난 것으로 나타났다. 그 결과, SODA에 학습시킨 챗봇 ‘COSMO’는 파라미터 수가 30억 개로 작은 크기임에도 불구하고 기존 큰 챗봇들(파라미터 수 70억)보다 대화 맥락에 더 적합하고 자연스러운 답변이 가능하다.

이번 연구는 대화 데이터셋 부족 문제를 해결하고, 누구나 간편하게 세계 최대 규모의 고품질 대화 데이터셋을 구축할 수 있는 방법론을 제시했다는 데에 의의가 있다. 이 방법론으로 탄생한 데이터셋 SODA는 다양한 대화 연구에 기반 자료로 쓰일 수 있을 것으로 기대되며, 해당 코드와 SODA 데이터셋, COSMO 모델은 모두 오픈소스로 공개돼 있다.

해당 논문은 김현우 박사가 서울대 박사과정 중 미국 시애틀의 앨런 인공지능 연구소(Allen Institute for AI, AI2)에서 인턴을 수행하며 워싱턴 대학교(University of Washington), 카네기멜론 대학교(Carnegie Mellon University), 서던 캘리포니아 대학교(University of Southern California), 그리고 피츠버그 대학교(University of Pittsburgh)가 함께하는 국제 공동협력 연구를 이끈 결과며, 김현우 박사는 졸업 후 AI2에서 박사후 연구원으로 취업해 후속 연구를 이어가는 중이다.

김현우 박사와 김건희 교수는 정보통신기획평가원(IITP)의 연구비를 지원받았다.(No.2019-0-01082, No.2022-0-00156)

※ 논문 링크: https://aclanthology.org/2023.emnlp-main.799
※ 코드 링크: https://hyunw.kim/sodaverse

김대성  keilbo@keilbo.com

<저작권자 © 한국교육일보, 무단 전재 및 재배포 금지>

김대성의 다른기사 보기  
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
트위터 페이스북 미투데이 요즘 네이버 구글 msn 뒤로가기 위로가기
가장 많이 본 기사
1
센텐스 출판사 ‘안데르센, 잔혹동화 속 문장의 기억’ 양장본 출간
2
백석대학교, 사이버보안교육 강화 위해 나루씨큐리티 ‘사이버배틀필드’ 도입
3
한국티소믈리에연구원, 티 블렌딩의 A to Z ‘티 블렌딩 테크닉’ 출간
4
제10회 스토리문학상 수상 작가 김경수 소설가, 소설집 ‘와이퍼가 있는 차창’ 펴내
5
2022년 제9회 스토리문학상 수상작가 송경하 소설가, 장편소설 ‘그래도 새는 노래한다’ 펴내
6
좋은땅출판사 ‘하트명상’ 출간
7
식품 원산지 표시의 모든 것… 세스코아카데미, 온라인 교육 오픈
8
좋은땅출판사 ‘챔피언 골프 스윙’ 출간
9
케이워터운영관리 낙동강문화관, 부산광역시 사하구 기초환경교육센터 지정
10
한국청소년연맹, 희망사과나무 통해 복지사각지대 아동과 청소년 위한 동아연필·동아교재 학용품 후원
사시발행사회장인사말조직도에듀케이션 플랜찾아오시는길기사제보광고문의불편신고개인정보취급방침청소년보호정책이메일무단수집거부
서울특별시종로구내수동72번지 경기도파주시청송로268  부산경남취재본부:부산해운대구우동마린시티3로 51
충청북도 청주시 상당구 용담동 1633  광주광역시 서구 하정동 12-17번지 금호월드
發行人·編輯人:許自潤  |  등록번호 : 京畿 아 50578  |  청소년보호책임자 : 허자윤
webmaster@keilbo.com  Copyright © 2012 한국교육일보. All rights reserved.
센텐스 출판사 ‘안데르센, 잔혹동화 속 문장의 기억’ 양장본 출간  ㆍ백석대학교, 사이버보안교육 강화 위해 나루씨큐리티 ‘사이버배틀필드’ 도입  ㆍ한국티소믈리에연구원, 티 블렌딩의 A to Z ‘티 블렌딩 테크닉’ 출간  ㆍ제10회 스토리문학상 수상 작가 김경수 소설가, 소설집 ‘와이퍼가 있는 차창’ 펴내  ㆍ2022년 제9회 스토리문학상 수상작가 송경하 소설가, 장편소설 ‘그래도 새는 노래한다’ 펴내  ㆍ좋은땅출판사 ‘하트명상’ 출간  ㆍ식품 원산지 표시의 모든 것… 세스코아카데미, 온라인 교육 오픈  ㆍ좋은땅출판사 ‘챔피언 골프 스윙’ 출간  ㆍ케이워터운영관리 낙동강문화관, 부산광역시 사하구 기초환경교육센터 지정  ㆍ한국청소년연맹, 희망사과나무 통해 복지사각지대 아동과 청소년 위한 동아연필·동아교재 학용품 후원  ㆍ‘청년들이 고립되지 않도록’ 청년미래재단, 고립은둔청년 위해 음악회 수익 기부  ㆍ행복한학교재단, 62개교 1300여 학생 대상 늘봄교육 운영  ㆍ북랩, 세상을 바라보는 새로운 시야를 제시하다 ‘경호무술창시자 이재영총재의 생각의 관점’ 출간  ㆍ서울대학교 공과대학, 자랑스러운 동문상 수상자 선정  ㆍ에듀윌, 지앤지커머스와 MOU 체결… 소상공인 재창업 교육 지원 위해 의기투합  ㆍ노보텍, 표적 치료에서의 최신 동향과 기회 파악하는 정밀 종양학 환경 백서 발간  ㆍ당동청소년문화의집, 관내 초·중학교 및 아동·돌봄센터 8개 기관과 업무협약  ㆍ2028년까지 성인 독서율 50% ↑…습관 기르기·환경 개선 등 지원  ㆍ서울특별시학교밖청소년지원센터, 학교 밖 청소년의 심리 정서지원을 위한 ‘찾아가는 상담’ 지원  ㆍ좋은땅출판사 ‘포도나무 영어공부’ 출간