토론실
프로필 이미지
[레벨:21]chow
read 4393 vote 0 2022.08.15 (20:22:10)

https://news.v.daum.net/v/20220815191001934 

한국인이 한국인에게 "야, 이 깜둥아"라고 말해도 혐오표현이 아니나, 한국인이 흑인에게 똑같이 말하면 혐오표현이 됩니다. 
단어만으로 그것이 혐오표현인지 아닌지를 판단하는 건 바보짓이라는 거죠. 이런 거 모르는 사람은 없는데, 희안하게 인공지능을 연구하는 사람은 이런 걸 모릅니다.

인간이 쓰는 정도로 언어를 학습하려면 상황, 즉 맥락을 인식해야 하는데, 현재 자연어처리 알고리즘은 그런 게 없습니다. 자연어처리 알고리즘은 단어의 의미를 만들고자 통계적으로 빅데이터를 학습하는데, 그게 문서 안에서만 상대적으로 학습하기 때문. 맥락은 문서 밖에 있는데 말이죠.

translate.jpg
예전에 동렬님이 출석부에 올린 이미지

david를 데이비드, 데이빗, 다윗으로 따로 번역하는 이유는 문서의 맥락없이, 문장의 맥락만으로 단어를 학습하기 때문입니다. 다윗으로 번역한 문장은 성경을 학습한 결과인데, 데이비드와 데이빗이 같은 문서에 나오는 게 자세히 보면 다윗과 데이빗 주변의 단어 분포와 조합이 미묘하게 다른 걸 알 수 있습니다. 여러 문서의 맥락을 섞어서 학습한 결과인데, 이는 제논의 역설과 비슷한 상황이라고도 볼 수 있습니다.

이 단어의 근거는? 저 단어, 그럼 저 단어의 근거는? 이 단어. 즉 현재의 자연어처리 알고리즘이 특정 단어의 주변만 맥락으로 삼을뿐, 더 큰 단위인 문서 주변은 보지 않기 때문에 벌어지는 참사입니다. 그럼 문서 주변은 뭐냐? 출간된 시대, 설정된 독자, 작가의 성향 같은 거죠. 흔히 말하는 메타 정보입니다. 우리는 외부를 내부와 인과관계가 있고 상관관계는 없는 것이라고 합니다. 바로 그 제3의 근거를 가져와야 번역에 일관성이 생깁니다.

상관관계를 근거로 삼는 현재의 머신러닝 번역은 태생부터 불완전합니다. 안 되요, 그건.
Drop here!
List of Articles
No. 제목 글쓴이 날짜 조회sort
공지 구조론 매월 1만원 정기 후원 회원 모집 image 29 오리 2020-06-05 95369
2022 2022-03-10 목요 온라인 모임 오리 2022-03-10 1567
2021 사건을 반영하는 언어 systema 2019-11-11 1568
2020 정은 동으로부터 연출된다. 1 현강 2020-08-03 1568
2019 구조론 목요모임(서울역) image 오리 2020-08-06 1569
2018 오랫만입니다~ 그리고 원전위험공익정보센터 기부희망 image 1 수원나그네 2020-08-21 1572
2017 땅값 집값 문제 3 - 독일의 '내집같은 임대주택' 수원나그네 2018-01-14 1574
2016 인간이 쓰는 언어에는 그럴만한 사정이 있다. 현강 2020-01-08 1574
2015 수학의 본질, 순간변화율 image 1 chow 2022-06-17 1574
2014 생명로드 31 - 한반도는 이미 탈원전시대 수원나그네 2018-12-06 1575
2013 생산력은 권력의 생산규모이다. 2 현강 2020-01-12 1575
2012 예전에 올린 기본소득 관련자료들을 소개합니다~ 2 수원나그네 2020-06-17 1575
2011 구조론 단상. 1 systema 2017-11-27 1576
2010 생명탈핵실크로드 14 - 출발전 인터뷰 영상 (11분) 5 수원나그네 2017-12-14 1579
2009 구조론 목요모임(강남역) image 1 오리 2020-06-25 1579
2008 확실성의 구조론과 불확실성의 엔트로피 image chow 2022-06-09 1580
2007 정기후원 페이팔(paypal) 이용 안내 3 오리 2020-06-09 1581
2006 구조론 목요모임(강남역) image 2 오리 2020-06-17 1581
2005 후쿠시마 원전오염수 국제소송 준비토론회 image 수원나그네 2018-12-03 1582
2004 생명로드 34 - 후반기 일정 및 코스 image 수원나그네 2018-12-16 1582
2003 생명로드 38 - The Second Schedule (2019 July~ 2020 Aug) image 수원나그네 2019-04-12 1582