토론실 - 맥락없는 인공지능

맥락없는 인공지능

chow

read 4583 vote 0 2022.08.15 (20:22:10)

https://gujoron.com/xe/1442456

https://news.v.daum.net/v/20220815191001934

한국인이 한국인에게 "야, 이 깜둥아"라고 말해도 혐오표현이 아니나, 한국인이 흑인에게 똑같이 말하면 혐오표현이 됩니다.

단어만으로 그것이 혐오표현인지 아닌지를 판단하는 건 바보짓이라는 거죠. 이런 거 모르는 사람은 없는데, 희안하게 인공지능을 연구하는 사람은 이런 걸 모릅니다.

인간이 쓰는 정도로 언어를 학습하려면 상황, 즉 맥락을 인식해야 하는데, 현재 자연어처리 알고리즘은 그런 게 없습니다. 자연어처리 알고리즘은 단어의 의미를 만들고자 통계적으로 빅데이터를 학습하는데, 그게 문서 안에서만 상대적으로 학습하기 때문. 맥락은 문서 밖에 있는데 말이죠.

예전에 동렬님이 출석부에 올린 이미지

david를 데이비드, 데이빗, 다윗으로 따로 번역하는 이유는 문서의 맥락없이, 문장의 맥락만으로 단어를 학습하기 때문입니다. 다윗으로 번역한 문장은 성경을 학습한 결과인데, 데이비드와 데이빗이 같은 문서에 나오는 게 자세히 보면 다윗과 데이빗 주변의 단어 분포와 조합이 미묘하게 다른 걸 알 수 있습니다. 여러 문서의 맥락을 섞어서 학습한 결과인데, 이는 제논의 역설과 비슷한 상황이라고도 볼 수 있습니다.

이 단어의 근거는? 저 단어, 그럼 저 단어의 근거는? 이 단어. 즉 현재의 자연어처리 알고리즘이 특정 단어의 주변만 맥락으로 삼을뿐, 더 큰 단위인 문서 주변은 보지 않기 때문에 벌어지는 참사입니다. 그럼 문서 주변은 뭐냐? 출간된 시대, 설정된 독자, 작가의 성향 같은 거죠. 흔히 말하는 메타 정보입니다. 우리는 외부를 내부와 인과관계가 있고 상관관계는 없는 것이라고 합니다. 바로 그 제3의 근거를 가져와야 번역에 일관성이 생깁니다.

상관관계를 근거로 삼는 현재의 머신러닝 번역은 태생부터 불완전합니다. 안 되요, 그건.

Drop here!

translate.jpg [File Size:211.6KB/Download:0]

프린트

List of Articles

No.	제목	글쓴이	날짜	조회
공지	구조론 매월 1만원 정기 후원 회원 모집 29	오리	2020-06-05	107060
779	위험한 한국 7	김동렬	2014-03-30	4086
778	노동 곧 자본 1	담 \|/_	2014-03-28	2885
777	구조론이 옳다는 과학적 증거 4	김동렬	2014-03-27	3264
776	투자자들이 선호하는 순서	파란하늘	2014-03-26	3126
775	노동도 자본도 휴지다 5	담 \|/_	2014-03-26	2927
774	진짜 전쟁	담 \|/_	2014-03-25	2946
773	구조론 생각의 정석 31회	오세	2014-03-25	2822
772	노아, 보셨습니까? 7	김동렬	2014-03-25	3366
771	이상적인 친구의 숫자는? 7	파란하늘	2014-03-25	3540
770	아침풍경	김동렬	2014-03-25	3015
769	인간은 폭력적인가? 6	김동렬	2014-03-24	4169
768	역사의 코끼리	차우	2014-03-23	2989
767	오자서의 정답 1	김동렬	2014-03-23	3652
766	생각의 정석 30회 1	오세	2014-03-20	3213
765	범어와 한국어의 유사성 3	김동렬	2014-03-18	8955
764	중력파의 발견과 인플레이션 이론의 증명 6	김동렬	2014-03-18	3707
763	가슴이냐 엉덩이냐? 1	김동렬	2014-03-17	4971
762	생각의 정석 29회	오세	2014-03-13	2971
761	구조론 팟캐스트 생각의 정석 28회 1	오세	2014-03-05	3103
760	잘못 알려진 과학상식	김동렬	2014-03-04	6119

쓰기

처음 66 67 68 69 70 71 72 73 74 75 끝