생각처럼 간단하지는 않습니다. 구글도 못하는 판이라 네이버나 카카오를 뭐라하기가 쪼매 거시기 합니다. 특히 한국어는 영어보다 난도가 높죠. 높임말 때문입니다. 격이 별도로 존재한다는게 연역으로 보자면 한단계지만 귀납으로 보자면 무궁무진하거든요. 현재 알고리즘은 귀납 중심이고요.
그리고 그 이전에 일단 상황이라는 맥락의 개념이 명확하게 정립되어 있지 않습니다. 영어에서는 context라고 하는데, 철학없이 기술자들이 장님바늘찾기로 쌓아올린 기술이라 엉성합니다. "틀어!" 한 마디를 해도 청자는 문장을, 사건을 연역해야 하는데, 구글이 그럴리가 없잖아요?
특히 컨텍스트(조건)가 문제가 되는 게, 종과 류를 구분하지 않습니다. 어떤 단어 주변에 나타나는 다른 단어의 분포를 그냥 컨텍스트라고만 합니다. 뭉뚱그린 거죠. 그나마 attention(주목)이라고 해서 단어의 중요도를 구분하기는 했는데, 이게 종과 류의 구분은 아닙니다.
영어라면 아무래도 종적인 요소인 주어가 중요도가 높게 나오겠죠. 근데 한국어는 주어를 자주 생략하기 때문에 단순히 빈도(개수) 수집만으로는 이러한 중요도가 잘못되기 십상입니다. 조사를 알아야 주어의 중요성을 알고, 그러려면, (주어가 생략되지 않은) 완전한 문장의 학습 > 비-완전한 문장의 학습 순서가 필요합니다만, 아예 개념이 없어요.
특히나 한국인들은 머신러닝 기술의 개념조차 제대로 이해하지 못한 상황입니다. 영어를 제대로 이해하지 못하는 거죠. 어순이 다르다는것은 개념 구축을 생각 이상으로 어렵게 만들더라고요. 어쨌거나 attention 때문에 현재의 구글 번역기가 그나마 쓸만해지긴 했습니다만.
카카오가 높임말과 상관없는 인식기술을 만드는 것보다, 한국인이 높임말을 쓰지 않는게 좀 더 빠를 듯합니다. (카카오 입장에서) 없는 기술이 생기는 건 플러스고, 한국인이 높임말을 쓰지 않는 건 마이너스이니깐요. 물론 구조론자라면 잇는 기술을 발견하는 마이너스가 되겠지만.
억지 웃음은 좋지 않습니다.
상대가 좋더라도, 좀 데면데면하는게 관계의 압력을 증대시킵니다
데면데면하다가, 압도가 극대될때, 개입하는 관계의 밀도 시전.