최근 구글의 바드라는 알고리즘이 잠깐 시연했다가 질문에 틀리게 답변하는 바람에 구글의 모기업 알파벳의 주가가 상당히 떨어졌다고 합니다. 이 문제를 해결할 방법을 과학자들도 아예 찾지 못하고 있는데, 이를 팩트 인용의 문제라고 합니다.
인간이 데이터 정제를 해서 양질의 정보를 넣어주면 팩트 문제가 해결된다?
> 안 된다. 팩트는 특정한 관점으로 해석되는 것이다. 애당초 맥락이 없다고 가정하고 학습된 데이터이므로 양질의 정보가 정의상으로 무의미하다. 양질의 정보는 맥락이 들어가고 그 맥락을 규정하는 챗봇의 정의부터 시작되는 것이다. 그게 없으면 무슨 수를 쓰더라도 팩트 문제는 원천적으로 해결이 불가능하다.
인종, 성 차별등 각종 헤이트스피치 문제는 필터링으로 해결된다?
> 안 된다. 이미 온라인 상에 파훼법을 만든 용자가 나타났다. 필터링 등으로 질문을 걸러도 문제인게, 방어할 수록 챗봇의 말수가 점점 적어지는 현상이 나타나고 있다. 당연한 것이다. 대응식 챗봇은 질문을 자세하게 할 수록 답변이 구체적으로 나오도록 되어 있는데, 질문의 양을 줄이니 답변이 제대로 나올 수가 없다. 맥락의 문제는 필터링으로 해결되는 것이 아니다.
질문을 자세하게 할 수록 답변이 좋아진다. 질문을 잘하면 문제가 해결되는 거 아닌가?
> 개떡 같이 말해도 찰떡 같이 답할 수 있어야 한다. 선제 질문을 하지 않는 게 근본적인 문제이다. 이건 설계 철학의 차이가 있다. 현 chatGPT는 일회성 답변에 최적화되어 있다. 이는 이루다와 정확히 같은 방법으로 알고리즘이 구성되어 있기 때문이다. 대응만 하게 되어 있다. 핑퐁핑퐁으로 대화를 주고받으려면 질문자가 지속적으로 머리를 짜내야 한다. 그것은 질문으로 맥락을 구체화 하여 챗봇이 학습한 통계를 필터링하는 것이다.
이는 챗봇이 맥락을 구분하지 않고 학습했다는 것을 의미한다. 뒤집어 보면 맥락을 학습시키고 동기를 형성하면 챗봇이 선제질문을 하게 될 것임을 알 수 있다. 그러려면 너와 나 그리고 사건이 정의되어야 한다.
발전기, 물통, 위생용품이 필요하다고.