2014년 8월 5일 화요일

[IEEE] 튜링테스트보다 Winograd Schemas


지난 6월, 영국에서는 채팅봇 유진구스트만이 인공지능을 가늠하는 테스트인 튜링테스트를 기계 최초로 통과하였다고 하여 화제가 되었었습니다. 결국 이 로봇은 인공지능이 있다기보다는 사람을 기만하는 능력이 출중한 것으로 밝혀졌지만 (실제로 실험 참가자들은 실험 상대(채팅봇)가 전혀 똑똑하지 않다고 말했습니다.) 그래도 인공지능이 비약적인 발전을 하고 있다는 것은 사실인 듯 합니다.

유진 구스트만, 인공지능의 탄생인가 아님 그저 채팅봇일 뿐인가. 현재로선 후자에 더욱 가까운 것 같다.

여기서 나타난 튜링테스트의 문제는 이것이 "생각하는" 능력보다는 인간을 "기만하는" 능력을 측정한다는 것입니다. 예를 들어 유진구스트만의 경우 본인은 13살이라고 소개하며 인공지능의 실패들을 어린아이의 미숙함처럼 잘 감추었습니다. 이에 따라 미국의 한 단체에서는 Wignograd Schemas라는 새로운 테스트를 제안했는데, 테스트의 예는 다음과 같습니다.
"The trophy doesn't fit in the suitcase because it's too big. What is too big?" 
"Jim comforted Kevin because he was so upset. Who was upset?"
너너무나 명확하게도 첫번째 정답은 "트로피"이고 두번째 정답은 "케빈"이죠. 하지만 컴퓨터에게는 it이나 he가 무얼 가리키는지 알지 못하기에 매우 어려운 문제랍니다. 이를 해결하기 위해선 트로피와 가방 사이의 관계, 짐과 케빈의 상황을 바탕으로 추론을 해야하죠.

Winograd shemas를 위한 질문은 다음의 네가지 조건을 갖추어야 합니다. (참고논문). 먼저 두 개의 대상이 나와야하고, 서술하는 말이 두 대상 모두에 적용될 수 있는 말이어야 하며, 질문은 서술에 대한 대상이 누군지를 물어봐야 하죠. 또한 서술하는 말을 바꾸었을 때 정답이 다른 사람을 가리키도록 완벽히 바뀔 수 있는 문장구조를 취해야 합니다.

심플한 테스트로 사람의 기만 가능성을 줄였다고는 하지만, Winograd schemas 역시 "인공지능" 외의 다른 꼼수로 통과할 방법이 분명 있을 겁니다. 결국 질문은 "과연 지능이란 어떻게 정의할 수 있는가"에까지 도달할 수 있을 것 같은데요, 뇌과학이나 철학 등과의 연계 연구가 그 비밀을 풀어줄 수 있을지 참 기대가 큽니다.

[rsshttp://t-robotics.blogspot.kr/feeds/posts/default