In Dust

인공지능의 배신과 협력

알파고를 만들었던 구글의 딥마인드가 게임이론의 대표적인 상황 두 가지를 놓고 실험을 했습니다.

 

죄수의 딜레마

1. 둘 다 자백하면 모두 징역 5년

2. 둘 다 부인하면 모두 1년

3. 한 명만 자백하면 자백한 쪽은 무죄, 부인한 쪽은 10년

상대의 전략을 모르는 상황에서 결국 두 명 모두 자백하게 됩니다.

논리적으로는 모두 부인하는 것이 모두에게 유리하지만, 양쪽 모두 자백하는 최악의 결정을 하게 됩니다.

인공지능에게 ‘죄수의 딜레마’와 유사한 상황을 만들어 실험했습니다.

1. 1사과를 모으면 1점

2. 수확된 사과는 사라집니다.

3. 인공지능은 상대를 공격할 수 있으며 공격당한 상대는 일정시간동안 사과를 모을 수 없게 됩니다. 물론 공격하는 동안은 자신도 점수를 얻을 수 없습니다.

게임을 4천만번 반복했습니다.

초반 사과가 넉넉할 때는 사과를 가져가는 데만 집중했습니다.

그러나 사과가 줄어들 수록 서로 공격하기 시작했습니다.

게임이 반복될수록 사과 개수와 상관없이 서로 공격하는 성향이 높아졌습니다.

인공지능은 사과가 줄어들수록 얼마나 공격적으로 나서야 하는지를 빠르게 터득했습니다.

한 번 늘어난 공격률은 증가할 뿐 줄어들지 않았습니다.
(딥마인드, 2017.2.9, ‘순차적 사회딜레마에 대한 멀티에이전트 강화학습’)

 

사슴사냥

1. 두 명의 사냥꾼이 힘을 합치면 사슴을 사냥할 수 있습니다.

2. 각자 사녕하면 토끼만 잡을 수 있습니다.

이런 경우 각자 토끼를 쫓을 때 얻는 이득보다 훨씬 큰 이득을 위해 서로 협력하게 됩니다.

인공지능에게 ‘사슴 사냥’과 유사한 상황을 만들어 실험했습니다.

1. 사냥감은 일정 시간이 지나면 사라집니다.

2. 두 인공지능 중 하나라도 사냥에 성공하면 둘 다 1점을 얻습니다.

3. 두 인공지능이 동시에 터치하거나, 한 인공지능이 터치해도 나머지 하나가 근처에 있다면 둘 다 높은 점수를 얻습니다.

게임을 4천만번 반복했습니다.

처음에는 두 인공지능이 개별적으로 사냥을 했지만 시간이 지날수록 한 인공지능은 다른 인공지능이 근처에 올 때까지 기다렸다가 터치했습니다.

협동점수가 높이 부여될수록 혼자 사냥하는 비율이 낮아졌습니다.

똑똑한 인공지능일수록 이런 경향은 더 커졌습니다.

똑똑한 인공지능은 사과모으기에서 더 높은 공격성을 보였고, 사냥 게임에서는 혼자 터치하는 비율이 더 낮았습니다.

인공지능도 게임의 구조에 따라 배신하기도 하고 협력하기도 한다는 것입니다.

 

 

 

자료출처 : ttimes.co.kr/view.html?no=2017021516287726980

Comments are closed.