▶ 죄수의 딜레마 게임

죄수 둘을 따로 가둬놓고 자백을 요구한다.

둘다 자백한다면 5년형, 둘다 버틴다면 증거불충분으로 3년형, 한쪽만 자백한다면 석방해주고 대신 자백하지 않은 쪽은 10년형 독박을 쓴다.

 

-1회성으로 종결된다면 자백이 최선

-반복되는 사회게임이라면 협력이 최선

 

우리가 사는 인간계에서는 제로섬 게임과 비제로섬 게임이 공존한다. 제로섬 게임에서는 상대의 불행이 나의 행복이 되지만 비제로섬 게임에서는 그렇지 않다. 오히려 상대의 행복이 나의 행복이 되는 경우가 대부분이다. 여기에 협력과 상생의 중요성이 있다.

 

단 한 번으로 끝나는 죄수의 딜레마 게임에서는 배반(자백)이 최선의 전략이다. 상대방의 행동에 관계없이 배반하는 것이 가장 이득이 크기 때문이다. 상대가 불었는데 나만 버티면 10년형 독박을 쓴다. 상대가 불지않았다면 나는 자백하고 석방될 수 있다. 두 경우 모두 배반이 유리하다.

 

그러나 인간계에서 단 한 번으로 끝나는 게임은 거의 없다. 이성간의 연애, 거래처와의 비즈니스, 국가 간의 외교관계 모두가 마찬가지다. 심지어 퇴직하고도 인맥과 사람평은 계속 영향을 준다. 

 

죄수의 딜레마 반복 시뮬레이션

 

이와 같이 언제 끝날지 모르는 개인과 개인 또는 조직과 조직의 상호작용을 모형화한 것이 ‘반복적 죄수의 딜레마 게임’이다. 미시간 대학 로버트 액설로드(Robert Axelrod) 교수의 실증적 연구에 의하면 반복적 죄수의 딜레마 게임(iterated prisoner’s dilemma game)에서는 협력이 최선의 전략이다. 그러나 이기적 인간들로 구성된 게임에서 무조건적인 협력은 기대하기가 어렵다. 협력할 수 있는 조건이 갖춰져야 하고 협력하는 게 유리한 전략을 구사해야 한다.

 

액설로드 교수는 컴퓨터 프로그램 대회 두 차례에 걸쳐 ‘반복적 죄수의 딜레마 게임’을 시행했다. 첫 번째 게임에 참가한 게임이론 전문가들은 자신들이 선호하는 전략을 프로그램으로 짜서 제출했다. 놀랍게도 승자는 제출된 전략 중 가장 단순한 ‘팃포탯’(Tit For Tat) 로 나타났다.

 

이것은 첫 게임에서 협력해보고, 다음부터는 상대가 하는 대로 따라하는 단순한 전략이다. 두 번째 대회에는 훨씬 더 많은 아마추어와 전문가들이 다양한 프로그램을 제출했다. 이들은 모두 1차 대회의 결과를 잘 알고 있었다. 그런데 이번에도 팃포탯이 승리했다. 놀랍지 않은가?

 

대회 데이터 분석 결과, 의사결정 규칙(협력/배반을 결정)을 성공으로 이끈 특성은 4가지인 것으로 나타났다.

 

①협력 : 상대가 협력하는 한 나도 협력하고 불필요한 갈등을 일으키지 않는다. 다시 말하면 처음에는 무조건적으로 협력한다.

 

②응징 : 상대의 예상치 않은 배반에는 즉각 응징한다.

 

③용서 : 상대의 도발을 응징한 후에는 바로 용서한다.

 

④투명성 : 상대가 나의 행동 패턴에 적응할 수 있도록 자신의 행동방침을 명확하게 한다. 속이거나 변덕스럽거나 하지 않는다는 뜻이다.

 

그렇다면 팃포탯이란 어떤 전략인가. ‘tit과 tat’은 ‘가볍게 치기’를 의미한다. 그러니까  ‘tit for tat’은 ‘상대가 가볍게 치면 나도 가볍게 친다’는 뜻으로 ‘되갚음, 되받아 치기, 보복’의 뜻이다. ‘눈에는 눈, 이에는 이’라는 말과 상통한다.

 

반복적 죄수의 딜레마 게임에서 팃포탯 전략은 맨 처음 협력으로 시작하고, 그 다음부터는 상대가 앞에서 선택한 전략을 그대로 선택한다. 즉 상대가 협력하면 나도 협력하고 상대가 배반하면 나도 배반하는 방법이다. 한번은 당할 수 있지만 두번 연속으로 같은 상대에게 당하지는 않는다. 단 상대가 다시 협력을 제안해온다면 받아들인다.

 

국제관계, 특히 냉전시대의 동서진영 간의 경쟁에서 팃포탯 전략이 많이 사용됐다. 현재도 여기저기 크고작은 기싸움에서 많이 사용된다.

 

 중요한 핵심개념은 ‘용서’

 

반복적 죄수의 딜레마 게임에서 성적을 결정하는 가장 중요한 핵심개념은 용서다. 용서는 상대가 배신하면 일단 응징을 가하지만 다음 게임에서는 다시 협력하는 관용성이다. 즉 한 번 응징하고 과거는 과거로 잊어버리는 것이다. 실생활에서도 경험상 오래 삐져있어봤자 내게도 좋을 것은 없다. 

 

재미있는 점은 용서할 줄 모르는 전략은 대부분 성적이 좋지 않았다는 점이다. 단 한 번의 배반으로 복수와 재복수가 이어지는 반향 효과 (echo effect)로 인해 같이 망했기 때문이다. 복수는 복수를 부를뿐- 이었다. 실생활 언어로 번역해보면 이렇다. 아무리 내가 한번 '실수'했기로서니 니가 나한테 이럴수 있어? 이것의 무한 반동이 점점 갈등과 냉전을 키우게 된다.

 

액설로드 교수는 죄수의 딜레마 상황에 빠져 있는 사람들에게 개인의 선택에 도움이 되는 다음과 같은 권고를 하고 있다. ①남의 성공을 질투하지 말라. ②먼저 배반하지 말라. ③협력이든 배반이든 그대로 되갚아라. ④너무 영악하게 굴지 말라.

 

매우 신사적이면서 호구는 되지 않는 전략이라고 할 수 있겠다.

 

인간계 게임 뿐만 아니라 동물들의 세계에서도 이런 경향은 관찰된다. 원숭이 무리에서 자기만 털고르기를 받고 바로 떠나버리는 얌체원숭이는 집단에서 환영받지 못한다. 싫든좋든 털고르기를 받았다면 자신도 상대에게 털고르기를 해줘야 무리에 남을 수 있다.

 

만일 조직 전체가 매우 도덕적인 사람들로 구성돼 있는 경우에는 관용의 폭을 팃포탯 전략보다 넉넉하게 잡을 수도 있을 것이다. 세번 속을 때까지는 참는다든지.. 그러나 온갖 사람들로 구성된 현실 사회조직에서 개개인의 이상적 도덕성을 가정할 수 없는 노릇이다. 또한 또라이 보존법칙은 어디서나 작동한다. 아무리 친한 사람끼리 만든 친목단체나 심지어 종교단체라 할지라도 이해관계는 있고 다툼과 갈등, 편가르기는 발생한다. 

 

 사회전체의 비용 줄이기

 

또한 자신의 작은 손해를 감수하고 전체 사회비용을 줄이는 선택을 한다면 결국 장기적으로 자기에게도 그 혜택이 돌아온다는 것으로 해석할 수도 있다. 배반할때 전체형량 합은 10년이지만, 2명이 협력할때의 전체형량 합은 6년에 불과하다. 나만 공원 쓰레기나 개배설물을 모두 치우고 간다면 내게는 단기적 손해일 수 있다. 그러나 남들도 차츰 그러한 행동을 따라하고 이런 문화가 보편화된다면 나를 포함 사회 전체가 훨씬 깨끗한 공원을 쓸 수 있게 된다. 

 

특히 요즘 문제가 되고 있는 것은 환경문제가 있다. 호주의 초대형 산불이 과연 남의 일일까? 지구 온난화와 해양오염, 기후문제는 결국 내게도 돌아오는 것이 필연이다. 

 

 대접받고 싶은대로 남을 대접하라

 

‘자신이 대접받고자 하는 대로 남을 대접하라’는 격언(maxim)은 모든 갈등을 해결하는 가장 훌륭한 황금률이다. 팃포탯은 황금률보다는 덜 도덕적이긴 하지만 결국 상호협력을 유도한다는 점에서 일맥상통한다. 오른뺨을 때리면 왼뺨을 내밀어라는 도덕률은 이 경우에 적합하지 않은 것 같다.

 

인간의 근원적인 이기심을 고려한다면 "Do unto others, as you would have them do unto you" 가 가장 현실적이고 합리적인 전략이라고 생각된다.

 

Posted by 영애니멀
,