알파고란?

알파고는 구글(Google)의 딥마인드(DeepMind Technologies Limited)가 개발한 인공지능 바둑프로그램입니다. 딥마인드는 영국의 스타트업 기업이였는데요. 2014년에 구글로 인수되면서 개발이 본격적으로 진행되었다고 합니다. 2015~2017년 프로토 타입 버전은 알파고 판과 알파고 리, 알파고 마스터가 공개되었고, 2017년 10월에 최종으로 마지막 버전인 알파고 제로를 발표하였다고 합니다. 2018년 12월에는 바둑과 보드게임에 적용할 수 있는 범용 인공지능 알파 제로(Alpha Zero)를 발표하였다고 하네요.

바둑 사진

알파고는 2015년 10월에 유럽 바둑 챔피언십(EGC)에서 3번 우승한 프랑스의 판 후이(Fan Hui) 2단과의 5번기에서 모두 승리하였으며, 핸디컵(접바둑) 없이 호선(맞바둑)으로 프로 바둑 기사를 이긴 최초의 컴퓨터 바둑 프로그램이 되었습니다. 2016년 3월엔 여러 국제 기전에서 18차례 우승한 기록이 있는 세계 최상위급 프로 기사인 이세돌 9단과의 5번기 공개 대국에서 모두의 예상을 깨고 4승 1패로 승리하여 '현존 최고 인공지능'으로 등극하면서 세계를 놀라게 한 바가 있습니다. 2017년 5월에는 당시 바둑 세계 랭킹 1위 프로기사였던 커제 9단과의 3번기 공개 대국과 중국 대표 5인과의 상담기(단체전)에서도 모두 승리하여 "세계에서 가장 강력한 인공지능"임을 한번 더 각인 시켰습니다. 한국기원은 알파고가 정상의 프로기사 실력인 '입신'의 경지에 올랐다고 인정하여, "프로 명예 단증(9단)"을 수여하였으며, 중국기원도 "프로기사 9단"칭호를 부여했습니다. 이 대국들을 통하여 인공지능의 새 장을 열었다는 평가를 받았으며, 바둑계는 기존의 통념들을 깨는 창의적인 수와 대세관으로 오랫동안 이어진 패러다임이 바뀔 것이라고 전망했습니다.

데미스 허사비스(Demis Hassabis) 최고 경영자(CEO)는 2017년 5월에 열린 '바둑의 미래 서밋(Future of Go Summit)'이 알파고가 참가하는 마지막 대회가 될 것이며, 앞으로 인공지능은 인류가 새로운 지시영역을 개척하고 진리를 발견할 수 있도록 돕게 될 것이라고 말했습니다. 딥마인드는 신약개발, 기후변화예측, 스마트폰 개인비서, 질병진단 및 건강관리, 무인자율주행차 등 사회 모든 분야로 확대하여 미래의 다양한 핵심 서비스 사업에 적용할 수 있는 범용 인공지능으로 개발한다는 계획이라고 합니다.

알파고는 구글의 지주회사 이름인 알파벳과 그리스 문자의 첫 번째 글자로 최고를 의미하는 '알파', 바둑의 일본어 발음인 '고'에서 유래한 영어 단어 'Go'를 뜻한다고 하며, 통산 전적은 73승 1패라고 합니다.

알파고의 개발 순서

2015년의 알파고

알파고는 단일 컴퓨터로 구동되는 '단일버전(Single version)'과 네트워크에 연결된 여러 대의 컴퓨터를 사용하는 '분산 버전(Distributed version)' 두 가지가 있습니다. 단일 버전의 알파고는 48개의 CPU와 4~8개의 GPU로 구동되고 '젠'과 '크레이지 스톤'을 포함한 다른 바둑 프로그램과 500번의 대국에서 1패만을 기록하였습니다. 분산 버전은 1,202~1,920개의 CPU와 176~280개의 GPU로 구성되어 있습니다. 다양한 수의 CPU와 GPU에서 비동기 모드와 분산 모드로 테스트되었으며, 한 수당 생각할 시간은 2초씩 배정되었다고 합니다.

알파고 판 (AlphaGo Fan)

176개의 GPU가 사용된 분산 버전입니다. 2015년 판 후이 2단과의 대국에서 승리하였으며, 당시에는 '버전12'로 알려졌습니다.

알파고 리 (AlphaGo Lee)

48개의 TPU가 사용된 분산 버전이며, 2016년 3월 이세돌 9단과의 대국에서 승리하였습니다. 대국 당시에는 알파고 판에서 기계학습이 개선된 수준의 '버전18'이라는 정도만 알려졌었는데요. 2016년 5월 구글 I/O(개발자회의) 2016 컨퍼런스에서 구글은 자체 개발한 애플리케이션 집적회로(ASIC)인 TPU(Tensor Processing Unit)를 처음 소개하면서 이세돌 9단과 대국한 알파고는 TPU가 사용되었다고 설명했습니다.

알파고 마스터 (AlphaGo Master)

4개의 TPU가 사용된 단일 버전이며, 2017년 초 프로 바둑기사와 온라인 대국에서 60연승을 거두고 같은 해 5월 커제 9단과의 대결에서도 승리하였습니다. 2세대 TPU 모듈 1개가 탑재된 '1대의 TPU 머신'으로 구동 되는 알파고 마스터는 커제 9단과 대국 이전이였던 2017년 5월 17일 구글 I/O 2017년 컨퍼런스에서 공개되었습니다. 여기에 사용된 TPU 모듈은 연산성능 45TFLOPS(테라플룹스, 1초에 45조번의 연산처리)짜리 TPU 4개로 구성되어 180TFLOPS 성능을 내고, 1개의 모듈은 64기가바이트(GB) 메모리 대역폭을 지원한다고 합니다. 구글은 TPU의 연산 성능은 당시 최신 CPU보다 30~80배 높다고 설명했습니다.

단일 버전인 알파고 마스터의 연산 능력은 분산 버전의 10% 수준이지만, 주 기능을 인공지능 연산과 예측에만 특화하여 기계학습(machine learning) 알고리즘과 프레임워크(framework), 텐서플로(TensorFlow) 구동에 최적화 되었습니다. 원래 기존의 알파고가 학습한 내용을 토대로 추론했다면 알파고 마스터는 추론과 동시에 학습을 할 수 있으며, 학습에 필요한 시간이 기존의 3분의 1로 단축되었습니다. 또, 머신의 물리적인 부피가 줄어들면서 에너지 효율은 10배 가량 향상되었다고 합니다.

알파고 제로 (AlphaGo Zero)

4개의 TPU가 사용된 단일 버전으로써 알파고의 최종 버전입니다. 2017년 10월 19일 과학 학술지 네이처에 '인간 지식 없이 바둑을 마스터하기(Mastering the game of Go withour human knowledge)'라는 제목의 논문을 발표하여 소개되었습니다.

알파고 제로는 인간의 기보에 의존하는 지도학습 없이 바둑 규칙만으로 혼자 스스로 학습하며 기력을 향상시킵니다. 학습 36시간만에 알파고 리의 수준을 넘어섰으며, 72시간 만에 알파고 리와 대국에서 100승을 거두는 동안 단 한번도 패하지 않았으며, 40일 후 알파고 마스터와 대국에서는 89승 11패를 기록하였습니다. 이 기간동안 알파고 제로는 2900만번의 자가대국을 통해 학습했습니다. 빅데이터 학습이 필요없는 인공지능의 등장은 바둑과 달리 빅데이터 확보가 어려워 인공지능을 활용하기 어려웠던 분야에 대해 해결책을 제시했다는 점에서 매우 큰 의미가 있습니다.

알파 제로 (Alpha Zero)

하나의 알고리즘으로 체스, 쇼기, 바둑 등의 보드게임에 적용되는 범용 인공지능입니다. 2018년 12월 7일 '자가학습을 통해 체스, 쇼기, 바둑을 마스터할 수 있는 범용 강화학습 알고리즘(A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play)'라는 제목의 논문을 과학 학술지 사이언스에 발표했습니다.

알파고 제로랑 마찬가지로 빅데이터 학습이 필요 없으며, 뿐만 아니라 점점 강해지는 자신과의 게임을 반복하면서 스스로 빅데이터를 구축합니다. 2016년 쇼기 대회에서 우승한 AI '엘모(Elmo)'와의 대결에서 승률로 앞서기까지 2시간, 2017년 체스 챔피언을 차지한 AI '스톡피시(stockfish)'는 4시간, 알파고 제로는 30시간이 걸렸습니다. 데미스 허사비스 CEO는 "현실 세계의 문제를 푸는 인공지능을 만들고자 하는 딥마인드의 최종 목표에 다가서는 중요한 여정"이라고 밝혔다고 합니다.

저작자표시

'with. 라이프' 카테고리의 다른 글

정치학에 대하여 (0)	2020.01.04
심리학이란 무엇일까요? (0)	2020.01.03
눈 건강을 지키기 (0)	2019.01.30
아토피에 대해 (0)	2019.01.29
불면증 치료하기 (0)	2019.01.29

롤로 요호

알파고에 대해서

알파고란?