antony_w (antony_w) wrote,
antony_w
antony_w

Category:

Алгоритм AlphaZero стал гроссмейстером трех игр



AlphaZero — новый алгоритм от DeepMind — продолжает дело своего предшественника AlphaGo. Только играет он на высшем уровне сразу в несколько игр, и научился этому не подглядывая в партии гроссмейстеров-людей.

В 2015 году Google DeepMind разработала алгоритм AlphaGo для игры в го. Используя силу машинного обучения, уже в 2016 году AlphaGo расправился с сильнейшим игроком в го среди людей — Ли Седолем. Это был первый случай победы алгоритма над профессионалом такого уровня. Сразу после игры Корейская ассоциация го присвоила AlphaGo высший уровень мастерства.

Этот матч по важности сравнивают с шахматным матчем между программой Deep Blue и Гарри Каспаровым. С тем лишь нюансом, что освоить го машине намного сложнее.

Но несмотря на всю сложность и отточенность, этот алгоритм был узкоспециализированным. Поэтому сразу после этого специалисты DeepMind принялись за разработку более универсального игрового ИИ — AlphaZero. Он обучается сразу трем настольным играм: помимо го, это традиционные шахматы, а также японские шахматы — сеги.

Zero получился более сбалансированным и совершенным. Всего за три дня и без какого-либо вмешательства человека он стал гроссмейстером во всех трех дисциплинах, пишет Ars Technica.

Сооснователь DeepMInd Демис Хассабис объясняет: «Начиная с совершенно случайных действий в игре, AlphaZero постепенно доходит до представления о том, как выглядит хороший матч. Он формирует собственные оценки об игре. В этом смысле он свободен от тех ограничений, которые присущи людям, когда они думают о построении стратегий».



В этом важнейшее отличие от предыдущей версии. Для победы над Ли Седолем алгоритму были необходимы примеры успешных партий мастеров го. Zero достаточно только правил игры. Алгоритм стал полностью независимым от человека.

После трехдневного обучения Zero победил в го подряд в 100 партиях.

Секретным ингредиентом стало обучение с подкреплением. Этот подход позволил существенно уменьшить необходимые для алгоритма ресурсы. Чтобы дойти до уровня AlphaGo алгоритму Zero пришлось отыграть 4,9 млн партий. Сам AlphaGo шел к своему уровню мастерства через 30 млн партий.



Шахматный гроссмейстер Гарри Каспаров с восхищением пишет об алгоритме: «Вместо того, чтобы обрабатывать человеческие инструкции и знания с огромной скоростью, как все предыдущие шахматные машины, AlphaZero генерирует свои собственные знания. Это происходит всего за несколько часов, и результаты превосходят любого человека или машину».

В DeepMind все же отмечают, что их алгоритм имеет дело хоть и с огромным, но ограниченным количеством исходов игр. Это можно воспринимать как сильно упрощенную модель реального мира, но не сам мир. Поэтому в более широком применении даже AlphaGo пока будет слаб.

Tags: технологии
Subscribe

Posts from This Journal “технологии” Tag

promo antony_w august 17, 2014 11:48 18
Buy for 10 tokens
Есть блог, в котором написано много постов про роботов: ссылка И там есть несколько статей о замене рабочих мест человека роботами: Уже к 2018 году роботы отберут у человека часть профессий Рабский труд без зарплаты Армия роботов: зачем она нужна обильной людьми Поднебесной и кому может…
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments