В начале прошлой недели все покерное комьюнити потрясла новость о том, что 6-макс Безлимитный Холдем был побит искусственным интеллектом. Покерный бот Pluribus одержал победу в этой дисциплине над пятнадцатью профессиональными покеристами, среди которых был даже главный топ 6-макса Линус «LLinusLLove» Лелигер.
Когда победа Плурибуса стала общедоступным фактом, всем сначала стало немного боязно за онлайн-покер, а потом безумно интересно - как вообще ИИ смог достичь такого ошеломительного результата? На все интересующие комьюнити вопросы с удовольствием отвечает команда разработчиков этого ИИ.
Как Pluribus изучал 6-макс покер?
Плурибус полноправный наследник и преемник Либратуса, того самого покерного бота, который решил игру в хэдз-апах. И Либратус, и Плурибус, были созданы одной и той же командой ученых-исследователей ИИ из университета Карнеги-Меллона при поддержке Facebook.
Ресурс Либратуса, созданного на базе суперкомпьютера за $1,000,000, позволял ему анализировать каждое возможно решение. Ровно как боты, которые используются для игры в шахматы или го.
Подобное моделирование Либратуса было возможно только потому, что он вел игру против одного оппонента. В случае с Плурибусом, который должен был вести игру сразу против 5 соперников, ученые не могли позволить анализировать каждое возможное решение, потому как компьютер с подобной вычислительной мощностью обошелся бы университету и Марку Цукербергу в $10,000,000,000. Поэтому алгоритмы Плурибуса были радикально переработаны и в них использовалась модель максимального сокращения древа решений.
Изначально, в программу Плурибуса были загружены только правила игры. Его специально не “подпитывали” никакими дополнительными теоретическими знаниями и дали возможность самообучаться посредством розыгрыша максимально большого количества раздач.
Алгоритм оказался очень эффективным. После 7 часов наигрыша раздач бот показывал игру среднестатистического игрока в покер, через 20 часов он уже играл на уровне топовых игроков, а через 60 ИИ смог избавиться от всех ликов в своей игре.
Как проходило противостояние бота Pluribus и покеристов?
Эксперимент был поделен на две части:
- 5 профессиональных игроков против одного бота
- 5 ботов против одного профессионального игрока
Первая стадия эксперимента была наиболее любопытной. На протяжении 12 дней одна копия Плурибуса играла 10,000 раздач против реальных игроков. Противостояние проходило в формате кеш-игры с эффективным стеком в 100ББ. Игроки знали за каким боксом сидит бот, но не знали имена своих соперников. Вместо имен были использованы ники с упоминанием персонажей фильмов Квентина Тарантино.
Чтобы замотивировать реальных игроков играть в полную силу им платили по $0.40 за каждую раздачу. Эта сумма была бы увеличена до $1.60 в том случае, если бы игрок по истечению 10,000 раздач показал плюсовой винрейт против бота.
Эта стадия эксперимента закончилась победой Плурибуса с винрейтом 5бб/100. Лучше всех из реальных людей в ней показал себя Линус «LLinusLLove» Лелигер. Он проиграл с винрейтом минус 0.5bb/100.
Во второй части эксперимента Линус также принимал участие. Противостояние одного игрока против 5 ботов шло на протяжении 5,000 раздач. В этом формате он показал абсолютно такой же винрейт - минус 0.5bb/100.
Что больше всего интересует игроков на Reddit в ветке про Pluribus?
После огласки результатов игры Плурибуса против профессиональных игроков, у покерного комьюнити накопилось множество вопросов к разработчикам бота. Ученые из университета Карнеги-Меллона согласились ответить на все интересующие покеристов вопросы и создали специальную ветку на самой популярной площадке обсуждения новостей Reddit.
Почему был выбран 6-макс, а не 9-макс формат? Сможет ли Плурибус играть также хорошо за фулл-ринг столом?
Выбор 6-макса был сделан участниками эксперимента, они сами пожелали играть в таком формате. Во-первых, он является наиболее популярной дисциплиной в онлайн-покере, а во-вторых, расписание пяти игроков срастить легче, чем расписание восьми. Но Плурибус также готов и к игре в 9-макс формате, его алгоритмы позволяют это делать.
Эффективность каких существующих покерных тенденций Плурибус подтвердил, а каких опроверг?
Плурибус подтвердил эффективность оупен-рейзов над лимпами. Бот практически не пользовался лимпами, только иногда делал их с МБ. А вот донк-беты, которые профессионалы считают не самыми оптимальными мувами, бот наоборот посчитал эффективными и многократно их использовал.
Будет ли бот доступен публично?
Нет. Целью эксперимента было не “убийство” онлайн-покера, а развитие ИИ. В дальнейшем алгоритмы Плурибуса будут адаптированы под более полезные задачи. В том числе и для борьбы румов с ботоводами.
Какие необычные тенденции заметили профессионалы в игре Плурибуса?
По мнению участников эксперимента, Плурибус достиг идеального бетсайзинга. Он всегда очень эффективно распоряжается фишками в своем стеке. Также Плурибус очень здорово пользуется овербетами. Это происходит в самых разнообразных и в самых неожиданных, по мнению профессиональных игроков, спотах.
Какие слабые места нашли профессионалы у Плурибуса?
Игроки сказали, что Плурибус настолько быстро убирает лики из своей игры, что их вообще невозможно эксплойтить и создается впечатление, что у него буквально нет слабых мест.
Адаптировал ли Плурибус игру под своих оппонентов?
Нет. Плурибус пользовался только той стратегией, к которой пришел во время этапа обучения. Во время основной части эксперимента функция обучения была у него отключена.
Сколько времени занимало принятие решений у Плурибуса?
На принятие решений бот тратил от 1 до 45 секунд. По сравнению со своими оппонентами Плурибус действовал в два раза быстрее.
Формат вопрос-ответ с разработчиками Плурибуса на площадке Reddit продолжается. Каждый желающий может оставлять в специальной ветке интересующий вопрос, на который исследователи обещают обязательно ответить.