<p>В начале прошлой недели все покерное комьюнити потрясла новость о том, что 6-макс Безлимитный Холдем был побит искусственным интеллектом. Покерный бот Pluribus одержал победу в этой дисциплине над пятнадцатью профессиональными покеристами, среди которых был даже главный топ 6-макса Линус «LLinusLLove» Лелигер.</p>
<p>Когда <a href="https://pekarstas.com/blog/pokernyj-bot-pluribus-obygral-topovyh-igrokov-v-6-makse-pal-dazhe-llinusllove/">победа Плурибуса</a> стала общедоступным фактом, всем сначала стало немного боязно за онлайн-покер, а потом безумно интересно - как вообще ИИ смог достичь такого ошеломительного результата? На все интересующие комьюнити вопросы с удовольствием отвечает команда разработчиков этого ИИ.</p>
<h2 id="item_1" class="anchor_link" >Как Pluribus изучал 6-макс покер?</h2>
<p>Плурибус полноправный наследник и преемник Либратуса, того самого покерного бота, который решил игру в хэдз-апах. И Либратус, и Плурибус, были созданы одной и той же командой ученых-исследователей ИИ из университета Карнеги-Меллона при поддержке Facebook.</p>
<p>Ресурс Либратуса, созданного на базе суперкомпьютера за $1,000,000, позволял ему анализировать каждое возможно решение. Ровно как боты, которые используются для игры в шахматы или го. </p>
<p>Подобное моделирование Либратуса было возможно только потому, что он вел игру против одного оппонента. В случае с Плурибусом, который должен был вести игру сразу против 5 соперников, ученые не могли позволить анализировать каждое возможное решение, потому как компьютер с подобной вычислительной мощностью обошелся бы университету и Марку Цукербергу в $10,000,000,000. Поэтому алгоритмы Плурибуса были радикально переработаны и в них использовалась <strong>модель максимального сокращения древа решений</strong>.</p>
<div class="text-block quote-block-2">Если объяснять вкратце, то задача Плурибуса состояла в нахождении самых оптимальных действий против усредненного оппонента и их дальнейшем использовании.</div>
<p>Изначально, в программу Плурибуса были загружены только правила игры. Его специально не “подпитывали” никакими дополнительными теоретическими знаниями и дали возможность самообучаться посредством розыгрыша максимально большого количества раздач.</p>
<p>Алгоритм оказался очень эффективным. После 7 часов наигрыша раздач бот показывал игру среднестатистического игрока в покер, через 20 часов он уже играл на уровне топовых игроков, а через 60 ИИ смог избавиться от всех ликов в своей игре.</p>
<p style="text-align: center;"><a href="/media/filer_public/dc/9e/dc9ec83c-99d0-484b-aeeb-1f00048137a2/pluribus111.jpg" data-lightbox="351pjz9vjy" data-lightbox-saved=""><img align="" title="" original_image="false" filer_id="76575" width="" thumb_option="" src="/media/filer_public/dc/9e/dc9ec83c-99d0-484b-aeeb-1f00048137a2/pluribus111.jpg" alt="Создатели покерного бота Pluribus отвечают на вопросы комьюнити 1" height=""></a></p>
<h2 id="item_2" class="anchor_link" >Как проходило противостояние бота Pluribus и покеристов?</h2>
<p>Эксперимент был поделен на две части:</p>
<ul class="list _check-circle">
<li>5 профессиональных игроков против одного бота</li>
<li>5 ботов против одного профессионального игрока</li>
</ul>
<p>Первая стадия эксперимента была наиболее любопытной. На протяжении 12 дней одна копия Плурибуса играла 10,000 раздач против реальных игроков. Противостояние проходило в формате кеш-игры с эффективным стеком в 100ББ. Игроки знали за каким боксом сидит бот, но не знали имена своих соперников. Вместо имен были использованы ники с упоминанием персонажей фильмов Квентина Тарантино.</p>
<p>Чтобы замотивировать реальных игроков играть в полную силу им платили по $0.40 за каждую раздачу. Эта сумма была бы увеличена до $1.60 в том случае, если бы игрок по истечению 10,000 раздач показал плюсовой винрейт против бота.</p>
<p>Эта стадия эксперимента закончилась победой Плурибуса с винрейтом 5бб/100. Лучше всех из реальных людей в ней показал себя Линус «LLinusLLove» Лелигер. Он проиграл с винрейтом минус 0.5bb/100.</p>
<p>Во второй части эксперимента Линус также принимал участие. Противостояние одного игрока против 5 ботов шло на протяжении 5,000 раздач. В этом формате он показал абсолютно такой же винрейт - минус 0.5bb/100.</p>
<h2 id="item_3" class="anchor_link" >Что больше всего интересует игроков на Reddit в ветке про Pluribus?</h2>
<p>После огласки результатов игры Плурибуса против профессиональных игроков, у покерного комьюнити накопилось множество вопросов к разработчикам бота. Ученые из университета Карнеги-Меллона согласились ответить на все интересующие покеристов вопросы и создали специальную ветку на самой популярной площадке обсуждения новостей Reddit. </p>
<h6><strong>Почему был выбран 6-макс, а не 9-макс формат? Сможет ли Плурибус играть также хорошо за фулл-ринг столом?</strong></h6>
<p>Выбор 6-макса был сделан участниками эксперимента, они сами пожелали играть в таком формате. Во-первых, он является наиболее популярной дисциплиной в онлайн-покере, а во-вторых, расписание пяти игроков срастить легче, чем расписание восьми. Но Плурибус также готов и к игре в 9-макс формате, его алгоритмы позволяют это делать.</p>
<h6><strong>Эффективность каких существующих покерных тенденций Плурибус подтвердил, а каких опроверг?</strong></h6>
<p>Плурибус подтвердил эффективность оупен-рейзов над лимпами. Бот практически не пользовался лимпами, только иногда делал их с МБ. А вот донк-беты, которые профессионалы считают не самыми оптимальными мувами, бот наоборот посчитал эффективными и многократно их использовал.</p>
<h5><strong>Будет ли бот доступен публично?</strong></h5>
<p>Нет. Целью эксперимента было не “убийство” онлайн-покера, а развитие ИИ. В дальнейшем алгоритмы Плурибуса будут адаптированы под более полезные задачи. В том числе и для борьбы румов с ботоводами.</p>
<h5><strong>Какие необычные тенденции заметили профессионалы в игре Плурибуса?</strong></h5>
<p>По мнению участников эксперимента, Плурибус достиг идеального бетсайзинга. Он всегда очень эффективно распоряжается фишками в своем стеке. Также Плурибус очень здорово пользуется овербетами. Это происходит в самых разнообразных и в самых неожиданных, по мнению профессиональных игроков, спотах. </p>
<p style="text-align: center;"><iframe frameborder="0" allow="autoplay; encrypted-media" width="100%" align="middle" src="https://www.youtube.com/embed/BDF528wSKl8" height="400" allowfullscreen="" scrolling="no"></iframe></p>
<h5><strong>Какие слабые места нашли профессионалы у Плурибуса?</strong></h5>
<p>Игроки сказали, что Плурибус настолько быстро убирает лики из своей игры, что их вообще невозможно эксплойтить и создается впечатление, что у него буквально нет слабых мест.</p>
<h5><strong>Адаптировал ли Плурибус игру под своих оппонентов?</strong></h5>
<p>Нет. Плурибус пользовался только той стратегией, к которой пришел во время этапа обучения. Во время основной части эксперимента функция обучения была у него отключена.</p>
<h5><strong>Сколько времени занимало принятие решений у Плурибуса?</strong></h5>
<p>На принятие решений бот тратил от 1 до 45 секунд. По сравнению со своими оппонентами Плурибус действовал в два раза быстрее.</p>
<p><a href="https://www.reddit.com/r/MachineLearning/comments/ceece3/ama_we_are_noam_brown_and_tuomas_sandholm/" target="_blank">Формат вопрос-ответ</a> с разработчиками Плурибуса на площадке Reddit продолжается. Каждый желающий может оставлять в специальной ветке интересующий вопрос, на который исследователи обещают обязательно ответить.</p>