Tuomas Sandholm Creador de Libratus, Univ. Carnegie Mellon

Libratus, el ordenador que te puede desplumar al póker

Por Zuberoa Marcos | Juanlu Ocampos | 22-05-2017

El 11 de mayo de 1997, hace casi 20 años, Gary Kasparov, campeón del mundo de ajedrez y uno de los maestros más brillantes que hayan existido jamás en la historia de este deporte, se sentó frente a los periodistas en una multitudinaria rueda de prensa celebrada en Nueva York y dejó un par de frases para la historia: “Hoy no merezco los aplausos. Estoy avergonzado y pido perdón. No soy yo mismo, no lo he sido desde que perdí la segunda partida”. El bochorno de Kasparov se debía a que acababa de doblar la rodilla ante Deep Blue, un ordenador programado para jugar al ajedrez. El Ogro de Baku, soberbio, de porte majestuoso, capaz de amedrentar a los rivales con su mirada y famoso por su juego agresivo, había perdido en la partida de ajedrez más famosa de la historia. La prensa había vendido aquel torneo como el enfrentamiento definitivo del hombre contra la máquina, y el representante de nuestra especie había sido derrotado. Al margen de las acusaciones de Kasparov de falta de limpieza por parte de IBM, de señalar que todo había sido un gran montaje publicitario de la marca y no un experimento científico, lo que verdaderamente asustó a todo el mundo fue la forma en que Deep Blue ganó. Porque no lo hizo utilizando la fuerza bruta (era capaz de calcular 200 millones de posiciones por segundo), sino adoptando una estrategia poco razonable que confundió a Kasparov. Aquel ordenador también podía parecer original.

Dos décadas después, la capacidad de cálculo y aprendizaje de Deep Blue han sido ampliamente sobrepasadas. Hoy todos damos por hecho que existen ordenadores capaces de superar al ser humano en memoria, velocidad y análisis de datos. En un deporte como el ajedrez, en el que los grandes maestros memorizan miles y miles de aperturas, jugadas o estrategias, y en el que cualquier variación, por pequeña que sea, puede resultar decisiva, parece más normal que un ordenador supere a los humanos. Pero, ¿qué ocurre en un juego como el póker, en el que existe un importante grado de azar y los jugadores apuestan teniendo en cuenta la psicología de su adversario para ocultar sus cartas? La respuesta es que las máquinas también nos ganan.

El pasado mes de enero Libratus, un ordenador programado por dos científicos de la universidad de Carnagie Mellon, se enfrentó durante 20 días a cuatro de los mejores jugadores de póquer del mundo. Aquellos cuatro tipos, acostumbrados a soportar la presión de disputar manos en las que hay cientos de miles de euros en juego sobre la mesa, vieron atónitos como una máquina les desplumaba casi sin darles opciones. Uno de ellos, Dong Kim, declaró a Wired que a mitad de torneo ya sabía que no tenía ninguna posibilidad frente a Libratus: “me siento como si estuviese jugando contra alguien que me engañara, como si pudiera ver mis cartas todo el rato. No es una acusación, es que es muy bueno”. El ordenador lideró las manos desde el primer al último día, pero lo que resultaba más asombroso para los cuatro profesionales que tenía enfrente es que nunca jugaba igual: podía ir de farol con malas cartas y apostar muy alto con cartas buenas… o todo lo contrario. Tuomas Sandholm, uno de los programadores de Libratus, reconoce lo frustrante que fue al comienzo para los jugadores humanos recibir semejante paliza: “durante el primer tercio del campeonato estaban bastante enfadados, pero después aceptaron las cosas y se dieron cuenta que estaban participando en algo histórico”.

El salto que representa para la inteligencia artificial ser capaz de ganar a los humanos al póker es muy relevante. Y no porque alguien esté pensando en desvalijar todos los casinos de Las Vegas (al menos que sepamos), sino porque significa que las máquinas son capaces de tomar decisiones acertadas en entornos en los que una buena parte de la información permanece oculta. Sandholm no parece asustarse ante las posibilidades que abre un pensamiento artificial con semejante capacidad. Más bien al contrario: se muestra entusiasmado. Porque, él mejor que nadie, sabe que detrás de cualquier máquina, por impresionante que parezca, hay siempre un humano ayudándola a mejorar. Eso sí, por si acaso, mejor no jugarse con ella el sueldo del mes a una mano de póker…

Edición: Juanlu Ocampos | Mikel Agirrezabalaga
Texto: José L. Álvarez Cedena

Temas: Inteligencia artificial, Robótica, Tecnología
Transcripción de la conversación
TUOMAS SANDHOLM
00:23
Hay gente que lleva investigando el Póker Texas Hold’em. Sin Límite al menos dos décadas, y no han logrado alcanzar el nivel de superhumano. Nosotros no enseñamos a la máquina a jugar al póker, el ordenador crea sus propias estrategias utilizando algoritmos. Nunca antes ha visto una mano de póker entre humanos, ni entre una persona e inteligencia artificial, ni entre inteligencias. Lo único que recibe son las normas del juego. El modelo de juego capta la información incompleta, de forma que el algoritmo de optimización, que en modo autojuego deduce muy bien cómo jugar, tiene todos esos datos en cuenta. En tal situación, ¿qué me debo creer? ¿Qué cree el oponente? Y eso se aplica para cada situación del modelo.
JIMMY CHOU
01:10
Lo más sorprendente es su capacidad de adaptación, la capacidad de aprender día a día y mejorar. Nos ha costado encontrarle puntos débiles, sobre todo porque es capaz de adaptarse a nosotros y solucionarlos.
TUOMAS SANDHOLM
01:20
Los jugadores humanos son muy buenos. No lo son solo en este tipo de póker, sino que son los mejores del mundo. Son cuatro de los mejores diez jugadores del mundo en el Texas Hold’em. Sin Límite. Además, son muy competitivos, son como los deportistas, y evidentemente no les gusta perder. Durante la primera mitad o el primer tercio de la partida, cuando veían que iban perdiendo, no se les veía muy contentos. Pero los siguientes dos tercios digamos que lo asumían y se daban cuenta de que estaban siendo parte de algo histórico.
TUOMAS SANDHOLM
01:48
¿Por qué usar el póker como punto de referencia? El Póker Texas Hold’em Sin Límite es tan grande que sirve como referencia. Tiene diez elevado a ciento sesenta y uno estados diferentes para cada jugador. Las reglas son muy sencillas, por lo que los investigadores de todo el mundo pueden trabajar con la misma referencia, así podemos comparar el rendimiento y las técnicas entre grupos y a lo largo del tiempo, y podemos aportar cosas a los algoritmos de los demás, así hemos conseguido el acelerón que hemos visto en los últimos diez años.  

Un juego de información imperfecta es aquel en que cuando te toca tirar, no sabes cuál es realmente el estado de las cosas. En el póker, no sabes qué cartas tienen los demás jugadores. Tienes que ser capaz de tener en cuenta las acciones del oponente y qué señales te indican sobre su información privada, y al contrario, cómo tus acciones le dan indicios al oponente sobre tu información privada.

Yo diría que hay diferencias entre los tres módulos de Libratus. Una de ellas es que estamos resolviendo una abstracción que se adelanta al juego porque tenemos un nuevo algoritmo de búsqueda de equilibrio que encuentra las aproximaciones de equilibrio de Nash mucho más eficazmente. El segundo módulo es un solucionador para la última mano, la cual se resuelve con mucha mayor precisión que la que tiene la estrategia precomputada. Normalmente Intentas descubrir las debilidades de los oponentes y explotarlas a tu favor. Aquí, se hace lo contrario. Permitimos al oponente ver cuáles son nuestras debilidades y así las fortalecemos.
TUOMAS SANDHOLM
04:00
Ahora, la mejor inteligencia ha superado la máxima capacidad humana de procesar el razonamiento estratégico y la información imperfecta. Esto tiene implicaciones y aplicaciones inmensas. Por ejemplo, ¿no querrías que una inteligencia artificial te ayudase a negociar y te pusiera al mismo nivel que un negociador experto? O la ciberseguridad. ¿No estaría bien descubrir una forma racional de responder a un ataque?

Tuomas Sandholm

Creador de Libratus, Univ. Carnegie Mellon

Creador de Libratus, Univ. Carnegie Mellon