Entendiendo AlphaGo Zero

Entendiendo AlphaGo Zero

0

By Enrique Dans

Explicar la noticia de hace unos pocos días sobre AlphaGo Zero, el último avance en el algoritmo que fue capaz de ganar con gran ventaja a los tres mejores jugadores del mundo de Go, el llamado “ajedrez asiático”, con unas reglas aparentemente muy sencillas pero con posibilidades combinatorias enormemente complicadas, puede ser relativamente complicado en el mundo occidental, donde la popularidad de este juego es relativamente escasa.

La noticia fue publicada originalmente por DeepMind, la compañía adquirida por Google en 2014, y bien reflejada tanto por MIT Tech Review como por The Atlantic, que se centran en explicar la diferencia entre el hito obtenido por AlphaGo Zero frente al llevado a cabo en enero de 2016 por AlphaGo. Las explicaciones pueden ayudar a entender algunos conceptos básicos de machine learning, y cómo esta disciplina podría evolucionar en el futuro.

Como ya comenté en su momento, lo que AlphaGo obtuvo cuando venció a los mejores jugadores del mundo fue un desarrollo de deep learning seguido de reinforcement learning: tras entrenar originalmente al algoritmo con todas las partidas de Go registradas en la historia del juego disponibles, se obtuvo una máquina capaz de imitar a los mejores jugadores, capaz de predecir sus jugadas en un 57% de las ocasiones, pero incapaz, por lo general, de mejorar su rendimiento en una partida. Para lograrlo, se planteó entrenar a esa máquina con nuevas partidas inventadas por sí misma mediante combinatoria, dando lugar a jugadas previamente inexistentes, no llevadas a cabo anteriormente, con probabilidades muy bajas y no contempladas nunca – y por tanto, no anticipables – por jugadores humanos, pero que fueron las que, en último término, lograron decidir algunas de las partidas definitivas. AlphaGo logró ganar a los mejores jugadores humanos gracias a haber probado anteriormente espacios combinatorios que, sencillamente, nunca habían sido probados anteriormente en ninguna partida, y que podían, a pesar de su bajísima probabilidad, dar lugar a estrategias ganadoras.

¿Qué aporta, sobre esto, AlphaGo Zero? Sencillamente, eliminar la primera fase, la del aporte del registro histórico de partidas de Go jugadas por humanos. Para obtener este nuevo algoritmo, que ha sido capaz de vencer al anterior AlphaGo por cien partidas a cero, se partió, como su nombre indica, desde cero. Un algoritmo con las reglas del juego definidas, que comienza desde ahí a probar movimientos en partidas que juega contra sí mismo. Si tienes una suscripción, lo puedes leer en Nature. Tras el adecuado número de iteraciones, muchos millones de partidas, ese algoritmo, que nunca ha recibido información sobre partidas jugadas con humanos, supera al anterior, lo que elimina la necesidad, en problemas que puedan ser homologados a este – problemas estables con entornos altamente predecibles – de partir de una amplia cantidad de datos históricos.

width=»560″ allowfullscreen=»allowfullscreen»>

¿Qué debería llevarnos a pensar un hito como este? Para un directivo, significa que tendría que empezar a pensar qué operaciones en su cadena de valor o en su día a día pueden caer dentro de este tipo de situaciones: espacios combinatorios muy amplios, pero que generan resultados predecibles en torno a reglas conocidas y bien definidas. Obviamente, no se trata de la solución a todos los problemas, pero sí posiblemente a algunos. Es el momento de empezar a plantearnos este tipo de cuestiones: qué problemas podemos resolver mediante algoritmos que aprenden a partir de datos históricos, recogidos en nuestros ficheros transaccionales, en nuestros CRMs o en nuestros ERP a lo largo de años de operativa, y cuáles pueden solucionarse sin necesidad de esos datos, simplemente definiendo bien las reglas y entrenando al algoritmo desde un espacio combinatorio limpio, desde cero.

La alternativa no es poca cosa: en la inmensa mayoría de las ocasiones, la mayor inversión en tiempo y recursos en los proyectos de machine learning, en torno a un 80%, tiene que ver con la recolección de datos hoy almacenados en modelos relacionales, con su transformación y con su preparación. Si para algunos proyectos podemos partir de cero, la situación en términos de reducción de coste y de incremento del rendimiento puede ser considerable, y puede convertirse en interesantes ventajas competitivas. Entender ese tipo de situaciones, ser capaces de pensar en términos de entrenamiento de algoritmos, y desarrollar una cierta sensibilidad sobre qué técnicas pueden servir a qué situaciones son precisamente el tipo de habilidades que las compañías tendrían que estar ahora mismo desarrollando en sus directivos, no discusiones sobre dudosos futuros apocalípticos, robots asesinos y mundos post-trabajo. De hecho, lo que queda es, precisamente, mucho trabajo por hacer.

Puedes leer el artículo completo en: : Entendiendo AlphaGo Zero

COMENTARIOS

Leave a Reply