Tuvimos la oportunidad de hablar con John Poole, el fundador de Primate Labs, la empresa detrás de la popular herramienta de evaluación comparativa Geekbench. Hablamos de Geekbench 6, la última versión del software que se anunció recientemente. Poole explicó qué lo hace diferente de su predecesor y si los puntajes son comparables a las versiones anteriores.
También compartió detalles sobre por qué creó Geekbench en primer lugar, los problemas que vio en otras herramientas de evaluación comparativa que usó en el pasado y mucho más. Puede leer un breve resumen de la entrevista a continuación o verlo todo en el video de arriba.
Pregunta: ¿Cómo se te ocurrió la idea de Geekbench y qué problema querías que resolviera?
A: Todo comenzó en 2003 cuando cambié de una PC a una Mac con un sistema G5, la primera computadora de 64 bits. Hice muchas pruebas y descubrí que no era mucho más rápido. Estaba un poco confundido, así que descargué algunos puntos de referencia populares de Mac disponibles en ese momento para ver si era un problema con mi sistema.
Según los puntos de referencia, el G5 es más rápido y comparable a todos los demás G5, lo que me pareció extraño. Así que decidí aplicar ingeniería inversa a uno de los puntos de referencia populares y descubrí que las pruebas eran muy pequeñas y sintéticas. Realizaron tareas muy simples que no eran una buena medida del desempeño general. Solo se centraron en la velocidad de ejecución de su procesador y no tuvieron en cuenta la memoria, por ejemplo.
Entonces decidí escribir mis propias pruebas y ver qué pasaba. Fue un proyecto paralelo mío en el que trabajé durante unos tres años. Luego, en 2016, se lanzó la primera versión de Geekbench como descarga gratuita.
Recibimos muchos comentarios excelentes de la gente en ese momento, lo que nos ayudó a crecer hasta convertirnos en la empresa que somos hoy, evaluando comparativamente a millones de usuarios cada mes.
P: ¿Cómo ha crecido la empresa desde el lanzamiento inicial de Geekbench? ¿Probablemente ya no trabajas en el software?

Robert Triggs / Autoridad de Android
A: Ahora tenemos un equipo pequeño pero fuerte aquí en Canadá, y trabajamos principalmente de forma remota, especialmente después de la pandemia. Todo el equipo tiene su base en Ontario, con la mayoría de la gente de Toronto.
Tenemos personas trabajando en diferentes roles, algunos trabajando en el benchmark en sí, mientras que otros están más enfocados en las cargas de trabajo de IA en las que trabajamos. Luego están las personas que trabajan en ciencia de datos, analizando los resultados para asegurarse de que tengamos una buena precisión estadística, y luego estoy yo, la cara bonita de la empresa.
P: Mencionó que el problema principal con otras herramientas comparativas es que son pequeñas y sintéticas, por lo que no simulan el uso en el mundo real. ¿Cómo es exactamente Geekbench 6 diferente y mejor?

A: Tenemos 15 cargas de trabajo separadas en Geekbench 6 que usamos para medir el rendimiento de la CPU. Hemos tratado de elegir una variedad de tareas diferentes que reflejen lo que creemos que las personas usan sus computadoras y teléfonos inteligentes para el día tras día. Así que realmente estamos tratando de acercarnos a lo que la gente va a hacer con sus dispositivos.
Nos enfocamos en cosas como la compresión, que es importante porque cuando descarga aplicaciones en su teléfono inteligente, Android las extrae y luego las instala. Tenemos pruebas de HTML porque las personas pasan mucho tiempo en los navegadores, por lo que es una métrica importante para capturar.
Ahora tenemos un fondo borroso, que era irrelevante hace tres o cuatro años.
Hay videoconferencias que ganaron popularidad durante la pandemia. Tenemos una carga de trabajo de desenfoque de fondo, que es cuando su rostro es visible pero el fondo está borroso, por lo que las personas no pueden ver su dormitorio, por ejemplo. Esa carga de trabajo no era tan relevante hace tres o cuatro años, pero se volvió importante con la pandemia.
Realmente tratamos de ver las cosas que hacen un uso intensivo de la CPU y que realmente son importantes para el dispositivo día tras día para que no solo estemos haciendo tareas pequeñas y simples. Esto es importante porque no queremos que Geekbench exista en el vacío. No queremos que sea un benchmark que simplemente te diga que este procesador es mejor o peor. Queremos que sea representativo de lo que las personas realmente hacen con sus dispositivos para que puedan decidir si es hora de actualizar.
P: Dijiste que estás trabajando en la evaluación comparativa de la IA. ¿Puedes contarnos más sobre eso?

Robert Triggs / Autoridad de Android
A: Teníamos puntos de referencia de ML (aprendizaje automático) en Geekbench 5 y ahora tenemos nuevos puntos de referencia de ML en Geekbench 6. Como dije, tenemos una carga de trabajo de desenfoque de fondo similar a lo que hace Zoom donde cortamos una imagen y decimos que esta parte de la imagen es el primer plano, así que desenfoque, y esta parte es el fondo, así que no lo desenfoque.
También tenemos una serie de otras cargas de trabajo, incluida una carga de trabajo de la biblioteca de fotos que explica algunos de los pasos que puede necesitar seguir al importar fotos a una biblioteca. Por ejemplo, aplicaciones como Google Photos usan ML para etiquetar sus imágenes, lo que facilita encontrar fotos de su bebé o gato más tarde cuando las busca.
También tenemos un punto de referencia separado que lanzamos en 2020 en el que todavía se está trabajando. Observamos el rendimiento de ML para una amplia variedad de cargas de trabajo y tomamos los modelos y aplicaciones tradicionales, como el reconocimiento de imágenes, la detección de objetos, la detección de rostros y la traducción en el dispositivo. Los ejecutamos no solo en CPU, sino también en GPU y NPU para ver su rendimiento.
Y dado que muchas NPU y marcos de ML modernos hacen concesiones entre el rendimiento y la precisión, también tratamos de capturar eso como una métrica. Pero eso está enfocado con láser en ML y no tiene la misma aplicabilidad que la suite Geekbench.
P: ¿Puede contarnos un poco más sobre Geekbench 6?

Robert Triggs / Autoridad de Android
A: Geekbench 6 es la evolución de Geekbench como punto de referencia del mundo real que mide el rendimiento de la CPU y la GPU en las últimas versiones, para ciertas cosas como navegadores web, aplicaciones de fotos y filtros de redes sociales. Así que las cosas que la gente hace día tras día.
Con Geekbench 6, intentamos mejorar aún más la relevancia del punto de referencia en el mundo real con elementos como el desenfoque del fondo, que ya mencioné. También tratamos de descubrir cómo las personas usan ML para organizar sus vidas de cierta manera, razón por la cual creamos la biblioteca de fotos que mencioné.
Hacer que los conjuntos de datos sean más grandes y que la carga de trabajo sea más relevante y realista fue el gran paso con Geekbench 6.
También hemos mejorado los conjuntos de datos que usamos para algunas de las otras cargas de trabajo. Entonces, cargas de trabajo que ya estaban en Geekbench 5 pero que ahora están trabajando en conjuntos de datos más grandes en Geekbench 6. Un ejemplo obvio de esto son los dispositivos móviles. Hay una diferencia entre los sensores de cámara que tenían los teléfonos en 2019 cuando salió Geekbench 5 y los sensores que tienen ahora si tienes teléfonos con cámaras de 48MP y 108MP. Así que ha habido una explosión en el tamaño de las imágenes y las aplicaciones están lidiando con eso. Estamos tratando de responder preguntas como «¿Cómo maneja su teléfono una imagen de 48MP que generó su cámara?» Entonces, hacer que los conjuntos de datos sean más grandes y que la carga de trabajo sea más relevante y realista fue el gran paso con Geekbench 6.
Otra cosa que hemos hecho es que hemos cambiado por completo la forma en que hacemos subprocesos en Geekbench 6. En Geekbench 5, siempre escupimos las puntuaciones en una puntuación de un solo núcleo y una puntuación de varios núcleos. En Geekbench 6, todavía tenemos la misma puntuación de un solo núcleo y la puntuación de varios núcleos, pero cambiamos la forma en que obtenemos la puntuación de varios núcleos.
P: Los puntajes de Geekbench 6 no se pueden comparar con los puntajes de Geekbench 5 porque es un punto de referencia completamente diferente. ¿Qué pasa con versiones como Geekbench 5.1 y 5.2? ¿Las puntuaciones son siempre comparables?

Robert Triggs / Autoridad de Android
A: En el pasado, 3.0 no era comparable a 3.1 y 4.0 no era comparable a 4.1. Si bien podemos detectar muchos problemas antes de que se lance el software, nos perdemos cosas y recibimos comentarios de las personas después de que el software ya está disponible. Luego tomamos esa retroalimentación y arreglamos los errores dentro de los primeros dos meses.
Entonces, si Geekbench 6.0 será similar a 6.1 es difícil de decir en este momento, pero las próximas versiones como 6.2 y 6.3 deberían ser similares, ya que principalmente agregamos soporte para nuevo hardware.
Este es solo un breve resumen de la conversación que tuvimos con John Poole de Primate Labs. Si quieres saber más, mira el video en la parte superior de la página.