Las encuestas se han utilizado desde tiempos inmemoriales para obtener información sobre poblaciones, productos y opiniones públicas. Y aunque las metodologías pueden haber cambiado a lo largo de los milenios, una cosa ha permanecido constante: la necesidad de personas, muchas personas.
Pero ¿qué pasa si no puedes encontrar suficientes personas para construir un grupo de muestra lo suficientemente grande para generar resultados significativos? ¿O qué pasa si potencialmente puedes encontrar suficientes personas, pero limitaciones presupuestarias restringen la cantidad de personas que puedes reclutar y entrevistar?
Es aquí donde Fairgen quiere ayudar. La startup israelí lanzó hoy una plataforma que utiliza "IA estadística" para generar datos sintéticos que asegura que son tan buenos como los reales. La empresa también anuncia una nueva recaudación de fondos de $5.5 millones de Maverick Ventures Israel, The Creator Fund, Tal Ventures, Ignia y un puñado de inversores ángeles, llevando su total recaudado desde su inicio a $8 millones.
“Datos falsos”
Los datos pueden ser el alma de la IA, pero también han sido la piedra angular de la investigación de mercado desde siempre. Entonces, cuando los dos mundos chocan, como lo hacen en el mundo de Fairgen, la necesidad de datos de calidad se vuelve un poco más pronunciada.
Fundada en Tel Aviv, Israel, en 2021, Fairgen estaba anteriormente centrada en abordar el sesgo en la IA. Pero a fines de 2022, la empresa cambió a un nuevo producto, Fairboost, que ahora está lanzando fuera de la versión beta.
Fairboost promete “impulsar” un conjunto de datos más pequeño hasta tres veces, permitiendo obtener información más detallada en nichos que de otro modo serían demasiado difíciles o costosos de alcanzar. Con esto, las empresas pueden entrenar un modelo de aprendizaje automático profundo para cada conjunto de datos que carguen en la plataforma de Fairgen, con la IA estadística aprendiendo patrones en los diferentes segmentos de la encuesta.
El concepto de “datos sintéticos” - datos creados artificialmente en lugar de eventos del mundo real - no es nuevo. Sus raíces se remontan a los primeros días de la informática, cuando se utilizaba para probar software y algoritmos y simular procesos. Pero los datos sintéticos, tal como los entendemos hoy, han cobrado vida propia, especialmente con el advenimiento del aprendizaje automático, donde se utilizan cada vez más para entrenar modelos. Podemos abordar tanto los problemas de escasez de datos como las preocupaciones de privacidad de datos utilizando datos generados artificialmente que no contienen información sensible.
Fairgen es la última startup que pone a prueba los datos sintéticos, y tiene la investigación de mercado como su objetivo principal. Vale la pena señalar que Fairgen no produce datos de la nada, ni arroja millones de encuestas históricas en una olla fundida de IA - los investigadores de mercado deben realizar una encuesta para un pequeño grupo de su mercado objetivo, y a partir de eso, Fairgen establece patrones para ampliar la muestra. La empresa asegura que puede garantizar al menos un aumento del doble en la muestra original, pero en promedio, puede lograr un aumento del triple.
De esta manera, Fairgen podría establecer que alguien de cierto rango de edad y/o nivel de ingresos está más inclinado a responder una pregunta de cierta manera. O combinar cualquier cantidad de puntos de datos para extrapolar a partir del conjunto de datos original. Básicamente se trata de generar lo que el cofundador y CEO de Fairgen, Samuel Cohen, llama “segmentos de datos más sólidos y robustos, con un margen de error más bajo”.
“La principal realización fue que las personas se están volviendo cada vez más diversas - las marcas necesitan adaptarse a eso, y necesitan entender sus segmentos de clientes”, explicó Cohen a TechCrunch. “Los segmentos son muy diferentes - los Z Gen piensan de manera diferente a las personas mayores. Y para poder tener esta comprensión del mercado a nivel de segmento, cuesta mucho dinero, lleva mucho tiempo y recursos operativos. Y ahí es donde me di cuenta de que estaba el punto doloroso. Sabíamos que los datos sintéticos tenían un papel que desempeñar allí.”
Una crítica evidente - una con la que la empresa reconoce que ha lidiado - es que todo esto suena como un atajo masivo para evitar tener que salir al campo, entrevistar a personas reales y recopilar opiniones reales.
Seguramente cualquier grupo subrepresentado debería preocuparse de que sus voces reales estén siendo reemplazadas por, bueno, voces falsas?
“Cada cliente con el que hemos hablado en el espacio de la investigación tiene enormes puntos ciegos - audiencias totalmente difíciles de alcanzar,” dijo Fernando Zatz, responsable de crecimiento de Fairgen, a TechCrunch. “En realidad no venden proyectos porque no hay suficientes personas disponibles, especialmente en un mundo cada vez más diverso donde hay mucha segmentación de mercado. A veces no pueden ir a países específicos; no pueden ir a segmentos demográficos específicos, así que realmente pierden proyectos porque no pueden alcanzar sus cuotas. Tienen un número mínimo [de encuestados], y si no llegan a ese número, no venden las ideas.”
Fairgen no es la única empresa que aplica la IA generativa al campo de la investigación de mercado. Qualtrics dijo el año pasado que estaba invirtiendo $500 millones en cuatro años para llevar la IA generativa a su plataforma, aunque con un enfoque sustancial en la investigación cualitativa. Sin embargo, es una evidencia adicional de que los datos sintéticos están aquí, y están aquí para quedarse.
Pero la validación de resultados jugará un papel importante en convencer a las personas de que esto es real y no es una medida de ahorro que producirá resultados subóptimos. Fairgen hace esto comparando un aumento de muestra “real” con un aumento de muestra “sintético” - toma una pequeña muestra del conjunto de datos, la extrapola y la pone lado a lado con la realidad.
“Con cada cliente que firmamos, hacemos este mismo tipo de prueba”, dijo Cohen.
Hablando estadísticamente
Cohen tiene una Maestría en Ciencias Estadísticas de la Universidad de Oxford y un Doctorado en Aprendizaje Automático de la UCL de Londres, parte de los cuales implicó un período de nueve meses como científico investigador en Meta.
Uno de los cofundadores de la empresa es el presidente Benny Schnaider, quien anteriormente estuvo en el espacio del software empresarial, con cuatro salidas a su nombre: Ravello a Oracle por un reportado $500 millones en 2016; Qumranet a Red Hat por $107 millones en 2008; P-Cube a Cisco por $200 millones en 2004; y Pentacom a Cisco por $118 en 2000.
Y luego está Emmanuel Candès, profesor de estadísticas e ingeniería eléctrica en la Universidad de Stanford, que se desempeña como asesor científico principal de Fairgen.
Esta base empresarial y matemática es un punto de venta importante para una empresa que intenta convencer al mundo de que los datos falsos pueden ser igual de buenos que los datos reales, si se aplican correctamente. También es así como son capaces de explicar claramente los umbrales y limitaciones de su tecnología - cuán grandes necesitan ser las muestras para lograr los aumentos óptimos.
Según Cohen, idealmente necesitan al menos 300 encuestados reales para una encuesta, y a partir de eso Fairboost puede aumentar un segmento que constituya no más del 15% de la encuesta más amplia.
“Por debajo del 15%, podemos garantizar un aumento promedio de 3 veces después de validarlos con cientos de pruebas paralelas”, dijo Cohen. “Estadísticamente, las ganancias son menos dramáticas por encima del 15%. Los datos ya presentan buenos niveles de confianza, y nuestros encuestados sintéticos solo pueden igualarlos o aportar un aumento marginal. Desde el punto de vista empresarial, tampoco hay un punto doloroso por encima del 15% - las marcas ya pueden obtener aprendizajes de estos grupos; solo están atascados a nivel de nicho.”
El factor no-LLM
Vale la pena señalar que Fairgen no utiliza modelos de lenguaje grandes (LLM), y su plataforma no genera respuestas “en inglés claro” como ChatGPT. La razón de esto es que un LLM utilizará aprendizajes de una miríada de otras fuentes de datos fuera de los parámetros del estudio, lo que aumenta las posibilidades de introducir sesgos incompatibles con la investigación cuantitativa.
Fairgen se trata de modelos estadísticos y datos tabulares, y su entrenamiento se basa únicamente en los datos contenidos en el conjunto de datos cargado. Eso permite efectivamente a los investigadores de mercado generar nuevos encuestados sintéticos extrayendo de segmentos adyacentes en la encuesta.
“No usamos LLMs por una razón muy simple, que es que si entrenáramos previamente con muchas [otras] encuestas, solo transmitiría información errónea”, dijo Cohen. “Porque habría casos en los que ha aprendido algo en otra encuesta, y no queremos eso. Se trata de confiabilidad.”
En cuanto al modelo de negocio, Fairgen se vende como un SaaS, con empresas cargando sus encuestas en cualquier formato estructurado (.CSV, o .SAV) a la plataforma basada en la nube de Fairgen. Según Cohen, lleva hasta 20 minutos entrenar el modelo en los datos de la encuesta que se le proporciona, dependiendo del número de preguntas. El usuario luego selecciona un “segmento” (un subconjunto de encuestados que comparten ciertas características) - por ejemplo, “Gen Z trabajando en la industria x”, - y luego Fairgen entrega un nuevo archivo estructurado de forma idéntica al archivo de entrenamiento original, con las mismas preguntas exactas, solo que nuevas filas.
Fairgen está siendo utilizado por BVA y la firma francesa de estudios de mercado y sondeos IFOP, que ya han integrado la tecnología de la startup en sus servicios. IFOP, que es algo así como Gallup en los EE.UU., está utilizando Fairgen para fines de sondeo en las elecciones europeas, aunque Cohen cree que podría terminar utilizándose para las elecciones de EE.UU. más adelante este año también.
“IFOP básicamente es nuestro sello de aprobación, porque han estado alrededor durante como 100 años,” dijo Cohen. “Validaron la tecnología y fueron nuestro socio de diseño original. También estamos probando o ya integrando con algunas de las mayores empresas de estudios de mercado del mundo, de las que no se me permite hablar aún.”