Google lanza una herramienta que marca textos generados por una IA

Google lanzó su tecnología que permite insertar marcas de agua en textos generados con IA. El gigante de Mountain View anunció que SynthID será de código abierto y se ofrecerá gratuitamente a partir de hoy. La herramienta se anunció originalmente en 2023 y hace unos meses pudimos conocer sus avances.

La cuenta oficial de Google DeepMind en X (Twitter) confirmó que SynthID se abrirá a cualquiera que quiera experimentar con ella. La tecnología forma parte de una familia de herramientas de marca de agua para contenido generado con inteligencia artificial. Con ella, Google busca facilitar la identificación de texto, imágenes o videos producidos a través de modelos de lenguaje.

"Hoy, estamos publicando el código abierto de nuestra herramienta de marca de agua de texto SynthID a través de un kit de herramientas de IA generativa responsable actualizado", mencionó Google DeepMind. "Al hacer público el código fuente, más personas podrán usar la herramienta para marcar y determinar si los resultados de texto provienen de sus propios LLM, lo que facilitará la creación de IA de manera responsable."

https://twitter.com/GoogleDeepMind/status/1849110263871529114

Las marcas de agua de SynthID funcionan mejor con textos largos o variaciones. Según los desarrolladores de DeepMind, estas marcas son invisibles al ojo humano y solo pueden detectarse a través de un software de identificación.

SynthID ha mostrado su eficacia en el texto generado por Gemini, es por ello que han decidido abrir el código para que otras empresas lo implementen en sus modelos de lenguaje y les ayude a identificar cualquier limitación técnica que pudiera surgir.

Cómo funciona SynthID en los textos generados por IA

De acuerdo con Google, SynthID incorpora una marca de agua imperceptible que no afecta la calidad, precisión o creatividad del contenido. La marca se incrusta directamente en el proceso de generación de texto al darle un puntaje de probabilidad a cada token. Estos tokens son bloques de construcción que utiliza el modelo para procesar la información y pueden ser un letra, palabra o parte de una frase.

"El patrón final de puntuaciones para las elecciones de palabras del modelo, combinado con las puntuaciones de probabilidad ajustadas, es considerado la marca de agua", mencionan los investigadores de DeepMind. "Este patrón de puntuaciones se compara con el patrón esperado de puntuaciones para texto con y sin marca de agua, lo que ayuda a SynthID a detectar si una herramienta de inteligencia artificial generó el texto o si podría provenir de otras fuentes."

Marca de agua de SynthID en texto generado por Google Gemini

SynthID mostró su efectividad en un experimento en el que se analizaron las puntuaciones de 20 millones de respuestas de chatbots. Google menciona en un artículo publicado en Nature que su tecnología permite una alta precisión de detección con un impacto mínimo en la latencia. Esto último es importante, puesto que el proceso de insertar marcas de agua no utiliza los recursos del modelo de lenguaje.

"Las evaluaciones de múltiples LLM muestran empíricamente que SynthID-Text proporciona una detectabilidad mejorada en comparación con los métodos comparables, y los puntos de referencia estándar y las calificaciones humanas en paralelo no indican ningún cambio en las capacidades de LLM", mencionan los ingenieros de DeepMind.

SynthID estará disponible a través de Hugging Face y dentro del Kit de herramientas de IA generativa responsable de Google.