Instrucciones ocultas de IA revelan el control de Anthropic sobre Claude 4
El investigador independiente Simon Willison analiza las instrucciones de sistema de Claude 4, revelando cómo Anthropic controla el comportamiento de sus modelos de IA
Última actualización
El domingo, el investigador independiente de inteligencia artificial Simon Willison publicó un análisis detallado de las instrucciones de sistema recientemente publicadas por Anthropic para los modelos Opus 4 y Sonnet 4 de Claude 4, ofreciendo perspectivas sobre cómo Anthropic controla el 'comportamiento' de los modelos a través de sus resultados. Willison examinó tanto las instrucciones publicadas como las instrucciones internas filtradas de las herramientas, revelando lo que él describe como 'una especie de manual no oficial para usar estas herramientas de la mejor manera'.
Para entender de qué habla Willison, es necesario explicar qué son las instrucciones de sistema. Los modelos de lenguaje de gran escala (LLM), como los que alimentan Claude y ChatGPT, procesan una entrada llamada 'prompt' y devuelven una salida que es la continuación más probable de ese prompt. Las instrucciones de sistema son directrices que las empresas de IA proporcionan a los modelos antes de cada conversación para establecer cómo deben responder.
Podría gustar
- Salesforce adquiere Informatica por 8.000 millones de dólares
- La startup de Sam Altman lanza un robot para verificar la humanidad mediante escaneo de iris
- Mistral Lanza 'Le Chat Enterprise' para Competir con Microsoft y OpenAI
- El iPhone 7 Plus y el iPhone 8 son designados como productos vintage por Apple
- Wisk Aero y NASA firman una alianza de 5 años para desarrollar vuelos autónomos sostenibles
- Epic insta a un juez a obligar a Apple a reincorporar Fortnite en la App Store de EE. UU.
- Investigadores estadounidenses más que duplican la potencia de un avance en fusión nuclear
- El aumento de ciberataques obliga a las aseguradoras a reconsiderar las primas