Anthropic está dando marcha atrás en una política que habría limitado de forma encubierta a sus competidores a la hora de utilizar su nuevo modelo de IA, Claude Fable 5, para desarrollar otros modelos de IA. La empresa cambió de rumbo después de que la medida recibiera críticas muy negativas por parte de la comunidad investigadora en IA.
«Estamos actualizando las medidas de seguridad de Fable 5 para el desarrollo de LLM de última generación, con el objetivo de hacerlas más visibles. Nos equivocamos al tomar una decisión y pedimos disculpas por no haber encontrado el equilibrio adecuado», declaró Anthropic en un comunicado a WIRED.
Anthropic lanzó a principios de esta semana Claude Fable 5, una versión de su último modelo de IA con medidas de seguridad adicionales diseñadas para prevenir su mal uso. Algunas de las medidas de protección que Anthropic decidió implementar no fueron sorprendentes: la compañía afirmó que redirigiría a los usuarios que hicieran preguntas sobre ciberseguridad, biología o química a un modelo de IA menos avanzado para reducir las posibilidades de que alguien utilizara la IA avanzada para llevar a cabo un ciberataque o construir un arma biológica.
Sabotaje a investigadores de IA
Sin embargo, para los investigadores que intentan usar Claude Fable 5 para el desarrollo de IA de vanguardia, Anthropic planteó un enfoque diferente. La empresa degradaría deliberadamente el rendimiento del modelo de forma imperceptible para el usuario. Esta medida sabotearía de hecho a los investigadores que intentan usar Claude para entrenar modelos de IA de la competencia, algo que Anthropic prohíbe explícitamente en sus términos de servicio.
Anthropic afirma ahora que está cambiando de rumbo y que las medidas de seguridad de Claude Fable 5 para el desarrollo de IA serán visibles para los usuarios. Si la empresa sospecha que un usuario está intentando utilizar Claude para crear una IA de gran capacidad, le avisará de que rechaza la solicitud o le redirigirá a un modelo de menor capacidad.
Anthropic revirtió su política tras recibir fuertes críticas de la comunidad de investigación en IA. Anthropic ya había tomado medidas para impedir que sus competidores utilizaran Claude para crear modelos de IA de código cerrado y abierto, pero los críticos afirman que degradar silenciosamente el rendimiento del modelo para ciertos usuarios fue demasiado lejos. El agente de codificación de Claude se ha convertido en una herramienta predilecta entre los desarrolladores, incluidos aquellos que trabajan en proyectos de investigación de IA de código abierto, y los investigadores declararon a WIRED que la última política de la compañía podría haber conducido a un futuro preocupante en el que solo un puñado de laboratorios de IA líderes podrían llevar a cabo investigación avanzada en IA.
Dean Ball, investigador sénior de la Fundación para la Innovación Estadounidense y exasesor de la Casa Blanca en materia de IA, escribió en una publicación en X que «degradar el rendimiento en la investigación de aprendizaje automático ‘sin avisar al usuario’ es sorprendentemente hostil y da una imagen pésima». En otra publicación, añadió que la política de «sabotaje secreto» socava la postura general de Anthropic, ya que limita la colaboración entre los investigadores de IA en materia de seguridad de la IA.
«Daba la sensación de que Anthropic le estaba diciendo al público: ‘No confiamos en nadie más para investigar en IA. Somos los únicos que tenemos que investigar en IA'», afirma Will Brown, director de investigación de la startup de IA de código abierto Prime Intellect.
Brown afirmó que esta política también habría dejado a los desarrolladores sin saber si estaban infringiendo las normas de Anthropic, ya que la empresa no les avisaría cuando se activaran sus medidas de seguridad. Añadió que las restricciones podrían haber tenido consecuencias de gran alcance. Por ejemplo, mencionó el creciente ecosistema de empresas de evaluación externas que prueban modelos de vanguardia en cuanto a seguridad, rendimiento y fiabilidad; un trabajo que podría haberse visto obstaculizado si Anthropic hubiera degradado su modelo en secreto.
Anthropic responde al rápido avance de Claude
En una publicación reciente en su blog, la compañía expresó su preocupación de que la IA pudiera mejorar sus capacidades más rápido de lo que la sociedad puede adaptarse a ellas. Anthropic argumentó que sería beneficioso para el mundo contar con la opción de ralentizar o pausar temporalmente el desarrollo de la IA de vanguardia para permitir que las estructuras sociales y la investigación en este ámbito se mantengan al día.
«Estas medidas de seguridad impiden que adversarios extranjeros utilicen nuestros modelos más avanzados de forma que supongan graves riesgos para la seguridad. Estados Unidos y sus aliados tienen ventaja en chips de vanguardia y en el software altamente optimizado que los ejecuta a pleno rendimiento», declaró la compañía a WIRED. Añadió que estas medidas de seguridad garantizan que Claude no se utilice para mermar esa ventaja, por ejemplo, optimizando chips desarrollados por esos adversarios… Al decidir si hacerlas visibles u ocultas, nos enfrentamos a una disyuntiva. Una medida de seguridad oculta es más difícil de detectar y sortear. Esto significa que las medidas de seguridad pueden aplicarse con mucha mayor precisión.
Anthropic afirma que, dado que esta medida de seguridad en torno al desarrollo de la IA ya es visible, necesita ampliar su alcance, lo que significa que las solicitudes menos inocuas podrían activar sus medidas de seguridad. La compañía asegura que está trabajando para mejorar la precisión de sus clasificadores lo antes posible.
Artículo originalmente publicado en WIRED. Adaptado por Alondra Flores.











