• ai4devs
  • Posts
  • ai4Devs #5: Grok 4, Batch Mode en Gemini, Reachy Mini y Andrej Karpathy

ai4Devs #5: Grok 4, Batch Mode en Gemini, Reachy Mini y Andrej Karpathy

Resumen bi-semanal de todo lo que pasó relevante en AI para técnicos y en español.

TL;DR - Novedades en esta edición

  • xAI lanza Grok 4, un modelo con tool use, búsqueda en vivo, voz y versión Heavy, además de polémicas por sesgos y avatares NSFW.

  • Anthropic ha lanzado una plataforma educacional con recursos sobre Claude Code, APIs y SDKs, Agentes, MCP…

  • HuggingFace ha lanzado SMOL3, un módelo de 3B parameters con mejor performance que Llama 3.2 3B o Qwen2.5 3B.

  • Simon Willison muestra cómo conectar Claude Code con el servidor Playwright MCP en un solo comando para que el LLM controle un navegador real y ejecute automatizaciones web. 

  • Google ha lanzado el Batch Mode en la API de Gemini, reduciendo en un 50% los costes.

  • Más de 60 grandes empresas europeas han pedido retrasar 2 años la entrada en vigor de la AI Act.

  • Veo3 ya está disponible a nivel global para todos los usuarios Pro de Gemini.

  • Anthropic incorpora Hooks en Claude Code para disparar comandos shell en eventos clave (PreToolUse, PostToolUse, Stop…) y así forzar notificaciones, lints o bloqueos sin depender del LLM.

Doble-clic en noticias 🔍

En su charla para la AI Startup School de YCombinator, Karpathy ofreció una guía directa, técnica y sin bullshit para quienes están construyendo productos con IA generativa:

  • Commodity Stack: La infraestructura ya no es una ventaja competitiva. Usar Hugging Face, OpenAI o Anthropic como backends permite centrarse en la capa de producto y UX. Infra barata, escalable y sin necesidad de tener un equipo de research.

  • Modelo mental para startups de IA: Los modelos son “programadores universales” a los que se les instruye vía prompt, contexto y herramientas.

    • “You don’t build LLMs, you use them.” El valor diferencial no está en entrenar, sino en cómo los utilizas.

    • Prompts, context engineering y tool use son el nuevo stack de software.

  • AI Engineering Loop:

    • Input: prompt, contexto, herramientas, código.

    • Output: código, texto, respuestas, acciones.

    • Feedback loop: analizar outputs, mejorar inputs.

  • Enfócate en UX: El modelo no importa tanto si tu interfaz no genera engagement. En la charla cita a empresas como Perplexity, Harvey y Replit como ejemplos de ejecución centrada en producto.

  • Multiplicador de productividad: LLMs como copilotos, no como features. Usa IA para aumentar la velocidad de desarrollo del equipo core. Promueve prototipos rápidos, validaciones diarias y shipping constante.

  • Recomendaciones interesantes durante la charla:

    • Haz algo que solo pueda hacerse con LLMs.

    • Crea datasets con feedback real de usuarios.

    • Automatiza tareas repetitivas con agentes internos.

xAI ha lanzado Grok 4 y su versión avanzada Grok 4 Heavy (multi-agente) que permite correr en paralelo y comparar output. Ambos con tool-use, búsqueda en tiempo real (“DeepSearch”) y un contexto de 256 k tokens.
Algunos benchmarks lo sitúan por delante de Gemini 2.5 Pro y Claude 4 Opus en matemáticas y razonamiento.

En el anuncio también se menciona el modo de voz y la app iOS incorpora avatares conversacionales, con modos que oscilan entre infantil, provocador u ofensivo.

Características Clave

  • Ventana de contexto de 256K.

  • Soporte para llamadas a funciones y output estructurado.

  • Arquitectura centrada en el razonamiento (“piensa antes de responder”)

  • Disponible a través de la API de xAI y pronto en Azure

  • Acceso por API con límites: 60 solicitudes por minuto, 16.000 tokens por minuto

  • $3 por cada millón de tokens de entrada, $15 por cada millón de tokens de salida

Hugging Face ha liberado SmolLM3, un modelo open-source de 3B parámetros entrenado con 11T tokens y capaz de procesar hasta 128k de context.

Según algunos benchmarks rinde por encima de Llama-3.2-3B y Qwen 2.5-3B, y se acerca al performance de los 4B (Qwen 3, Gemma 3) en benchmarks de conocimiento, matemáticas y código.

Hugging Face ha publicado la receta completa (datasets, configs, scripts Nanotron/Lighteval) para que cualquiera replique o afine el modelo, junto con checkpoints cuantizados listos para Transformers, vLLM y llama.cpp.

El recién creado EU AI Champions Initiative, respaldado por General Catalyst y 60+ corporaciones que suman €3T en capitalización y 3,7 M empleos publicó la carta “Stop the Clock” dirigida a Ursula von der Leyen. Piden una moratoria de dos años antes de que la AI Act imponga obligaciones a los modelos GPAI (agosto 2025) y a los sistemas de “alto riesgo” (agosto 2026) para dar tiempo a guías técnicas y a una simplificación normativa. 

Entre los firmantes figuran Airbus, ASML, BNP Paribas, Mercedes-Benz, Siemens Energy, Mistral AI, ElevenLabs y otros pesos pesados. Argumentan que la regulación “confusa y superpuesta” frenará la adopción de IA a escala industrial y otorgará ventaja a los gigantes de US/China. 

La iniciativa se presentará en el AI Action Summit de París ante Emmanuel Macron y altos cargos de 17 Estados miembros, junto a un compromiso de inversores de movilizar €150Bn en proyectos de IA europeos.

Hugging Face entra en “robotics-as-code” con Reachy Mini, un kit DIY de 28 cm orientado a makers y devs de IA. Dos modelos: Lite ($299) que requiere tu ordenador   y Wireless ($449) con Raspberry Pi 5, Wi-Fi, batería, cámara y 4 micros. Los Lite se envían a finales de verano; los Wireless, en otoño. 

Totalmente abierto: hardware, firmware y SDK Python (JavaScript/Scratch en camino). Incluye 15+ comportamientos plug-and-play y conexión nativa al Hugging Face Hub para descargar modelos de visión, voz o control. 

Willison detalla un flujo “plug-and-play”: basta correr claude mcp add playwright npx @playwright/mcp@latest en tu proyecto y lanzar claude; el enlace se guarda en ~/.claude.json, por lo que cada carpeta puede tener MCPs distintos. 

Con Playwright activo, Claude puede abrir Chrome, navegar, rellenar formularios, ejecutar JavaScript, tomar capturas y devolverlas al chat; la ventana es visible, así que puedes autenticarte manualmente y dejarle las cookies para que siga operando. 

El comando /mcp lista más de 15 herramientas listas para orquestar: browser_click, browser_navigate, browser_file_upload, browser_take_screenshot, browser_network_requests y más, habilitando pruebas end-to-end y scraping desde lenguaje natural. 

Esta integración convierte a Claude en un agente de QA y RPA sin necesidad de infra propia: combina LLM + navegador headful + Python/JS en minutos.

Los nuevos Hooks permiten ejecutar scripts con permisos de usuario en cada fase del ciclo de vida del agente: antes/después de usar herramientas, al enviar notificaciones, o al detenerse. Reciben JSON estructurado por stdin y pueden bloquear, continuar o suprimir acciones de Claude. 

Se configuran en settings.json (global, proyecto o local) y se crean vía comando /hooks.

Ejemplo de uso: lanzar npm run lint en PreToolUse o mandar un mensaje de Slack al completar una tarea. Es compatible con patrones de herramienta y expresiones regex, y con cualquier MCP registrado. 

Con esto se pueden automatizar aprobaciones, auditorías, formateo de código y checks de permisos sin gastar tokens ni confiar en la “buena voluntad” del modelo.

Advertencia: Corren con privilegios completos, así que un mal script puede destruir archivos o filtrar datos si no se controla. 

🧑‍💻 Guías, Cursos y Repos

  • Curso: Deeplearning.ai ha lanzado un curso de RAG (Retrieval Augmented Generation) en colaboración con Coursera.

  • Tutorial: Como crear un MCP Server en 5 lineas de código con Gradio.

  • Tutorial: Como añadir long-term memory a un chatbot de Gemini 2.5 con la API de Gemini y Mem0.

  • Tutorial: Como crear apps con Llama 4.