- ai4devs
- Posts
- ai4Devs #5: Grok 4, Batch Mode en Gemini, Reachy Mini y Andrej Karpathy
ai4Devs #5: Grok 4, Batch Mode en Gemini, Reachy Mini y Andrej Karpathy
Resumen bi-semanal de todo lo que pasó relevante en AI para técnicos y en español.
TL;DR - Novedades en esta edición ⚡
xAI lanza Grok 4, un modelo con tool use, búsqueda en vivo, voz y versión Heavy, además de polémicas por sesgos y avatares NSFW.
Anthropic ha lanzado una plataforma educacional con recursos sobre Claude Code, APIs y SDKs, Agentes, MCP…
HuggingFace ha lanzado SMOL3, un módelo de 3B parameters con mejor performance que Llama 3.2 3B o Qwen2.5 3B.
Simon Willison muestra cómo conectar Claude Code con el servidor Playwright MCP en un solo comando para que el LLM controle un navegador real y ejecute automatizaciones web.
Google ha lanzado el Batch Mode en la API de Gemini, reduciendo en un 50% los costes.
Más de 60 grandes empresas europeas han pedido retrasar 2 años la entrada en vigor de la AI Act.
Veo3 ya está disponible a nivel global para todos los usuarios Pro de Gemini.
Anthropic incorpora Hooks en Claude Code para disparar comandos shell en eventos clave (PreToolUse, PostToolUse, Stop…) y así forzar notificaciones, lints o bloqueos sin depender del LLM.
Doble-clic en noticias 🔍
En su charla para la AI Startup School de YCombinator, Karpathy ofreció una guía directa, técnica y sin bullshit para quienes están construyendo productos con IA generativa:
Commodity Stack: La infraestructura ya no es una ventaja competitiva. Usar Hugging Face, OpenAI o Anthropic como backends permite centrarse en la capa de producto y UX. Infra barata, escalable y sin necesidad de tener un equipo de research.
Modelo mental para startups de IA: Los modelos son “programadores universales” a los que se les instruye vía prompt, contexto y herramientas.
“You don’t build LLMs, you use them.” El valor diferencial no está en entrenar, sino en cómo los utilizas.
Prompts, context engineering y tool use son el nuevo stack de software.
AI Engineering Loop:
Input: prompt, contexto, herramientas, código.
Output: código, texto, respuestas, acciones.
Feedback loop: analizar outputs, mejorar inputs.
Enfócate en UX: El modelo no importa tanto si tu interfaz no genera engagement. En la charla cita a empresas como Perplexity, Harvey y Replit como ejemplos de ejecución centrada en producto.
Multiplicador de productividad: LLMs como copilotos, no como features. Usa IA para aumentar la velocidad de desarrollo del equipo core. Promueve prototipos rápidos, validaciones diarias y shipping constante.
Recomendaciones interesantes durante la charla:
Haz algo que solo pueda hacerse con LLMs.
Crea datasets con feedback real de usuarios.
Automatiza tareas repetitivas con agentes internos.
xAI ha lanzado Grok 4 y su versión avanzada Grok 4 Heavy (multi-agente) que permite correr en paralelo y comparar output. Ambos con tool-use, búsqueda en tiempo real (“DeepSearch”) y un contexto de 256 k tokens.
Algunos benchmarks lo sitúan por delante de Gemini 2.5 Pro y Claude 4 Opus en matemáticas y razonamiento.
En el anuncio también se menciona el modo de voz y la app iOS incorpora avatares conversacionales, con modos que oscilan entre infantil, provocador u ofensivo.
Características Clave
Ventana de contexto de 256K.
Soporte para llamadas a funciones y output estructurado.
Arquitectura centrada en el razonamiento (“piensa antes de responder”)
Disponible a través de la API de xAI y pronto en Azure
Acceso por API con límites: 60 solicitudes por minuto, 16.000 tokens por minuto
$3 por cada millón de tokens de entrada, $15 por cada millón de tokens de salida
Hugging Face ha liberado SmolLM3, un modelo open-source de 3B parámetros entrenado con 11T tokens y capaz de procesar hasta 128k de context.
Según algunos benchmarks rinde por encima de Llama-3.2-3B y Qwen 2.5-3B, y se acerca al performance de los 4B (Qwen 3, Gemma 3) en benchmarks de conocimiento, matemáticas y código.
Hugging Face ha publicado la receta completa (datasets, configs, scripts Nanotron/Lighteval) para que cualquiera replique o afine el modelo, junto con checkpoints cuantizados listos para Transformers, vLLM y llama.cpp.
El recién creado EU AI Champions Initiative, respaldado por General Catalyst y 60+ corporaciones que suman €3T en capitalización y 3,7 M empleos publicó la carta “Stop the Clock” dirigida a Ursula von der Leyen. Piden una moratoria de dos años antes de que la AI Act imponga obligaciones a los modelos GPAI (agosto 2025) y a los sistemas de “alto riesgo” (agosto 2026) para dar tiempo a guías técnicas y a una simplificación normativa.
Entre los firmantes figuran Airbus, ASML, BNP Paribas, Mercedes-Benz, Siemens Energy, Mistral AI, ElevenLabs y otros pesos pesados. Argumentan que la regulación “confusa y superpuesta” frenará la adopción de IA a escala industrial y otorgará ventaja a los gigantes de US/China.
La iniciativa se presentará en el AI Action Summit de París ante Emmanuel Macron y altos cargos de 17 Estados miembros, junto a un compromiso de inversores de movilizar €150Bn en proyectos de IA europeos.
Hugging Face entra en “robotics-as-code” con Reachy Mini, un kit DIY de 28 cm orientado a makers y devs de IA. Dos modelos: Lite ($299) que requiere tu ordenador y Wireless ($449) con Raspberry Pi 5, Wi-Fi, batería, cámara y 4 micros. Los Lite se envían a finales de verano; los Wireless, en otoño.
Totalmente abierto: hardware, firmware y SDK Python (JavaScript/Scratch en camino). Incluye 15+ comportamientos plug-and-play y conexión nativa al Hugging Face Hub para descargar modelos de visión, voz o control.
Willison detalla un flujo “plug-and-play”: basta correr claude mcp add playwright npx @playwright/mcp@latest en tu proyecto y lanzar claude; el enlace se guarda en ~/.claude.json, por lo que cada carpeta puede tener MCPs distintos.
Con Playwright activo, Claude puede abrir Chrome, navegar, rellenar formularios, ejecutar JavaScript, tomar capturas y devolverlas al chat; la ventana es visible, así que puedes autenticarte manualmente y dejarle las cookies para que siga operando.
El comando /mcp lista más de 15 herramientas listas para orquestar: browser_click, browser_navigate, browser_file_upload, browser_take_screenshot, browser_network_requests y más, habilitando pruebas end-to-end y scraping desde lenguaje natural.
Esta integración convierte a Claude en un agente de QA y RPA sin necesidad de infra propia: combina LLM + navegador headful + Python/JS en minutos.
Los nuevos Hooks permiten ejecutar scripts con permisos de usuario en cada fase del ciclo de vida del agente: antes/después de usar herramientas, al enviar notificaciones, o al detenerse. Reciben JSON estructurado por stdin y pueden bloquear, continuar o suprimir acciones de Claude.
Se configuran en settings.json (global, proyecto o local) y se crean vía comando /hooks.
Ejemplo de uso: lanzar npm run lint en PreToolUse o mandar un mensaje de Slack al completar una tarea. Es compatible con patrones de herramienta y expresiones regex, y con cualquier MCP registrado.
Con esto se pueden automatizar aprobaciones, auditorías, formateo de código y checks de permisos sin gastar tokens ni confiar en la “buena voluntad” del modelo.
Advertencia: Corren con privilegios completos, así que un mal script puede destruir archivos o filtrar datos si no se controla.
🧑💻 Guías, Cursos y Repos
Curso: Deeplearning.ai ha lanzado un curso de RAG (Retrieval Augmented Generation) en colaboración con Coursera.
Tutorial: Como crear un MCP Server en 5 lineas de código con Gradio.
Tutorial: Como añadir long-term memory a un chatbot de Gemini 2.5 con la API de Gemini y Mem0.
Tutorial: Como crear apps con Llama 4.