- ai4devs
- Posts
- ai4Devs #6: ChatGPT Agent & Study, Replit DB, Gemini Embedding y la "compra" de Windsurf
ai4Devs #6: ChatGPT Agent & Study, Replit DB, Gemini Embedding y la "compra" de Windsurf
Resumen bi-semanal de todo lo que pasó relevante en AI para técnicos y en español.
TL;DR - Novedades en esta edición ⚡
Google lanza Gemini Embedding (modelo gemini-embedding-001): 8 k tokens de entrada, 3 k dimensiones, top-1 en MTEB y precio agresivo de $0,15 / M tokens (input).
ChatGPT Agent ya está disponible y fusiona Operator + Deep Research y le da a ChatGPT un PC virtual con navegador visual/texto, terminal y conectores (Gmail, GitHub…).
ChatGPT lanza ‘Study Mode’, disponible en OS, Android, web, desktop): un tutor socrático que guía con preguntas, adapta la dificultad y admite imágenes/PDF. Disponible ya para Free, Plus, Pro y Teams sin coste extra.
OpenAI quiso comprar Windsurf por $3Bn y falló, Google pagó $2,4Bn por licenciar su IDE y fichar al equipo clave, y Cognition (dueños de Devin) se ha quedado con el resto.
Z.ai (ex-Zhipu) publica GLM-4.5 / GLM-4.5-Air open-source MIT, 128 k contexto y función “thinking vs instant”, rindiendo al nivel de Claude 4 Sonnet y con precio muy competitivos frente a DeepSeek y GPT-4.
Mistral libera Devstral Small 1.1 (24 B, Apache 2.0) y Devstral Medium 2507: 128 k contexto, precios de $0,10 in | $0,30 out y $0,40 in | $2 out por millón de tokens—≈ ¼ del coste de Gemini 2.5 Pro o GPT-4.1. Small.
Google libera MCP Toolbox for Databases (antes GenAI Toolbox): servidor open-source (Apache 2.0) que expone tu base de datos como un set de tools listos para agentes LLM. Conexión en 10 líneas, recarga dinámica y observabilidad de serie.
Veo3 ya disponible en la Gemini API y también en España.
Anthropic estrena Claude — Financial Analysis Solution: un paquete “llave en mano” que conecta Claude 4 (Opus/Sonnet), Claude Code y un panel unificado con feeds de mercado, Snowflake, Databricks, S&P Global, FactSet, PitchBook, etc.
Doble-clic en noticias 🔍
1. Knowledge Base al instante
Solo escribe el nombre y sigue. Sin formularios eternos.
2. Fuente de datos sin fricción
DigitalOcean Spaces, archivo local o web crawler por URL (S3 llega vía API).
3. Embeddings pre-afinados
Tres modelos ya optimizados; no piensas en dimensiones ni ventanas.
4. OpenSearch autogestionado
Eliges uno existente o dejas que la plataforma lo cree; ella se encarga del indexing y el escálado.
5. Plug-and-play con tu agente
Un clic final lo enlaza y queda listo en el Playground para ensayar prompts antes de ir a producción.
Bajo el capó: los documentos se chunkean, vectorizan e indexan automáticamente, la búsqueda semántica queda servida sin una línea de código.
Números que importan
Indexado: all-mini-lm-l6-v2 a 0,009 $/M tokens (≈ 0,022 $ por 3 M tokens de doc interno).
Runtime: pago por token del modelo elegido (p.ej. Llama 3.1 8B a 0,198 $/M in/out) y por guardrails opcionales.
Almacenamiento: coste directo del clúster OpenSearch gestionado.
Anthropic describe cómo llevó a producción su funcionalidad Research conectando varios Claude en un patrón orquestador-subagentes.
Un Opus 4 lidera, divide la consulta y lanza subagentes Sonnet 4 en paralelo para rastrear web, Google Workspace o cualquier MCP disponible. Cada uno trabaja con su propia ventana y devuelve hallazgos que el líder sintetiza y cita antes de responder.
En sus pruebas internas el esquema multi-agente superó al Opus 4 en solitario un 90 % en tareas de búsqueda compleja, sobre todo en consultas “anchas” que necesitan explorar rutas independientes simultáneamente.
El trade-off es económico: un chat normal quema 4 × tokens, el sistema de investigación unos 15 ×, así que solo compensa cuando el valor por respuesta lo justifica.
La clave, dicen, es la ingeniería de prompts y herramientas: reglas explícitas para que el líder delegue, escalado de esfuerzo según complejidad, heurísticas de selección de herramientas y uso sistemático de “extended thinking” como bloc de notas visible.
Precio brutalmente agresivo
0,11 $ M-tokens entrada y 0,28 $ salida (≈ 10× más barato que DeepSeek R1). Open-weights MIT y endpoint OpenAI-compatible.
Capabilities:
Artifacts: crea mini-juegos, simulaciones físicas y dashboards en HTML/SVG/Python listos para copy-paste → deploy.
Slide creation: agente nativo que busca info, descarga imágenes y te devuelve un deck Beamer/HTML en un prompt.
Full-stack dev: con un boilerplate base genera frontend + backend + DB y permite iterar por chat.
Tool-calling 90 % éxito; “thinking” para razonamiento pesado, “instant” para latencia baja; 128 k contexto y function-calling estándar.
Google ha abierto el “paid preview” de Veo 3 a desarrolladores: basta un proyecto de Google Cloud con facturación activa y la clave de la Gemini API para empezar a generar vídeo con audio sincronizado.
El modelo cobra 0,75 $ por segundo de salida y, según el blog oficial, una variante Veo 3 Fast llegará pronto con menor latencia y coste.
La disponibilidad ya incluye toda Europa, así que se puede probar en España.
Veo 3 genera clips HD de hasta ocho segundos con diálogo, efectos y música en la misma pasada, respeta físicas realistas y añade la marca de agua SynthID por defecto.
Para probarlo: activa el tier de pago en Google AI Studio, revisa la cookbook y lanza la primera operación veo-3.0-generate-preview.
El polaco Przemysław “Psyho” Dbiak ganó la final heurística de AtCoder 2025 superando por 9,5 % al modelo interno de OpenAI y desafiando la predicción de Sam Altman de que la IA dominaría estos concursos antes de fin de año.
Calidad: +5,8 pts sobre el siguiente rival en el MTEB Multilingual; funciona out-of-the-box en legal, finance y código.
Contexto & tamaño: 8 k tokens por llamada; vectores de 3 072 dims con Matryoshka.
Idiomas: >100 soportados; unifica los viejos modelos mono-/multi-lingües y de código.
Precio & límites
$0,15 / M tokens en el tier de pago; gratis hasta 5 req/min, 100 req/día. Batch Mode = 50 % menos (todavía en camino).
Experimental gemini-embedding-exp-03-07 se retira el 14 ago 2025.
Usa navegador visual para clicar, loguearse y descargar archivos; alterna con texto-browser y terminal según convenga.
Genera artefacts listos para producción: decks PPTX/Beamer y spreadsheets con fórmulas vivas. La beta de slides aún tiene margen de mejora.
Conectores + scheduling ⇒ informes semanales o briefings diarios sin tocar código.
Modelo de uso & costes
Plus / Team: 40 tareas-agente al mes incluidas; extra vía créditos.
Pro: 400 tareas-agente mensuales; sin hard cap para texto normal.
Precios actuales planes: Plus ≈ $20 / €23, Pro $200 / €229, Team €29 seat (anual).
Guardrails
Pide confirmación para acciones sensibles, “Watch Mode” para correos y bloqueo de transferencias. Protección anti-prompt-injection + borrado de cookies 1-click.
Replit separa por fin las bases de datos de desarrollo y de producción: cada app nueva arranca con un almacén de pruebas donde iteras y, en el primer deploy, el agente crea un clon vacío para clientes reales; en los siguientes despliegues detecta cambios de esquema y pregunta si migrarlos. Todo se gestiona desde la misma workspace, con rollback instantáneo vía Point-in-Time Restore y sin tocar scripts de migración.
La migración a los proyectos existentes será automática en las próximas semanas, y abre la puerta a enganchar lakes externos como Snowflake o BigQuery manteniendo gobierno de datos.