• ai4devs
  • Posts
  • ai4Devs #6: ChatGPT Agent & Study, Replit DB, Gemini Embedding y la "compra" de Windsurf

ai4Devs #6: ChatGPT Agent & Study, Replit DB, Gemini Embedding y la "compra" de Windsurf

Resumen bi-semanal de todo lo que pasó relevante en AI para técnicos y en español.

TL;DR - Novedades en esta edición

  • Google lanza Gemini Embedding (modelo gemini-embedding-001): 8 k tokens de entrada, 3 k dimensiones, top-1 en MTEB y precio agresivo de $0,15 / M tokens (input).

  • ChatGPT Agent ya está disponible y fusiona Operator + Deep Research y le da a ChatGPT un PC virtual con navegador visual/texto, terminal y conectores (Gmail, GitHub…).

  • ChatGPT lanza ‘Study Mode’, disponible en OS, Android, web, desktop): un tutor socrático que guía con preguntas, adapta la dificultad y admite imágenes/PDF. Disponible ya para Free, Plus, Pro y Teams sin coste extra.

  • OpenAI quiso comprar Windsurf por $3Bn y falló, Google pagó $2,4Bn por licenciar su IDE y fichar al equipo clave, y Cognition (dueños de Devin) se ha quedado con el resto.

  • Z.ai (ex-Zhipu) publica GLM-4.5 / GLM-4.5-Air open-source MIT, 128 k contexto y función “thinking vs instant”, rindiendo al nivel de Claude 4 Sonnet y con precio muy competitivos frente a DeepSeek y GPT-4.

  • Mistral libera Devstral Small 1.1 (24 B, Apache 2.0) y Devstral Medium 2507: 128 k contexto, precios de $0,10 in | $0,30 out y $0,40 in | $2 out por millón de tokens—≈ ¼ del coste de Gemini 2.5 Pro o GPT-4.1. Small.

  • Google libera MCP Toolbox for Databases (antes GenAI Toolbox): servidor open-source (Apache 2.0) que expone tu base de datos como un set de tools listos para agentes LLM. Conexión en 10 líneas, recarga dinámica y observabilidad de serie.

  • Veo3 ya disponible en la Gemini API y también en España.

  • Anthropic estrena Claude — Financial Analysis Solution: un paquete “llave en mano” que conecta Claude 4 (Opus/Sonnet), Claude Code y un panel unificado con feeds de mercado, Snowflake, Databricks, S&P Global, FactSet, PitchBook, etc.

Doble-clic en noticias 🔍

  • 1. Knowledge Base al instante

    Solo escribe el nombre y sigue. Sin formularios eternos. 

  • 2. Fuente de datos sin fricción

    DigitalOcean Spaces, archivo local o web crawler por URL (S3 llega vía API). 

  • 3. Embeddings pre-afinados

    Tres modelos ya optimizados; no piensas en dimensiones ni ventanas. 

  • 4. OpenSearch autogestionado

    Eliges uno existente o dejas que la plataforma lo cree; ella se encarga del indexing y el escálado. 

  • 5. Plug-and-play con tu agente

    Un clic final lo enlaza y queda listo en el Playground para ensayar prompts antes de ir a producción. 

Bajo el capó: los documentos se chunkean, vectorizan e indexan automáticamente, la búsqueda semántica queda servida sin una línea de código.

Números que importan

  • Indexado: all-mini-lm-l6-v2 a 0,009 $/M tokens (≈ 0,022 $ por 3 M tokens de doc interno). 

  • Runtime: pago por token del modelo elegido (p.ej. Llama 3.1 8B a 0,198 $/M in/out) y por guardrails opcionales. 

  • Almacenamiento: coste directo del clúster OpenSearch gestionado. 

Anthropic describe cómo llevó a producción su funcionalidad Research conectando varios Claude en un patrón orquestador-subagentes.

Un Opus 4 lidera, divide la consulta y lanza subagentes Sonnet 4 en paralelo para rastrear web, Google Workspace o cualquier MCP disponible. Cada uno trabaja con su propia ventana y devuelve hallazgos que el líder sintetiza y cita antes de responder.

En sus pruebas internas el esquema multi-agente superó al Opus 4 en solitario un 90 % en tareas de búsqueda compleja, sobre todo en consultas “anchas” que necesitan explorar rutas independientes simultáneamente.

El trade-off es económico: un chat normal quema 4 × tokens, el sistema de investigación unos 15 ×, así que solo compensa cuando el valor por respuesta lo justifica.

La clave, dicen, es la ingeniería de prompts y herramientas: reglas explícitas para que el líder delegue, escalado de esfuerzo según complejidad, heurísticas de selección de herramientas y uso sistemático de “extended thinking” como bloc de notas visible.

  • Precio brutalmente agresivo

    0,11 $ M-tokens entrada y 0,28 $ salida (≈ 10× más barato que DeepSeek R1). Open-weights MIT y endpoint OpenAI-compatible. 

  • Capabilities:

    • Artifacts: crea mini-juegos, simulaciones físicas y dashboards en HTML/SVG/Python listos para copy-paste → deploy

    • Slide creation: agente nativo que busca info, descarga imágenes y te devuelve un deck Beamer/HTML en un prompt. 

    • Full-stack dev: con un boilerplate base genera frontend + backend + DB y permite iterar por chat.

    • Tool-calling 90 % éxito; “thinking” para razonamiento pesado, “instant” para latencia baja; 128 k contexto y function-calling estándar. 

Google ha abierto el “paid preview” de Veo 3 a desarrolladores: basta un proyecto de Google Cloud con facturación activa y la clave de la Gemini API para empezar a generar vídeo con audio sincronizado.

El modelo cobra 0,75 $ por segundo de salida y, según el blog oficial, una variante Veo 3 Fast llegará pronto con menor latencia y coste.

La disponibilidad ya incluye toda Europa, así que se puede probar en España.

Veo 3 genera clips HD de hasta ocho segundos con diálogo, efectos y música en la misma pasada, respeta físicas realistas y añade la marca de agua SynthID por defecto.

Para probarlo: activa el tier de pago en Google AI Studio, revisa la cookbook y lanza la primera operación veo-3.0-generate-preview.

El polaco Przemysław “Psyho” Dbiak ganó la final heurística de AtCoder 2025 superando por 9,5 % al modelo interno de OpenAI y desafiando la predicción de Sam Altman de que la IA dominaría estos concursos antes de fin de año.

  • Calidad: +5,8 pts sobre el siguiente rival en el MTEB Multilingual; funciona out-of-the-box en legal, finance y código. 

  • Contexto & tamaño: 8 k tokens por llamada; vectores de 3 072 dims con Matryoshka.

  • Idiomas: >100 soportados; unifica los viejos modelos mono-/multi-lingües y de código. 

  • Precio & límites

    • $0,15 / M tokens en el tier de pago; gratis hasta 5 req/min, 100 req/día. Batch Mode = 50 % menos (todavía en camino). 

    • Experimental gemini-embedding-exp-03-07 se retira el 14 ago 2025.

  • Usa navegador visual para clicar, loguearse y descargar archivos; alterna con texto-browser y terminal según convenga. 

  • Genera artefacts listos para producción: decks PPTX/Beamer y spreadsheets con fórmulas vivas. La beta de slides aún tiene margen de mejora. 

  • Conectores + scheduling ⇒ informes semanales o briefings diarios sin tocar código. 

  • Modelo de uso & costes

    • Plus / Team: 40 tareas-agente al mes incluidas; extra vía créditos.

    • Pro: 400 tareas-agente mensuales; sin hard cap para texto normal.

    • Precios actuales planes: Plus ≈ $20 / €23, Pro $200 / €229, Team €29 seat (anual). 

  • Guardrails

    • Pide confirmación para acciones sensibles, “Watch Mode” para correos y bloqueo de transferencias. Protección anti-prompt-injection + borrado de cookies 1-click. 

Replit separa por fin las bases de datos de desarrollo y de producción: cada app nueva arranca con un almacén de pruebas donde iteras y, en el primer deploy, el agente crea un clon vacío para clientes reales; en los siguientes despliegues detecta cambios de esquema y pregunta si migrarlos. Todo se gestiona desde la misma workspace, con rollback instantáneo vía Point-in-Time Restore y sin tocar scripts de migración.

La migración a los proyectos existentes será automática en las próximas semanas, y abre la puerta a enganchar lakes externos como Snowflake o BigQuery manteniendo gobierno de datos.

🧑‍💻 Guías, Cursos y Repos

  • Repo de Microsoft para iniciarse en IA Generativa.

  • Repo con +700 herramientas para Devs.

  • Repo que escanea repos de Git en busca de API Keys, tokens y private keys.