• ai4devs
  • Posts
  • ai4Devs #1: OCR de Mistral, Claude 4, Veo3 de Google Deepmind y OpenAI.

ai4Devs #1: OCR de Mistral, Claude 4, Veo3 de Google Deepmind y OpenAI.

Resumen bi-semanal de novedades relevantes en AI para técnicos y en español.

TL;DR - Novedades Esenciales

  • Anthropic lanza nuevos modelos, Claude Opus 4 y Claude Sonnet 4, con foco en seguir empujando las capacidades en generación de código, razonamiento avanzado y AI Agents.

  • Anthropic también anunció el acceso generalizado a Claude Code que ya dispone de integración nativa con VS Code y puede integrarse con muchas herramientas mediante MCP (documentación).

  • OpenAI lanza HealthBench un benchmark de AI médica open-source capaz de evaluar LLMs con criterios médico estructurados en 49 idiomas.

  • ManusAI, el sistema de agentes AI mainstream que agitó X hace unos meses, ha eliminado su waitlist y abierto el acceso, ofrecen 1000 créditos mensuales y tareas diarias free.

  • La nueva versión de Codex, el sistema de desarrollo con agentes de OpenAI ya está disponible para usuarios de ChatGPT Pro, Enterprise y Team.

  • Google anunció en el I/O 2025 Gemini 2.5 Pro con un modo avanzado de razonamiento que mejora en tareas complejas, además de tener una ventana de 1M de Tokens y destacar en comprensión de vídeo.

  • OpenAI permite ahora exportar a PDF informes generados por Deep Research con fuentes y formato enriquecido.

  • Veo3 de Google Deepmind ha introducido capacidades de generación de audio conjuntamente con el vídeo. Ya podemos ver increíbles ejemplos viralizándose en X.

📈 Tendencia: A Lovable le siguen saliendo competidores: Después del lanzamiento de Firebase Studio hace un par de semanas, Alibaba ha presentado Web Dev, en Qwen Chat, que genera aplicaciones frontales completas a partir de instrucciones sencillas. Mi opinión personal es que ambas siguen estando muy por detrás de Lovable en performance y comprensión del contexto sobre el objetivo del usuario o próposito del producto/funcionalidad.

Deep Dive en Mistral OCR 🔍

Te lo contamos todo sobre Mistral OCR, el nuevo motor de reconocimiento óptico de caracteres y document understanding de Mistral AI.

El modelo ―lanzado el 6 de marzo de 2025 bajo el nombre mistral-ocr-2503― extrae texto, imágenes, tablas y fórmulas de PDFs o imágenes y devuelve todo en Markdown estructurado, listo para flujos RAG o LLMs. Procesa hasta 2 000 páginas por $1 en modo batch, mantiene la maquetación original y entiende disposiciones complejas (multi-columna, LaTeX, gráficos), situándose como referencia en velocidad y precisión.

⚠ El miércoles pasado, lanzaron una nueva versión del modelo, puedes encontrar todos los detalles y las nuevas capacidades aquí. En resumen, se introducen capacidades para extraer información de gráficas e imágenes con outputs estructurados, pudiendo obtener como output Markdown, JSON y anotaciones BBox (Bounding Box).

Panorama rápido
  • 🆕 Lanzamiento y versión: mistral-ocr-2503, publicado inicialmente el 6 de marzo de 2025 dentro de la Plateforme de Mistral AI y actualizado el 22 de mayo. Se puede probar gratuitamente via API.

  • 🖼️ Cobertura multimodal: imágenes, PDFs y documentos mixtos; devuelve por defecto Markdown + metadatos de layout.

  • 💸 Precio y rendimiento: 1 000 páginas ≈ 1 US$, modo batch ≈ 2 000 páginas / US$; velocidad de hasta 2 000 páginas por minuto.

  • 🧩 Integraciones: disponible vía API REST, SDK Python, Azure AI Foundry y tutoriales con Milvus y LangChain.

¿Qué aporta frente al OCR clásico?

Preservación de la estructura: El motor no “aplana” el texto: detecta encabezados, párrafos, listas, tablas y los marca en Markdown, facilitando la indexación semántica y la generación de embeddings sección a sección.

Comprensión de elementos complejos: Reconoce ilustraciones, ecuaciones LaTeX y diagramas, insertando placeholders de imagen en la salida para que un LLM pueda razonar sobre ellos.

Multilingüe y layout-aware. Las pruebas de la comunidad muestran alta robustez en idiomas europeos y asiáticos y en diseños multi-columna o formularios escaneados.

Para saber más y cacharrear ⬇️

Demos & Tutoriales:

Tools & Repos 🧑‍💻

  • GitDiagram: Genera diagramas de tu codebase con 1 comando.

  • Void: Alternativa open-source a Cursor. Utiliza agentes de IA en tu código base, comprueba y visualiza los cambios, y trae cualquier modelo localmente. Void envía mensajes directamente a los proveedores sin guardar tus datos.

Cursos, tutoriales y recursos recomendados 📚

  • Curso de MCP por Anthropic y Deeplearning.ai: Descubre como funciona el protocolo MCP en este curso de la mano de sus creadores.

  • Cómo conectar agentes de AI a herramientas usando MCP (Tutorial)

  • Entrevista al equipo de Claude Code y todo sobre su CLI Agent.

  • Si te interesan las novedades del Google I/O explicadas en detalle, te dejo un video muy completo de DotCSV aquí.

P.S: ¿Quieres un listado completo con frameworks para crear AI Agents y una descripción de para qué sirve cada uno? Stay tuned! Porque lo estamos creando para ti!👀