- ai4devs
- Posts
- ai4Devs #1: OCR de Mistral, Claude 4, Veo3 de Google Deepmind y OpenAI.
ai4Devs #1: OCR de Mistral, Claude 4, Veo3 de Google Deepmind y OpenAI.
Resumen bi-semanal de novedades relevantes en AI para técnicos y en español.
TL;DR - Novedades Esenciales ⚡
Anthropic lanza nuevos modelos, Claude Opus 4 y Claude Sonnet 4, con foco en seguir empujando las capacidades en generación de código, razonamiento avanzado y AI Agents.
Anthropic también anunció el acceso generalizado a Claude Code que ya dispone de integración nativa con VS Code y puede integrarse con muchas herramientas mediante MCP (documentación).
OpenAI lanza HealthBench un benchmark de AI médica open-source capaz de evaluar LLMs con criterios médico estructurados en 49 idiomas.
ManusAI, el sistema de agentes AI mainstream que agitó X hace unos meses, ha eliminado su waitlist y abierto el acceso, ofrecen 1000 créditos mensuales y tareas diarias free.
La nueva versión de Codex, el sistema de desarrollo con agentes de OpenAI ya está disponible para usuarios de ChatGPT Pro, Enterprise y Team.
Google anunció en el I/O 2025 Gemini 2.5 Pro con un modo avanzado de razonamiento que mejora en tareas complejas, además de tener una ventana de 1M de Tokens y destacar en comprensión de vídeo.
OpenAI permite ahora exportar a PDF informes generados por Deep Research con fuentes y formato enriquecido.
Veo3 de Google Deepmind ha introducido capacidades de generación de audio conjuntamente con el vídeo. Ya podemos ver increíbles ejemplos viralizándose en X.
📈 Tendencia: A Lovable le siguen saliendo competidores: Después del lanzamiento de Firebase Studio hace un par de semanas, Alibaba ha presentado Web Dev, en Qwen Chat, que genera aplicaciones frontales completas a partir de instrucciones sencillas. Mi opinión personal es que ambas siguen estando muy por detrás de Lovable en performance y comprensión del contexto sobre el objetivo del usuario o próposito del producto/funcionalidad.
Deep Dive en Mistral OCR 🔍
Te lo contamos todo sobre Mistral OCR, el nuevo motor de reconocimiento óptico de caracteres y document understanding de Mistral AI.
El modelo ―lanzado el 6 de marzo de 2025 bajo el nombre mistral-ocr-2503― extrae texto, imágenes, tablas y fórmulas de PDFs o imágenes y devuelve todo en Markdown estructurado, listo para flujos RAG o LLMs. Procesa hasta 2 000 páginas por $1 en modo batch, mantiene la maquetación original y entiende disposiciones complejas (multi-columna, LaTeX, gráficos), situándose como referencia en velocidad y precisión.
⚠ El miércoles pasado, lanzaron una nueva versión del modelo, puedes encontrar todos los detalles y las nuevas capacidades aquí. En resumen, se introducen capacidades para extraer información de gráficas e imágenes con outputs estructurados, pudiendo obtener como output Markdown, JSON y anotaciones BBox (Bounding Box).
Panorama rápido
🆕 Lanzamiento y versión: mistral-ocr-2503, publicado inicialmente el 6 de marzo de 2025 dentro de la Plateforme de Mistral AI y actualizado el 22 de mayo. Se puede probar gratuitamente via API.
🖼️ Cobertura multimodal: imágenes, PDFs y documentos mixtos; devuelve por defecto Markdown + metadatos de layout.
💸 Precio y rendimiento: 1 000 páginas ≈ 1 US$, modo batch ≈ 2 000 páginas / US$; velocidad de hasta 2 000 páginas por minuto.
🧩 Integraciones: disponible vía API REST, SDK Python, Azure AI Foundry y tutoriales con Milvus y LangChain.
¿Qué aporta frente al OCR clásico?
Preservación de la estructura: El motor no “aplana” el texto: detecta encabezados, párrafos, listas, tablas y los marca en Markdown, facilitando la indexación semántica y la generación de embeddings sección a sección.
Comprensión de elementos complejos: Reconoce ilustraciones, ecuaciones LaTeX y diagramas, insertando placeholders de imagen en la salida para que un LLM pueda razonar sobre ellos.
Multilingüe y layout-aware. Las pruebas de la comunidad muestran alta robustez en idiomas europeos y asiáticos y en diseños multi-columna o formularios escaneados.
Para saber más y cacharrear ⬇️
Demos & Tutoriales:
Demo Hugging Face (arrastrar PDF/imagen).
Azure AI Foundry: implementación 1-click para pipelines corporativos.
Tutorial Milvus + LangChain: RAG completo con embeddings de bloque.
Tools & Repos 🧑💻
GitDiagram: Genera diagramas de tu codebase con 1 comando.
Void: Alternativa open-source a Cursor. Utiliza agentes de IA en tu código base, comprueba y visualiza los cambios, y trae cualquier modelo localmente. Void envía mensajes directamente a los proveedores sin guardar tus datos.
Cursos, tutoriales y recursos recomendados 📚
Curso de MCP por Anthropic y Deeplearning.ai: Descubre como funciona el protocolo MCP en este curso de la mano de sus creadores.
Cómo conectar agentes de AI a herramientas usando MCP (Tutorial)
Entrevista al equipo de Claude Code y todo sobre su CLI Agent.
Si te interesan las novedades del Google I/O explicadas en detalle, te dejo un video muy completo de DotCSV aquí.
P.S: ¿Quieres un listado completo con frameworks para crear AI Agents y una descripción de para qué sirve cada uno? Stay tuned! Porque lo estamos creando para ti!👀