Listado completo de herramientas para crear AI Agents

Frameworks para crear AI Agents de texto y voz y cursos para adentrarte en AI.

Pol Guasch
2 de junio de 2025

CrewAI: Framework para orquestar agentes autónomos que adoptan roles.
AutoGPT: Plataforma para crear, desplegar y gestionar sistemas de agentes y workflows.
Phidata: Permite crear asistentes de IA con memoria, conocimiento y herramientas.
Camel: Permite construir sistemas multi-agente personalizados para generar datos, completar tareas o simular interacciones.
AutoGen: Framework de Microsoft que permite crear y orquestar sistemas multi-agente.
SuperAGI: Framework open-source para crear, gestionar y ejecutar agentes autónomos.
Superagent: Framework open-source que permite añadir agentes de IA a aplicaciones.
LangChain: Framework open-source que conecta LLMs con datos y APIs, facilitando cadenas, agentes y RAG en producción.
LlamaIndex: Framework flexible para indexar, consultar y enlazar cualquier dato privado a LLMs, potenciando RAG y agentes contextuales.

Ultravox: Combina un LLM multimodal con códec neural de audio consiguiendo ofrecer conversaciones en tiempo real (latencia ≈ 80 ms).
Moshi: Modelo fundacional de voz desarrollado por la startup francesa Kyutai con capacidad de mantener conversaciones real-time (codifica voz a 1,1 kbps y responde instantáneamente).
Pipecat: Framework de Python open-source que orquesta audio, vídeo y servicios AI para agentes multimodales en streaming.

Whisper: Modelo de OpenAI capaz de realizar reconocimiento de voz multilingüe, traducción de voz e identificación de idiomas.
Stable-ts: Añade transcripción, alineación forzada e indexación de audio Whisper, mejorando segmentación, búsqueda y edición.
Speaker Diarization 3.1: Modelo pyannote que separa locutores en conversaciones, auto-mezcla canales y remezcla a 16 kHz.

ChatTTS: Modelo que sintetiza voz fluida para diálogos LLM. Entrenado de forma bilingüe inglés/chino.
ElevenLabs: Clonación y text-to-speech hiperrealista en 32 idiomas.
Cartesia (Sonic 2): Genera text-to-speech ultra-realista con 90 ms TTFB, control de emoción y soporte multilingüe.

Vocode: Simplifica la creación de agentes de voz LLM, integrando speech-to-text, text-to-speech y orquestación en tiempo real.
Retell AI: Plataforma para construir, probar y desplegar agentes de voz LLM en llamadas, con flujos conversacionales y análisis post-llamada.
Vapi: API configurable que orquesta STT, LLM y TTS para crear, probar y escalar agentes de voz multilingües en minutos.
Voice Lab: Evalúa agentes de voz midiendo métricas y comparando prompts, modelos y personalidades.

Multi-AI Agent Systems with CrewAI (Gratis): Diseña y coordina equipos de agentes para automatizar procesos complejos
AI Agentic Design Patterns with AutoGen (Gratis): Aprende a construir y personalizar sistemas multi-agente con el framework de Microsoft
LangChain for LLM Application Development (Gratis): Fundamentos para encadenar herramientas, construir RAG y agentes con LangChain.
LangChain Academy (Gratis): Ruta autoguiada con módulos progresivos sobre LangChain y su ecosistema
Building Agentic RAG with LlamaIndex (Gratis): Aprende a crear asistentes de investigación que planean y usan herramientas sobre tus datos.
Advanced RAG Certification (LlamaIndex × Activeloop)(Gratis): Curso que cubre RAG a escala, Deep Memory y optimización de recuperación.
AI Agents Course (Hugging Face) (Gratis): Itinerario completo, de principiante a experto, para entender y construir agentes de IA.
Building AI Voice Agents for Production (Gratis): Curso de 50 minutos para desplegar agentes de voz en entornos reales.
Create Voice AI Agents with Vapi (Pago): Desarrolla asistentes de voz multilingües e intégralos con Make o Twilio.