• ai4devs
  • Posts
  • Listado completo de herramientas para crear AI Agents

Listado completo de herramientas para crear AI Agents

Frameworks para crear AI Agents de texto y voz y cursos para adentrarte en AI.

⚒️ Frameworks para construir y orquestar agentes

  • CrewAI: Framework para orquestar agentes autónomos que adoptan roles.

  • AutoGPT: Plataforma para crear, desplegar y gestionar sistemas de agentes y workflows.

  • Phidata: Permite crear asistentes de IA con memoria, conocimiento y herramientas.

  • Camel: Permite construir sistemas multi-agente personalizados para generar datos, completar tareas o simular interacciones.

  • AutoGen: Framework de Microsoft que permite crear y orquestar sistemas multi-agente.

  • SuperAGI: Framework open-source para crear, gestionar y ejecutar agentes autónomos.

  • Superagent:  Framework open-source que permite añadir agentes de IA a aplicaciones.

  • LangChain: Framework open-source que conecta LLMs con datos y APIs, facilitando cadenas, agentes y RAG en producción. 

  • LlamaIndex: Framework flexible para indexar, consultar y enlazar cualquier dato privado a LLMs, potenciando RAG y agentes contextuales.  

🗣️ Herramientas para trabajar con agentes de voz

Speech-to-Speech:
  • Ultravox: Combina un LLM multimodal con códec neural de audio consiguiendo ofrecer conversaciones en tiempo real (latencia ≈ 80 ms). 

  • Moshi: Modelo fundacional de voz desarrollado por la startup francesa Kyutai con capacidad de mantener conversaciones real-time (codifica voz a 1,1 kbps y responde instantáneamente). 

  • Pipecat: Framework de Python open-source que orquesta audio, vídeo y servicios AI para agentes multimodales en streaming. 

Speech-to-Text

  • Whisper: Modelo de OpenAI capaz de realizar reconocimiento de voz multilingüe, traducción de voz e identificación de idiomas.

  • Stable-ts: Añade transcripción, alineación forzada e indexación de audio Whisper, mejorando segmentación, búsqueda y edición. 

  • Speaker Diarization 3.1: Modelo pyannote que separa locutores en conversaciones, auto-mezcla canales y remezcla a 16 kHz.

Text-to-Speech

  • ChatTTS: Modelo que sintetiza voz fluida para diálogos LLM. Entrenado de forma bilingüe inglés/chino. 

  • ElevenLabs: Clonación y text-to-speech hiperrealista en 32 idiomas.

  • Cartesia (Sonic 2): Genera text-to-speech ultra-realista con 90 ms TTFB, control de emoción y soporte multilingüe.

Plataformas All-in-one

  • Vocode: Simplifica la creación de agentes de voz LLM, integrando speech-to-text, text-to-speech y orquestación en tiempo real. 

  • Retell AI: Plataforma para construir, probar y desplegar agentes de voz LLM en llamadas, con flujos conversacionales y análisis post-llamada. 

  • Vapi: API configurable que orquesta STT, LLM y TTS para crear, probar y escalar agentes de voz multilingües en minutos.

  • Voice Lab: Evalúa agentes de voz midiendo métricas y comparando prompts, modelos y personalidades.  

🧑‍💻 Cursos Recomendados