Este artículo sintetiza los conceptos centrales que definen a los agentes de Inteligencia Artificial (IA), basándose en la lección introductoria del curso «AI agents for beginners«.
Un agente de IA se define por la sinergia de tres componentes fundamentales:
- un Modelo de Lenguaje Grande (LLM) que actúa como el motor de razonamiento para planificar y ejecutar tareas;
- la memoria, dividida en corto plazo (contexto conversacional) y largo plazo (datos para la mejora continua);
- y las herramientas, que son las capacidades de acción del agente, como APIs y funciones específicas.
La interacción de estos elementos permite al agente interpretar solicitudes en lenguaje natural, identificar y utilizar las herramientas adecuadas, y aprovechar la memoria para completar tareas de manera eficiente.
Una demostración práctica con el framework Semantic Kernel de Microsoft ilustra estos conceptos a través de un agente de viajes que sugiere destinos, demostrando su capacidad para usar herramientas (seleccionar una ciudad de una lista) y memoria contextual (evitar sugerir un destino previamente rechazado).
1. Anatomía de un Agente de IA: Componentes Clave
Un agente de IA es un sistema diseñado para comprender una tarea solicitada por un usuario, crear un plan para completarla y ejecutar las acciones necesarias. Su funcionalidad se basa en la combinación de tres pilares esenciales.
El Modelo de Lenguaje Grande (LLM): El Motor de Razonamiento
El LLM es el núcleo cognitivo del agente. Su función principal es el razonamiento, que abarca tres capacidades clave:
• Identificación de la Tarea: Interpretar la solicitud del usuario, incluso cuando se expresa en lenguaje natural y coloquial.
• Creación de un Plan: Desglosar la tarea en una secuencia de pasos lógicos para alcanzar el objetivo.
• Ejecución de Acciones: Poner en marcha el plan, coordinando el uso de la memoria y las herramientas disponibles.
La Memoria: Contexto y Aprendizaje
La memoria dota al agente de contexto y capacidad de mejora, y se divide en dos tipos:
• Memoria a Corto Plazo: Se refiere al contexto inmediato de la interacción, como el historial de la conversación actual entre el usuario y el agente. Esto permite al agente mantener la coherencia y responder de manera relevante a las solicitudes de seguimiento.
• Memoria a Largo Plazo: Consiste en una colección de datos acumulados que el agente puede utilizar para mejorar su rendimiento con el tiempo. Esto puede incluir preferencias del usuario, resultados de tareas anteriores o conocimientos específicos de un dominio.
Las Herramientas: Capacidades de Acción
Las herramientas son los instrumentos que el agente utiliza para interactuar con el mundo exterior y realizar acciones concretas. Pueden ser:
• Servicios Externos: Accedidos a través de APIs para realizar una acción específica (ej. consultar el clima, reservar un vuelo).
• Fuentes de Datos: Información que ayuda al agente a decidir qué acción tomar.
• Funciones Personalizadas: Código programado para enviar información o ejecutar una lógica particular dentro del entorno del agente.
Flujo de Operación: «Un agente utiliza el LLM para reconocer la tarea que el usuario desea completar, identificar qué herramientas disponibles se necesitan para completar esa tarea y la memoria para recopilar la información y los datos necesarios para completar esa tarea».
Analogía del Mundo Real: Lavarse los Dientes
Para ilustrar el concepto, se utiliza la analogía de la rutina diaria de lavarse los dientes:
• Planificación: Se decide cuándo y dónde realizar la acción.
• Herramientas: Se utilizan el cepillo y la pasta de dientes.
• Memoria: Se aplica la memoria a corto plazo (el estado actual del cepillado) y a largo plazo (preferencias de pasta de dientes, como la de menta verde).
2. Demostración Práctica: Un Agente de Viajes con Semantic Kernel
La lección incluye una demostración de código que construye un agente de viajes simple, ilustrando cómo los componentes teóricos se implementan en la práctica.
Tecnologías Utilizadas
Componente | Tecnología | Propósito |
Framework Agéntico | Semantic Kernel | Framework de Microsoft para construir agentes de IA. |
Modelo de Lenguaje | GPT-4o mini | Proporciona la capacidad de razonamiento al agente. |
Acceso al Modelo | GitHub Models | Permite el acceso gratuito a LLMs para la demostración. |
Entorno de Código | Jupyter Notebook | Utilizado para ejecutar y presentar el código de ejemplo. |
Lógica y Funcionamiento del Agente
El agente de viajes está diseñado para sugerir destinos para una excursión de un día.
1. Definición de Herramientas: Se crea una clase DestinationsPlugin
que actúa como el conjunto de herramientas del agente. Esta clase contiene:
◦ Una lista predefinida de destinos de viaje (ej. Sydney, Río de Janeiro, etc.).
◦ Una función que selecciona y devuelve una ciudad aleatoria de esa lista cada vez que es invocada.
2. Configuración del Agente: Se configura el agente para que utilice el LLM (GPT-4o mini) y se le da acceso al DestinationsPlugin
como su herramienta disponible.
Simulación de Interacción y Resultados Clave
La demostración simula una conversación entre un usuario y el agente de viajes para resaltar sus capacidades.
Paso | Interacción del Usuario | Acción y Respuesta del Agente | Concepto Demostrado |
1 | «Plan me a day trip» (Planifícame una excursión de un día). | El LLM interpreta «day trip» como una solicitud de destino. Invoca la función de su herramienta y sugiere: «Sydney». | Razonamiento y Uso de Herramientas: El agente entiende una solicitud en lenguaje natural y utiliza la herramienta adecuada. |
2 | «I don’t really like this destination… plan me another vacation» (No me gusta mucho este destino… planifícame otras vacaciones). | El agente procesa la retroalimentación negativa. Utiliza el contexto de la conversación (memoria a corto plazo) para saber que no debe repetir «Sydney». Invoca nuevamente su herramienta y sugiere: «Rio de Janeiro». | Memoria a Corto Plazo (Contextual): El agente recuerda la interacción previa para evitar redundancia y ofrecer una alternativa relevante. |
Conclusiones de la Demostración
El ejemplo práctico confirma que el agente:
• Comprende el Lenguaje Natural: Interpreta correctamente la intención del usuario detrás de «day trip».
• Opera dentro de sus Límites: Solo sugiere ciudades de la lista predefinida en su herramienta, demostrando que está consciente de sus capacidades.
• Utiliza la Memoria Contextual: Evita repetir una sugerencia rechazada, lo que demuestra su capacidad para seguir el flujo de una conversación.
3. Contexto del Curso y Próximos Pasos
Esta lección es la primera del curso «AI agents for beginners». Los materiales del curso, incluidas las traducciones y las muestras de código, están disponibles a través de enlaces proporcionados.
El curso continuará explorando temas más avanzados, con la Lección 2 enfocada en analizar diferentes frameworks agénticos, sus diferencias y beneficios.
Además, el curso incluye un capítulo dedicado a la configuración del entorno de desarrollo necesario para ejecutar los ejemplos de código.