Clase 07: CLI vs UI · Profe Alexiai

Técnico

Cuando un agente realiza una acción en una herramienta externa, puede hacerlo por dos vías. La primera es a través de la interfaz gráfica (UI, user interface): el agente toma control de la pantalla, abre ventanas, mueve el cursor, clica botones, rellena campos visualmente. La segunda es a través de la línea de comandos (CLI, command line interface): el agente ejecuta una instrucción de texto que viaja directa al sistema de la herramienta y produce el mismo resultado sin interfaz visual de por medio.

El resultado para ti puede ser idéntico (un correo enviado, un archivo subido, un vídeo creado) pero el camino es radicalmente distinto en velocidad, fiabilidad y consumo de recursos.

Kuki lenguaje

Imagínate que quieres pedirle a alguien del equipo que te traiga el almuerzo. Hay dos maneras. La primera: le pides que vaya al restaurante de la esquina, espere cola, mire la carta, le diga al camarero qué quiere, espere la comanda, pague, vuelva. Lenta y con mil cosas que pueden salir regular.

La segunda: tienes una app del restaurante en el móvil, pulsas un botón y la comida llega. Mismo plato. Mismo precio. Pero diez veces más rápido y sin posibilidad de que la cola sea larga o se confunda el pedido.

Tu mini-yo puede hacer las dos cosas. Una le destroza la mañana. La otra le devuelve cinco horas a la semana.

Técnico

Cuando un agente trabaja por interfaz gráfica, depende literalmente de la pantalla: tiene que reconocer dónde está cada botón, esperar a que la ventana cargue, manejar pop-ups, gestionar tiempos de respuesta visuales. Cada paso es frágil. Si la herramienta actualiza su diseño, mueve un botón, cambia el color de un campo o introduce un nuevo banner, el agente puede romperse.

La velocidad también es un problema: una acción que por línea de comandos tarda fracciones de segundo, por interfaz puede tardar varios segundos por la carga de cada pantalla. Multiplicado por cientos de operaciones, la diferencia es horas. Y, de regalo, cada interacción visual consume más contexto y más recursos del modelo, que está describiendo lo que ve para decidir el siguiente clic.

Kuki lenguaje

Cuando le pides a una asistente que haga gestiones presenciales en una oficina, todo depende de cómo esté la oficina ese día. Si han movido el mostrador, si hay cola, si el funcionario está de mal humor, si han cambiado el formulario por uno nuevo, la asistente se ralentiza o se atasca. Le toca preguntar, esperar, volver a hacer lo mismo.

Si la oficina abrió hace poco un canal online, esa misma gestión se hace desde el ordenador en treinta segundos y sin que importe si han movido el mostrador. La interfaz es la oficina presencial. Funciona, pero pagas el peaje cada vez que algo cambia. Y siempre cambia algo.

Técnico

La CLI (command line interface) es una forma de comunicarse con un programa o un servicio mediante instrucciones de texto en una terminal. En vez de hacer clic en un botón "Enviar", escribes (o tu agente escribe) un comando como:

enviar-correo --para alguien@ejemplo.com --asunto "Reunión" --cuerpo "Mañana a las 10"

y la acción se ejecuta. La CLI viaja directa al motor de la herramienta, sin tener que pintar ni interpretar ninguna pantalla intermedia. Para un agente, este es el medio natural: rápido, determinista, fácil de encadenar (la salida de un comando alimenta al siguiente) y robusto frente a cambios de diseño. Las herramientas serias ofrecen CLI precisamente porque saben que sus usuarios profesionales van a automatizar.

Kuki lenguaje

La CLI es la puerta de servicio. La que usan las profesionales que entran a la cocina del restaurante sin pasar por el comedor. No tienen que esperar a que un camarero las atienda, no tienen que sortear sillas, no tienen que pedir permiso a la encargada cada vez. Entran, dejan el género en el sitio que les corresponde y siguen con su trabajo.

Tu mini-yo trabaja a otra velocidad cuando entra por la puerta de servicio en vez de hacer cola en el comedor con los clientes. Por eso los agentes serios viven ahí: no porque sea más fácil para ellos, sino porque es donde dejan de perder el tiempo.

Técnico

Una API (application programming interface) es la interfaz que un servicio ofrece para que otros programas (incluyendo agentes de IA) puedan comunicarse con él directamente. Es el conjunto de comandos, parámetros y reglas que el servicio acepta. Funcionalmente es la cerradura: define qué puerta hay y cómo se abre.

La API key (clave de API) es la llave concreta que tu agente usa para identificarse y entrar. Cada servicio decente ofrece una API: correo (Outlook, Gmail), calendario, almacenamiento en la nube, generación de vídeo, plataformas de pago como Stripe, modelos de IA. Si una herramienta tiene API, tu agente puede operarla sin pantalla. Si no la tiene, te toca volver a la interfaz gráfica con todos sus problemas.

Kuki lenguaje

La API es la cerradura de la puerta de servicio. La llave de la API es la llave que abre esa cerradura. Cuando contratas un servicio, tú pides la llave y se la das a tu mini-yo. A partir de ahí, tu mini-yo entra y sale por esa puerta cuando lo necesita, sin pedirle permiso a nadie ni esperar a que abran.

Si una herramienta no tiene puerta de servicio (porque no ofrece API), la única opción es entrar por el comedor con los clientes y todo el lío visual que eso implica. Por eso, antes de adoptar cualquier herramienta para tu día a día, la primera pregunta es siempre la misma: ¿tiene API?

Técnico

Tarea: enviar 100 correos personalizados a una lista de contactos.

Vía interfaz gráfica: el agente abre Outlook (o Gmail, da igual). Espera a que cargue. Identifica visualmente el botón de "nuevo mensaje". Lo clica. Rellena el destinatario carácter a carácter. Va al campo del asunto. Lo rellena. Escribe el cuerpo. Clica enviar. Espera la confirmación visual. Repite 99 veces más. En el medio, una notificación del sistema le tapa un botón y se queda parado. Una actualización del cliente cambia un icono y le rompe el reconocimiento. Total estimado: horas, intervención humana garantizada, alta probabilidad de fallo a medio camino.

Vía API más línea de comandos: el agente recibe la lista de destinatarios como datos estructurados. Construye los 100 correos en memoria con sus variables personalizadas. Lanza una orden única que dice "manda estos 100 correos por API" usando la llave correspondiente. El servicio los procesa. Total estimado: minutos, cero intervención humana, fallo recuperable porque cada correo es una operación atómica con respuesta de éxito o error.

Kuki lenguaje

Tarea: repartir 100 invitaciones físicas en un edificio de oficinas.

Por el camino largo: tu mini-yo entra en la recepción del edificio, le explica a la recepcionista qué viene a hacer, sube en el ascensor a cada planta, llama a cada puerta, espera, da la invitación, baja, sube otra vez, vuelve a explicarse cuando hay turno nuevo de recepcionista, etc. Le va a llevar todo el día. Y cualquier cosa puede torcerse: ascensor parado, recepción ocupada, oficinas cerradas a la hora de la comida.

Por el camino corto: tu mini-yo da las 100 invitaciones al servicio interno de mensajería del edificio, junto con la lista de despachos. El servicio las reparte por sus pasillos internos. Tu mini-yo está libre en quince minutos para dedicarse a otras cosas. Lo importante no es solo que sea más rápido. Es que durante esa tarde tu mini-yo puede hacer otras tres cosas más, en paralelo, mientras las invitaciones se reparten solas. Eso es trabajar con APIs.

Técnico

La interfaz gráfica sigue siendo necesaria en tres situaciones concretas. Primera: cuando la herramienta no ofrece API ni CLI, lo cual es habitual en software pequeño, software muy antiguo o software corporativo cerrado. Segunda: cuando la tarea es exploratoria y todavía no sabes exactamente qué quieres pedir, así que necesitas ver la herramienta para descubrir las opciones. Tercera: cuando es una operación puntual y única, donde montar la integración por API costaría más tiempo del que ahorrarías.

La regla práctica es sencilla: si la tarea se va a repetir más de cinco o diez veces, busca API. Si solo va a pasar una vez, deja que el agente haga clic. La automatización profesional vive en lo repetitivo. Y lo no repetitivo no merece la inversión.

Kuki lenguaje

Tu mini-yo no tiene que entrar siempre por la puerta de servicio. Hay sitios donde no hay puerta de servicio (la papelería del barrio no tiene una). Hay sitios donde tú misma todavía no sabes qué pedir, así que toca pasar por el comedor para mirar la carta. Y hay encargos que solo vas a hacer una vez en la vida, que no compensa montar nada.

Para todo eso, está bien que entre por la puerta principal. La regla buena es: si una cosa la vas a hacer muchas veces, busca puerta de servicio. Si la haces una vez y ya, da igual cómo entres. La automatización seria empieza cuando algo se repite. Lo que pasa una vez no se automatiza, se hace y ya.

Resumen final

Técnico

Esta es la clase que cambia cómo piensas las herramientas. Hasta ahora, una "herramienta buena" era una que tenía buena interfaz: bonita, intuitiva, fácil de aprender. A partir de ahora, una herramienta buena para trabajar con IA es una que tiene API. La interfaz es para ti, los días que la uses tú. La API es para tu agente, los días que trabaje por ti.

CLI es el canal por el que tu agente da órdenes sin tocar pantalla. API es la cerradura que lo permite. La llave de API es lo que tu agente usa para identificarse. Y la combinación de las tres convierte un asistente curioso en una colaboradora que ejecuta cien tareas mientras tú haces otra cosa.

Kuki lenguaje

Cuando elijas software de aquí en adelante, métele a tu lista de criterios uno nuevo: ¿tiene API? Si la respuesta es no, pregúntate cuántas veces vas a hacer la tarea que esa herramienta resuelve. Si la respuesta es muchas, busca alternativa. La interfaz bonita pierde su gracia cuando llevas un año pegándote con ella.

Lo bueno de este cambio mental es que es acumulativo. Cada vez que migras una tarea de UI a CLI más API, recuperas tiempo para siempre. La inversión de aprender el comando se paga sola en la décima vez que lo usas. A partir de ahí, todo lo que va llegando es regalo.

La pantalla es para ti. Para tu agente, la puerta de servicio.

CLI vs UI. Cómo trabajan los agentes de verdad.

Dos formas de hacer la misma cosa

Por qué la UI es lenta y se rompe sola

Qué es la CLI y por qué los agentes viven ahí

APIs, las llaves de acceso

El ejemplo que lo aclara todo

Cuando la UI todavía vale

Resumen final