Tutoriales, comparativas y patrones de diseño para construir agentes autónomos que se autofinancian, llaman a 345+ modelos y orquestan MCP Tools.
Agent Builder y Evals de OpenAI quedan en read-only el 31 de octubre de 2026, y cierran el 30 de noviembre. Todo operador construido sobre esos productos tiene una ventana de migración de seis meses. Este post es el runbook: un mapeo de seis piezas desde OpenAI Agent Builder al stack de LLM4Agents, con código real en ambos lados. Cubrimos el system prompt y el loop de conversación usando la API client.chat.conversation del SDK @llm4agents/sdk, el catálogo de herramientas usando el MCP server unificado en mcp.llm4agents.com (70+ tools en las categorías scraper, search, image, AI, notify, data, vector, workspace, web3, document), la base de conocimiento usando workspace_upload más vector_upsert y vector_query, la suite de eval usando Promptfoo apuntado al endpoint OpenAI-compatible /v1/chat/completions, la memoria de conversación usando memory_set y memory_get para estado cross-session más el campo history para estado intra-session, y el shell de deployment usando agent-playground o el CLI agent-helper mientras la UI de Agent Builder de LLM4Agents todavía está en desarrollo. También explicamos qué te dan los model fallback chains, el modelo de billing reserve-proxy-settle, y los headers X-Cost-Usd-Cents que OpenAI no daba. El post va apareado con el resumen del viernes que reportó el sunset; el operador que lee los dos tiene el por qué y el cómo.
Producción con un solo modelo es frágil. Un rate limit en el tier primario se convierte en un fallo cara al cliente para un operador solo que construyó el agente sobre un único model id. Las cadenas de fallback de modelo son la feature del proxy de LLM4Agents que resuelve esto sin sumarte código: pasa models: [a, b, c] en lugar de model: a, y el proxy reserva al tier más caro de la cadena, intenta cada modelo en orden ante overflow de context-length, rate-limit, error de proveedor o rechazo de moderación, y settla al modelo real que respondió, devuelto en el header de respuesta X-Model-Used. El post recorre qué hace la cadena del lado del server, la interacción reserve-proxy-settle que la hace segura, los tres headers de respuesta que los operadores tienen que loguear para detectar fallback silencioso en producción, tres cadenas canónicas para workloads price-optimized, latency-optimized y sovereignty-optimized, cómo cablear cobertura de eval que pruebe cada eslabón individualmente con Promptfoo, la economía real del overhead de reserva versus la tasa de falla que la cadena absorbe, y cuatro anti-patrones que convierten una cadena de una compra de confiabilidad en un pasivo. El post va apareado con el post de migración; si portaste tu agente desde OpenAI Agent Builder el fin de semana pasado, las cadenas de fallback son la primera feature de plataforma que no existía en el stack anterior.
Una semana cargada. Anthropic lanzó Claude Fable 5 a $10/$50 por millón de tokens con nuevas clases de rechazo para ciberseguridad, biología y destilación que los operadores van a chocar de manera desigual. MetaMask abrió early access para Agent Wallet con límites de gasto por defecto y seguro de Blockaid hasta $10K, la primera wallet mainstream que lanza custodia nativa para agentes. OpenAI anunció que Agent Builder y Evals quedan en read-only el 31 de octubre y cierran el 30 de noviembre, forzando una migración con ventana de seis meses a todos los operadores construidos sobre la plataforma. La Comisión Europea designó sesenta expertos independientes al Panel Científico y al Foro Asesor del AI Act, dejando la estructura concreta de enforcement antes del deadline del 2 de agosto. Unit 42 de Palo Alto publicó tres nuevos vectores de ataque MCP basados en el primitivo de Sampling — robo de recursos, secuestro de conversación, invocación encubierta de herramientas — que los operadores que corren MCP servers de terceros tienen que mapear contra su threat model esta semana, no el próximo trimestre.
Después de veintitrés posts largos sobre protocolos, evaluación, seguridad, compliance, nichos y proyecciones, el seguimiento honesto es un post corto. La lectura está haciendo menos trabajo del que pensás, y el agente que vive solo como una pestaña en tu navegador no se va a hacer real por sí solo. Este texto argumenta por lanzar antes que investigar: cinco cosas chicas que realmente necesitás antes del lunes, tres cosas grandes que no, y la versión del primer agente que toma una tarde de lunes para dejar viva. Sin teoría nueva. Sin framework nuevo. El empujón mínimo para que el operador que viene leyendo esta serie hace meses entre en la parte del trabajo donde el progreso compone.
Los posts de forecast usualmente fallan de una de dos formas: o se cubren tanto que nada de lo que predicen puede estar mal, o hacen predicciones audaces sin comprometerse a fechas que permitan a alguien chequearlas. Este post intenta no fallar de ninguna manera. Catorce predicciones para el stack agéntico entre junio de 2026 y junio de 2027, cada una lo suficientemente específica para ser falsable, fechada a un trimestre o mes, y etiquetada con un nivel de confianza (alta, media, baja) más la evidencia observable concreta que probaría que la predicción está equivocada. Cubrimos roadmaps de protocolos (MCP 2026-07-28 GA, AP2 v1.0 en FIDO, A2A v1.x memory handoff), enforcement regulatorio (deadline UE AI Act de agosto, primeras multas administrativas, primer fracaso mediático de operador), seguridad y ataques (primer incidente de long-con, primer compromiso cross-flota, el auge de plataformas de agentes ofensivos), estructura de mercado (consolidación de frameworks, bifurcación de marketplaces, primer acquihire de una startup de agentes por una big-company), y dinámica de operadores (la segunda ola de despidos forzando pivotes de operador, el primer IPO de una empresa agent-native). Cerramos con la meta-predicción sobre qué vamos a equivocarnos más.
La memoria es la parte del stack agéntico que se movió más rápido en mayo y principios de junio de 2026, y el gap entre la investigación y el tooling de producción se está cerrando en tiempo real. Retomamos donde nuestro post original de Graphiti / Mem0 quedó: un recap rápido del knowledge-graph bi-temporal y los enfoques basados en extracción que definieron el campo hasta principios de 2026, y después a fondo en las dos arquitecturas que cambiaron la conversación. Titans, la arquitectura de memoria neural de Google que aprende en test time y le gana tanto a Transformers de contexto largo como a Mamba en los benchmarks de horizonte más largos. MemOS, el sistema operativo de memoria que agenda a través de tres tipos de memoria (plaintext, activación, parámetro) y lanzó ganancias de benchmark del 60-160% sobre los baselines previos más fuertes en LongMemEval. Después volvemos al gap arquitectónico que ninguno resuelve: continuidad de memoria cross-sesión a nivel protocolo — un agente que hace gran trabajo en la sesión N no tiene forma estandarizada de traer ese aprendizaje a la sesión N+1 con la misma contraparte. Cerramos con el patrón de binding ERC-8004 que ata el estado de memoria del agente a reputación on-chain, la guía práctica para operadores actualmente en Graphiti, Mem0, Letta o un stack custom, y qué vigilar a lo largo del Q4 2026.
Veinticuatro posts de teoría, protocolos, seguridad y economía merecen un post que mapea el ecosistema que el operador tiene que navegar. Catalogamos el ecosistema agéntico en cinco categorías — frameworks open-source de orquestación (LangGraph, AutoGen, CrewAI, Letta, Pydantic AI), SDKs de los model providers (OpenAI Agents SDK, Anthropic SDK con Computer Use, Google ADK, Microsoft Agent Framework GA en Q1 2026), plataformas no-code de builder (Lindy, Sema4, Relevance AI, Vellum), plataformas de evaluación y observabilidad (Galileo, LangSmith, AgentOps, Helicone), y marketplaces / registries (Agent.ai, ManusAI, Sakana, los nativos en ERC-8004). Para cada player damos una oración de fortaleza y una de debilidad. Después una tabla de comparación cruzada mapeando cada player contra las cinco capas del stack agéntico que sintetizamos antes. Cerramos con el framework de decisión — cuándo elegir un framework vs una plataforma vs un SDK — y una sección honesta sobre dónde encaja LLM4Agents y dónde no. Si tienes dos semanas para decidir tu stack, este es el post que comprime la decisión a una tarde.
Después de veintitrés posts argumentando que correr agentes a escala es económicamente viable, el post que lo prueba con números está atrasado. Recorremos el pricing real de mediados de 2026 de cada capa en una flota de agentes — inferencia de modelo por tier (Haiku, Sonnet, Opus, GPT-5.x, Gemini), economía de tokens paso por paso atada a los patrones de routing de Project Deal, infraestructura de microVMs y observabilidad, fees del marketplace de servers MCP, fees de liquidación x402 en Base / Solana / Polygon, costos de attestation on-chain de ERC-8004, fees de rails de tarjeta de AP2 — y armamos tres presupuestos concretos en tres escalas distintas. Operador solo corriendo uno a tres agentes con ocho clientes pagantes (la economía del mes tres de Mariana). Pequeña operación corriendo diez agentes con sesenta clientes (el operador que ahora es un negocio chico). Operación multi-flota corriendo treinta y pico de agentes (el operador que ahora es un negocio real con empleados). Cada presupuesto muestra revenue, costo por categoría, margen neto, breakeven en ARPU, y dónde se esconden los line items. Cerramos con cuatro anti-patrones de costo que componen invisiblemente hasta que llega la factura y una contabilidad brutalmente honesta de los costos que ninguna página de pricing de plataforma menciona.