En lugar de forzar la IA generativa en flujos de trabajo fragmentados, la compañía se propuso diseñar una plataforma que se sintiera nativa en su entorno existente. El resultado fue LMOS, el sistema operativo de modelos de lenguaje, una PaaS soberana para crear y escalar agentes de IA en toda Deutsche Telekom.

Deutsche Telekom presta servicio a millones de usuarios en 10 países de Europa, cada uno con sus propias preguntas, necesidades y contextos. Un buen servicio consiste en responder con rapidez y precisión, pues genera confianza, impulsa la eficiencia y repercute en los resultados. Sin embargo, hacerlo de forma coherente depende de que se muestre la información adecuada en el momento y contexto adecuados.
A principios de 2023, me incorporé a un pequeño equipo multifuncional dentro de una iniciativa liderada por nuestro director de Producto, Jonathan Abrahamson. En mi caso, era responsable de la ingeniería y la arquitectura dentro del recién creado Centro de Competencia en IA (AICC). Mi objetivo era claro: mejorar el servicio al cliente en todas nuestras operaciones europeas. A medida que los grandes modelos lingüísticos comenzaron a mostrar resultados prometedores, quedó claro que la IA generativa podía ser un punto de inflexión para conseguir respuestas más rápidas, relevantes y contextuales a gran escala.
Esto supuso el comienzo de un esfuerzo centrado en la resolución de un reto fundamental: cómo implementar asistentes basados en IA de forma fiable en un ecosistema multinacional. Esto condujo al desarrollo de LMOS, una plataforma soberana y fácil de usar para desarrolladores que permite crear y escalar agentes de IA en toda Telekom. Frag Magenta OneBOT, nuestro asistente de atención al cliente para ventas y servicios en toda Europa, fue una de las grandes soluciones creadas sobre esta plataforma. Hoy en día, LMOS da soporte a millones de interacciones, lo que reduce el tiempo de resolución y las tasas de transferencia a humanos de manera significativa.
Pero también es igual de importante que LMOS se diseñó para que los ingenieros pudieran trabajar con herramientas que ya conocían con el propósito de desarrollar agentes de IA. Ahora, ha llegado a un punto en el que los equipos empresariales pueden definir y mantener agentes para nuevos casos de uso. Este cambio ha sido clave para escalar la IA con rapidez, autonomía y propiedad compartida en toda la organización.
Creación de una plataforma de IA agencial soberana y escalable
En medio de la urgencia, también se produjo un cambio de perspectiva que se desarrolló con discreción. No se trataba sólo de una respuesta a corto plazo, sino de una oportunidad para construir algo fundamental: una plataforma soberana, basada en estándares abiertos, que permitiera a nuestros equipos de ingeniería existentes crear aplicaciones de IA más rápidamente y con mayor flexibilidad.
A principios de 2023, escaseaban las aplicaciones de IA generativa listas para la producción. La mayor parte del trabajo se encontraba todavía en la fase inicial de experimentación de generación aumentada por recuperación (RAG), y era difícil obviar el riesgo de depender excesivamente de plataformas cerradas de terceros. Así que, en lugar de reunir una pila de herramientas dispersas, nos centramos en la propia infraestructura, algo que pudiera convertirse en una base a largo plazo para agentes de IA escalables y de nivel empresarial.
Más que resolver el problema inmediato, se trataba de diseñar para lo que vendría después.
LMOS: sistema operativo de modelos de lenguaje
Lo que comenzó como un esfuerzo centrado en el desarrollo de chatbots reveló de inmediato una serie de retos más profundos a nivel de arquitectura. Experimentamos con marcos como LangChain para integrar LLM en aplicaciones, y ajustamos los modelos de recuperación de pasajes densos (DPR) para casos de uso en alemán. Estos primeros prototipos nos ayudaron a aprender rápidamente, pero conforme dejábamos atrás la fase experimental, comenzaron a aparecer las primeras grietas, lo que hizo cada vez más difícil la gestión de la pila tecnológica. Los problemas de memoria, la inestabilidad y la creciente carga de mantenimiento dejaron claro que este enfoque no sería escalable. Al mismo tiempo, nuestros ingenieros ya estaban muy familiarizados con los sistemas, las API y las herramientas basados en JVM de Deutsche Telekom. Introducir abstracciones desconocidas había ralentizado nuestro trabajo.
Así que decidimos cambiar de enfoque. En lugar de forzar la IA generativa en flujos de trabajo fragmentados, nos propusimos diseñar una plataforma que se sintiera nativa en nuestro entorno existente. El resultado fue LMOS, el sistema operativo de modelos de lenguaje, una PaaS soberana para crear y escalar agentes de IA en toda Deutsche Telekom. Ofrece una experiencia similar a Heroku para los agentes, abstrae la gestión del ciclo de vida, los modelos de implementación, los clasificadores, la observabilidad y el escalado, a la vez que admite el control de versiones. Y lo más importante: es multinennant.
En el núcleo de LMOS se encuentra Arc, un marco basado en Kotlin para definir el comportamiento de los agentes a través de un lenguaje específico del dominio conciso (DSL). Los ingenieros podían crear agentes a partir de las API y las bibliotecas que ya conocían. No era necesario introducir pilas completamente nuevas ni reconfigurar los flujos de trabajo de desarrollo. Al mismo tiempo, Arc se diseñó para integrarse a la perfección con las herramientas de ciencia de datos existentes, lo que facilitaba la conexión de componentes personalizados para la evaluación, el ajuste o experimentar cuando fuera necesario.
Arc también introdujo el ADL (lenguaje de definición de agentes), que permite a los equipos empresariales definir directamente la lógica y los flujos de trabajo de los agentes. Así se reduce la necesidad de intervención de los ingenieros en cada iteración y se agiliza la colaboración entre las diferentes funciones. Juntos, LMOS Arc y ADL ayudaron a salvar la brecha entre el negocio y la ingeniería, al tiempo que se integraban perfectamente con los estándares abiertos y las herramientas de ciencia de datos, lo que aceleró la creación, iteración e implementación de los agentes en toda la organización.
Búsqueda vectorial y el papel de la recuperación contextual
Al basar LMOS en estándares abiertos y evitar perder el tiempo en rediseños arquitectónicas innecesarios, creamos una base que permitió diseñar, implementar y escalar agentes de IA en diferentes geografías. Pero la infraestructura de la plataforma por sí sola no era suficiente. Las respuestas de los agentes a menudo dependen de conocimientos del dominio ocultos en la documentación, las políticas y las fuentes de datos internas, lo que requería una infraestructura de recuperación que pudiera escalarse con la plataforma.
Creamos canalizaciones RAG estructuradas a partir de una búsqueda vectorial para proporcionar un contexto relevante de cara a los agentes en tiempo de ejecución. Lo esencial era elegir el almacén vectorial adecuado. Tras evaluar varias opciones, desde extensiones de bases de datos tradicionales hasta sistemas vectoriales completos y dedicados, seleccionamos Qdrant, una base de datos vectorial de código abierto basada en Rust que se ajustaba a nuestros objetivos operativos y de arquitectura. Su simplicidad, rendimiento y compatibilidad multitenant y el filtrado de metadatos la convirtieron en la opción ideal, ya que nos permitía segmentar los conjuntos de datos por país, dominio y tipo de agente. Esto garantizaba el cumplimiento normativo local y la claridad operativa a medida que nos expandíamos por los distintos mercados.
Wurzel: la recuperación basada en la reutilización
Para dar soporte a la recuperación a gran escala, también creamos Wurzel, un marco ETL (extracción, transformación y carga) de código abierto en Python diseñado específicamente para RAG. Esta herramienta, cuyo nombre proviene de la palabra alemana que significa “raíz”, nos permitió descentralizar los flujos de trabajo de RAG y estandarizar la forma en que los equipos preparaban y gestionaban los datos no estructurados. Con soporte integrado para multitenant, programación de tareas e integraciones de backend, fue fundamental para que los procesos de recuperación se pudieran utilizar de nuevo en cualquier momento, fueran coherentes y fáciles de mantener en diversos equipos y mercados.
Wurzel también nos dio la flexibilidad necesaria para conectar las herramientas adecuadas para cada tarea sin fragmentar la arquitectura ni introducir cuellos de botella. En la práctica, esto se tradujo en iteraciones más rápidas, una infraestructura compartida y menos integraciones puntuales.
Creación de agentes con LMOS Arc y enrutamiento semántico
El desarrollo de agentes en LMOS comienza con Arc. Los ingenieros utilizan su DSL para definir el comportamiento, conectarse a las API e implementar agentes utilizando flujos de trabajo de tipo microservicio. Una vez creados, los agentes se implementan en entornos Kubernetes a través de LMOS, que se encarga del control de versiones, la supervisión y el escalado en segundo plano.
Pero definir el comportamiento no era suficiente. Los agentes necesitaban acceder a conocimientos relevantes para responder de forma inteligente. Las canalizaciones de recuperación basadas en vectores proporcionaban a los agentes contexto procedente de la documentación interna, las preguntas frecuentes y las políticas estructuradas. El almacén de vectores multitenant de Qdrant proporcionaba un acceso a los datos localizado, eficiente y conforme a la normativa.
Para que la colaboración entre agentes fuera más eficaz, también introdujimos el enrutamiento semántico. Mediante el uso de incrustaciones y similitudes vectoriales, los agentes podían clasificar y enrutar las consultas, quejas, facturación y ventas de los clientes sin depender por completo de los LLM. Esto aportó una mayor estructura, interpretabilidad y precisión al funcionamiento conjunto de los agentes.
Juntos, Arc, Wurzel, Qdrant y la plataforma LMOS en general nos permitieron crear agentes de una manera muy rápida, operarlos de forma fiable y escalarlos en todos los ámbitos empresariales sin comprometer la velocidad de los desarrolladores ni el control de la empresa.
“Heroku” para agentes
A menudo describo LMOS como “Heroku para agentes”. Al igual que esta herramienta abstrajo la complejidad de la implementación de aplicaciones web, LMOS hace lo propio con la complejidad de la ejecución de agentes de IA de nivel de producción. Los ingenieros no necesitan gestionar modelos de implementación, clasificadores, supervisión o escalado: LMOS se encarga de todo.
En la actualidad, LMOS da servicio a agentes de atención al cliente, como el asistente Frag Magenta OneBOT. Creemos que se trata de una de las primeras plataformas multiagente en entrar en funcionamiento, ya que su planificación y despliegue comenzaron antes de que OpenAI lanzara su SDK para agentes a principios de 2024. Podría decirse que es el mayor despliegue empresarial de múltiples agentes de IA en Europa, ya que actualmente da soporte a millones de conversaciones en los mercados de Deutsche Telekom.
El tiempo necesario para desarrollar un nuevo agente se ha reducido a un día o menos, y los equipos comerciales ahora pueden definir y actualizar los procedimientos operativos sin depender de los ingenieros. Las transferencias al soporte humano para los agentes Arc activados por API son de alrededor del 30%, y esperamos que esta cifra disminuya a medida que mejore la cobertura de conocimientos, la integración del backend y la madurez de la plataforma.
Escalar la IA soberana con código abierto y la colaboración de la comunidad
De cara al futuro, observamos un crecimiento de las aplicaciones potenciales de LMOS, especialmente a medida que maduren la computación agentica y la infraestructura de recuperación. Desde el principio, hemos construido LMOS sobre estándares abiertos y primitivas de infraestructura como Kubernetes, lo que garantiza la portabilidad entre máquinas de desarrolladores, nubes privadas y centros de datos.
Con ese mismo espíritu, decidimos contribuir con LMOS a la Fundación Eclipse, lo que le permite evolucionar con la participación de la comunidad y seguir siendo accesible a organizaciones más allá de la nuestra. Esperamos que aumente el interés por desarrollar LMOS a medida que más equipos comienzan a comprender cómo la búsqueda semántica y la recuperación estructurada basan la IA en información fiable.
Lo que nos ha guiado hasta ahora no es sólo la tecnología. Nos hemos centrado en la experiencia práctica de los desarrolladores, en una arquitectura interoperable y en las lecciones aprendidas con esfuerzo durante la fase de producción. Esa mentalidad nos ha ayudado a pasar de la experimentación centrada en modelos a una pila de IA escalable, abierta y con opiniones propias, algo que consideramos fundamental para llevar la IA agencial al mundo real, a escala empresarial.
Arun Joseph es antiguo director de ingeniería y arquitectura de Deutsche Telekom.