Toyota PoC · Arquitectura de la solución

1. Flujo end-to-end

Todo el procesamiento de voz vive en ElevenAgents. Los tools (verde) llaman al backend propio hosteado en Cloudflare Workers. Las consultas a documentos (azul) usan el RAG nativo de ElevenLabs con embeddings multilingual.

flowchart TD
    Cliente["🧑 Cliente
voz · es-AR / pt-BR"]
    Widget["🌐 Widget web
Cloudflare Pages"]
    EL["🤖 ElevenAgents
servidor US"]
    ASR["📝 Scribe v2
Realtime ASR"]
    LLM["🧠 Gemini 3 Flash
+ cascade 2.0/2.5 · Haiku 4.5"]
    TTS["🔊 Flash v2.5 · es-AR
V3 Conversational · pt-BR"]
    Worker["⚡ Cloudflare Worker
poc-toyota-tools"]
    Data[("💾 JSONs bundleados
Salesforce · TPA · Kinto")]
    KB[("📚 Knowledge Base
multilingual e5-large")]

    Cliente <--> Widget
    Widget <--> EL
    EL --> ASR
    ASR --> LLM
    LLM --> TTS
    TTS --> EL
    LLM -.->|tool call
<200 ms| Worker
    Worker --> Data
    LLM -.->|RAG retrieval| KB

    classDef voice fill:#fce8ea,stroke:#EB0A1E,color:#000
    classDef agent fill:#e4f0ff,stroke:#0b5ed7,color:#000
    classDef tool fill:#e9f7e9,stroke:#22803b,color:#000
    classDef data fill:#fff8e1,stroke:#b36b0a,color:#000

    class Cliente,Widget,ASR,TTS voice
    class EL,LLM agent
    class Worker tool
    class Data,KB data

2. Métricas de latencia medidas

Números medidos en conversaciones reales del PoC (ES-AR y PT-BR). Worker en Cloudflare edge. LLM primary: gemini-3-flash-preview con cascade a gemini-2.0-flash → gemini-2.5-flash → claude-haiku-4-5 (cascade timeout 5 s). TTS eleven_flash_v2_5 en es-AR · eleven_v3_conversational en pt-BR.

~75 ms

TTS TTFB (primera palabra)

100–400 ms

Tool call (Worker)

1.5–3 s

Turn response simple
(sin tool)

3–5 s

Turn response con tool
(user fin → agente habla)

< 300 ms

Barge-in (interrupción)

12 s

Turn timeout

Dónde se va el tiempo en un turn con tool: ASR (~200–400 ms) + LLM generation (~2–4 s) + tool execution (~150 ms) + TTS TTFB (~75 ms). El LLM domina el presupuesto — optimizaciones futuras apuntan ahí (prompt más corto, modelo más rápido, o RAG para reducir contexto).

Golpea los 5 endpoints del Worker con payload válido y mide status + latencia round-trip.

3. Mapa de agentes y sus backends

2 agentes consumen RAG puro, 2 combinan RAG + API, 3 son transaccionales (API pura). 7 endpoints expuestos.

#	Agente	Fuente de datos	Endpoint / KB
1	TASA Service 90k	RAG	`Service_Plan_ARG.md`
2	TASA Kinto Rental	API	`/tools/kinto/availability`
3	TASA TPA Voucher	API · 2	`/tools/tpa/account` + `send_voucher`
4	TDB Warranty T10	RAGAPI	`Warranty_TOYOTA10.md` + `/tools/warranty/by_vin`
5	TDB Case Status	API	`/tools/salesforce/case_status`
6	TASA Connected	RAGAPI	`Connected_Services_ARG.md` + `/tools/connected/lookup_vehicle_by_plate`
7	TDB Manual Lexus	RAG grande	PDF UX300h MY25 · 500+ págs

4. Flujo detallado de un agente transaccional

Ejemplo del agente más complejo del PoC — TPA Voucher — con 2 tools encadenadas y lógica de branching según situación del plan.

sequenceDiagram
    participant C as Cliente
    participant E as ElevenAgents
    participant W as CF Worker
    participant D as Data JSON

    C->>E: "Necesito cupón, DNI 24916694"
    E->>W: POST /tools/tpa/account
{ dni: "24916694" }
    W->>D: lookup
    D-->>W: Gabriel Romay · NORMAL-PRENDARIO · Yaris
    W-->>E: { recomendacion: "emitir_cupon", email }

    alt recomendacion = emitir_cupon
        E->>C: "Confirme email XXXX@PRUEBA.COM.AR"
        C->>E: "Sí, correcto"
        E->>W: POST /tools/tpa/send_voucher
{ grupo, orden, email }
        W-->>E: { sent: true }
        E->>C: "Cupón enviado. Medios: PMC, Link, Mercado Pago..."
    else recomendacion = derivar_autogestion
        E->>C: "Cuenta con 4+ cuotas en mora. Use Portal de Autogestión..."
    else recomendacion = derivar_humano
        E->>C: "Cuenta en situación CANCELADOS. Le transfiero a un operador."
    end

5. Stack tecnológico

ElevenLabs Agents (managed)

ASR: Scribe v2 Realtime (quality high, keywords por agente)
LLM primary: gemini-3-flash-preview · temp 0.3 · max 400 tokens · thinking 0
LLM backup: cascade a gemini-2.0-flash → gemini-2.5-flash → claude-haiku-4-5 · cascade timeout 5 s
TTS es-AR: eleven_flash_v2_5 + voz Melanie · speed 1.1 · stability 0.5
TTS pt-BR: eleven_v3_conversational + voz Fernanda
Pronunciation dict (TASA): SW4, RAV4, C-HR, VW, AT→"transmisión automática", MT→"manual"
Text normalization: ElevenLabs native · optimize_streaming_latency=3
Turn handling: eager + speculative_turn ON en los 7 agentes

Backend (self-hosted)

Runtime: Cloudflare Workers (edge global · V8 isolates)
Framework: Hono 4
Lenguaje: TypeScript
Data: JSONs bundleados in-memory (~1.4 MB)
Auth: header X-PoC-Token en tools · rutas públicas /, /health, /warmup
Validaciones: regex de patente AR en connected/lookup_vehicle_by_plate
Warmup: GET /warmup despacha in-process los 5 tools con payload válido
Bundle: 1.6 MB raw · 290 KB gzip

Knowledge Base (RAG)

Embedding: intfloat/multilingual-e5-large-instruct
Chunks retrieved: 6 · max chars 20.000
Distance threshold: 0.4 (estricto)
Docs indexados: 3 MD + 1 PDF (Lexus UX300h)

Frontend (demo)

Hosting: Cloudflare Pages
Dominio: poc-toyota-demo.pages.dev
Widget: embed oficial @elevenlabs/convai-widget-embed
Páginas: 1 dashboard + 7 agentes + arquitectura

6. Flujo de datos (ingesta → runtime)

flowchart LR
    subgraph Ingesta["📥 Ingesta (offline)"]
        XLS[".xlsx
Salesforce"]
        CSV[".csv"]
        PDF[".pdf
Manual Lexus"]
        DOC[".docx
Scripts"]
    end

    subgraph Procesamiento["🔧 Procesamiento"]
        PY["Python
openpyxl + csv"]
        MD["Markdown
normalizado"]
        JSON["JSON
slim"]
    end

    subgraph Runtime["🚀 Runtime"]
        KB["ElevenLabs KB
Multilingual"]
        WRKR["Worker
bundleado"]
    end

    XLS --> PY --> JSON --> WRKR
    CSV --> PY
    PDF --> KB
    DOC --> MD --> KB

7. Decisiones clave de arquitectura

Sin Twilio: ElevenLabs tiene SIP trunk nativo y widget web embebido. Se omite un salto de red.
Cloudflare edge vs server regional: las tool calls salen desde ElevenLabs (US). El edge global de CF Workers garantiza proximidad al caller de ElevenLabs, no al end user.
Data bundleada vs DB externa: los datasets del PoC (~1.4 MB) caben en memoria del worker. Zero cold DB queries, sub-50ms de respuesta. En producción se conectaría a Salesforce API live.
Flash v2.5 vs V3 para TASA: V3 suavizaba el acento argentino hacia latino neutro. Flash preserva mejor el acento regional. En TDB (pt-BR) V3 funciona mejor.
Multilingual e5 vs English en RAG: crítico para castellano y portugués. English-optimized falla en retrieval con documentos ibéricos.
Un agente por caso: en vez de un agente monolítico con muchas ramas, la separación permite iterar cada caso sin regresiones.
Cascade de modelos LLM: primary gemini-3-flash-preview (preview, más rápido); si falla en 5 s cae a gemini-2.0-flash → gemini-2.5-flash → claude-haiku-4-5. Elimina outliers de latencia sin perder speed típica.
Validación de patente en el Worker: regex de formato AR (viejo y Mercosur) antes de lookup. Defensa en profundidad con la regla equivalente en el prompt del agente — evita tool calls con input obviamente inválido.
Guardrails en prompt, no en frases fijas: las reglas anti-manipulación describen comportamiento esperado, no respuestas textuales. Evita que frases como "Estoy funcionando bien" actúen como "attractors" que disparen en contextos incorrectos.
Pronunciation dictionary: TTS-level substitution para siglas argentinas (SW4, RAV4, AT, MT, VW). Es más robusto que instruir al LLM en el prompt.