Babelio captures audio from any native desktop app — and overlays a real-time translation in your language, under the original voice. The reach a browser extension can't touch. Babelio перехватывает звук любого десктопного приложения и накладывает перевод в реальном времени на твоём языке — поверх оригинальной речи. Туда, куда браузерное расширение не дотянется.
A serious language learner watches native foreign content on desktop for hours a day. The live stream has no fan-sub. The lecture player is a native app, not a browser tab. So they pause every sentence, look up words, lose the flow — and give up. Серьёзный изучающий язык часами смотрит на десктопе контент на языке оригинала. У живого стрима нет фан-сабов. Плеер лекций — это нативное приложение, а не вкладка браузера. Поэтому он ставит на паузу каждую фразу, ищет слова, теряет поток — и бросает.
A desktop app for Mac and Windows that captures audio from any running process and overlays a real-time translation — in under 700ms, the threshold where it reads as interpretation, not a delayed echo. Десктопное приложение для Mac и Windows, которое перехватывает звук любого процесса и накладывает перевод в реальном времени — менее чем за 700 мс. Это порог, за которым перевод воспринимается как синхрон, а не как запаздывающее эхо.
Pick the app, pick the language once, toggle on. It feels like one button — that's the whole promise. Выбери приложение, выбери язык один раз, включи. Ощущается как одна кнопка — в этом всё обещание.
One enables the experience. One opens a lane nobody else can take. We're honest about which is which. Одна делает опыт возможным. Другая открывает полосу, на которую никто больше не зайдёт. Мы честно разделяем, что есть что.
The monetizable edge rests on inflection #2 alone. "Translate any app for everyone" rides a trend everyone rides. The defensible play is native-desktop capture — and what we build on top of it. Монетизируемое преимущество держится только на втором переломе. «Переводить любое приложение для всех» — тренд, на котором едут все. Защитимая игра — это перехват на нативном десктопе и то, что мы строим поверх него.
Bottom-up, not market-report inflation. We lead with the wedge we can actually win, not the ceiling. Снизу вверх, без надувания из рыночных отчётов. Мы ведём с клином, который реально можем взять, а не с потолком.
The S2S translation segment is ~$481.6M (2025); AI-in-translation hits $3.68B in 2026 at 25% CAGR. A broad-consumer ceiling — 5M heavy English-first users × $144 — would be ~$720M, but that zone is already capped by Zoom's free feature and free browser extensions. We treat $720M as headroom, never as the base case. Сегмент речь-в-речь перевода — ~$481,6M (2025); ИИ в переводе достигает $3,68 млрд в 2026-м при CAGR 25%. Широко-потребительский потолок — 5 млн активных англоязычных × $144 — это ~$720M, но эту зону уже накрывают бесплатная фича Zoom и бесплатные расширения. $720M мы держим как запас роста, а не как базовый сценарий.
Sources: Expert Market Research (S2S $481.6M), The Business Research Company (AI translation $3.68B / 25.2% CAGR). Источники: Expert Market Research (S2S $481,6M), The Business Research Company (ИИ-перевод $3,68 млрд / CAGR 25,2%).
The whole flow is one screen and one switch. Everything else runs in the background. Весь сценарий — это один экран и один тумблер. Остальное работает в фоне.
North Star: weekly native-desktop sessions translated end-to-end ≥ 4 per active user. Did they trust it enough to leave it running over a real lecture. North Star: ≥ 4 нативно-десктопных сессии с полным переводом в неделю на активного пользователя. Доверились ли они достаточно, чтобы оставить его работать на реальной лекции.
Hybrid: flat $12/mo Pro base + metered translation-minutes via a reverse trial. Cheap subtitle minutes are the monetized core; dub minutes are metered to protect margin. Гибрид: фикс $12/мес Pro + тарификация минут перевода через reverse trial. Дешёвые субтитровые минуты — монетизируемое ядро; минуты дубляжа тарифицируются ради маржи.
The WTP ceiling ($6–12/mo, capped by free extensions) sits near the COGS floor for heavy dub usage. We resolve this by mode — subtitle is the cheap hero mode learners actually want. Van Westendorp + a metered $5/hr concierge test on 30–50 buyers proves it before we lock tiers. Потолок WTP ($6–12/мес, ограничен бесплатными расширениями) близок к полу COGS при тяжёлом дубляже. Решаем это режимом — субтитры дёшевы и именно их хотят ученики. Van Westendorp + платный $5/час consierge-тест на 30–50 покупателях докажут это до фиксации тарифов.
A working prototype exists. No users, no revenue, no LOIs yet. Everything past that is a validation plan, not a claim. We'd rather be honest than inflate. Рабочий прототип есть. Пользователей, выручки, LOI пока нет. Всё дальше — это план валидации, а не заявление. Лучше честно, чем надуто.
PMF status: PENDING. We claim PMF only at ≥40% "very disappointed" (Sean Ellis) across ≥30 hands. Not before. Статус PMF: ОТКРЫТ. Заявим PMF только при ≥40% «очень расстроюсь» (Sean Ellis) на ≥30 пользователях. Не раньше.
Axes: app coverage (single-platform ↔ OS-wide) × output (captions ↔ voice dub). Our only defensible cell is native-installed-app voice dub with original audio preserved. Оси: охват приложений (одна платформа ↔ вся ОС) × вывод (субтитры ↔ голосовой дубляж). Наша единственная защитимая клетка — голосовой перевод нативных приложений с сохранением оригинала.
Big Tech will ship in-product translation — but an OS-wide cross-vendor layer cannibalizes nobody's core, so no single platform owner is incentivized to build it. The open lane survives precisely because it sits between the walled gardens. Бигтех выпустит перевод внутри своих продуктов — но кросс-вендорный слой на всю ОС не каннибализирует ничей core, поэтому ни один владелец платформы не мотивирован его строить. Открытая полоса выживает именно потому, что лежит между огороженными садами.
We're blunt: the audio tap uses public CoreAudio / WASAPI APIs — a funded competitor replicates it in a quarter. It buys time to collect the one asset that compounds. Скажем прямо: перехват звука использует публичные API CoreAudio / WASAPI — конкурент с деньгами повторит его за квартал. Он покупает время, чтобы собрать единственный накапливающийся актив.
The $10B outcome is not the consumer app — it's becoming the cross-application real-time-dub primitive that other software embeds. The telemetry → an eval-proven "best dub per app / codec / network" capability → packaged as a virtual-mic / SDK that conferencing, accessibility, e-learning, and contact-center vendors license rather than rebuild. Исход на $10 млрд — это не потребительское приложение, а превращение в кросс-аппликационный примитив дубляжа в реальном времени, который встраивают в свой софт другие. Телеметрия → eval-доказанная способность «лучший дубляж под приложение / кодек / сеть» → упакованная как virtual-mic / SDK, который лицензируют конференц-, accessibility-, e-learning- и контакт-центр-вендоры вместо того, чтобы строить заново.
When the model is free, value accrues below it — at the capture + eval layer. That's where we sell. Когда модель бесплатна, ценность оседает под ней — на слое захвата и eval. Именно там мы продаём.
PLG self-serve + founder-led community seeding for the first 100. No outbound sales at $144/yr. The buyer is a single learner who already funds their own immersion stack. PLG self-serve + ручной засев сообществ силами фаундера на первую сотню. Никаких outbound-продаж при $144/год. Покупатель — один ученик, уже финансирующий свой immersion-стек.
Install friction (Gatekeeper / antivirus) is the #3 risk — mitigated by notarized signed builds, a first-run trust playbook, and seeding via a trusted community member, not a cold drop. Трение установки (Gatekeeper / антивирус) — риск №3, гасится нотаризованными подписанными сборками, playbook-ом доверия при первом запуске и засевом через доверенного участника сообщества, а не холодным сбросом.
We won't pretend otherwise: the entire moat and the 10-week MVP hinge on one rare profile — a Rust + CoreAudio / WASAPI engineer who can ship per-process native audio capture across both OSes. That person is not yet confirmed. Не будем притворяться: весь ров и 10-недельный MVP держатся на одном редком профиле — инженере Rust + CoreAudio / WASAPI, способном сделать перехват звука по процессам на обеих ОС. Этот человек пока не подтверждён.
Funding path (raise vs bootstrap to ~$10K MRR) and the audio-engineer commitment are open. The economics support a conditional bootstrap — Cartesia retail COGS is viable from day one, breakeven ~460 paying users — so the raise is to compress time-to-moat, not to survive. Путь финансирования (раунд vs bootstrap до ~$10K MRR) и обязательство audio-инженера — открыты. Экономика допускает условный bootstrap — retail-COGS Cartesia жизнеспособен с первого дня, безубыток ~460 платящих — так что раунд нужен, чтобы сжать время до рва, а не чтобы выжить.
The Rust + CoreAudio/WASAPI capture hire + founder. Ships the native pipeline, telemetry flywheel, eval harness.Наём Rust + CoreAudio/WASAPI по захвату + фаундер. Делает нативный пайплайн, маховик телеметрии, eval-харнесс.
4-week field plan, community seeding, immersion-YouTuber integrations, the loop-K test.4-недельный полевой план, засев сообществ, интеграции с immersion-ютуберами, тест петли K.
Cartesia / Deepgram inference, signing & notarization, billing, the on-device-STT margin lever.Инференс Cartesia / Deepgram, подпись и нотаризация, биллинг, рычаг маржи on-device STT.
Milestones: capture engineer committed (week 0) → 4-week validation passed with real loop-K and CAC (month 1) → monetizable MVP shipped at ≤$0.50/active-hr (month 4) → ~$10K MRR (month 9–10) → the telemetry asset that underwrites the B2B/SDK Series A. Вехи: инженер по захвату подтверждён (неделя 0) → 4-недельная валидация пройдена с реальными K и CAC (месяц 1) → монетизируемый MVP при ≤$0,50/активный час (месяц 4) → ~$10K MRR (месяц 9–10) → телеметрийный актив, на котором стоит Series A по B2B/SDK.