One cell on the map is ours alone: native-desktop voice dub.Одна клетка на карте — только наша: голосовой дубляж нативного десктопа.
The market is crowded — and we say so. Babelio is not alone in "OS-wide voice dub"; it is alone in dubbing native installed desktop clients that browser extensions and call-bots structurally cannot reach.Рынок тесный — и мы это признаём. Babelio не одинок в нише «голосовой дубляж на уровне ОС»; он одинок в дубляже нативных установленных десктопных клиентов, до которых браузерные расширения и кол-боты структурно не дотягиваются.
The 2×2 — crowded, not emptyМатрица 2×2 — тесная, не пустая Axes customers actually trade on.Оси, по которым клиенты реально выбирают.
Customers don't pick on price here — free options already exist in every corner. They pick on how much they hear vs. read (output) and where it works (app coverage). So the two axes are output: captions-only → voice dub (vertical) and app coverage: single-platform → OS-wide / cross-app (horizontal). Babelio sits top-right — but it shares that quadrant with DubTab. The honest differentiator is the dashed sub-cell inside it: native installed desktop clients, where every browser-bound rival goes blind.Здесь клиенты выбирают не по цене — бесплатные варианты уже есть в каждом углу. Они выбирают по тому, сколько они слышат против читают (вывод) и где это работает (охват приложений). Поэтому две оси таковы: вывод: только субтитры → голосовой дубляж (вертикаль) и охват приложений: одна платформа → на уровне ОС / кросс-приложения (горизонталь). Babelio находится вверху справа — но делит этот квадрант с DubTab. Честное отличие — пунктирная под-клетка внутри: нативные установленные десктопные клиенты, где любой браузерный ривал слепнет.
Why us onlyПочему только мы The one sentence that survives a funded copycat.Одно предложение, переживающее профинансированную копию.
Babelio is the only product that dubs the audio of a native installed desktop client — a VLC, an MPV, a desktop game, a regional conferencing app that is not a browser tab — because a cross-vendor OS-level capture layer cannibalizes no incumbent's seat revenue, so no platform owner is incentivized to build it.
Babelio — единственный продукт, который дублирует звук нативного установленного десктопного клиента — VLC, MPV, десктопной игры, регионального приложения для конференций, которое не является вкладкой браузера — потому что кросс-вендорный слой захвата на уровне ОС не каннибализирует выручку с мест ни у одного инкумбента, и потому ни у одного владельца платформы нет стимула его строить.
Be precise about what is and isn't defensible. The OS-level audio tap itself is a head-start, not a moat — it rides public CoreAudio (macOS 14) and WASAPI (Windows 11) APIs that a funded team can replicate in a quarter. The durable advantage is the per-app capture & dub-timing telemetry flywheel: every session emits which app, codec, jitter, VAD-trigger and mute-timing worked, and each user correction is a labeled pair. Over thousands of sessions that yields the optimal capture profile per application — knowledge a new entrant cannot re-derive without the same install base. The tap buys the time to compound that asset; the asset is the moat.Будем точны в том, что защищаемо, а что нет. Сам аудио-tap на уровне ОС — это фора, а не ров: он использует публичные API CoreAudio (macOS 14) и WASAPI (Windows 11), которые профинансированная команда повторит за квартал. Долговечное преимущество — маховик телеметрии захвата и тайминга дубляжа по каждому приложению: каждая сессия фиксирует, какое приложение, кодек, джиттер, VAD-триггер и тайминг mute сработали, и каждая правка пользователя — это размеченная пара. За тысячи сессий это даёт оптимальный профиль захвата под каждое приложение — знание, которое новый игрок не воспроизведёт без той же установленной базы. Tap покупает время, чтобы накопить этот актив; актив и есть ров.
Anti-positioning · what we don't doАнти-позиционирование · чего мы не делаем Three things we refuse — on purpose.Три вещи, от которых мы отказываемся — намеренно.
✕ 01We do not chase "translate any app for everyone."Мы не гонимся за «перевод любого приложения для всех».
Why: the broad-consumer lane (the marked $720M ceiling) is exactly where Zoom's free Voice Translator and free browser extensions already live. "Anyone watching foreign video" has no trigger, no community, and zero willingness to pay next to free captions. Marketing to everyone is marketing to no one.Почему: широкая потребительская полоса (отмеченный потолок $720 млн) — ровно там, где уже живут бесплатный Zoom Voice Translator и бесплатные браузерные расширения. У «всех, кто смотрит видео на иностранном» нет ни триггера, ни сообщества, ни готовности платить рядом с бесплатными субтитрами. Маркетинг для всех — это маркетинг ни для кого.
✕ 02We do not make auto-mute-and-dub the default.Мы не делаем авто-mute с дубляжом дефолтом.
Why: for the immersion-learner ICP, the core job is hearing live native speech for ear-training — muting the speaker destroys it. Our hero mode is subtitle / dual-track (whisper-dub under the original audio); auto-mute-and-dub is an optional toggle. It is also the cheaper mode (~$0.31 vs ~$0.50 per active-hour), so the default is both right for the user and right for the margin.Почему: для ICP иммерсивных учеников главная задача — слышать живую нативную речь для тренировки слуха; заглушение спикера её разрушает. Наш ключевой режим — субтитры / двойная дорожка (тихий дубляж под оригиналом); авто-mute с дубляжом — опциональный тумблер. Это ещё и более дешёвый режим (~$0,31 против ~$0,50 за активный час), так что дефолт верен и для пользователя, и для маржи.
✕ 03We do not sell the model wrapper or compete on model quality.Мы не продаём обёртку над моделью и не конкурируем по качеству модели.
Why: the STT→MT→TTS pipeline is three third-party APIs (Deepgram, an LLM, Cartesia) every competitor calls — model quality is table stakes, not a moat. The latency floor crossed for everyone at once in 2025. We monetize the telemetry/eval IP and workflow lock-in (per-app profiles, persistent settings, team audit logs), never API arbitrage. If the answer to "what do you sell when the model is free" is "the wrapper," there is no company.Почему: пайплайн STT→MT→TTS — это три сторонних API (Deepgram, LLM, Cartesia), которые вызывает каждый конкурент — качество модели это входной билет, а не ров. Порог задержки пересёкся для всех сразу в 2025. Мы монетизируем IP телеметрии/оценки и lock-in рабочего процесса (профили по приложениям, постоянные настройки, командные аудит-логи), а не арбитраж на API. Если ответ на «что ты продаёшь, когда модель бесплатна» — «обёртку», то компании нет.
Analyst-call narrativeНарратив для аналитика How a sell-side analyst would frame us.Как аналитик sell-side описал бы нас.
"Babelio is a wedge play in real-time speech-to-speech translation. Rather than fight Zoom and free browser extensions for the commoditized meeting and browser-tab use cases, it claims the one structurally-protected niche — dubbing native installed desktop clients via OS-level audio capture, a lane no platform incumbent is incentivized to enter because it cannibalizes nobody's seat revenue. The consumer immersion-learner segment bootstraps a per-app capture-and-eval telemetry asset that, once compounded, packages into a B2B/SDK real-time-dub primitive. We view the audio tap as a head-start and the telemetry flywheel as the durable thesis; the print is execution on day-one instrumentation and a narrow but defensible $13M wedge SAM."«Babelio — это игра в клин на рынке перевода речи в речь в реальном времени. Вместо того чтобы биться с Zoom и бесплатными браузерными расширениями за коммодитизированные кейсы встреч и вкладок, он забирает одну структурно защищённую нишу — дубляж нативных установленных десктопных клиентов через захват аудио на уровне ОС, полосу, в которую ни один платформенный инкумбент не заинтересован входить, потому что она не каннибализирует ничью выручку с мест. Потребительский сегмент иммерсивных учеников бутстрапит актив телеметрии захвата и оценки по приложениям, который, накопившись, упаковывается в B2B/SDK-примитив дубляжа в реальном времени. Аудио-tap мы считаем форой, а маховик телеметрии — долговечным тезисом; ключевой вопрос — исполнение по инструментированию с первого дня и узкий, но защищённый клин-SAM на $13 млн».
Zoom, Teams and Google will ship in-product translation — it deepens their core seat revenue with zero cannibalization. But an OS-wide, cross-vendor layer cannibalizes nobody's core, so no single platform owner is incentivized to build it; Apple and Microsoft could at the OS level but historically don't ship opinionated consumer translation layers. The open lane survives precisely because it sits between the walled gardens.Zoom, Teams и Google выпустят перевод внутри своих продуктов — это углубляет их основную выручку с мест без каннибализации. Но кросс-вендорный слой на уровне ОС не каннибализирует ничью основу, поэтому ни у одного владельца платформы нет стимула его строить; Apple и Microsoft могли бы на уровне ОС, но исторически не выпускают опинионированных потребительских слоёв перевода. Открытая полоса выживает именно потому, что лежит между огороженными садами.