Babelio is the desktop audio layer immersion learners can't get anywhere else.Babelio — это аудиослой для десктопа, которого иммерсивным ученикам больше негде взять.
We win one tightly-walled niche — serious immersion-method language learners — by translating native desktop apps that browser extensions structurally cannot reach, while keeping the original audio for ear-training.Мы выигрываем одну узкую, защищённую нишу — серьёзных учеников по иммерсивному методу — переводя нативные десктопные приложения, до которых браузерные расширения структурно не дотягиваются, и сохраняя оригинальный звук для тренировки слуха.
SituationСитуация The latency floor opened the door — but for everyone.Порог задержки открыл дверь — но для всех сразу.
In 2025 three latency curves crossed: streaming STT under 300ms, LLM machine translation under 200ms, and streaming TTS under 200ms — summing below the ~700ms threshold where dubbing reads as live interpretation, not a delayed echo. Real-time speech-to-speech translation is now a real category (~$481.6M in 2025, ~9.5% CAGR), riding the broader AI-translation market ($3.68B in 2026, 25.2% CAGR). But that floor dropped for everyone on the same Deepgram, ElevenLabs and Cartesia APIs. Zoom shipped a native AI Voice Translator in April 2026; DeepL Voice runs inside Teams; DubTab and Whisperr already dub any browser tab at ~0.5s. Model quality is not a moat — it is table stakes.В 2025 году пересеклись три кривые задержки: стриминговый STT менее 300 мс, машинный перевод на LLM менее 200 мс и стриминговый TTS менее 200 мс — в сумме ниже порога ~700 мс, за которым дубляж воспринимается как живой синхрон, а не как запоздалое эхо. Перевод речи в речь в реальном времени стал настоящей категорией (~$481,6 млн в 2025, ~9,5% CAGR) на волне более широкого рынка ИИ-перевода ($3,68 млрд в 2026, 25,2% CAGR). Но этот порог упал для всех, кто сидит на тех же API Deepgram, ElevenLabs и Cartesia. Zoom выпустил нативный AI Voice Translator в апреле 2026; DeepL Voice работает внутри Teams; DubTab и Whisperr уже дублируют любую вкладку браузера за ~0,5 с. Качество модели — не ров, а входной билет.
ComplicationОсложнение A broad consumer pitch is a race to $0 against free.Широкий потребительский питч — это гонка к нулю против бесплатного.
"Translate any app" sounds like a $720M consumer market, but that ceiling is exactly the contested zone where Zoom's free feature and free browser extensions already live — and "anyone watching foreign video" has no trigger, no community, and zero willingness to pay next to free captions. Marketing to everyone is marketing to no one. The painful tension is timing: the OS-level audio-capture unlock (macOS 14 CoreAudio process taps, Windows 11 audio-session APIs) is open right now, but it is a head-start, not a moat — it uses public APIs any funded team can also call. The window to convert that head-start into a compounding data advantage is short.«Переводи любое приложение» звучит как потребительский рынок на $720 млн, но этот потолок — ровно та спорная зона, где уже живут бесплатная фича Zoom и бесплатные браузерные расширения, а у «всех, кто смотрит видео на иностранном» нет ни триггера, ни сообщества, ни готовности платить рядом с бесплатными субтитрами. Маркетинг для всех — это маркетинг ни для кого. Болезненное напряжение в тайминге: разблокировка захвата аудио на уровне ОС (process taps в CoreAudio macOS 14, audio-session API в Windows 11) открыта прямо сейчас, но это фора, а не ров — она использует публичные API, которые может вызывать и любая профинансированная команда. Окно, чтобы превратить эту фору в накопительное преимущество в данных, узкое.
ResolutionРешение Lead with the one segment browser tools cannot reach.Заходим с одним сегментом, до которого браузерные инструменты не дотягиваются.
We anchor on serious immersion-method language learners (Japanese/Korean/Chinese-first) who watch native foreign-language video and live streams on native desktop clients — MPV/VLC, native streaming apps, desktop games — for hours a day. Their core job is "understand live native speech while keeping the original audio for ear-training," so our hero mode is subtitle / dual-track (whisper-dub under the original), with auto-mute-and-dub as an optional toggle, not the default. They already pay $60–180/yr for Migaku, Language Reactor and Anki add-ons, so willingness to pay exists at $12/mo; they cluster in dense, named, calendar-timed communities (Refold, TheMoeWay, Migaku, r/LearnJapanese ~700k). This is a deliberately narrow wedge — ~$13M SAM inside a ~$72M learner TAM — chosen because it is structurally walled off from browser-only rivals.Мы делаем ставку на серьёзных учеников по иммерсивному методу (приоритет — японский/корейский/китайский), которые часами в день смотрят нативное иноязычное видео и прямые трансляции в десктопных клиентах — MPV/VLC, нативных стриминговых приложениях, десктопных играх. Их главная задача — «понимать живую нативную речь, сохраняя оригинальный звук для тренировки слуха», поэтому наш ключевой режим — субтитры / двойная дорожка (тихий дубляж под оригиналом), а авто-mute с дубляжом — опциональный тумблер, а не дефолт. Они уже платят $60–180 в год за Migaku, Language Reactor и аддоны Anki, так что готовность платить есть на уровне $12/мес; они собираются в плотных, именованных, привязанных к календарю сообществах (Refold, TheMoeWay, Migaku, r/LearnJapanese ~700k). Это намеренно узкий клин — SAM ~$13 млн внутри TAM учеников ~$72 млн — выбранный потому, что он структурно закрыт от ривалов, работающих только в браузере.
Why us onlyПочему только мы A cross-vendor OS layer cannibalizes no incumbent's seat revenue.Кросс-вендорный слой ОС не каннибализирует выручку ни одного инкумбента.
Zoom, Teams and Google will ship in-product translation because it deepens their seat revenue — but an OS-wide, cross-vendor layer cannibalizes nobody's core, so no platform owner is incentivized to build it. The open lane survives precisely because it sits between the walled gardens, and a native-desktop capture client is the only thing that reaches inside all of them at once.
Zoom, Teams и Google выпустят перевод внутри своих продуктов, потому что это углубляет их выручку с мест — но кросс-вендорный слой на уровне ОС не каннибализирует ничью основу, поэтому ни у одного владельца платформы нет стимула его строить. Открытая полоса выживает именно потому, что лежит между огороженными садами, а нативный десктопный клиент захвата — единственное, что дотягивается внутрь всех них сразу.
North Star & how we measureNorth Star и как измеряем Four-plus native-desktop sessions, per user, per week.Четыре с лишним нативно-десктопные сессии на пользователя в неделю.
North Star = ≥4 native-desktop translation sessions per active user per week. We pick sessions-on-native-clients (not minutes, not signups) because it is the single number that proves both engagement and that the value lands where browser tools can't follow — every counted session is one a competitor structurally cannot serve. We instrument the per-app capture and eval telemetry from day one, so the same metric that tracks habit also feeds the only durable moat candidate.North Star = ≥4 нативно-десктопных сессии перевода на активного пользователя в неделю. Мы выбираем сессии на нативных клиентах (не минуты и не регистрации), потому что это единственное число, доказывающее одновременно и вовлечённость, и то, что ценность приходит туда, куда браузерные инструменты не дотягиваются — каждая засчитанная сессия структурно недоступна конкуренту. Мы инструментируем телеметрию захвата и оценки по каждому приложению с первого дня, чтобы та же метрика, что отслеживает привычку, питала единственного кандидата в долговечный ров.
Top 3 strategic bets · next 12 monthsТоп-3 стратегические ставки · 12 месяцев Three bets, three leading indicators.Три ставки, три опережающих индикатора.
Prove the subtitle/dual-track wedge with real learners.Доказать клин субтитров/двойной дорожки на реальных учениках.
Run the Week-1 Mom Test interviews, ship a thin native-desktop subtitle client to the immersion communities, and land paying users at the North Star. Resolve the WTP gap with a metered concierge test before locking pricing.Провести интервью Mom Test Недели-1, выкатить тонкий нативный десктопный клиент субтитров в иммерсивные сообщества и привести платящих пользователей к North Star. Закрыть разрыв WTP метеред-консьерж-тестом до фиксации цен.
Leading indicatorОпережающий индикатор≥5 paying or 10 LOIs + 15 users at ≥4 sessions/wk≥5 платящих или 10 LOI + 15 пользователей при ≥4 сесс/недTurn the native-desktop head-start into a telemetry flywheel.Превратить фору на нативном десктопе в маховик телеметрии.
Instrument per-app capture + per-app translation-quality evals from day one. The audio tap is a head-start on public APIs; the only compounding asset is which apps work, where translation fails, and how to fix it faster than anyone copying the tap.Инструментировать захват по каждому приложению + оценки качества перевода по каждому приложению с первого дня. Аудио-tap — это фора на публичных API; единственный накопительный актив — знание, какие приложения работают, где перевод ломается и как чинить быстрее любого, кто скопирует tap.
Leading indicatorОпережающий индикатор100% sessions emit per-app quality telemetry100% сессий шлют телеметрию качества по приложениямOwn the immersion-community channel before paid CAC matters.Захватить канал иммерсивных сообществ до того, как платный CAC станет важен.
Seed Refold/TheMoeWay/Migaku Discords and r/LearnJapanese, sponsor polyglot YouTubers, and time launches to recurring immersion-challenge kickoffs. A legally-clean shareable artifact (the user's own bilingual clips) carries the loop.Засеять Discord-сообщества Refold/TheMoeWay/Migaku и r/LearnJapanese, спонсировать полиглот-ютуберов и приурочивать запуски к регулярным стартам иммерсивных челленджей. Юридически чистый шеринг-артефакт (собственные двуязычные клипы пользователя) тянет петлю.
Leading indicatorОпережающий индикатор≥1,400 community-sourced trials/mo at ≥6% paid conv.≥1 400 трайлов/мес из сообществ при ≥6% конверсии в платныхIf the consumer wedge proves the capture primitive and telemetry compounds, the durable scale path is a B2B / SDK platform layer (accessibility-compliance, embedded real-time translation) — the explicit $10B headline thesis. We lead consumer to earn the moat, then expand; we do not open with it.Если потребительский клин докажет примитив захвата и телеметрия начнёт накапливаться, путь к долговечному масштабу — это B2B / SDK платформенный слой (соответствие требованиям доступности, встроенный перевод в реальном времени) — явный тезис на $10 млрд. Мы заходим через потребителя, чтобы заработать ров, затем расширяемся; мы не начинаем с этого.