Расшифровка интервью для журналистов и подкастеров: тайм-коды, спикеры, цитаты

Как журналисту и подкастеру быстро расшифровать интервью с двумя спикерами, расставить тайм-коды и выдернуть цитаты. Сравниваем варианты и собираем рабочий пайплайн.

30 April 2026 · 9 мин чтения

Расшифровка интервью для журналистов и подкастеров: тайм-коды, спикеры, цитаты

Журналист берёт интервью на 40 минут — а потом тратит 4 часа, чтобы превратить запись в текст. Подкастер записывает выпуск на часовый разговор — а потом не может найти ту самую цитату на 42 минуте, чтобы вынести её в промо. В этой статье — рабочий пайплайн расшифровки интервью с тайм-кодами, разделением спикеров и цитатами, который превращает 40-минутную запись в готовый материал за 15 минут.

Если коротко

Ручная расшифровка часа интервью — это 4–6 часов чистой работы. Автоматическая — 2–5 минут плюс 30–40 минут на вычитку.
Для интервью важны три вещи: спикеры (кто что сказал), тайм-коды (где это в записи) и точные цитаты (без перефраза).
@vtekst_ai_bot в личке: пересылаете запись — получаете расшифровку и структурированное саммари с тезисами и цитатами. Спикеры размечаются автоматически, если их двое.
Для длинных подкастов (60+ минут) лучше делить на куски по 15–20 минут — и качество расшифровки выше, и тайм-коды точнее.
Этика: предупреждайте героя о записи, фиксируйте согласие текстом, не отправляйте сырое аудио в сторонние сервисы без необходимости.

Почему расшифровка интервью — это боль

Любой журналист или подкастер, кто хоть раз делал часовое интервью, знает правило большого пальца: 1 минута записи = 6–10 минут расшифровки вручную. Это значит, что 40-минутное интервью съедает у вас 4–7 часов, прежде чем вы вообще подойдёте к тому, ради чего всё и затевалось — написанию материала.

Что съедает время:

Постоянная пауза-пере-нажать-снова. Вы печатаете медленнее, чем человек говорит. Поэтому слушаете 5 секунд, ставите паузу, печатаете, мотаете назад, потому что не расслышали слово.
Имена и термины. Если герой упоминает специфические названия, фамилии, цифры — вы тратите дополнительные минуты, чтобы переслушать и записать точно.
«Кто это сказал». Если в разговоре два спикера, в тексте легко потерять, кто чью реплику говорил, особенно если у них похожие тембры или разговор оживлённый.
Поиск цитат. Когда нужно вставить точную цитату в статью или промо-пост — вы возвращаетесь к аудио и снова перематываете.

Хорошая новость: всё четыре пункта закрываются автоматической расшифровкой с разметкой спикеров и тайм-кодами. Плохая — не все сервисы делают это одинаково хорошо для русского.

Что нужно журналисту и подкастеру от расшифровки

Большинство онлайн-расшифровщиков выдают «полотно текста» — один сплошной абзац без структуры. Для интервью этого мало. Нужны три вещи.

1. Разметка спикеров

Когда в записи двое или больше говорящих, расшифровка должна показывать, кто говорит каждую реплику:

[Спикер 1] А вот когда вы только начинали, какой был самый сложный момент?
[Спикер 2] Самый сложный — это первые полгода, когда мы вообще не понимали, кто наш клиент…

Без разметки текст превращается в кашу: непонятно, где вопрос, где ответ. Технология, которая это делает, называется диаризация — это отдельный шаг в обработке аудио, который не все сервисы поддерживают для русского языка.

2. Тайм-коды

Каждый абзац или каждая реплика должна быть привязана к моменту в записи:

[00:14:32] [Спикер 2] И тут случилось чудо — к нам пришёл первый клиент…

Это нужно для двух сценариев. Первый — подкастеру, чтобы поставить timestamps в описании выпуска и нарезать промо-клипы для соцсетей. Второй — журналисту, чтобы при цитировании быстро вернуться к аудио и убедиться, что фразу не вырвали из контекста.

3. Точные цитаты, не пересказ

Расшифровка должна сохранять точные слова героя — с паузами, оговорками, словами-паразитами (вычистите их при редактуре, но для аудита нужен сырой вариант). Никакого «AI-перефраза», который красиво звучит, но на самом деле герой такого не говорил. В журналистике это вопрос профессиональной этики, в подкастинге — достоверности.

Что такое диаризация и почему для русского это сложнее

Диаризация (speaker diarization) — это технология, которая определяет «когда говорит спикер 1, а когда спикер 2», даже не зная, кто это конкретно. Она работает на акустических признаках голоса (высота, тембр, интонационный контур).

Для английского диаризация хорошо обучена и работает почти у всех сервисов. Для русского — у большинства международных сервисов точность падает на 15–25%: они путают спикеров, особенно если у них похожие тембры (две мужских голоса близкого возраста — классическая ошибка).

Поэтому для интервью на русском важно выбирать сервис, в котором диаризация была обучена и тестировалась на русскоязычных данных — иначе разметка спикеров будет ломаться в ключевых местах.

4 варианта расшифровки интервью: что выбрать

1. Ручная расшифровка

Плюсы: точность 100%, контроль над терминами и цитатами.

Минусы: 4–7 часов на часовое интервью.

Когда уместно: очень короткие куски (2–3 минуты), где важна интонация, или когда расшифровка — часть креативной работы (литературная обработка устной речи).

2. Онлайн-сервисы (Otter, Sonix, Trint, Speechflow)

Плюсы: удобный веб-интерфейс, тайм-коды, разметка спикеров (для английского — отлично).

Минусы: для русского качество ниже EN, цена $10–20/час, оплата иностранной картой, отправка аудио в США.

Когда уместно: вы работаете с англоязычными гостями и готовы платить в валюте.

3. Локальный Whisper (open-source)

Плюсы: бесплатно, аудио не покидает компьютер, отличное качество русского.

Минусы: нужен мощный компьютер (M1+ MacBook или GPU), полчаса на настройку, диаризация не из коробки.

Когда уместно: большая регулярная нагрузка (2–3 интервью в неделю), важна приватность, есть техническая база.

4. Telegram-бот (@vtekst_ai_bot)

Плюсы: ничего не настраивать, пересылаете запись — получаете расшифровку и саммари. Хорошо работает с русским, размечает спикеров.

Минусы: аудио уходит в облако (но удаляется после обработки), для строго конфиденциальных тем лучше Whisper локально.

Когда уместно: большинство стандартных интервью с экспертами, гостями подкаста, ньюсмейкерами.

Workflow для подкастера: от записи до промо

Подкастер записывает выпуск на 60–90 минут. Что нужно после записи:

Экспортировать запись в mp3 или ogg

Любой DAW (Audition, Reaper, GarageBand) умеет экспорт. Размер файла до 50 МБ — Telegram примет как обычный файл; больше — разделите на куски по 15–20 минут (это даже улучшит точность диаризации).
Переслать в @vtekst_ai_bot

Открываете чат с ботом в личке, прикрепляете аудиофайл — или несколько по очереди, если делили. Через 2–5 минут получаете расшифровку с разметкой спикеров и структурированное саммари.
Сделать show notes из саммари

Бот возвращает главные тезисы выпуска — это уже на 80% готовый show notes. Остаётся выделить 5–7 ключевых пунктов с тайм-кодами и опубликовать в описании выпуска на Apple Podcasts, Яндекс Музыке, Spotify.
Найти цитаты для промо

Cmd+F по тексту — ищете яркие фразы. Тайм-код рядом подсказывает, где в записи это резать в 30-секундный клип для Reels или Shorts. Или используйте текст как сабтитры к видеоверсии выпуска.

Workflow для журналиста: от диктофона до статьи

Журналистский цикл отличается: интервью обычно короче (20–40 минут), но цитаты должны быть выверены до слова, и часто нужно цитировать сразу нескольких героев в одном материале.

Записать на диктофон или телефон

Любой современный смартфон в тихом помещении даёт качество, достаточное для точной автоматической расшифровки. Запишите тестовые 30 секунд перед интервью — проверьте уровень.
Перенести файл в Telegram (Saved Messages)

Открываете «Избранное» в Telegram, перекидываете файл с диктофона. Это удобный буфер: не нужно лезть в файловый менеджер.
Переслать боту

Из «Избранного» пересылаете боту. Получаете расшифровку с разметкой спикеров и саммари: главные тезисы, всплывшие имена и даты, открытые вопросы.
Вычитать на имена и термины

AI-расшифровка иногда промахивается на редких фамилиях, аббревиатурах, иностранных словах. Пройдитесь по тексту с аудио на фоне на 1.5х — занимает 30–40% от длительности записи (вместо 600% при ручной расшифровке).
Собрать материал в Notion / Google Docs

Структурируете цитаты под план статьи. Тайм-коды оставляете в черновике как метки — если редактор спросит «откуда эта цитата», вы за 5 секунд найдёте место в аудио.

Длинные интервью (60+ минут): как не потерять качество

Чем длиннее запись, тем больше шансов, что:

Диаризация «съедет» — к концу записи спикеры могут перепутаться местами.
Качество распознавания упадёт в местах, где герой говорит тихо или быстро.
Файл превысит лимит Telegram (50 МБ как audio, 2 ГБ как файл — но для удобства лучше держать до 50 МБ).

Решение — разбивать. Возьмите редактор аудио (Audacity бесплатный, Reaper для продвинутых) и нарежьте запись на куски по 15–20 минут с перекрытием по 30 секунд (то есть конец предыдущего куска повторяет начало следующего — это страховка от потери реплики на стыке). Каждый кусок — отдельным файлом боту. После расшифровки склейте текст по тайм-кодам.

Тот же подход работает для академических записей — лекций, семинаров, интервью с информантами для курсовых и диссертаций. Если вы студент или исследователь и готовите расшифровки для учёбы — смотрите отдельный гайд: подготовка к экзамену по голосовым заметкам и аудиозаписям лекций.

Этика записи: что важно проговаривать с героем

Журналистика и подкастинг — разные жанры, но этика записи в них одна.

Согласие на запись. В России по умолчанию для частного разговора нужно согласие всех участников (статья 152.1 ГК РФ касается изображения, но дух тот же). Перед началом — включите запись и скажите вслух: «я записываю наш разговор для интервью, согласны ли вы?» Ответ останется в аудио — это и есть фиксация согласия. Подробный разбор юридической стороны записи разговоров (что признаётся доказательством в суде, как правильно фиксировать согласие, какие записи нельзя использовать) — в статье о голосовых в юридической работе.
Согласие на публикацию. Это другое. Можно записывать, но потом не публиковать часть. Договоритесь, что герой увидит финальный текст до публикации (для журналистики это иногда не принято — зависит от жанра).
Расшифровка через сторонний сервис. Если вы отправляете запись в облачный сервис, технически это передача персональных данных третьей стороне. Для стандартных интервью — нормально, но если тема чувствительная (расследование, медицина, личная драма), используйте локальный Whisper — аудио останется на вашем компьютере.
Хранение исходников. После публикации — решите сами, нужно ли держать аудио. Хорошая практика: оригинал хранить год (на случай претензий «я этого не говорил»), потом удалять.

Как быстро вытаскивать цитаты из готового текста

После расшифровки у вас есть текст и саммари. Дальше — нужно вытащить 5–10 ярких цитат для статьи или промо. Три приёма.

Приём 1: маркеры эмоций

Просмотрите расшифровку и ищите места с многоточиями, восклицаниями, повторами — там герой эмоционально включался. «Это было… ну вообще шок, понимаете?» — это сильнее, чем «это было удивительно».

Приём 2: ответы не на вопрос

Часто самое интересное — когда герой отвечает не на тот вопрос, который вы задали, а на тот, который он сам себе задал в голове. Эти места видно по разрыву темы между репликами — ищите их и цитируйте.

Приём 3: круглые цифры и конкретные факты

«Мы выросли в четыре раза за год» — это конкретика, читатель её запоминает. Расшифровка делает поиск таких мест за 30 секунд — можно искать по словам «лет», «процентов», «миллионов», «раз».

FAQ: частые вопросы

Бот размечает спикеров автоматически?

Да, если в записи слышно отчётливое чередование двух или больше голосов. Если у спикеров очень похожие тембры или один человек говорит 90% времени, разметка может ошибаться — проверьте 1–2 спорных места по тайм-кодам.

Можно загрузить файл больше 50 МБ?

Telegram позволяет отправлять файлы до 2 ГБ как «file» (не как «audio»). Бот примет, но для стабильной работы и точной диаризации лучше резать на куски по 15–20 минут.

Поддерживает ли бот английский или другие языки?

@vtekst_ai_bot поддерживает 50+ языков, включая английский, немецкий, китайский. Качество русского отличное, английского — очень хорошее. Для билингвальных интервью (русский+английский в одной записи) точность немного падает.

Что с конфиденциальностью записи?

Аудио удаляется сразу после обработки, текст — через 24 часа. Подробнее в политике конфиденциальности. Для строго закрытых тем (расследования, юридическая работа) лучше использовать локальный Whisper, чтобы аудио вообще не покидало компьютер.

Сохраняются ли мои интервью в истории бота?

Нет. Текст транскрипта стирается через 24 часа автоматически. Хотите архивировать — скопируйте текст в Notion, Obsidian или Google Docs сразу.

Сколько стоит расшифровать часовое интервью?

На тарифе Free вы получаете 30 минут в сумме — этого хватает, чтобы попробовать. Для регулярной работы оптимальный тариф Plus (799₽/1000 минут — это около 16 часов записи) или Pro Sub (999₽/мес/2000 минут). Подробности — на главной.

Можно ли получить расшифровку в виде .srt или .vtt для субтитров?

На момент 2026-04 бот отдаёт расшифровку текстом с тайм-кодами в квадратных скобках. Конвертацию в .srt можно сделать через любой онлайн-конвертер за 30 секунд — или попробовать наш гайд про субтитры из голосового.

А что если интервью идёт в шумном месте — кафе, улица?

Whisper хорошо работает с умеренным фоновым шумом, но на фоне громкой музыки или нескольких параллельных разговоров точность падает. Записывайте в тихих помещениях, для «полевых» интервью используйте петличный микрофон с шумоподавлением.

Попробуйте vtekst — 30 минут бесплатно

Три шага до структурированного саммари в чате.

1

Добавьте бот в чат

@vtekst_ai_bot — обычный участник, как любой коллега.
2

Отправьте голосовое

От 15 секунд до 20 минут — бот молча подхватит.
3

Получите саммари

Главное, тезисы, задачи и цифры — ответом на ваше голосовое.

Открыть в Telegram Бесплатно · без регистрации

Расшифровка интервью для журналистов и подкастеров: тайм-коды, спикеры, цитаты

Почему расшифровка интервью — это боль

Что нужно журналисту и подкастеру от расшифровки

1. Разметка спикеров

2. Тайм-коды

3. Точные цитаты, не пересказ

4 варианта расшифровки интервью: что выбрать

1. Ручная расшифровка

2. Онлайн-сервисы (Otter, Sonix, Trint, Speechflow)

3. Локальный Whisper (open-source)

4. Telegram-бот (@vtekst_ai_bot)

Workflow для подкастера: от записи до промо

Workflow для журналиста: от диктофона до статьи

Длинные интервью (60+ минут): как не потерять качество

Этика записи: что важно проговаривать с героем

Как быстро вытаскивать цитаты из готового текста

Приём 1: маркеры эмоций

Приём 2: ответы не на вопрос

Приём 3: круглые цифры и конкретные факты

FAQ: частые вопросы

Расшифровка консультаций для коучей и психологов

Voicy vs vtekst vs SaluteSpeech: что выбрать

8 типов голосовых: как бот их разбирает

Почему расшифровка интервью — это боль

Что нужно журналисту и подкастеру от расшифровки

1. Разметка спикеров

2. Тайм-коды

3. Точные цитаты, не пересказ

4 варианта расшифровки интервью: что выбрать

1. Ручная расшифровка

2. Онлайн-сервисы (Otter, Sonix, Trint, Speechflow)

3. Локальный Whisper (open-source)

4. Telegram-бот (@vtekst_ai_bot)

Workflow для подкастера: от записи до промо

Workflow для журналиста: от диктофона до статьи

Длинные интервью (60+ минут): как не потерять качество

Этика записи: что важно проговаривать с героем

Как быстро вытаскивать цитаты из готового текста

Приём 1: маркеры эмоций

Приём 2: ответы не на вопрос

Приём 3: круглые цифры и конкретные факты

FAQ: частые вопросы

Связанные материалы

Расшифровка консультаций для коучей и психологов

Voicy vs vtekst vs SaluteSpeech: что выбрать

8 типов голосовых: как бот их разбирает