
Сохраняется 0 В закладки 0 В закладках 0
xAI добавила в Grok API функцию Custom Voices. Она позволяет клонировать голос по короткой записи и сразу использовать его в Text to Speech и Voice Agent API. Вместе с этим компания открыла Voice Library — раздел в консоли xAI, где собраны встроенные и пользовательские голоса команды.
Функция уже работает в экосистеме xAI. Пользовательский голос получает свой voice_id, который можно передавать в любые TTS-запросы или подключать к голосовым агентам в реальном времени. Подробнее в материале Postium.




Custom Voices в Grok — что это и как работает
Система собирает голосовую модель из записи длиной около минуты. Перед этим человек должен прочитать проверочную фразу — xAI использует её как подтверждение присутствия и согласия.
После записи сервис сравнивает голос из проверочного клипа и основной записи. Если голос совпадает, система создаёт кастомную модель и добавляет её в Voice Library.


xAI отдельно подчёркивает: загрузить чужую запись и сделать клон не получится. Проверка построена вокруг живого подтверждения голоса, а не вокруг уже существующего аудиофайла.
Готовый голос работает так же, как встроенные TTS-голоса xAI. Поддерживаются речевые метки, потоковая генерация через REST и WebSocket, а также многоязычный вывод.
Параллельно xAI расширила встроенный голосовой каталог: теперь в библиотеке больше 80 голосов на 28 языках.
Как пользоваться?
Custom Voices можно создать прямо в консоли xAI. Нужно открыть создание нового голоса, прочитать фразу и записать примерно минуту речи. После обработки голос появляется в Voice Library.


Дальше всё работает через обычный API-вызов: разработчик передаёт voice_id вместо стандартного голоса в Text to Speech или Voice Agent API.
Почему это важно? До этого кастомные голоса требовали отдельного сервиса, сложной модерации и ручной интеграции. xAI встроила всё в существующий стек Grok: запись, проверку личности, создание модели и подключение к API.
Особенно это важно для голосовых ИИ-агентов. Большинство AI-ассистентов до сих пор звучат как набор одинаковых системных голосов. xAI пытается превратить голос в часть идентичности продукта: поддержки, медиа, помощника или корпоративного ассистента.
Ещё одна важная деталь — xAI не вводит отдельную плату за пользовательские голоса. Custom Voices работают в рамках обычного использования TTS и Voice Agent API.
xAI активно наращивает голосовую часть Grok API последние недели. Сначала компания запустила Speech to Text и Text to Speech API, затем представила модель grok-voice-think-fast-1.0 для разговорных агентов в реальном времени. Теперь поверх этого стека появился полноценный слой кастомных голосов и централизованная Voice Library.
Фактически xAI создаёт свою альтернативу ElevenLabs, OpenAI Voice Engine и другим платформам, но сразу внутри экосистемы Grok.
Итог: Grok превратился из обычного TTS-сервиса в полноцененную платформу для голосовых агентов — со своими голосами и встроенным клонированием речи.
⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: .
Тэги Grok Нейросети