Microsoft выпускает MAI-Transcribe-1 и два дополнительных базовых AI-модела

Что произошло

2 апреля 2026 года AI-подразделение Microsoft (MAI) выпустило три базовых модели, разработанных полностью внутри компании: MAI-Transcribe-1, модель генерации голоса и модель создания изображений. MAI было создано около шести месяцев назад как инструмент разработки собственных AI-возможностей Microsoft наряду с существующим партнёрством с OpenAI.

MAI-Transcribe-1 поддерживает преобразование речи в текст на 25 языках и работает в 2,5 раза быстрее существующего сервиса Azure Fast Transcription. Модель генерации голоса синтезирует аудио из текста, а генератор изображений создаёт визуалы по текстовым запросам. Microsoft позиционирует все три модели как более доступные по цене альтернативы аналогичным решениям Google и OpenAI.

Почему это важно для авторов и создателей контента

Для журналистов, исследователей и контент-команд MAI-Transcribe-1 является наиболее непосредственно значимым из трёх. Транскрипция стала стандартным шагом в рабочих процессах письма на основе интервью: запись переговоров, пресс-колов и бесед с источниками с последующим преобразованием в доступный для поиска текст. Более быстрая и дешёвая модель транскрипции от вендора, которым многие организации уже пользуются через Microsoft 365 и Azure, способна снизить стоимость и задержки этого шага без необходимости внедрять новые инструменты.

Более широкая картина: Microsoft формирует полноценный AI-стек для создания контента в рамках собственной инфраструктуры. Команды, использующие инструменты Microsoft для написания, редактирования и публикации, с всё большей вероятностью будут встречать AI-возможности, встроенные непосредственно в эти рабочие процессы, а не поступающие через сторонние интеграции. Этот релиз — шаг в данном направлении.