Вопрос повышения качества машинного перевода остро стоит во многих крупных компаниях, где перевод большого объема документов со специализированной лексикой является каждодневной задачей.
Часто в компаниях накапливаются большие объемы данных, которые могут быть использованы для создания специализированных моделей, существенно улучшающих качество машинного перевода.
Для того, чтобы создать такую модель, необходимо выполнить обучение системы на параллельных данных. Для осуществления этого процесса требуется соответствующее программное обеспечение. Как правило, это облачные сервисы, которые работают по подписке и требуют оплаты каждой тренировки. Главным недостатком при таком подходе является то, что заказчик должен передать на облачный сервис свои данные, что создает риск утечки. В некоторых компаниях передача данных невозможна по правилам корпоративной безопасности.
Компания PROMT предлагает решение для настройки на стороне заказчика. PROMT Neural Training Аddon позволяет заказчикам самостоятельно создавать специализированные модели перевода на своих данных. При использовании PROMT Neural Training Addon любая используемая информация защищена от утечки, а количество тренировок неограниченно.
ТРЕБОВАНИЯ К ДАННЫМ
✔ Рекомендуемый объем от 10 000 сегментов
БЕЗОПАСНОСТЬ И КОНФИДЕНЦИАЛЬНОСТЬ
✔ Тренировка на стороне заказчика
✔ Тренировочные данные не доступны третьим лицам
РЕЗУЛЬТАТ
✔ Модель подключается в PROMT Neural Translation Server через профиль перевода
✔ Профиль перевода доступен для перевода текста, документа, сайта, в CAT-системе (PROMT Translation Factory, Phrase, Trados Studio)
с ОС Linux
Примеры внедрения
Центральный банк Российской Федерации
Была проведена кастомизация решения PROMT на основе ранее выполненных переводов специалистами заказчика (почти 100 000 предложений и их переводов) и корпоративного глоссария из 2 000 терминов.
В результате настройки рост качества перевода со специализированной нейронной моделью и глоссарием составил 10-15%.
Требования для PROMT Neural Training Addon для Windows
Компьютер со следующими характеристиками:
- Процессор класса Intel Core i5 (или выше) или AMD Ryzen 3 (или выше) с 6 ядрами минимум (рекомендуется 8 ядер)
- Дискретная видеокарта (графический ускоритель, GPU)
- Оперативная память: не менее 16 Гб
- Место на диске: не менее 10 Гб для инсталляции
* Для обучения моделей используются вычислительные возможности видеокарты (GPU). В качестве GPU могут использоваться видеокарты NVIDIA. Минимальная модель видеокарты: NVIDIA GTX 1070. Минимальное требование к памяти: 8 Гб (рекомендуется 11 Гб и больше). Чем больший объем памяти будет выделен, тем выше будет результат обучения модели. Требуется драйвер видеокарты с поддержкой CUDA 11.
Поддерживается работа на следующих ОС :
- Windows 10 x64, начиная с Windows10 Anniversary Update
- Windows 11
- Windows Server 2016
- Windows Server 2019
- Windows Server 2022
Примечания:
Для работы инсталлятора требуется .NET Framework 3.5, который необходимо включить как компонент системы: Программы и компоненты > Включение или отключение компонентов Windows.
Для работы продукта требуется .NET Framework 4.8, входящий в состав набора.
Для работы утилиты конвертации моделей в формат Сtranslate2 PNTA поставляется с embedded-версией Python 3.7 и необходимыми пакетами. Кроме этого, при установке PNTA происходит установка пакета Microsoft Visual C++ 2015 Redistributable, необходимого для работы Ctranslate2.
Требования для PROMT Neural Training Addon для Linux
Компьютер со следующими характеристиками:
- Процессор класса Intel Core i5(или выше) или Xeon E3 (или выше) с 4 ядрами минимум (рекомендуется 8 ядер)
- Графический процессор (GPU) с выделенной видеопамятью не менее 16 Гб и с поддержкой CUDA 12*
- Оперативная память: 32 Гб (при объеме тренировочных данных до 1 млн.сегментов)
- Место на диске: 20 Гб
* требуется установить последнюю версию драйвера GPU для соответствующей ОС
Поддерживается работа на следующих ОС:
- AstraLinux SE 1.7
- Alt Linux 10.0
- РЕД ОС 7.3
- Ubuntu 20.04
- Ubuntu 22.04
- Ubuntu 23.04
- Debian 10
- Debian 11
ОС должны включать следующие системные библиотеки и компоненты:
- GLIBC версии 2.17 или выше
- libgcc_s.so.1
- libstdc++.so.6
- менеджер системных служб systemctl
Дополнительно перед установкой продукта требуется установка следующих пакетов (дистрибутивы входят в поставку):
- Python версии от 3.6.4 до 3.10
- пакет Numpy для Python
- пакет PyYAML 6.0 для Python
- пакет CTranslate2 2.14.0 для Python
- пакет Vcredist 2015
Веб-интерфейс продукта поддерживает работу в последних версиях следующих браузеров:
- Chrome
- Яндекс-браузер
- Firefox
- Opera
- Edge
- Safari (macOS)