Нейросеть Яндекса теперь переводит с китайского
Нейросеть "Яндекса" обучили переводить видео с китайского. Это круто, конечно. Вообще надо сказать, что я возможностями этого автоматического переводчика видео, который встроен в браузер "Яндекса", прямо-таки впечатлен. Реально очень пристойно переводит, много раз проверял. Не со всех языков, но с английского-испанского - прям очень хорошо (для машинного перевода). Теперь вот добавился китайский. Насколько хорошо переводит - я оценить не могу, но у меня есть друзья, владеющие китайским, спрошу их мнения.
Нейросеть «Яндекса» научилась переводить видео с китайского языка. Процесс обучения оказался непростым и потребовал учесть множество особенностей сложного языка.
Прежде всего, разработчикам «Яндекса» потребовалось с нуля собрать собственный датасет: с помощью специального алгоритма они обработали 1,5 миллиона видео и выбрали 100 тысяч роликов с качественными субтитрами на мандаринском (севернокитайском языке), которым владеет более миллиарда человек. А чтобы нейросеть научилась их понимать, весь необходимый для работы с китайским словарь разработчики закодировали в виде 10 000 токенов. Для сравнения, пять европейских языков уместилась в библиотеку на 5000 токенов.
Наконец, всего за три месяца нейросеть научилась различать четыре тона, определяющих смыл сказанного. Это одна из ключевых сложностей китайского языка, когда один и тот же слог, произнесённый с повышением или понижением голоса, может означать совершенно разные вещи. А для разграничения омофонов учитывается контекст.
Технологий уже доступна на YouTube, а чуть позже появится поддержка популярной китайской видеоплатформы Bilibili.