LINUX.ORG.RU

CTranslate2 3.14.0

 , , , ,


2

3

26 мая состоялся выпуск 3.14.0 CTranslate2 — фреймворков, разрабатываемых под лицензией MIT проектом OpenNMT на языках C++ и Python, и предназначенных для эффективного использования (с использованием оптимизаций для CPU и GPU) натренированных моделей в системах машинного перевода.

В новой версии:

  • обновление конвертера Transformers для новых архитектур: CodeGen, GPTBigCode, LLaMa, MPT;
  • в конвертер OpenNMT-py добавлена поддержка новых опций;
  • в конвертер OpenNMT-tf добавлена поддержка моделей, использующих различные конфигурации для кодера и декодера;
  • добавлена поддержка путей файлов Windows, содержащих символы Unicode;
  • другие изменения.
import ctranslate2
import sentencepiece as spm

translator = ctranslate2.Translator("ende_ctranslate2/", device="cpu")
sp = spm.SentencePieceProcessor("sentencepiece.model")

input_text = "Hello world!"
input_tokens = sp.encode(input_text, out_type=str)

results = translator.translate_batch([input_tokens])

output_tokens = results[0].hypotheses[0]
output_text = sp.decode(output_tokens)

print(output_text)

>>> Подробности

★★★★★

Проверено: hobbit ()
Последнее исправление: hobbit (всего исправлений: 2)

Примеров переводов нету?

DrBrown
()

Классно конечно… а нет утилиты которая бы брала pdf с картинками и формулами, переводила текст и формировала переведённый pdf где картинки и формулы на месте?

AntonI ★★★★★
()
Ответ на: комментарий от X-Pilot

Казалось бы, а в чём может быть проблема?

annulen ★★★★★
()

Что то я не понял, что выполняет код в новости. Переводит на какой-то язык? А на какой? Переводит в какое-то промежуточное представление? Переводит в токены? Что в этом коде происходит?

Xintrea ★★★★★
()
Ответ на: комментарий от Xintrea

Переводит в токены - внутреннее представление (название библиотеки говорит само за себя: «куски предложений»), затем с помощью модели получает другие токены, соответствующие немецкому переводу, и переводит их обратно в текст.

token_polyak ★★★★★
()
Последнее исправление: token_polyak (всего исправлений: 2)
Ответ на: комментарий от token_polyak

То есть, sentencepiece.model - это модель, переводящая токены в немецкий? А откуда такая информация, что sentencepiece.model - это именно немецкий?

Xintrea ★★★★★
()
Ответ на: комментарий от Xintrea

sentencepiece.model это модель, превращающая предложение в токены. На немецкий переводит их ende_ctranslate2. Вот и оттуда

ende

информация, что именно из английского в немецкий.

token_polyak ★★★★★
()
Последнее исправление: token_polyak (всего исправлений: 1)
Ответ на: комментарий от Xintrea

Насколько я понял, ctranslate2 умеет использовать всяческие модели. В данном контексте особо важен OPUS-MT, среди которых дохера русско-иностранных и иностранно-русских.

token_polyak ★★★★★
()
Ответ на: комментарий от Xintrea

как раз таки на этом сайте enru_ и ruen_ должны интересовать нас меньше всего, потому что пользоваться компьютером с GNU/Linux в 2023 году без знания английского — это весьма своеобразное развлечение.

а вот переводы с русского на иностранные языки (английский у айтишников давно уже не считается иностранным) и наоборот — это да, интересно.

annerleen ★★★★☆
()
Ответ на: комментарий от annerleen

пользоваться компьютером с GNU/Linux в 2023 году без знания английского — это весьма своеобразное развлечение.

Пользоваться чем угодно без знания английского – весьма своеобразное развлечение. Купил какой-нибудь фермер John Deere – получил на руки талмуд на английском. Для айтишников хоть есть переводы манов, горы переводной литературы, оригинальная русскоязычная литература, русскоязычные ресурсы. А что фермеру делать?

Купил некий Вася кофемолку, а там перевод инструкции на русской сделан левой пяткой. Приходится читать на английском. Даже если он сделан левой пяткой с китайского, испорченного телефона будет в два раза меньше.

Vidrele ★★★
()
Ответ на: комментарий от Vidrele

ну почему, телевизором норм пользоваться только со знанием русского языка, особенно если смотреть только федеральные каналы.

annerleen ★★★★☆
()
Ответ на: комментарий от i_am_not_ai

нет конечно, в нашей осталой деревне телевидение вещает на трёх языках, тут всё сложно.

я про богоспасаемую сверхдержаву, конечно же.

annerleen ★★★★☆
()
Ответ на: комментарий от annerleen

о сирых и недалёких заботишься?

оно стоит твоего внимания, разве? )

мне кажется, сейчас уровень снобизма позволяет не плевать на соседа с обеих сторон.

i_am_not_ai
()
Ответ на: комментарий от dataman

Так ведь и минусов 👎 не насовали. Наверно попривыкли к потоку новостей, вот и привередничают.

DrBrown
()

Если будет качество как у deepl и выше то отлично.

Skullnet ★★★★★
()
Ответ на: комментарий от Vidrele

Купил какой-нибудь фермер John Deere – получил на руки талмуд на английском.

Тяжело там у вас. Наших фермеров уже много лет защищает закон, по которому без талмуда на русском языке тебе ни условный трактор, ни условную погодную станцию иностранного производства не продадут.

Купил некий Вася кофемолку, а там перевод инструкции на русской сделан левой пяткой

Тяжело там у вас 2. Некий Вася у нас защищён тем же самым законом, где руководства проверяются на соответствие и производителю очень невыгодно lorem ipsum толкать под видом инструкции.

shrub ★★★★★
()
Ответ на: комментарий от shrub

Ты думаешь, в Украине нет законов, обязывающих импортеров переводить этикетки и инструкции? Есть.

Кроме того, никто в РФ не запрещает купить условный трактор или погодную станцию за рубежом с доставкой. Могут быть санкции, но это другая история.

В случае «параллельного импорта», скорее всего, защищены только языковые права турка, грузина или казаха. Если инструкция на русском и есть, то ее продолжают класть по инерции.

История с John Deere – это реальная история из Краснодарского края. Происхождение того комбайна не знаю. Вряд ли он угнан из украинских степей, потому что тогда бы никакого талмуда не было. Скорее всего, ввезен по серой схеме в обход санкций.

По поводу качества инструкций к бытовой технике на русском. Оно разное. Откровенные ляпы встречаются много где. Вера в магическое действе проверок – это вера в магическое действие проверок. ЧАЭС и Фукусиму проверяли строже, чем любую инструкцию к электрочайнику. Помогло? Нет.

А жить в выдуманном мире легко, да.

Vidrele ★★★
()
Ответ на: комментарий от Vidrele

Ты думаешь, в Украине нет законов, обязывающих импортеров переводить этикетки и инструкции? Есть.

Только он не работает. Если и есть перевод, то кривой или не полный, чисто для отмазки. А на большинство переводят максимум этикетку.

noc101
()
Ответ на: комментарий от noc101

Я примерно это и имел в виду: законы есть, работают так себе, фактическое качество переводов – от хорошего до отвратительного. Разница между Россией и Украиной тут минимальная. Да, с началом войны появились польские моющие средства, греческие сигареты и британские чипсы без местной этикетки. Но это именно исключение ввиду особых обстоятельств, как «параллельный импорт». Сейчас, кстати, украинские этикетки вернулись. То ли лавочку прикрыли, то ли импортеры смекнули, что однажды им придется бегать по региональным складам, расклеивая локализованные этикетки.

Vidrele ★★★
()
Ответ на: комментарий от rechnick

Как я это делаю руками? Перевожу с минимальным раздуванием или даже с компрессией (проблема ещё и в том, что кириллические буквы шире латинских). Потом увеличиваю текстовые блоки, уменьшаю текст, уплотняю строки и знаки так, чтобы внешний вид не страдал. Актуально для презентаций, листовок, всяких таможенных и налоговых форм. Теоретически этому можно обучить и машину.

Vidrele ★★★
()
Ответ на: комментарий от rechnick

С учетом того, что перевод все равно кривой, тут не до красивостей - можно играть шрифтом и межстрочным интервалом.

Конечно можно все в LaTeX загнать, тот сверстает по умолчанию бол-мен норм.

AntonI ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.