LINUX.ORG.RU

NLP - в чем разница двух документов

 ,


0

1

Читая википедию на разных языках, я заметил, что некоторые статьи - просто перевод одной версии в другой язык, а некоторые - совсем разные. Я подумал написать NLP-модель, которая берет две статьи на одну тему, переводит обе на английский язык, и сравнивает. Я попытался сделать это с chatgpt, и он выдает неплохой результат (ниже - сравнение первой части статьи о Линуксе). А есть ли более «классические» подходы к этой проблеме? Что, вообще, гуглить?

While both RU and EN texts provide an overview of Linux, there are some conceptual differences between them:

1. The RU text highlights the costs and labor involved in developing a Linux system, whereas the EN text does not mention these aspects.
2. The RU text discusses the naming dispute between "Linux" and "GNU/Linux," while the EN text briefly acknowledges the controversy but does not delve into it.
3. The RU text mentions Linux user groups, non-profit associations like The Linux Foundation, and the market for commercial technical support (with a focus on Red Hat Corporation). The EN text covers a broader range of topics, including Linux's history, its dominance in various areas (such as servers and supercomputers), and its presence in embedded systems and consumer electronics.
★★

nlp должен сравнивать приблизительную логику и умозаключения текста? Ты задумал написать как раз аналог chatgpt. Слишком самонадеянно если у тебя нет пара миллиардов на разработку и людей как у мелкософта или гугла

monkdt
()

Между прочим, моднейший способ писать диссертации последние лет тридцать - это как раз именно тырить иностранные публикации, а ты хочешь уважаемым людям всю малину испортить.

Irma ★★
()
Последнее исправление: Irma (всего исправлений: 1)
Ответ на: комментарий от peregrine

Мелкософт вбухал в чатгпт ~млрд зелёных. Вчера читал китайцы провалились с тестом своего аналога. Затраты на разработку, консультациями с учёными и сторонними фирмами заоблачные и не факт что получится нечто умное. Это скорее вопрос времени, а значит постоянных затрат

monkdt
()
Последнее исправление: monkdt (всего исправлений: 1)
Ответ на: комментарий от monkdt

Значит на железки вбухал 900 миллионов и 100 лямов на зп. Будет очередной прорыв, хотят gpt 5 к концу года выпустить в котором в 10 раз больше нейронов будет, не иначе.

peregrine ★★★★★
()
Ответ на: комментарий от monkdt

Затраты на разработку, консультациями с учёными и сторонними фирмами заоблачные и не факт что получится нечто умное.

Не уверен что сейчас с нами сильно консультируются, авторы того же дип павлова и всей остальной российской тусовки про нейронки и языковые модели от науки, сейчас не то чтобы сверх сильно загружены предложениями, было бы оно сильно надо, то те же китайцы не стеснялись бы с нами работать. А так, что-то работает вся эта тусовка по отечественным вузам, нии и некоторым фирмам с ЗП от 60 до 160 тысяч за редким исключением. Те кто в ВУЗ-ах и НИИ ближе к 60, те кто в бизнес или поближе к деньгам попали (сбербанки, газпромы всякие), те в своей массе ближе к 160. Ну это если мы про реальных работяг, ака мидлы от мира науки о данных, на чьих плечах всё едет говорим. Топов меньше, ЗП у них может и космической быть до нескольких лямов в месяц, но им не за знания и не за их влияние на проекты платят, а по другим, иногда коррупционным причинам, иногда по глупости, а иногда они владельцы и платят себе сами сколько могут/хотят. Консультироваться с ними часто бесполезно, т.к. они на софтскилах едут, а не на хард скилах.

peregrine ★★★★★
()