LINUX.ORG.RU

Как можно определить на каком языке строка?

 , ,


1

1

В openstreetmap есть:

city_name
city_name_ru
city_name_uk

Бывает такое, что есть city_name, но нет city_name_ru или нет city_name_uk. А в city_name может быть и русское и украинское название населенного пункта. Нужно определить на каком языке строка в city_name и перенести это название в city_name_ru или в city_name_uk. Определить язык, на котором строка - нужно на python3

★★★★

Последнее исправление: serg002 (всего исправлений: 1)
Ответ на: комментарий от anonymous

Я тебе написал про ошибки. В общем случае без привлечения дополнительной информации из внешних источников задача имеет только вероятностное решение (а какая там ошибка это отдельный вопрос, для каждого языка она разная). Если ты этого не понимаешь, то дальнейший разговор не конструктивен.

ЗЫ

Людям выше, которые про трактовку в пользу языка государства говорят, это тоже в модель машинного обучения легко засовывается, в каком случае лучше трактовать и для каких государств, потому что в данных наверняка не равномерное распределение реального языка и государственного для разных государств. Т.е. для одних стран это можно делать, а для других нет. Ну и в случае наличия характерных фрагментов слов может не стоит трактовать в пользу языка государства, лучше чтобы и эти фрагменты и вероятности сами считались.

peregrine ★★★★★
()
Последнее исправление: peregrine (всего исправлений: 3)
Ответ на: комментарий от peregrine

конечно неконструктивен. ты несешь полную херню. ты никогда не научишь бота определять язык по одному слову. как бы ты круто не цитировал википедию, тебе это не поможет. человек даже определить не сможет, ты тут про ботов задвигаешь. иди проспись.

anonymous
()
Ответ на: комментарий от anonymous

Бывают дурачки среди анонов (да и регистрантов тоже), которые в маняфантазиях живут и сначала нафантазируют себе тезисов, а потом их героически оспаривают/доказывают, понимаю. Перечитай всё внимательно и подумай ещё раз над тем что написано, если не поможет, проспись и перечитай ещё раз. Особенно про вероятностную (это не просто красивое слово, оно какой-то смысл в себе несёт и последствия для решения) природу решения и большую ошибку.

peregrine ★★★★★
()
Последнее исправление: peregrine (всего исправлений: 2)
Ответ на: комментарий от peregrine

Бывают дурачки среди анонов (да и регистрантов тоже)

и ты как раз живой пример.

Лондон - на каком языке? русский? а хрен тебе, это был казахский. а щас Лондон на каком языке? украинский? а вот два хрена тебе уже, это был бурятский. а этот Лондон на каком языке? татарский, русский, киргизский, сербский? какой это язык?

так что

вероятностную природу решения и большую ошибку

засунь себе обратно в википедию и не умничай.

если ты обосрался, то не надо валить на

вероятностную природу решения и большую ошибку

и у тебя не было права на

большую ошибку

anonymous
()
Ответ на: комментарий от anonymous

Лондон - на каком языке? русский? а хрен тебе, это был казахский. а щас Лондон на каком языке? украинский? а вот два хрена тебе уже, это был бурятский. а этот Лондон на каком языке? татарский, русский, киргизский, сербский? какой это язык?

У тс-а ещё и координаты есть, как дополнительный фактор для определения

и у тебя не было права на

а это не твоё собачье дело права выдавать, это тебе к боженьке надо права качать пойти, почему в мире есть коллизии, зачем ты ко мне с ними идёшь я не понимаю вообще

peregrine ★★★★★
()
Последнее исправление: peregrine (всего исправлений: 1)
Ответ на: комментарий от peregrine

название темы прочитай.

купил ты билет в Париж, а прилетел в Париж который в России. бежишь к авиаперевозчику и спрашиваешь «че за херня?», - а он тебе отвечает: " коллизия, братан"… но по факту ты в Париже. еще про теории поговорим или пойдешь проспишься?

anonymous
()
Ответ на: комментарий от anonymous

не могу поверить что первая и вторая буквы - разные

А это к извращенцам из Unicode Consortium. С одной стороны, они придумали унификацию CJK, а с другой отдельные буквы для английской i, кириллической і, ещё одной английской i, математических 𝚒, 𝗶, 𝗂, 𝔦, и для латиницы ⅰ.

monk ★★★★★
()
Ответ на: комментарий от monk

А это к извращенцам из Unicode Consortium.

UNICODE как QT.
Вроде должен быть GUI, ан нет скоро QTOS будет.
С другой стороны

Аппетит приходит во время еды

Владимир

anonymous
()

Нужно «размяться».

А в city_name может быть и русское и украинское название населенного пункта.

Это да, некоторые пьют «пиво», а некоторые

Пыво

Владимир

anonymous
()

Всем спасибо!

serg002 ★★★★
() автор топика

Какой совет «подошел»?

Владимир

anonymous
()
Ответ на: комментарий от anonymous

Поспал. Во-первых, в мире несколько населённых пунктов с названием Москва, так что ты реально можешь прилететь не туда, если не знаешь, куда тебе надо, во-вторых, формализованная задача ТС-а звучит следующим образом: корректно ли заданное название для какого-то языка или нет и для каких языков оно вероятно корректно, ну да ладно.

peregrine ★★★★★
()
Ответ на: комментарий от peregrine
Однажды я прогуливался по мосту и увидел человека, стоящего на краю, который собирался прыгнуть. 
Я быстро подбежал к нему и сказал "Стой! Не делай этого!"
"Я ничего не могу поделать" - плакал он, "я потерял интерес к жизни".
"Чем ты зарабатываешь на жизнь?" - спросил я.
Он сказал: "Я разрабатываю технические требования для веб-сервисов"
"Я тоже!" - сказал я. "Ты используешь REST-сервисы или SOAP-сервисы?"
Он сказал: "REST-сервисы"
"Я тоже!" - сказал я. "Ты используешь текстовой формат XML или бинарный формат XML?"
Он сказал: "текстовой формат XML"
"Я тоже!" - сказал я. "Ты используешь XML 1.0 или XML 1.1?"
Он сказал: "XML 1.0"
"Я тоже!" - сказал я. "Ты используешь UTF-8 или UTF-16?"
Он сказал: "UTF-8"
"Я тоже!" - сказал я. "Ты используешь нормализацию юникода формы C или нормализацию юникода формы KC?"
Он сказал: "нормализацию юникода формы KC"
"Умри, иноверная мразь!" - прокричал я, и столкнул его с моста.
monk ★★★★★
()
Ответ на: комментарий от peregrine

Не исправляется.

>>> normalize('NFKC', u'aаоo')
u'a\u0430\u043eo'
monk ★★★★★
()
Ответ на: комментарий от anonymous

Чёёёёёёёёёрный юмор

the voices of mor​tal man from the sp​here I can see it can you see ̲͚̖͔̙î̩́t̲͎̩̱͔́̋̀ it is beautiful t​he final snuffing of the lie​s of Man ALL IS LOŚ͖̩͇̗̪̏̈́T ALL I​S LOST the pon̷y he comes he c̶̮omes he comes the ich​or permeates all MY FACE MY FACE ᵒh god no NO NOO̼O​O NΘ stop the an​*̶͑̾̾​̅ͫ͏̙̤g͇̫͛͆̾ͫ̑͆l͖͉̗̩̳̟̍ͫͥͨe̠̅s ͎a̧͈͖r̽̾̈́͒͑e n​ot rè̑ͧ̌aͨl̘̝̙̃ͤ͂̾̆ ZA̡͊͠͝LGΌ ISͮ̂҉̯͈͕̹̘̱ TO͇̹̺ͅƝ̴ȳ̳ TH̘Ë͖́̉ ͠P̯͍̭O̚​N̐Y̡ H̸̡̪̯ͨ͊̽̅̾̎Ȩ̬̩̾͛ͪ̈́̀́͘ ̶̧̨̱̹̭̯ͧ̾ͬC̷̙̲̝͖ͭ̏ͥͮ͟Oͮ͏̮̪̝͍M̲̖͊̒ͪͩͬ̚̚͜Ȇ̴̟̟͙̞ͩ͌͝S̨̥̫͎̭ͯ̿̔̀ͅ

monk ★★★★★
()
Ответ на: комментарий от monk

he voices of mor​tal man from the sp​here I can see it can you see ̲͚̖͔̙î̩́t̲͎̩̱͔́̋̀ it is beautiful t​he final snuffing of the lie​s of Man ALL IS LOŚ͖̩͇̗̪̏̈́T ALL I​S LOST the pon̷y he comes he c̶̮omes he comes the ich​or permeates all MY FACE MY FACE ᵒh god no NO NOO̼O​O NΘ stop the an​*̶͑̾̾​̅ͫ͏̙̤g͇̫͛͆̾ͫ̑͆l͖͉̗̩̳̟̍ͫͥͨe̠̅s ͎a̧͈͖r̽̾̈́͒͑e n​ot rè̑ͧ̌aͨl̘̝̙̃ͤ͂̾̆ ZA̡͊͠͝LGΌ ISͮ̂҉̯͈͕̹̘̱ TO͇̹̺ͅƝ̴ȳ̳ TH̘Ë͖́̉ ͠P̯͍̭O̚​N̐Y̡ H̸̡̪̯ͨ͊̽̅̾̎Ȩ̬̩̾͛ͪ̈́̀́͘ ̶̧̨̱̹̭̯ͧ̾ͬC̷̙̲̝͖ͭ̏ͥͮ͟Oͮ͏̮̪̝͍M̲̖͊̒ͪͩͬ̚̚͜Ȇ̴̟̟͙̞ͩ͌͝S̨̥̫͎̭ͯ̿̔̀ͅ

他從戰場上傳出凡人的聲音,在這裡我能看到它,你可以看到̲͚̖͔̙ît̩t̋̀真是美極了。 來了ich或滲透到我所有的臉我的臉我的臉ᵒ上帝沒有NO̼O ONΘ停止an *̶͑̾̾
Tā cóng zhànch

Владимир

anonymous
()
Ответ на: комментарий от monk

Зря. C форма идёт везде, кроме задач, когда данные пишутся фиг пойми как, т.е. когда они очень грязные и не аккуратные, а характер алгоритма работающего с этими данными достаточно устойчив к шумам. Т.е. в NLP задачах, особенно если ввод данных это оцифровка KC форма имеет место быть.

peregrine ★★★★★
()
Последнее исправление: peregrine (всего исправлений: 1)
Ответ на: комментарий от anonymous

А это вообще не решается никак, есть даже города с одинаковыми названиями в разных странах

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.