История изменений
Исправление LINUX-ORG-RU, (текущая версия) :
что нужно начинать с малого
Ага. Запустил обход по новой, но теперь исключаю переводы тегов и отфильтровываю варианты когда первый символ -
и без него теги равны например -1
и 1
, и если тег из 3
или менее символов и там есть точка например 4.2
и 42
. Но даже без переводов ждать долго десятки тысяч запросов на ЛОР для получения текущих синонимов тегов делать нужно каждый раз иначе не актуально будет. Ну и таймауты стоят чтобы лор не дудосить. Попозжа выложу, может там список поадекватнее получится как по содержанию, выявить уж совсем дубли ляля
, ля-ля
, ля ля
, так и по размеру сотню или пару сотен можно и подчистить. Хотя вот последнее ляля
, ля-ля
, ля ля
наверное вообще надо отфильтровывать на уровне кода ЛОРа. Но это надо жаву учить. Лень.
Сам скрипт не выкладываю, так как уж больно он долбится в ЛОР часто, ладно я один долблю.
А если десяток других людей начнут просто на поглядеть то Максим расстроится наверное :)
По поводу переводов добавлю для однозначности, в списке первом это не новые в смысле вот слово, а вот новый его перевод, это в смысле вот тег, вот его перевод и в тегах есть уже такой же тег, но в переведённом варианте, типа linux
и линукс
. А не в смысле что нужно добавить переведённый вариант, а в смысле что он уже есть, просто чтобы его найти тег надо перевести. Но да, так как переводы делаются автоматически, там порой возникают проблемки как логические так и просто ошибки. И да, даже имея на руках просто два тега в разном переводе и головой ещё не всегда понятно надо ли что-то с ними двумя делать или нет, без всякой автоматики, так как и контекст и всё такое. Да даже с числами беда -7
это из треда про погоду или очередной ДВИМ/ШВИМ
:D Бида. Но непонятные случаи можно просто не трогать, так как нет одного правильного варианта, они оба правильные, а вот поискатред
поиска-тред
поиска тред
это уже понятно, просто и однозначно.
Хорошая такая борьба с мельницами, ага :D
Исправление LINUX-ORG-RU, :
что нужно начинать с малого
Ага. Запустил обход по новой, но теперь исключаю переводы тегов и отфильтровываю варианты когда первый символ -
и без него теги равны например -1
и 1
, и если тег из 3
или менее символов и там есть точка например 4.2
и 42
. Но даже без переводов ждать долго десятки тысяч запросов на ЛОР для получения текущих синонимов тегов делать нужно каждый раз иначе не актуально будет. Ну и таймауты стоят чтобы лор не дудосить. Попозжа выложу, может там список поадекватнее получится как по содержанию, выявить уж совсем дубли ляля
, ля-ля
, ля ля
, так и по размеру сотню или пару сотен можно и подчистить. Хотя вот последнее ляля
, ля-ля
, ля ля
наверное вообще надо отфильтровывать на уровне кода ЛОРа. Но это надо жаву учить. Лень.
Сам скрипт не выкладываю, так как уж больно он долбится в ЛОР часто, ладно я один долблю.
А если десяток других людей начнут просто на поглядеть то Максим расстроится наверное :)
По поводу переводов добавлю для однозначности, в списке первом это не новые в смысле вот слово, а вот новый его перевод, это в смысле вот тег, вот его перевод и в тегах есть уже такой же тег, но в переведённом варианте, типа linux
и линукс
. А не в смысле что нужно добавить переведённый вариант, а в смысле что он уже есть, просто чтобы его найти тег надо перевести. Но да, так как переводы делаются автоматически, там порой возникают проблемки как логические так и просто ошибки. И да, даже имея на руках просто два тега в разном переводе и головой ещё не всегда понятно надо ли что-то с ними двумя делать или нет, без всякой автоматики, так как и контекст и всё такое. Да даже с числами беда -7
это из треда про погоду или очередной ДВИМ/ШВИМ
:D Бида.
Хорошая такая борьба с мельницами, ага :D
Исправление LINUX-ORG-RU, :
что нужно начинать с малого
Ага. Запустил обход по новой, но теперь исключаю переводы тегов и отфильтровываю варианты когда первый символ -
и без него теги равны например -1
и 1
, и если тег из 3
или менее символов и там есть точка например 4.2
и 42
. Но даже без переводов ждать долго десятки тысяч запросов на ЛОР для получения текущих синонимов тегов делать нужно каждый раз иначе не актуально будет. Ну и таймауты стоят чтобы лор не дудосить. Попозжа выложу, может там список поадекватнее получится как по содержанию, выявить уж совсем дубли ляля
, ля-ля
, ля ля
, так и по размеру сотню или пару сотен можно и подчистить. Хотя вот последнее ляля
, ля-ля
, ля ля
наверное вообще надо отфильтровывать на уровне кода ЛОРа. Но это надо жаву учить. Лень.
Сам скрипт не выкладываю, так как уж больно он долбится в ЛОР часто, ладно я один долблю.
А если десяток других людей начнут просто на поглядеть то Максим расстроится наверное :)
По поводу переводов добавлю для однозначности, в списке первом это не новые в смысле вот слово, а вот новый его перевод, это в смысле вот тег, вот его перевод и в тегах есть уже такой же тег, но в переведённом варианте, типа linux
и линукс
. А не в смысле что нужно добавить переведённый вариант, а в смысле что он уже есть, просто чтобы его найти тег надо перевести. Хорошая такая борьба с мельницами, ага :D
Исправление LINUX-ORG-RU, :
что нужно начинать с малого
Ага. Запустил обход по новой, но теперь исключаю переводы тегов и отфильтровываю варианты когда первый символ -
и без него теги равны например -1
и 1
, и если тег из 3
или менее символов и там есть точка например 4.2
и 42
. Но даже без переводов ждать долго десятки тысяч запросов на ЛОР для получения текущих синонимов тегов делать нужно каждый раз иначе не актуально будет. Ну и таймауты стоят чтобы лор не дудосить. Попозжа выложу, может там список поадекватнее получится как по содержанию, выявить уж совсем дубли ляля
, ля-ля
, ля ля
, так и по размеру сотню или пару сотен можно и подчистить. Хотя вот последнее ляля
, ля-ля
, ля ля
наверное вообще надо отфильтровывать на уровне кода ЛОРа. Но это надо жаву учить. Лень.
Сам скрипт не выкладываю, так как уж больно он долбится в ЛОР часто, ладно я один долблю.
А если десяток других людей начнут просто на поглядеть то Максим расстроится наверное :)
По поводу переводов добавлю для однозначности, в списке первом это не новые в смысле вот слово, а вот новый его перевод, это в смысле вот тег, вот его перевод и в тегах есть уже такой же тег, но в переведённом варианте, типа linux
и линукс
. А не в смысле что нужно добавить переведённый вариант, а в смысле что он уже есть, просто чтобы его найти тег надо перевести.
Исходная версия LINUX-ORG-RU, :
что нужно начинать с малого
Ага. Запустил обход по новой, но теперь исключаю переводы тегов и отфильтровываю варианты когда первый символ -
и без него теги равны например -1
и 1
, и если тег из 3
или менее символов и там есть точка например 4.2
и 42
. Но даже без переводов ждать долго десятки тысяч запросов на ЛОР для получения текущих синонимов тегов делать нужно каждый раз иначе не актуально будет. Ну и таймауты стоят чтобы лор не дудосить. Попозжа выложу, может там список поадекватнее получится как по содержанию, выявить уж совсем дубли ляля
, ля-ля
, ля ля
, так и по размеру сотню или пару сотен можно и подчистить. Хотя вот последнее ляля
, ля-ля
, ля ля
наверное вообще надо отфильтровывать на уровне кода ЛОРа. Но это надо жаву учить. Лень.
Сам скрипт не выкладываю, так как уж больно он долбится в ЛОР часто, ладно я один долблю.
А если десяток других людей начнут просто на поглядеть то Максим расстроится наверное :)