История изменений

что нужно начинать с малого

Ага. Запустил обход по новой, но теперь исключаю переводы тегов и отфильтровываю варианты когда первый символ - и без него теги равны например -1 и 1, и если тег из 3 или менее символов и там есть точка например 4.2 и 42. Но даже без переводов ждать долго десятки тысяч запросов на ЛОР для получения текущих синонимов тегов делать нужно каждый раз иначе не актуально будет. Ну и таймауты стоят чтобы лор не дудосить. Попозжа выложу, может там список поадекватнее получится как по содержанию, выявить уж совсем дубли ляля, ля-ля, ля ля, так и по размеру сотню или пару сотен можно и подчистить. Хотя вот последнее ляля, ля-ля, ля ля наверное вообще надо отфильтровывать на уровне кода ЛОРа. Но это надо жаву учить. Лень.

Сам скрипт не выкладываю, так как уж больно он долбится в ЛОР часто, ладно я один долблю.
А если десяток других людей начнут просто на поглядеть то Максим расстроится наверное :)

По поводу переводов добавлю для однозначности, в списке первом это не новые в смысле вот слово, а вот новый его перевод, это в смысле вот тег, вот его перевод и в тегах есть уже такой же тег, но в переведённом варианте, типа linux и линукс. А не в смысле что нужно добавить переведённый вариант, а в смысле что он уже есть, просто чтобы его найти тег надо перевести. Но да, так как переводы делаются автоматически, там порой возникают проблемки как логические так и просто ошибки. И да, даже имея на руках просто два тега в разном переводе и головой ещё не всегда понятно надо ли что-то с ними двумя делать или нет, без всякой автоматики, так как и контекст и всё такое. Да даже с числами беда -7 это из треда про погоду или очередной ДВИМ/ШВИМ :D Бида. Но непонятные случаи можно просто не трогать, так как нет одного правильного варианта, они оба правильные, а вот поискатред поиска-тред поиска тред это уже понятно, просто и однозначно.

Хорошая такая борьба с мельницами, ага :D

что нужно начинать с малого

Ага. Запустил обход по новой, но теперь исключаю переводы тегов и отфильтровываю варианты когда первый символ - и без него теги равны например -1 и 1, и если тег из 3 или менее символов и там есть точка например 4.2 и 42. Но даже без переводов ждать долго десятки тысяч запросов на ЛОР для получения текущих синонимов тегов делать нужно каждый раз иначе не актуально будет. Ну и таймауты стоят чтобы лор не дудосить. Попозжа выложу, может там список поадекватнее получится как по содержанию, выявить уж совсем дубли ляля, ля-ля, ля ля, так и по размеру сотню или пару сотен можно и подчистить. Хотя вот последнее ляля, ля-ля, ля ля наверное вообще надо отфильтровывать на уровне кода ЛОРа. Но это надо жаву учить. Лень.

Сам скрипт не выкладываю, так как уж больно он долбится в ЛОР часто, ладно я один долблю.
А если десяток других людей начнут просто на поглядеть то Максим расстроится наверное :)

По поводу переводов добавлю для однозначности, в списке первом это не новые в смысле вот слово, а вот новый его перевод, это в смысле вот тег, вот его перевод и в тегах есть уже такой же тег, но в переведённом варианте, типа linux и линукс. А не в смысле что нужно добавить переведённый вариант, а в смысле что он уже есть, просто чтобы его найти тег надо перевести. Но да, так как переводы делаются автоматически, там порой возникают проблемки как логические так и просто ошибки. И да, даже имея на руках просто два тега в разном переводе и головой ещё не всегда понятно надо ли что-то с ними двумя делать или нет, без всякой автоматики, так как и контекст и всё такое. Да даже с числами беда -7 это из треда про погоду или очередной ДВИМ/ШВИМ :D Бида.

Хорошая такая борьба с мельницами, ага :D

что нужно начинать с малого

Ага. Запустил обход по новой, но теперь исключаю переводы тегов и отфильтровываю варианты когда первый символ - и без него теги равны например -1 и 1, и если тег из 3 или менее символов и там есть точка например 4.2 и 42. Но даже без переводов ждать долго десятки тысяч запросов на ЛОР для получения текущих синонимов тегов делать нужно каждый раз иначе не актуально будет. Ну и таймауты стоят чтобы лор не дудосить. Попозжа выложу, может там список поадекватнее получится как по содержанию, выявить уж совсем дубли ляля, ля-ля, ля ля, так и по размеру сотню или пару сотен можно и подчистить. Хотя вот последнее ляля, ля-ля, ля ля наверное вообще надо отфильтровывать на уровне кода ЛОРа. Но это надо жаву учить. Лень.

Сам скрипт не выкладываю, так как уж больно он долбится в ЛОР часто, ладно я один долблю.
А если десяток других людей начнут просто на поглядеть то Максим расстроится наверное :)

По поводу переводов добавлю для однозначности, в списке первом это не новые в смысле вот слово, а вот новый его перевод, это в смысле вот тег, вот его перевод и в тегах есть уже такой же тег, но в переведённом варианте, типа linux и линукс. А не в смысле что нужно добавить переведённый вариант, а в смысле что он уже есть, просто чтобы его найти тег надо перевести. Хорошая такая борьба с мельницами, ага :D

что нужно начинать с малого

Ага. Запустил обход по новой, но теперь исключаю переводы тегов и отфильтровываю варианты когда первый символ - и без него теги равны например -1 и 1, и если тег из 3 или менее символов и там есть точка например 4.2 и 42. Но даже без переводов ждать долго десятки тысяч запросов на ЛОР для получения текущих синонимов тегов делать нужно каждый раз иначе не актуально будет. Ну и таймауты стоят чтобы лор не дудосить. Попозжа выложу, может там список поадекватнее получится как по содержанию, выявить уж совсем дубли ляля, ля-ля, ля ля, так и по размеру сотню или пару сотен можно и подчистить. Хотя вот последнее ляля, ля-ля, ля ля наверное вообще надо отфильтровывать на уровне кода ЛОРа. Но это надо жаву учить. Лень.

Сам скрипт не выкладываю, так как уж больно он долбится в ЛОР часто, ладно я один долблю.
А если десяток других людей начнут просто на поглядеть то Максим расстроится наверное :)

По поводу переводов добавлю для однозначности, в списке первом это не новые в смысле вот слово, а вот новый его перевод, это в смысле вот тег, вот его перевод и в тегах есть уже такой же тег, но в переведённом варианте, типа linux и линукс. А не в смысле что нужно добавить переведённый вариант, а в смысле что он уже есть, просто чтобы его найти тег надо перевести.

что нужно начинать с малого

Ага. Запустил обход по новой, но теперь исключаю переводы тегов и отфильтровываю варианты когда первый символ - и без него теги равны например -1 и 1, и если тег из 3 или менее символов и там есть точка например 4.2 и 42. Но даже без переводов ждать долго десятки тысяч запросов на ЛОР для получения текущих синонимов тегов делать нужно каждый раз иначе не актуально будет. Ну и таймауты стоят чтобы лор не дудосить. Попозжа выложу, может там список поадекватнее получится как по содержанию, выявить уж совсем дубли ляля, ля-ля, ля ля, так и по размеру сотню или пару сотен можно и подчистить. Хотя вот последнее ляля, ля-ля, ля ля наверное вообще надо отфильтровывать на уровне кода ЛОРа. Но это надо жаву учить. Лень.

Сам скрипт не выкладываю, так как уж больно он долбится в ЛОР часто, ладно я один долблю.
А если десяток других людей начнут просто на поглядеть то Максим расстроится наверное :)