История изменений

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать (оператор подгона поможет выработать нужные правила) и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use, которого нет в нашем законодательстве. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет. В реальности они сначала взяли всё что смогли найти, потом отобрали лучшее (чтобы максимально покрывало общий сформированный словарь) в минимальном объёме и купили в лучшем случае права на использование у отобранного.

ЗЫ

Kaggle тоже у большинства нормальных датасетов не разрешает их дальнейшее распространение, хотя зарегистрировавшись ты можешь их и получить и обработать. Гарантий что через 10 лет Kaggle не канет в лету вместе с датасетами никаких. Статьи с этими датасетами как писались, так и будут писаться.

ЗЗЫ

А ещё из похожего можно вспомнить про патенты и vlc, который специально находится во Франции где не признают патенты на ПО и алгоритмы (по той же причине и ITER там же находится, с ним бы вообще конфуз вышел, ака государства против бузиниса/копирастов и своих же законов, поэтому больше чем уверен что во Франции так и не будут признавать эти патенты, так как всему миру необходимо такое место), в противном случае их бы засудили и засадили. Вот и выходит что если ты хочешь заниматься чем-то отличным от протирания штанов ты должен быть очень мобильным и готовым бегать из одной юрисдикции в другую, чтобы пользоваться преимуществами законодательства этих стран. Ну или за тобой должна стоять крыша из законотворцев.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать (оператор подгона поможет выработать нужные правила) и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use, которого нет в нашем законодательстве. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет. В реальности они сначала взяли всё что смогли найти, потом отобрали лучшее (чтобы максимально покрывало общий сформированный словарь) в минимальном объёме и купили в лучшем случае права на использование у отобранного.

ЗЫ

Kaggle тоже у большинства нормальных датасетов не разрешает их дальнейшее распространение, хотя зарегистрировавшись ты можешь их и получить и обработать. Гарантий что через 10 лет Kaggle не канет в лету вместе с датасетами никаких. Статьи с этими датасетами как писались, так и будут писаться.

ЗЗЫ

А ещё из похожего можно вспомнить про патенты и vlc, который специально находится во Франции где не признают патенты на ПО и алгоритмы (по той же причине и ITER там же находится, с ним бы вообще конфуз вышел, ака государства против бузиниса и своих же законов, поэтому больше чем уверен что во Франции так и не будут признавать эти патенты, так как всему миру необходимо такое место), в противном случае их бы засудили и засадили. Вот и выходит что если ты хочешь заниматься чем-то отличным от протирания штанов ты должен быть очень мобильным и готовым бегать из одной юрисдикции в другую, чтобы пользоваться преимуществами законодательства этих стран. Ну или за тобой должна стоять крыша из законотворцев.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать (оператор подгона поможет выработать нужные правила) и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use, которого нет в нашем законодательстве. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет. В реальности они сначала взяли всё что смогли найти, потом отобрали лучшее (чтобы максимально покрывало общий сформированный словарь) в минимальном объёме и купили в лучшем случае права на использование у отобранного.

ЗЫ

Kaggle тоже у большинства нормальных датасетов не разрешает их дальнейшее распространение, хотя зарегистрировавшись ты можешь их и получить и обработать. Гарантий что через 10 лет Kaggle не канет в лету вместе с датасетами никаких. Статьи с этими датасетами как писались, так и будут писаться.

ЗЗЫ

А ещё из похожего можно вспомнить про патенты и vlc, который специально находится во Франции где не признают патенты на ПО и алгоритмы (по той же причине и ITER там же находится), в противном случае их бы засудили и засадили. Вот и выходит что если ты хочешь заниматься чем-то отличным от протирания штанов ты должен быть очень мобильным и готовым бегать из одной юрисдикции в другую, чтобы пользоваться преимуществами законодательства этих стран. Ну или за тобой должна стоять крыша из законотворцев.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать (оператор подгона поможет выработать нужные правила) и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use, которого нет в нашем законодательстве. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет. В реальности они сначала взяли всё что смогли найти, потом отобрали лучшее (чтобы максимально покрывало общий сформированный словарь) в минимальном объёме и купили в лучшем случае права на использование у отобранного.

ЗЫ

Kaggle тоже у большинства нормальных датасетов не разрешает их дальнейшее распространение, хотя зарегистрировавшись ты можешь их и получить и обработать. Гарантий что через 10 лет Kaggle не канет в лету вместе с датасетами никаких. Статьи с этими датасетами как писались, так и будут писаться.

ЗЗЫ

А ещё из похожего можно вспомнить про патенты и vlc, который специально находится во Франции где не признают патенты на ПО и алгоритмы, в противном случае их бы засудили и засадили. Вот и выходит что если ты хочешь заниматься чем-то отличным от протирания штанов ты должен быть очень мобильным и готовым бегать из одной юрисдикции в другую, чтобы пользоваться преимуществами законодательства этих стран. Ну или за тобой должна стоять крыша из законотворцев.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать (оператор подгона поможет выработать нужные правила) и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use, которого нет в нашем законодательстве. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет. В реальности они сначала взяли всё что смогли найти, потом отобрали лучшее (чтобы максимально покрывало общий сформированный словарь) в минимальном объёме и купили в лучшем случае права на использование у отобранного.

ЗЫ

Kaggle тоже у большинства нормальных датасетов не разрешает их дальнейшее распространение, хотя зарегистрировавшись ты можешь их и получить и обработать. Гарантий что через 10 лет Kaggle не канет в лету вместе с датасетами никаких. Статьи с этими датасетами как писались, так и будут писаться.

ЗЗЫ

А ещё из похожего можно вспомнить про патенты и vlc, который специально находится во Франции где не признают патенты на ПО и алгоритмы, в противном случае их бы засудили и засадили. Вот и выходит что если ты хочешь заниматься чем-то отличным от протирания штанов ты должен быть очень мобильным и готовым бегать из одной юрисдикции в другую, чтобы пользоваться преимуществами законодательства этих стран.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать (оператор подгона поможет выработать нужные правила) и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use, которого нет в нашем законодательстве. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет. В реальности они сначала взяли всё что смогли найти, потом отобрали лучшее (чтобы максимально покрывало общий сформированный словарь) в минимальном объёме и купили в лучшем случае права на использование у отобранного.

ЗЫ

Kaggle тоже у большинства нормальных датасетов не разрешает их дальнейшее распространение, хотя зарегистрировавшись ты можешь их и получить и обработать. Гарантий что через 10 лет Kaggle не канет в лету вместе с датасетами никаких. Статьи с этими датасетами как писались, так и будут писаться.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать (оператор подгона поможет выработать нужные правила) и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use, которого нет в нашем законодательстве. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет. В реальности они сначала взяли всё что смогли найти, потом отобрали лучшее в минимальном объёме и купили в лучшем случае права на использование у отобранного.

ЗЫ

Kaggle тоже у большинства нормальных датасетов не разрешает их дальнейшее распространение, хотя зарегистрировавшись ты можешь их и получить и обработать. Гарантий что через 10 лет Kaggle не канет в лету вместе с датасетами никаких. Статьи с этими датасетами как писались, так и будут писаться.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать (оператор подгона поможет выработать нужные правила) и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет. В реальности они сначала взяли всё что смогли найти, потом отобрали лучшее в минимальном объёме и купили в лучшем случае права на использование у отобранного.

ЗЫ

Kaggle тоже у большинства нормальных датасетов не разрешает их дальнейшее распространение, хотя зарегистрировавшись ты можешь их и получить и обработать. Гарантий что через 10 лет Kaggle не канет в лету вместе с датасетами никаких. Статьи с этими датасетами как писались, так и будут писаться.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать (оператор подгона поможет выработать нужные правила) и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет. В реальности они сначала взяли всё что смогли найти, потом отобрали лучшее в минимальном объёме и купили в лучшем случае права на использование у отобранного.

ЗЫ

Kaggle тоже у большинства датасетов не разрешает их дальнейшее распространение, хотя зарегистрировавшись ты можешь их и получить и обработать. Гарантий что через 10 лет Kaggle не канет в лету вместе с датасетами никаких. Статьи с этими датасетами как писались, так и будут писаться.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать (оператор подгона поможет выработать нужные правила) и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет. В реальности они сначала взяли всё что смогли найти, потом отобрали лучшее в минимальном объёме и купили в лучшем случае права на использование у отобранного.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет. В реальности они сначала взяли всё что смогли найти, потом отобрали лучшее в минимальном объёме и купили в лучшем случае права на использование у отобранного.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет. В реальности они сначала взяли всё что смогли найти, потом отобрали лучшее в минимальном объёме и купили в лучшем случае права на использование.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров. Ну и сколько там реально книг было со всякими пуськами бусятыми и сколько отсеялось по каким-то причинам тоже тебе никто не скажет.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг, да и точного списка я не вижу. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k+ книг. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров.

Возможно, но мне кажется, что законодательство тут скорее вторично.

Первично. Потому что даже то что считать персональными данными постоянно меняется.

Жесть какая. В нашей области, если такое вскрывается, то это навсегда замаранная репутация и, зачастую, конец карьеры.

Ключевое слово если. Если всё сделано правильно, то вскрыться ничего не сможет. Потому что при необходимости синтетику и правда можно нагенерировать и всё будет в пределах погрешностей, но надо знать что именно важно, а что не важно.

Яркий пример такого алгоритм BERT который везде суют. Авторы в статье пишут что учили его на википедии и «корпусе книг», вот только я подозреваю что этот их корпус на самом деле Флибуста и её аналоги и очень сильно сомневаюсь что гугл купил все эти книги, скорее всего какой-нибудь fair use. Да и даже если они их купили, то им никто не разрешит свободно распространять полученный датасет, т.е. он вроде есть, а вроде и проверить нельзя не вложив пару миллионов баксов на покупку 20k книг. А в РФ по нашему законодательству за такой датасет тебя набутылят без разговоров.