LINUX.ORG.RU
ФорумTalks

Нейросетей тред

 ,


0

2

Знаю, что на ЛОР-чике есть люди, которые ими занимаются. Собственно вопрос к этим людям: в каких областях они этим заняты и откуда берут выборки для обучения. Может есть крупные проекты с большим количеством данных? Знаю про викидату, но там маленькое разнообразие как по мне. Есть что больше?

★★★★★

Я думаю заняться нейросетями. Но мне нужно много денег платить, а знаний 0.

так что мечты, мечты

Shulman
()

Neural Networks (куча всяческих ссылок) ©.

откуда берут выборки для обучения

Из условий задачи: «выборки нужно выбирать, они сами не выберутся».

quickquest ★★★★★
()
Ответ на: комментарий от quickquest

Ну смотри, предположим, захочу я научную работу по подавлению помех с помощью нейронных сетей на данных со сканеров роговицы глаза писать и упрусь в то, что данных надо много и все это ПД, что добавит геморроя до невозможного уровня. Вот так со многим. Либо ПД, либо сферические в вакууме данные хрен соберешь. А за ссылку спасибо.

peregrine ★★★★★
() автор топика
Последнее исправление: peregrine (всего исправлений: 1)

Занимаюсь, в основном, OCR с сопутствующей обработкой изображений. Выборка накапливалась как побочный продукт деятельности компании за несколько лет.

откуда берут выборки для обучения

https://toolbox.google.com/datasetsearch для более-менее попсовых вещей и ручная разметка для специфических.

ymn ★★★★★
()
Ответ на: комментарий от peregrine

данных надо много

Как правило да, но существуют приемы, которые позволяют существенно расширить имеющуюся выборку. Очень сильно зависит от задачи, но жить уже более-менее можно начиная с 500 - 1000 документов в обучающей выборке.

ymn ★★★★★
()
Ответ на: комментарий от peregrine

упрусь в то, что данных надо много

Дык, это одна из причин медленного развития нейротехнологий. Даже в твоей голове мозг учится много лет... Но лёгких путей тут нету, искусственно сгенерированные обучающие данные могут давать систематические методические ошибки.

quickquest ★★★★★
()
Последнее исправление: quickquest (всего исправлений: 1)

Для меня это хобби, занимаюсь по большей части звуком и пытаюсь что-то делать в графике, хотя уже не успеваю за современным объёмом работ в этой области. Жду, когда допилят Tensorflow под использование Tensor Cores RTX 2080.

В плане фото есть масса готовых датасетов, вроде MSCOCO. Вот, например, список нескольких популярных: https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-le... .

Советую брать предобученные модели и доучивать их на своих задачах, это зачастую намного быстрее и снижает вероятность свалиться в переобучение на небольшой выборке. Если данные, конечно, не слишком экзотичны.

Sadler ★★★
()
Последнее исправление: Sadler (всего исправлений: 1)

Знаю людей, которые с этим экспериментируют. Области — физхимия, биохимия, обработка сигналов. Большая часть исходных данных — из коммерческих БД, как правило собранных вручную (трудоёмкость — десятки и сотни человеко-лет).

Единственная бесплатная, к которой присматривались — http://www.crystallography.net/cod/

Проблема обучения по справочникам в том, что там обычно каждое вещество встречается 1 раз. А нужно несколько.

olegd ★★★
()

Собственно вопрос к этим людям: в каких областях они этим заняты и откуда берут выборки для обучения

Видеофиксация нарушений ПДД и сопутствующее, данных у нас завались.

WitcherGeralt ★★
()

в каких областях они этим заняты

Большинство знакомых - в экономических. Банковский скоринг и всякое такое.

Как хобби - тренируются на kaggle, оттуда же и датасеты.

phoen ★★
()
Ответ на: комментарий от ymuv

А откуда я могу это знать, если поддержки Tensor cores до сих пор нет? Если просто скомпилить текущий TF с CUDA 10, то раза в полтора быстрее, чем предыдущее поколение. Если судить по официальным характеристикам, с использованием тензорных ядер должно быть раз в 5 быстрее, чем чисто на CUDA.

Sadler ★★★
()
Последнее исправление: Sadler (всего исправлений: 1)

Структура реальности такова, что нейросети уже умеют много интересного, но зарабатывать на них пока мало у кого получается. Поэтому атмосфера там примерно та же, что и в академической науке: мало денег и много булщита.

Сам пару лет был «AI ресёрчером» в одной фирме. Приятно перед знакомыми хвастать, а в остальном одни минусы. Денег платят мало, неадеквата много, чёткого бизнес-плана у фирмы нет, коллеги сплошные «дата-саентисты», которые питон по комиксам учили. Ныне забил и работаю обычным девелопером за вдвое больший прайс с 10 до 16 без нервов и с умными коллегами.

Pacmu3ka
()
Ответ на: комментарий от Sadler

Какую версию TF ты используешь?

В 1.11 сломали multi_gpu_model (через keras): на одной работал быстрее, чем на 2-ух.

ymuv ★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.