Собственно сабж.
Для Ъ:
В общем, в мире миллиарды смартфонов. Если учесть что они делают одновременно тонны вычислений как например SETI@Home, то это довольно неплохое и производительное решение. Можно собирать персданные, аккумулировать их в облаке, а затем изучать, раздавая каждому вашему смартфончегу по блоку, который он будет обрабатывать и отдавать обратно, обогревая ваше помещение даже в момент простоя (как вы думаете).
Компании Google, Apple, Facebook, Microsoft и остальные игроки в сфере ИИ давно занимаются именно этим: собирают данные — иногда конфиденциальные — с компьютеров и смартфонов пользователей в единое (предположительно) защищённое хранилище, на котором тренируют свои нейросети.
Сейчас учёные из Google Research предложили интересное дополнение к этому стандартному методу машинного обучения. Они предложили инновационный подход под названием федеративное машинное обучение (Federated Learning). Он позволяет всем устройствам, которые участвуют в машинном обучении, делить на всех единую модель для прогнозирования, но при этом не делиться первичными данными для обучения модели!
Такой необычный подход существенно снижает затраты Google на содержание дата-центров. Зачем компании вкладывать огромные суммы в своё оборудование, если у неё во всём мире есть миллиарды Android-устройств, которые могут разделить нагрузку между собой? Пользователи могут быть рады такой нагрузке, ведь они тем самым помогают сделать лучше сервисы, которыми сами пользуются. А ещё защищают свои конфиденциальные данные, не отправляя их в дата-центр.
Google подчёркивает, что в данном случае речь идёт не просто о том, что уже обученная модель выполняется непосредственно на устройстве пользователя, как это происходит в сервисах Mobile Vision API и On-Device Smart Reply. Нет, именно обучение модели осуществляется на конечных устройствах.
Итак:
- смартфон скачивает текущую модель;
- с помощью мини-версии TensorFlow осуществляет цикл обучения на уникальных данных конкретного пользователя;
- улучшает модель;
- вычисляет разницу между улучшенной исходной моделями, составляет патч с применением криптопротокола Secure Aggregation, который допускает расшифровку данных только при наличии сотен или тысяч патчей от других пользователей;
- отправляет патч на центральный сервер;
- принятый патч немедленно усредняется с тысячами патчей, полученных от других участников эксперимента, по алгоритму федеративного усреднения;
- выкатывается новая версия модели;
- улучшенная модель рассылается участникам эксперимента.
Федеративное усреднение очень похоже на метод стохастичного градиента, только здесь первоначальные вычисления происходят не на серверах в облаке, а на миллионах удалённых смартфонов. Основное достижения федеративного усреднения — в 10-100 раз меньший трафик с клиентами, чем трафик с серверами при использовании метода стохастичного градиента. Оптимизация достигнута за счёт качественного сжатия апдейтов, которые отправляются со смартфонов на сервер. Ну и плюс здесь используется криптографический протокол Secure Aggregation.
google, zog, зонд, искусственный интеллект, корпорация добра