LINUX.ORG.RU

Как вы передаете DataFrame между Airflow операторами?

 , ,


0

1

Разбираюсь с airflow, сделал Python-операторы, 1) загрузил pandas DataFrame в Питон операторе, 2) почистил DataFrame, 3) трансформировал … . А как передать операторы? В csv или json сохранять на диск? Метаданные (хотя они точто не для датафреймов)? Библиотеки может есть какие?

Загрузку точно нужно отделить, т.к. частенько в коннекте с источником данных сбои.

Ответ на: комментарий от scisearcher

Я airflow не занимался, но почему-то меньше всего геморроя было с apache arrow (parquet).

Shadow ★★★★★
()
Последнее исправление: Shadow (всего исправлений: 1)

big data pandas csv или json

:-/

Между операторами датафреймы не надо пытаться передавать, старайся сделать цельную операцию по обработке данных (логику, по которой из определенного входа получается определенный выход) в одном операторе. Только если источник данных - внешний, то выгрузка из него в ваше хранилище должна быть отдельным оператором. Общепринятый формат для работы с табличными данными - parquet.

ei-grad ★★★★★
()
Последнее исправление: ei-grad (всего исправлений: 1)

Библиотеки может есть какие?

spark, hive

ei-grad ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.