Можно ли читать parquet куда пишет Structured Streaming query?

parquet, r, spark

0

1

В SparkR завезли Structured Streaming и попробовав это богатство возник вопрос:

Пока выхлоп не лимитированный оперативкой идет только в parquet. В memory конечно можно синчить query и оперативно запросы делать к этой таблице, но лимит памяти на обработчик реально небольшой что бы радоваться.

(Увы, но синчить стрим с форичем пока нельзя, и в kafka средствами спарка обратно тоже отправлять нельзя. В самом R конечно есть доступ к kafka, но это велосипед надо городить с выгрузкой из стрима спарковского + комфорта работы в фоне R сессии не будет уже никакого)

Соответственно вопрос — пока активна работающая выхлопом на этот parquet query, можно ли читать этот parquet обратно в spark для вдумчивого ковыряния без эксцессов связанных с тем, что в него пишутся минибатчи?

ЗЫ Если нельзя, то нафига вообще эти паркюэты пишуться на выходе стрима, если они не доступны для доступа при живом стриме?

Ссылка

Собственно вот ответ

Похожие темы