В SparkR завезли Structured Streaming и попробовав это богатство возник вопрос:
Пока выхлоп не лимитированный оперативкой идет только в parquet. В memory конечно можно синчить query и оперативно запросы делать к этой таблице, но лимит памяти на обработчик реально небольшой что бы радоваться.
(Увы, но синчить стрим с форичем пока нельзя, и в kafka средствами спарка обратно тоже отправлять нельзя. В самом R конечно есть доступ к kafka, но это велосипед надо городить с выгрузкой из стрима спарковского + комфорта работы в фоне R сессии не будет уже никакого)
Соответственно вопрос — пока активна работающая выхлопом на этот parquet query, можно ли читать этот parquet обратно в spark для вдумчивого ковыряния без эксцессов связанных с тем, что в него пишутся минибатчи?
ЗЫ Если нельзя, то нафига вообще эти паркюэты пишуться на выходе стрима, если они не доступны для доступа при живом стриме?