LINUX.ORG.RU

История изменений

Исправление stevejobs, (текущая версия) :

Один знакомый рассказывал, что у современных майкрософтовских документов какая-то уродливая внутренняя структура, которая мешает стриминговой обработке, в особенности у Ворда. Попробуй выяснить, есть ли там какие-то подводные камни.

Вообще, в Больших Данных обычно не работают с экселем, а используют как раз либо CSV, либо специализированные форматы: Parquet, AVRO, ORC. Если ты перегонишь данные в Паркет и будешь пользоваться соответствующими инструментами (типа Спарка), то есть вероятность бесплатно получить много перформанса на больших объемах. Вообще, возможно, даже на любых объемах - сложно представить себе что-то более неэффективное, чем работать с данными, выуживая их из глубин DOM-а, где они лежат в формате, предназначенном для удобства визуального рендеринга

Исходная версия stevejobs, :

Один знакомый рассказывал, что у современных майкрософтовских документов какая-то уродливая внутренняя структура, которая мешает стриминговой обработке, в особенности у Ворда. Попробуй выяснить, есть ли там какие-то подводные камни.

Вообще, в Больших Данных обычно не работают с экселем, а используют как раз либо CSV, либо специализированные форматы: Parquet, AVRO, ORC. Если ты перегонишь данные в Паркет и будешь пользоваться соответствующими инструментами (типа Спарка), то есть вероятность бесплатно получить много перформанса на больших объемах