История изменений
Исправление
stevejobs,
(текущая версия)
:
Один знакомый рассказывал, что у современных майкрософтовских документов какая-то уродливая внутренняя структура, которая мешает стриминговой обработке, в особенности у Ворда. Попробуй выяснить, есть ли там какие-то подводные камни.
Вообще, в Больших Данных обычно не работают с экселем, а используют как раз либо CSV, либо специализированные форматы: Parquet, AVRO, ORC. Если ты перегонишь данные в Паркет и будешь пользоваться соответствующими инструментами (типа Спарка), то есть вероятность бесплатно получить много перформанса на больших объемах. Вообще, возможно, даже на любых объемах - сложно представить себе что-то более неэффективное, чем работать с данными, выуживая их из глубин DOM-а, где они лежат в формате, предназначенном для удобства визуального рендеринга
Исходная версия
stevejobs,
:
Один знакомый рассказывал, что у современных майкрософтовских документов какая-то уродливая внутренняя структура, которая мешает стриминговой обработке, в особенности у Ворда. Попробуй выяснить, есть ли там какие-то подводные камни.
Вообще, в Больших Данных обычно не работают с экселем, а используют как раз либо CSV, либо специализированные форматы: Parquet, AVRO, ORC. Если ты перегонишь данные в Паркет и будешь пользоваться соответствующими инструментами (типа Спарка), то есть вероятность бесплатно получить много перформанса на больших объемах