LINUX.ORG.RU
ФорумTalks

Творческий NoSQL: использование экселя привела к утере тысяч тестов на COVID-19 в Великобритании

 , , , ,


1

1

Subj

Плохо продуманное применение ПО Microsoft Excel явилось причиной того, что в Великобритании не зарегистрировано порядка 16 тыс. случаев заражения коронавирусом, сообщает «Би-би-си».

И, видимо, виной тому Общественное здравоохранение Англии (Public Health England, PHE — исполнительный орган местного минздрава), а не сторонние подрядчики.

Проблема возникла из-за того, как ведомство анализировало данные частных организаций, занимающихся тестированием на COVID-19.

Компании подавали данные в виде текстовых списков в формате CSV. PHE настроила автоматический алгоритм для объединения информации в шаблоны Excel. Однако при этом представители PHE указали в настройках старый формат XLS. В итоге каждый шаблон мог обрабатывать лишь порядка 65 тыс. строк данных, а не более миллиона, как можно было бы ожидать при применении современных форматов. Формат XLS появился в 1987 году, затем через 20 лет его сменил XLSX. Если бы использовался последний, то в совокупности удалось бы обработать в 16 раз больше обращений.

По мнению профессора Джона Кроуфорта из Кембриджа, сегодня даже школьник сумел бы выбрать более эффективное решение и уж точно не стал бы использовать XLS.

Перед министром здравоохранения Мэттом Хэнкоком парламентом была поставлена задача сделать подходящие ситуации процессы обработки данных достоянием общественности, чтобы объективно оценить наличие возможных скрытых недостатков государственного компьютерного аппарата.

Вроде, базы данных не вчера придумали… Линукс здесь при том, что таким юзерам и он бы не помог :)

★★★★★

Последнее исправление: tiinn (всего исправлений: 1)

Велико Мелкобритании

Велосипеды здесь не при чём.

init_6 ★★★★★
()

Ну а по сути от того, что на этой неделе результаты не потеряли с ковидом все равно легче не стало. Проще недо ко всему этому относиться. особенно в ситуации, когда надо сделать к завтрашнему дню, а к послезавтра уже поздно. Нет у людей времени проектировать, писать тесты, делать нагрузочные тестирования, закупать софт и обучать пользователей.

Это кстати и отношения к нашим тоже относится, к тому же ДИТу. Помню их немало членососили за косяки, хотя по большому счету в ситуации когда надо срочно это все мелочи, рабочий момент решаемый административными методами.

shimshimshim
()
Ответ на: комментарий от Evgueni

Ты говоришь, что на ста тысячах строк данных база данных была бы избыточна. Но при этом Excel тебе не нравится. Ну, не знаю. Если не Excel, то что? У меня LibreOffice тормозит на документах тех же размеров. А обратно на Lotus 1-2-3 уже поздно.

Факапы происходят скорее всего из-за того, что Excel более популярен.

ZenitharChampion ★★★★★
()
Ответ на: комментарий от ZenitharChampion

Ты говоришь, что на ста тысячах строк данных база данных была бы избыточна. Но при этом Excel тебе не нравится. Ну, не знаю. Если не Excel, то что?

А ты не читаешь. R или Pandas.

aquadon ★★★★★
()
Ответ на: комментарий от ZenitharChampion

Ну, не знаю. Если не Excel, то что?

SQLite + GUI (sqlitebrowser, SQLiteStudio,…).

X512 ★★★★★
()
Ответ на: комментарий от ZenitharChampion

Факапы происходят скорее всего из-за того, что Excel более популярен.

К сожалению нет. Время от времени всплывают ситуации, когда казалось бы вполне статусные учёные садятся в лужу посредством этого «замечательного» инструмента.

Ты говоришь, что на ста тысячах строк данных база данных была бы избыточна

Это зависит от модели использования и анализа. Очевидно, что для анализа статических записей проще данные сразу в оперативной памяти держать в удобном для анализа виде. 100 тысяч строк совершенно прекрасно в память влезают.

А вот если данные записывать/менять нужно, да и из разных мест, да в расчёте на долгий срок, да обеспечивать пресловутый ACID, то тут без СУБД не обойтись и это точно не, простигосподи, Acсess, а полноценная SQL СУБД вида PostgreSQL.

P.S. Смотрите в сторону R, если вам нужно статистику, хоть со сколько-нибудь степенью серьёзности, навести.

Evgueni ★★★★★
()
Ответ на: комментарий от Evgueni

Смотрите в сторону R, если вам нужно статистику, хоть со сколько-нибудь степенью серьёзности, навести.

ИМХО для вычислений всяких средних по подмножествам строк python + pandas хватит за глаза, а R — это уже оверкилл.

luke ★★★★★
()
Ответ на: комментарий от luke

Среднее — это только для физиков годится, так как помимо Гаусса или экспоненты мы ничего более и не наблюдаем. А для всякого рода наук, которые с человеком контактируют оного мало. Ты прикинь что делать, если данные врать начинают в прямом смысле этого слова? Ну и мало их обычно.

Так что и так и так для начала статистику выучить придётся, а там в каком-то смысле всё равно каким инструментом пользоваться. И внезапно профессиональные статистики R выбирают — это не спроста.

Evgueni ★★★★★
()
Ответ на: комментарий от Evgueni

Среднее — это только для физиков годится, так как помимо Гаусса или экспоненты мы ничего более и не наблюдаем

Binomial ещё. Вообще для всяких там околонулевых бранчингов надо использовать летучую мышь: https://github.com/bat/bat

Ты прикинь что делать, если данные врать начинают в прямом смысле этого слова?

Да как будто они у нас не врут.

luke ★★★★★
()
Ответ на: комментарий от luke

Binomial ещё.

Это если статистики мало. А так сплошной Гаусс — этим и счастливы.

Вообще для всяких там околонулевых бранчингов надо использовать летучую мышь

Безусловно малая статистика вынуждает с кряхтением физиков открывать учебник для статистики для дошколят и всё равно читая его они постоянно находят там для себя что-то новое. Утрирую конечно, но не сильно. Курс статистики на физфаке НГУ, скажем так, весьма и весьма куцеват.

Да как будто они у нас не врут.

Ты не поверишь, но нет. Как минимум они это делают не специально в отличии от…

Evgueni ★★★★★
()
Ответ на: комментарий от Evgueni

Я про то, что если одним решением пользуются 99,7% людей, а другим 0,3% людей, то мы будем узнавать про много факапов с первым решением, но узнавать мало факапов со вторым решением.

Спасибо за ответ, буду смотреть что за R и Pandas.

ZenitharChampion ★★★★★
()
Последнее исправление: ZenitharChampion (всего исправлений: 1)
Ответ на: комментарий от ZenitharChampion

О да! Мириады мух не могут ошибаться! В раффлезии что-то есть! И да, там не факапы, а Факапы с большой буквы.

Evgueni ★★★★★
()
Последнее исправление: Evgueni (всего исправлений: 2)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.