LINUX.ORG.RU

Ищу софт для обработки информации

 


0

4

Ищу софт которые бы работал следующим образом или чтото на это похожее.

Есть библиотека технической литературы в виде файлов разного формата djvu, pdf, doc и т.д.

Нужен некий софт который позволит ее обработать следующим образом:

Загружаю всю библиотеку в софт

Появляется возможность поиска по библиотеке по ключевым словам

Группировка совпадающих по теме участков текста из разных файлов

Возможность отмечать изученные, прочитанные участки текста в файлах, чтобы в будущем не обращаться к ним по нескольку раз.

Под линукс такого софта стопроцентно нет. Тут как минимум тщательное OCR нужно с проверкой по словарю. Слишком сложно.

Eddy_Em ☆☆☆☆☆
()

Ну по словам, допустим, можно было бы искать седом, если бы не дежавю, который ЕМНИП суть есть картинки.

Про участки по теме - это ж как их анализировать-то надо? ИИ?

Zhbert ★★★★★
()
Ответ на: комментарий от Eddy_Em

Идея вот какая: Есть некая область знаний с которой я еще не работал, ну например программирование нa Javа

Я нахожу кучу материала, но я ее еще не обработал.

Я начинаю врубаться в тему но материал еще не изучил и неизвестные мне понятия ищу в этой куче материала по ключевым словам

Когда я нахожу нужную мне тему в материале я ее изучаю.

После этого участки текста которые я уже изучил я хочу отметить каким то образом как уже изученные чтобы не проделывать двойную работу в будущем.

Я думаю это будет быстрее чем линейное изучение материала. Будет совмещаться практика и обучение.

Sergey1988
() автор топика

Чуть менее чем вообще всё покрывает банальный каталогизатор коих в линуксах как говна по весне.

djvu, pdf, doc и т.д.

«djvu, pdf, и т.д.» - не обязательно несут в себе текст. Исправь это а потом возвращайся.

anonymous
()
Ответ на: комментарий от Eddy_Em

В DJVU хранится конечная таблица глифов, которые используются по всему документу. Чем качественнее скан, тем глифов на одну и ту же букву меньше. Можно сделать распознавалку даже без OCR (хотя он значно убыстрит дело, предлагая сразу вариант) — выставлять каждому глифу руками символ, по типу инструментария для переводчиков. Искал было такую программу, но не нашёл. Если нету, надо срочно запилить.

MiniRoboDancer ★☆
()

org-mode + agenda + todo list в org + файлики с рецензиями и обзорами.

куда ты сам, руками пишешь примерно такое: «сегодня я прочитал книжку ... , 60% из 100%. в пятой главе на восемнадцатой странице в третьем абзаце сверху в работе [1] автор XYZ пишет: ».... бла-бла-бла-бла-бла ...". и тут у меня на это возникло особо ценное замечание: "... тыртыпдырмыр ...", что в контексте [2] автора DEF страница ... абзац .... , точная цитата: " .. парам пам пам ..". на что можно возразить: " .. тыц дыц дрынц шмынц ..."

в итоге, в заключении следует отметить следующие выводы: " бла-бла-бла-блабла "

".

при этом ссылки типа [1] [2] и т.п. в org-mode делаеются через C-c C-l org-mode capture link.

затем, при настроенной публикации — одним движением публикуешь все свои заметки из отдельных .org файлов, как проект — в .tex (и потом в .pdf, рецензенту и на arxiv.org), или в .html и себе в бложик.

пишешь из головы, естественно. из того, что в ней есть. чего нет — не пишешь. а сначала в голову загружаешь.

или сам напиши такой софт. ну что ты как маленький, в самом деле.

нужна индексация разных форматов для поиска по содержимому, теги и категории для того чтобы потом что-то найти, заметки и аннотации типа как к .pdf-ам рецензирование, автоматический перенос одной кнопкой всех заметок в .org-файлы.

тут что-то можно автоматизировать — разберись с capture link protocol в org-mode.

а заметки и рецензии, аннотации — надо самому писать, руками из головы. никто за тебя это не сделает.

anonymous
()
Ответ на: комментарий от Sergey1988

погугли на тему «active essay» Алана Кея и проект FONC. это к чему надо бы стремиться.

а так: посмотри, например, tagstore (читать), поставь его себе и раскладывай по тегам: «прочитанное», «попробовал», «поэкспериметрировать» ,«разобраться с ...», «выучил, осилил: знаю и умею полностью».

и *руками* прочитанное и освоенное по таким тегам и категориям раскладывай. и бложик себе в org-mode пиши, про непонятки, с которыми надо бы подробнее разобраться.

anonymous
()
Ответ на: комментарий от Eddy_Em

дело не столько в OCR и индексации нажитых непосильным трудом репринтов всяких papers — сколько в том, чтобы всё это дело сортировать по каким то 1) тегам и категориям 2) процессам 3) этапам ЖЦ процессов

пускай для начала хоть руками сортирует и по папкам тегам раскидывает.

затем нужен какой-то BPM процесс, и контексты типа «Activities» в GNOME. чтобы все действия по процессам контекстам группировались.

а в идеале хотим Xanadu Теда Нельсона, конечно же.

чтобы любой кусочек информации, из любого приложения — можно было вытащить, под универсальный гипертекст положить, и свою нетлёнку себе в локальную_вики/сайт/бложик/tagstore/.org-mode/green/gold open access archive репринты опубликовать, в полдвижения. примерно так же, как проекты в org-mode публикуются в pdf через latex.

anonymous
()
Ответ на: комментарий от anonymous

к примеру, есть вот такая штука, система управления версиями: VC/M

здесь нас интересует, в основном одна единственная фича под названием: process control.

вот нечто подобное и нужно реализовать в своём велосипеде. чтобы движения между тегами и категориями — выполнялись не совсем уж руками, а каким-то бизнес-процесом, в каком-то BPM. или, накрайняк, скриптом на баше :-)

а сам контент — ложить в tagstore и/или, в org-mode capture link.

и потом i like to move it, move it между тегами и категорими (чтобы реализовать ЖЦ какого-нибудь процесса работы с информацией) отдельными бизнес-процессами. а потом их интеллектуальность постепенно повышать.

а потом фронтенд к своему локальному Xanadu написать, конечно же. лайкать и репостить в свою локальную веб- Xanadu глюкалку, а в фоне у тебя там процессы двигают контент и автоматом публикуют куда ни попадя.

World Wide Web Бернерса Ли — очень, очень плохая музыка. думал, как-то получше будет, гораздо получше будет вот это оно всё. новая компьютерная космология и революция.

как в Xanadu Теда Нельсона, например. не автоматизация перекладывания бумажек с места на место — а 3D, 4D, 10500-D интерфейсы к базам данных, в духе фильма «Джонни Мнемоник». ZigZag Теда Нельсона, только с гипертекстом.

и векторный гипертекстовый фидонет поверх этого всего, конечно же.

anonymous
()
Ответ на: комментарий от Sergey1988

начинаю врубаться в тему но материал еще не изучил и неизвестные мне понятия ищу в этой куче материала по ключевым словам

а ключевые слова и «неизвестные понятия» за тебя какой софт расставлять будет ??? каким образом он должен догадаться «это понятие или ключевое слово тебе ещё не известно», а вот это — отработанный материал ???

откуда он знает ???

anonymous
()

нашел чтото похожее на то что хочу видеть Docear

Sergey1988
() автор топика
Ответ на: комментарий от Sergey1988

школяр гугль для школоты, если точнее. но оно ведь не делает и 10500 тех функций, которые должен делать Xanadu, конечно же. или программируемый ZigZag, например.

anonymous
()
Ответ на: комментарий от anonymous

Ну есть скажем куча материала неважно какого, скажем пара десятков книг по java в одной папке. Я услышал незнакомое слово array, ввожу его в поиске. Поиск выдает мне все найденные фрагменты. Я отмечаю в них то что меня заинтересовало, плюс добавляю свои комментарии. Выделенное + комментарии сливается в отдельный файл, получается типа конспекта. Те фрагменты которые я уже просмотрел, повторно выдаваться не должны. Т.е. таким образом я нелинейно постепенно перекапываю кучу этого материала.

Ну конечно не факт что все будет работать/должно работать именно так ;) и возможно это моя фантазия

Sergey1988
() автор топика
Ответ на: комментарий от Sergey1988

Те фрагменты которые я уже просмотрел, повторно выдаваться не должны.

вот это движение за тебя кто делать будет ??? не смотрено => просмотрено.

Ну конечно не факт что все будет работать/должно работать именно так ;) и возможно это моя фантазия

«бросая камни в пруд, наблюдай за кругами, ими образуемыми. иначе твоё бросание будет сплошною забавою» (с) козьма прутков.

как именно оно будет работать — ты поймёшь только тогда, когда попробуешь хоть как-нибудь (и потом переделаешь так, чтобы было удобно).

бери и пробуй. например, в tagstore ложи и по тегам раскладывай. прочитал что-то, разобрался — переложил в новый тег.

а в бложик/org-mode/docear/scrinever себе заметки делай, чему ты на этот раз научился.

в итоге получается процесс: двигать в новый тег, добавить заметку.

в идеале, процесс должен как-то автоматически контекст захватывать, и ссылки на новые «кусочки информации» (org-mode capture link, например)

автоматически — типа для чего там Activities в GNOME/KDE замышляли.

//капча AutoIt мне льстит

anonymous
()
Ответ на: комментарий от anonymous

сплошною забавою

* пустою забавою, же.

anonymous
()

Возможность отмечать изученные, прочитанные участки текста в файлах, чтобы в будущем не обращаться к ним по нескольку раз

Повторение мать учения.

А вообще начинай писать такую утилиту - так и изучишь.

ziemin ★★
()

новость на лоре в тему, про papers

или Sumatra repro research + статьи оттуда на тему «Automated capture of experiment context ...» (например)

только у тебя «эксперимент» будет в том, чтобы раскидать файло/данные по тегам (предварительно какой-то план эксперимента написав, типа «разораться с x, y, z»)

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.