Office Document Finder - эффективный поиск в документах
01.06.2021 45261 Комментарии (110)
Мне практически ежедневно приходится что-то искать среди документов: прежде всего среди файлов Word, реже - в файлах электронных таблиц и совсем редко - в файлах презентаций.
Но вот где еще часто что-то приходится искать, так это в документах PDF, а там с поиском все совсем нетривиально: PDF - это векторный формат, он может содержать и текст, и изображения, также в тексте нередко попадаются разрывы в середине слов, что сильно осложняет поиск.
© 1998–2025 Alex Exler
01.06.2021
Темы обзоров
Информация
Что ещё почитать
Натравил туда программу так она через 6 часов сдохала на 60 000 файле. Сказав что не хватает памяти (16 гигов есть) и выпала в ошибку. Начинай сначала. Уже раза 4 пробывал.
Непростительная небрежность в программировании для коммерческого проекта.
P/S Форма обратной связи на сайте тоже не работает. Ноль реакции на кнопку "отправить". Что не удивительно при ее HTML атрибуте disabled="disabled".
250 тысяч не у всякой компании найдется. Кажется должно быть очевидно, что для профессионального использования - профессиональные инструменты. Корпоративная версия построена на основе другой БД.
И да, форма все отправляет.
А вот отличие в объёмах файлов и использование другой БД в анонсах версий не отражено. Как понимаю корпоративную демо версию получить не получится. Да и в общем 900 баксов в год дорого. Не такая уж у меня и большая корпорация. Просто документы 20 лет копятся.
Кстати, что означает "виснет меньше"? Так она обработала ваш объем документов не зависнув (без OCR) или нет?
Кстати, совет - при поиске в объемных индексах программа просто замирает на несколько секунд. Такое поведение пугает пользователей. Логично было бы сделать строку состояния поиска.
А какое количество документов, если не секрет?
Очень выручает.
Программа free, за $20 можно купить РRO версию с более продвинутым функционалом
PDF может содержать:
• Текст именно в "чисто текстовом" виде – тогда всё прекрасно находится обычным "родным" поиском Windows 10, даже с переносами (только что проверил);
• Текст, переведённый в векторный или растровый (тем более!) форматы – найти вообще ни хрена невозможно в принципе. Помогут только лишь реальные OCR-приложения.
Вроде хоть того же платного (и содержащего кучу другого мощного функционала по работе с PDF-файлами) Acrobat Pro, стОящего около 9300 р/год, но работающего полностью оффлайн – вместо 2400 р/год за "хрен-пойми-что" от какой-то левой конторы, которая ещё и фактически требует закачки ей всех своих файлов... ?
Плюс отдельно по косякам OCR-приложений – даже имеющий огромную многолетнюю репутацию, мощнейший и совершенно монстрячный ABBY FineReader (за те же 2400 р/год работающий оффлайн!) далеко не всегда распознаёт всё правильно. А тут вдруг какие-то вообще левые чуваки – и за ту же сумму, да ещё и закачивать им все свои файлы... Выбор очевиден. ?
Потому и возмутился такой "залипухе" – приведя в пример реально оффлайновые (и реально имеющие мировую репутацию!) решения от реально солидных разработчиков... ?
Если просто текст – да, там и всё остальное более-менее просто (хотя даже там OCR порой дохнут в отдельных моментах). Но если что-то вроде формул, не говоря уж даже обо всяких простейших сносках-примечаниях – всё, "туши свет, кидай гранату", ручная правка всего документа гарантирована... ?
"Можете полностью заблокировать программе выход в интернет после регистрации или активации триала, все будет работать."
Вам как еще объяснить?
Для того, чтобы с другого компьютера или телефона вы могли зайти и увидеть свои документы. При том что постоянного IP адреса у вас нет.
И еще раз
*интернет не нужен для работы программы*
*ничего никуда не передается*
*все документы и индексы всегда остаются на локальном компьютере*
*нет никакого основного сервера, есть только сервер позволяющий при необходимости удаленно зайти к себе*
*облачный доступ это просто дополнительная возможность*
Ваш инсталлятор – 46 Мб. У меня только одна лишь база русского словаря весит почти в 7 раз больше – 355 Мб (и даже в уже "почищенном" виде весит минимум 65 Мб, и это всё чистый текст). А есть ведь ещё и куча других языков, кроме русского – и их все тоже надо распознать...
Ну и да, если юзер привык искать что-то через браузер - то при локальном поиске через браузер нужен локальный веб-сервер.
Вы никогда не сталкивались с локальными программами, не имеющими своей программной оболочки и управляемыми через браузер? Примеров могу привести.
Поиск по тексту из отсканированного растрового PDF не нашёлся. "Что я делаю не так"©? Что и требовалось доказать – чудес не бывает. О чём и шла речь (которую вы неверно интерпретировали как якобы "теоретическую")...
Формулы-то чёрт с ними (к этому моменту претензий нет, с формулами ни один пакет толком не справляется) – но вот обычный текст в этом древнем скане более чем уверенно распознали упомянутые ранее Acrobat Pro и FineReader (со всеми переносами и прочими нюансами).
В отличие же от них, обсуждаемый ODF молчит как рыба – находятся только лишь текстовые PDF и DOCX в том же каталоге (но это умеет и поиск Windows). Ни один из сканированных документов в папке (а там ещё несколько других сканированных файлов вперемешку с текстовыми) не распознаётся – и, соответственно, вообще ни разу не находится поиском ODF... ?
P.S. Кстати, с отображением текстовых PDF тоже странности – окно просмотра иногда показывает форматирование документа совершенно криво и некорректно. Это уже, разумеется, не настолько критично как отсутствие поиска, но баг весьма странный (ссылка на файл со скриншота)...
А если PDF не сканированный, а текстовый – он прекрасно индексируется и находится даже простым поиском. То есть, смысл приложения теряется.
Но если это всё каким-то образом постоянно меняется-обновляется, то тогда уже мрачновато выглядит такой архив. Впрочем, я не знаю точно ваших задач и требований к софту, поэтому тут у каждого "своя болячка" (порой случается, что проще потерять пару дней и набросать на коленке что-то своё, чем месяцами искать готовое решение)).
Но если их не особо много и данные в архиве не оперативные, то можно уже
набраться смелости ив один заход перегнать всё вордовским VBA в "доксы" – а в дальнейшем просто регулярно обновлять архив тем же самым макросом. Если в остальном ODF вас полностью устраивает, а прочие варианты не подошли, то такой вариант получается вполне себе "компромиссным"...Поддержку таких файлов реализовать можно, но это требует отображения строго в программе в специальном контроле который не будет грузить их целиком. Учитывая весьма редкую востребованность, пока целесообразности в этом не вижу. А обычные TXT сейчас отображаются и индексируются нормально.
Ваш процитированный комментарий говорит лишь о полном непонимании лично вами сути вопроса в целом.
Отсканированный документ, предназначенный для чтения людьми – в принципе не может иметь никаких "неправильных фрагментов". Это тупо картинка, распознать её – именно ваша задача (как в других реально работающих OCR, которые на порядки более достойно справились с представленным документом).
Если же документ (даже "удачно" для вас)) текстовый – правильный перевод его в другой формат тоже ваша проблема, не наша. Или уж тогда прямым текстом пишите у себя на сайте о том, что документы (и сканированные в растр, и даже текстовые) ваш софт распознаёт очень плохо. Так будет хотя бы честнее.
Более того, эта ваша фраза о "неправильных фрагментах" – говорит либо о том, что вообще вся программа залипуха чистой воды; либо о том, что ваши же программеры (чей ответ вы процитировали, видимо)) вас люто обманывают. Я не знаю, что там у вас, "по итогам расследования" выберете сам.
В общем, простите уж, но – "фтопку" этот ваш OFD...
P.S. Упрёк не лично вам, упрёк вашим разработчикам. Вы к ним не относитесь, это я уже понял по ответам. Поэтому лично к вам – "мир-дружба-жвачка". Я ж не злодей какой, я ж понимаю, что это это просто работа такая. ?
Кроме того, цена грубо определяется как сумма затрат на разработку делить на размер потенциальной аудитории, и понятно что у игр она на несколько порядков выше.
Но, судя по всему, забыли про одну важную вещь: продвинутый поиск по истории браузера.
Регулярно сталкиваюсь с тем, что где-то что-то в читал в интернете, помню ключевые слова, но их нет в заголовке страницы, а есть они только в тексте. Соответственно, найти их через поиск по истории браузера нельзя.
deeperhistory.wordpress.com
У меня коммерческий Office 365 и Google, все документы там, поиск внутри работает отлично, доступ откуда угодно, надежность хранения ощутимо выше личного HDD/SSD.
Так рынок для продукта думаю еще есть, но он очень быстро сужается.
А так -- нечего моим документам на чужом сервере делать.
officedocumentfinder.ru
Всем устраивает.
Поиск с распознавание - это круто. А сколько языков? Мне вот давеча китайский был нужен.
PS Очень удобно, когда разрабы отвечают прямо в комментах обзора. За это мы Экслера ценим!
Ищет по разным типам файлов, показывает заголовок, имя файла, путь, есть просмотр файла.
Может искать и в fb2 внутри архивов.
Теперь у меня есть поиск по электронной библиотеке.
Убили проект (((
А ты уже писал здесь, где ты ещё работаешь (или в какой области/специализации), помимо своего сайта?
В подписку входит обновление до новых версий, что стимулирует развивать продукт, а при еще более низкой цене и разовом платеже есть большой шанс повторить судьбу Архивариуса. В итоге не останется вообще вариантов чем пользоваться.
Полезу на трекеры.
В среднем за 3 года подписки ты отдаешь столько же - сколько отдал бы за разовую покупку.
То есть начиная с 4-го года подписка становится очень выгодной для продавца.
Так что модель "плати понемногу - но всю жизнь" будет навязываться всеми силами. И уж точно не уйдет
Ps лучший поиск по именам (конкретно именам) файлов под Винду - утилита Everything, особенно в комплекте с Тотал Коммандер.
Гуглодесктоп в PDF искал только по первым, не помню уже, 150 килобайтам файла.
Пока лучшее что нашел для себя - X1 Search.