Обзоры / КОММЕНТАРИИ

Office Document Finder - эффективный поиск в документах

01.06.2021 45263 Комментарии (110)

Мне практически ежедневно приходится что-то искать среди документов: прежде всего среди файлов Word, реже - в файлах электронных таблиц и совсем редко - в файлах презентаций.

Но вот где еще часто что-то приходится искать, так это в документах PDF, а там с поиском все совсем нетривиально: PDF - это векторный формат, он может содержать и текст, и изображения, также в тексте нередко попадаются разрывы в середине слов, что сильно осложняет поиск.

01.06.2021

Назад Вперед

Комментарии 110

Да фигня какая-то. Есть у меня скромная папочка на 400 гигов с 250 000 фалов.
Натравил туда программу так она через 6 часов сдохала на 60 000 файле. Сказав что не хватает памяти (16 гигов есть) и выпала в ошибку. Начинай сначала. Уже раза 4 пробывал.
Непростительная небрежность в программировании для коммерческого проекта.
P/S Форма обратной связи на сайте тоже не работает. Ноль реакции на кнопку "отправить". Что не удивительно при ее HTML атрибуте disabled="disabled".

SlaY74

03.06.21 14:24

0 1

Попробуйте старенькую программу "Архивариус". Не виснет, индексация, поиск дублей, поиск в тексте, масса форматов документов.
Очень выручает.

Yukagir

SlaY74

10.06.21 06:45

0 0

Полный объем у меня около 200 000. Пока дал ей две локации, там в целом 25 000.

Camel1000

officedocumentfinder

09.06.21 13:03

0 0

Да, скоро поиск будет фоновым, это не было включено в текущий релиз персональной версии т.к. вызывало некоторые проблемы.
А какое количество документов, если не секрет?

officedocumentfinder

Camel1000

09.06.21 02:14

0 0

Так она обработала ваш объем документов не зависнув (без OCR) или нет?

Без OCR - да.
Кстати, совет - при поиске в объемных индексах программа просто замирает на несколько секунд. Такое поведение пугает пользователей. Логично было бы сделать строку состояния поиска.

Camel1000

officedocumentfinder

09.06.21 01:48

0 0

Нет, заново распознавать не должно, распознаются только те документы которые индексируются, а те документы которые не были изменены (совпадает дата изменения и размер) не трогаются. Но следует учесть, что в документе распознаются все изображения кроме маленьких, и каждая страница скана это отдельная картинка, то есть 200т страничный документ может распознаваться несколько минут. Каждая картинка занимает у OCR от 0.5 до 3 секунд, и ускорить это никак нельзя, кроме как пустить параллельно, но ценой загрузки процессора. Такая опция планируется, но обычно пользователям комфортно когда индексация идет на фоне и не особенно грузит компьютер. Использовать другую OCR тоже не вариант, т.к. их нормальных примерно как браузерных движков, которых как известно осталось живых ровно два. Причем большинство (Abby, Google) лицензируются с ценой за каждое распознанное изображение.
Кстати, что означает "виснет меньше"? Так она обработала ваш объем документов не зависнув (без OCR) или нет?

officedocumentfinder

Camel1000

09.06.21 00:25

0 0

Пробую работать с 1.33. Виснет меньше, за текстовые файлы спасибо, но возникает странный эффект: когда опция "OCR" выключена, сканирование обновленной папки проходит быстро, как и ожидается, но вот когда она включена, такое впечатление, что при добавлении пары новых документов распознавание OCR проходит заново для всех документов папки - это по времени сравнимо с первым индексированием! Что это?

Camel1000

officedocumentfinder

07.06.21 14:10

0 0

Попробуйте на сборке 1.33, возможно пройдет.

officedocumentfinder

SlaY74

04.06.21 12:44

0 0

Да форма вроде отправляет. Но заторможенно.
А вот отличие в объёмах файлов и использование другой БД в анонсах версий не отражено. Как понимаю корпоративную демо версию получить не получится. Да и в общем 900 баксов в год дорого. Не такая уж у меня и большая корпорация. Просто документы 20 лет копятся.

SlaY74

officedocumentfinder

04.06.21 07:13

0 0

Сборка обновлена до версии 1.33. С больший вероятностью проблема обработки 60+к файлов должна уйти, также добавлена индексация TXT файлов.

officedocumentfinder

Camel1000

04.06.21 04:27

0 0

Кажется должно быть очевидно, что для профессионального использования - профессиональные инструменты.

Простите за занудство, но тому же Архивариусу было пофиг, 5k там документов или 500k )

Camel1000

officedocumentfinder

04.06.21 01:05

0 2

Претензия выглядит несколько странно, учитывая что это версия для персонального использования, а у типичного пользователя на диске обычно от силы 5-10 тысяч документов.
250 тысяч не у всякой компании найдется. Кажется должно быть очевидно, что для профессионального использования - профессиональные инструменты. Корпоративная версия построена на основе другой БД.
И да, форма все отправляет.

officedocumentfinder

SlaY74

03.06.21 21:36

2 0

Да, пробовал несколько раз на сетевом диске с сопоставимым количеством файлов, виснет посередине процесса. И не индексирует TXT файлы . Увы, в топку.

Camel1000

SlaY74

03.06.21 17:30

0 0

Вспомнил программу Архивариус 3000

Gadfly

02.06.21 08:50

0 0

Именно ей и пользуюсь до сих пор. Отлично работает.

Yukagir

Gadfly

10.06.21 06:46

0 0

По именам файлов - очень быстрый поиск (и не только поиск) - программа Listary
Программа free, за $20 можно купить РRO версию с более продвинутым функционалом

Argonavt

02.06.21 03:31

0 0

PDF - это векторный формат, он может содержать и текст, и изображения, также в тексте нередко попадаются разрывы в середине слов, что сильно осложняет поиск.

Это точно не так.

PDF может содержать:
• Текст именно в "чисто текстовом" виде – тогда всё прекрасно находится обычным "родным" поиском Windows 10, даже с переносами (только что проверил);
• Текст, переведённый в векторный или растровый (тем более!) форматы – найти вообще ни хрена невозможно в принципе. Помогут только лишь реальные OCR-приложения.
Вроде хоть того же платного (и содержащего кучу другого мощного функционала по работе с PDF-файлами) Acrobat Pro, стОящего около 9300 р/год, но работающего полностью оффлайн – вместо 2400 р/год за "хрен-пойми-что" от какой-то левой конторы, которая ещё и фактически требует закачки ей всех своих файлов... ?

Плюс отдельно по косякам OCR-приложений – даже имеющий огромную многолетнюю репутацию, мощнейший и совершенно монстрячный ABBY FineReader (за те же 2400 р/год работающий оффлайн!) далеко не всегда распознаёт всё правильно. А тут вдруг какие-то вообще левые чуваки – и за ту же сумму, да ещё и закачивать им все свои файлы... Выбор очевиден. ?

Если вас эта система заинтересует и вы захотите высказать какие-то свои пожелания в соответствии с вашим возможным сценарием применения Office Document Finder, то напишите об этом в комментариях

Пишу. Сделают всё то же самое, но в режиме offline – куплю, честно.

Сказочный Добролюб

01.06.21 23:00

3 0

Несколько страниц из него сейчас не отображаются (но индексируются) но это будет скоро поправлено.

Нет, там не "несколько страниц". Там почти все страницы. Даже в новой версии.

Да, еще насчет PDF. В обзоре написано верно. Иногда относительно большие фрагменты текста могут находиться в слитном виде, но часто они бывают разбиты на отдельно позиционированные фрагменты, даже внутри слов. Или, например, вместо пробела следующий фрагмент просто сдвигается вправо.

Шастал по ответам – и обнаружил, что случайно пропустил этот комментарий (который внезапно оказался ключевым)...

Ваш процитированный комментарий говорит лишь о полном непонимании лично вами сути вопроса в целом.
Отсканированный документ, предназначенный для чтения людьми – в принципе не может иметь никаких "неправильных фрагментов". Это тупо картинка, распознать её – именно ваша задача (как в других реально работающих OCR, которые на порядки более достойно справились с представленным документом).
Если же документ (даже "удачно" для вас)) текстовый – правильный перевод его в другой формат тоже ваша проблема, не наша. Или уж тогда прямым текстом пишите у себя на сайте о том, что документы (и сканированные в растр, и даже текстовые) ваш софт распознаёт очень плохо. Так будет хотя бы честнее.

Более того, эта ваша фраза о "неправильных фрагментах" – говорит либо о том, что вообще вся программа залипуха чистой воды; либо о том, что ваши же программеры (чей ответ вы процитировали, видимо)) вас люто обманывают. Я не знаю, что там у вас, "по итогам расследования" выберете сам.

В общем, простите уж, но – "фтопку" этот ваш OFD...

P.S. Упрёк не лично вам, упрёк вашим разработчикам. Вы к ним не относитесь, это я уже понял по ответам. Поэтому лично к вам – "мир-дружба-жвачка". Я ж не злодей какой, я ж понимаю, что это это просто работа такая. ?

Сказочный Добролюб

officedocumentfinder

05.06.21 00:58

3 1

В версии 1.33 он распознается и индексируется

Спасибо. Как будет время, то попробую и отпишусь о результате.

Сказочный Добролюб

officedocumentfinder

04.06.21 17:39

1 0

Я себе представляю перегон в "доксы" текстовых файлов размером так в один-два гига

Тады действительно "ой", согласен (хотя можно было бы и сразу предупредить о таком нестандартном кейсе вместо "бугага"))...

Сказочный Добролюб

Camel1000

04.06.21 17:35

1 0

Спасибо за ответ! Попробую новую версию.

Camel1000

officedocumentfinder

04.06.21 11:58

0 1

текстовых файлов размером так в один-два гига

Такие текстовые файлы и в 1.33 ODF не покажет, т.к. он заточен на документы и показ форматированного текста, в т.ч. через браузер, что означает конвертацию всех форматов в HTML/CSS. А гигабайтный HTML не откроет ни один браузер.
Поддержку таких файлов реализовать можно, но это требует отображения строго в программе в специальном контроле который не будет грузить их целиком. Учитывая весьма редкую востребованность, пока целесообразности в этом не вижу. А обычные TXT сейчас отображаются и индексируются нормально.

officedocumentfinder

Camel1000

04.06.21 04:41

0 1

Проблема с данным файлом была не в распознавании, а в поддержке определенного варианта некоторого формата изображений. В версии 1.33 он распознается и индексируется, хотя и не быстро, учитывая что там более 200т страниц. Несколько страниц из него сейчас не отображаются (но индексируются) но это будет скоро поправлено.

officedocumentfinder

Сказочный Добролюб

04.06.21 04:32

1 1

в один заход перегнать всё вордовским VBA в "доксы"

Бугага. Я себе представляю перегон в "доксы" текстовых файлов размером так в один-два гига (это последовательности нуклеиновых кислот)... Архивариус с ними справлялся (другой вопрос, что это не его квалификация, но индексировал и не жужжал).

Camel1000

Сказочный Добролюб

04.06.21 01:09

0 0

Архивариус 3000 до некоторого предела прекрасно работал на самом обычном железе на таком архиве и не жужжал.

Да, и такое возможно – если архив "статичный" (документы просто лежат и обновляются не особо часто). Самое сложное и дикое – первый проход, сбор индекса.
Но если это всё каким-то образом постоянно меняется-обновляется, то тогда уже мрачновато выглядит такой архив. Впрочем, я не знаю точно ваших задач и требований к софту, поэтому тут у каждого "своя болячка" (порой случается, что проще потерять пару дней и набросать на коленке что-то своё, чем месяцами искать готовое решение)).

Но боюсь, мне тоже не подойдет - похоже, он не работает с ТХТ файлами, а это не годится.

Кстати, тоже обратил внимание на этот странный "игнор" формата...

Если TXT сильно много – согласен, вообще не вариант.
Но если их не особо много и данные в архиве не оперативные, то можно уже ~~набраться смелости и~~ в один заход перегнать всё вордовским VBA в "доксы" – а в дальнейшем просто регулярно обновлять архив тем же самым макросом. Если в остальном ODF вас полностью устраивает, а прочие варианты не подошли, то такой вариант получается вполне себе "компромиссным"...

Сказочный Добролюб

Camel1000

03.06.21 23:48

1 0

Архивариус 3000 до некоторого предела прекрасно работал на самом обычном железе на таком архиве и не жужжал. Просто я не очень люблю работать с discontinied программами, вот и ищу замену. Упомянутый ODF позиционируется именно как решение нужного уровня (не домашний комп, но и не корпорация с миллионами документов и сотнями сотрудников. Для уровня лаборатории ИМХО в самый раз. Но боюсь, мне тоже не подойдет - похоже, он не работает с ТХТ файлами, а это не годится.

Camel1000

Сказочный Добролюб

03.06.21 16:59

0 0

Поиск Винды хорош для домашнего компа с умеренным количеством файлов.

Разумеется. Как и обсуждаемый ODF (который в целом работает по тем же принципам, только с собственным индексом). Для озвученных же вами масштабов "сотни тысяч документов", если подобные задачи у вас действительно настолько регулярны – желательны уже и более "взрослые" DMS-решения (да и железо явно не помешало бы уровнем хоть немножко повыше домашнего компа, даже для нелюбимого вами виндового поиска))...

Сказочный Добролюб

Camel1000

03.06.21 16:50

1 0

– текстовый PDF находится ровно с такой же скоростью

Вы, скорее всего, не имели дело с массивами в много сотен тысяч самых разнородных документов самого разного объема. Поиск Винды хорош для домашнего компа с умеренным количеством файлов.

Camel1000

Сказочный Добролюб

03.06.21 08:30

0 0

что данный конкретный документ не распознан корректно - это совершенно нормальная ситуация. Она возникает со всеми OCR.

Нет, это не "совершенно нормальная ситуация" – писал ведь, что документ (ну, как минимум хотя бы текстовая его часть)) прекрасно распознаётся другими OCR...

Я с базовым поиском Windows имел дело достаточно. Он не удовлетворителен от слова никак, начиная от скорости работы и кончая представлением найденных данных.

Если индексация Windows не выключена принудительно (мало ли, всякое бывает) – текстовый PDF находится ровно с такой же скоростью (или даже быстрее). Представление абсолютно полноценное – как в эскизе "Проводника", так и в панели просмотра (прикладываю, как отображается в найденных файлах показанный на прошлом скриншоте текстовый документ). Что уж там вы видите "неудовлетворительного" – я не знаю, честно. Впрочем, конкретно этот момент уже глубоко субъективен, "на вкус и цвет"...

Сказочный Добролюб

Camel1000

03.06.21 02:05

1 0

И после подключения тоже нет, увы...

Ну значит, вы понимаете, что никакое подключение к интернету для нормальной работы не нужно, а то, что данный конкретный документ не распознан корректно - это совершенно нормальная ситуация. Она возникает со всеми OCR.

А если PDF не сканированный, а текстовый – он прекрасно индексируется и находится даже простым поиском. То есть, смысл приложения теряется.

Я с базовым поиском Windows имел дело достаточно. Он не удовлетворителен от слова никак, начиная от скорости работы и кончая представлением найденных данных. Тот же Архивариус 3000 вообще ничего не распознает, но удобство им пользования по сравнению с поиском Винды - это просто несравнимо.

Camel1000

Сказочный Добролюб

03.06.21 01:43

0 1

Конечно, всегда можно создать ситуацию из анекдота про сибирских мужиков и японскую бензопилу.

Выше привёл конкретный пример, со ссылкой. Можете попробовать самостоятельно. И это вовсе не вариант "японская лесопилка" – в сети полно сканированных документов, особенно если речь про какую-либо техническую и/или старую литературу.
А если PDF не сканированный, а текстовый – он прекрасно индексируется и находится даже простым поиском. То есть, смысл приложения теряется.

кстати, после подключения интернета текст нашелся, нет?

И после подключения тоже нет, увы...

Сказочный Добролюб

Camel1000

03.06.21 01:31

1 0

Пришлите файл на support(at)officedocumentfinder.com, с указанием поисковых слов, я проверю в чем дело.

Почтой неудобно, но вот ссылка на скачивание – мой самый ненавидимый файл (когда-то не смог отказать родственнику, просившему перевести его в Word, о чём страшно жалел почти неделю))). Поисковая фраза – прямая цитата из документа: "За годы, прошедшие после выхода второго издания учебного пособия по курсовому и дипломному проектированию"...

Формулы-то чёрт с ними (к этому моменту претензий нет, с формулами ни один пакет толком не справляется) – но вот обычный текст в этом древнем скане более чем уверенно распознали упомянутые ранее Acrobat Pro и FineReader (со всеми переносами и прочими нюансами).
В отличие же от них, обсуждаемый ODF молчит как рыба – находятся только лишь текстовые PDF и DOCX в том же каталоге (но это умеет и поиск Windows). Ни один из сканированных документов в папке (а там ещё несколько других сканированных файлов вперемешку с текстовыми) не распознаётся – и, соответственно, вообще ни разу не находится поиском ODF... ?

P.S. Кстати, с отображением текстовых PDF тоже странности – окно просмотра иногда показывает форматирование документа совершенно криво и некорректно. Это уже, разумеется, не настолько критично как отсутствие поиска, но баг весьма странный (ссылка на файл со скриншота)...

Сказочный Добролюб

officedocumentfinder

03.06.21 01:22

1 0

Поиск по тексту из отсканированного растрового PDF не нашёлся.

Странно, у меня все ищется. Речь о достаточно простых PDF документах (статьи). Конечно, всегда можно создать ситуацию из анекдота про сибирских мужиков и японскую бензопилу. То есть когда я загоняю простой PDF текст (в растре) в распознавалку ODF, он ищется без всякого интернета. Для меня этого достаточно. То, что можно найти такой PDF, который не распознается нормально, с интернетом или без (кстати, после подключения интернета текст нашелся, нет? ) - это я не сомневаюсь ни разу.

Camel1000

Сказочный Добролюб

03.06.21 01:06

0 1

Пришлите файл на support(at)officedocumentfinder.com, с указанием поисковых слов, я проверю в чем дело.

officedocumentfinder

Сказочный Добролюб

03.06.21 00:23

1 0

Чтобы это проверить, нужно меньше времени, чем вы пишете эти посты. Ставите триал, индексируется своя папка

Поставил, проверил.
Поиск по тексту из отсканированного растрового PDF не нашёлся. "Что я делаю не так"©? Что и требовалось доказать – чудес не бывает. О чём и шла речь (которую вы неверно интерпретировали как якобы "теоретическую")...

Вместо этого вы ведёте какие то малопонятные теоретические дискуссии, и намекаете, что квалификации собеседников не хватит

Ну вот сейчас квалификации собеседников как раз и не хватило, увы...

Сказочный Добролюб

Camel1000

03.06.21 00:11

1 0

Полагаю, что вы что-то явно умалчиваете.

Чтобы это проверить, нужно меньше времени, чем вы пишете эти посты. Ставите триал, индексируется своя папка, выдергивается интернет, проверяется поиск и распознавание. ВСЕ. Вместо этого вы ведёте какие то малопонятные теоретические дискуссии, и намекаете, что квалификации собеседников не хватит, в отличие от вас, чтобы сделать такую проверку. Обалдеть.

Camel1000

Сказочный Добролюб

02.06.21 09:09

1 5

Поиск с одного своего устройства на другом внутри локальной сети.

Там поиск с совершенно другими параметрами – вообще никаким местом не касающимися Интернета (особенно если вся сеть в целом ещё и грамотно устроена сама по себе)...

Сказочный Добролюб

Miller777

02.06.21 02:59

3 0

Например, вам на работе потребовалось найти документ который находится на домашнем компьютере.

...Который может быть просто выключен, или даже просто в спящем режиме – тут опять только облака и принудительное (!) закачивание туда всей пользовательской информации...

Все верно. Непонятно только зачем в конце три знака вопроса.

Потому, что родной "Виндовозовский" поиск справляется с этим быстрее и оперативнее – и безо всяких сторонних приложений.

Полагаете, что я пишу неправду?

Нет, не так. Полагаю, что вы что-то явно умалчиваете. Прошу не принимать это за личную обиду (понимаю, что должность обязывает). Но с точки зрения здравого смысла – всё именно так и выглядит, увы...

Сказочный Добролюб

officedocumentfinder

02.06.21 02:59

5 0

Если заявляется поиск локальный???

Поиск с одного своего устройства на другом внутри локальной сети.

Ну и да, если юзер привык искать что-то через браузер - то при локальном поиске через браузер нужен локальный веб-сервер.

Вы никогда не сталкивались с локальными программами, не имеющими своей программной оболочки и управляемыми через браузер? Примеров могу привести.

Miller777

Сказочный Добролюб

02.06.21 02:40

0 2

Зачем??? Если заявляется поиск локальный???

Например, вам на работе потребовалось найти документ который находится на домашнем компьютере.

Искать свои же документы через браузер???

Все верно. Непонятно только зачем в конце три знака вопроса.

Как???

Полагаете, что я пишу неправду? Не проще уже скачать и проверить все свои предположения?

officedocumentfinder

Сказочный Добролюб

02.06.21 02:33

1 3

Для того, чтобы с другого компьютера или телефона вы могли зайти и увидеть свои документы. При том что постоянного IP адреса у вас нет.

Зачем??? Если заявляется поиск локальный???

Чтобы те кому удобнее работать из браузера, могли искать и смотреть свои документы прямо там. Но БЕЗ ВЫХОДА В ИНТЕРНЕТ.

Искать свои же документы через браузер???

Распознавание, кстати, идет локально, интернет для него не нужен.

Как???
Ваш инсталлятор – 46 Мб. У меня только одна лишь база русского словаря весит почти в 7 раз больше – 355 Мб (и даже в уже "почищенном" виде весит минимум 65 Мб, и это всё чистый текст). А есть ведь ещё и куча других языков, кроме русского – и их все тоже надо распознать...

Сказочный Добролюб

officedocumentfinder

02.06.21 02:25

4 0

Я же процитировал разработчика:

Тут уже разработчик "сказал всё сам"...

"Можете полностью заблокировать программе выход в интернет после регистрации или активации триала, все будет работать." Вам как еще объяснить?

Конкретно в данном случае – не надо ничего мне "объяснять". Мы же с вами работаем в совершенно разных сферах, и обладаем знаниями по совершенно разным дисциплинам. И я никогда ничего не пытался "объяснять" вам про вашу сферу профессиональной деятельности. Вот и здесь так же...

М-да. Тяжелый случай. Мы сейчас о поиске в неразобранных image PDF говорим? Или мне кажется?

Мы сейчас о поиске вообще в любых "закурвленных" (переведённых полностью в вектор) или сканированных (вообще тупо-растровых) PDF – а это действительно "тяжёлый случай" (ибо текстовые PDF прекрасно находит и сама Windows, как уже писал ранее).

Сказочный Добролюб

Camel1000

02.06.21 02:01

3 0

Прокси для чего именно тогда?

Зачем вообще локальному поиску какой бы то ни было доступ в сеть, если не для передачи нераспознанных документов на основной сервис???

Он и не нужен до того момента, как вы захотите с _другого_ компьютера посмотреть свои документы. Распознавание, кстати, идет локально, интернет для него не нужен.

Зачем вам там локальный сервер? Просто "чтобы был

Чтобы те кому удобнее работать из браузера, могли искать и смотреть свои документы прямо там. Но БЕЗ ВЫХОДА В ИНТЕРНЕТ.
И еще раз
*интернет не нужен для работы программы*
*ничего никуда не передается*
*все документы и индексы всегда остаются на локальном компьютере*
*нет никакого основного сервера, есть только сервер позволяющий при необходимости удаленно зайти к себе*
*облачный доступ это просто дополнительная возможность*

officedocumentfinder

Сказочный Добролюб

02.06.21 01:45

1 2

Но если что-то вроде формул, не говоря уж даже обо всяких простейших сносках-примечаниях

М-да. Тяжелый случай. Мы сейчас о поиске в неразобранных image PDF говорим? Или мне кажется?

Camel1000

Сказочный Добролюб

02.06.21 01:30

1 2

Локальному поиску НЕ нужен доступ в сеть.

Зачем вам там локальный сервер?

Затем, что это стандартный способ организации работы в локальной сети - все пользователи делают все через интерфейс браузера.

Camel1000

Сказочный Добролюб

02.06.21 01:29

1 1

Именно что читал. Поиск "без облака" – одни возможности. Поиск "с облаком" – другие возможности.

Непохоже. Я же процитировал разработчика:
"Можете полностью заблокировать программе выход в интернет после регистрации или активации триала, все будет работать."
Вам как еще объяснить?

Camel1000

Сказочный Добролюб

02.06.21 01:27

1 1

officedocumentfinder

Сказочный Добролюб

02.06.21 01:19

1 0

Программа ничего никуда не закачивает (даже при работе через облачный доступ, по факту это просто прокси)

Прокси для чего именно тогда? Зачем вообще локальному поиску какой бы то ни было доступ в сеть, если не для передачи нераспознанных документов на основной сервис???

Даже из браузера можно искать, в программу встроен локальный web сервер.

Фишка прикольная (и даже радующая)). Но смысла понять не могу. Зачем вам там локальный сервер? Просто "чтобы был"? Или он тоже как-то завязан на обращения к основному серверу?

Сказочный Добролюб

officedocumentfinder

02.06.21 00:53

3 0

Пишу. Сделают всё то же самое, но в режиме offline – куплю, честно.

Тогда покупайте, проверим честность. Программа ничего никуда не закачивает (даже при работе через облачный доступ, по факту это просто прокси), и возможности поиска без облака (и без доступа в интернет) _ничем_ не отличаются. Даже из браузера можно искать, в программу встроен локальный web сервер.

officedocumentfinder

Сказочный Добролюб

02.06.21 00:40

1 2

А вы пост-то читали? Все оффлайн и работает. Отключайте интернет и вперед.

Именно что читал. Поиск "без облака" – одни возможности. Поиск "с облаком" – другие возможности.
Потому и возмутился такой "залипухе" – приведя в пример реально оффлайновые (и реально имеющие мировую репутацию!) решения от реально солидных разработчиков... ?

Делать OCR - это настолько просто сейчас, что даже смешно.

Ой... Вот тут уж точно не согласен категорически. Ни разу не "смешно", как только речь заходит о реальных задачах.

Если просто текст – да, там и всё остальное более-менее просто (хотя даже там OCR порой дохнут в отдельных моментах). Но если что-то вроде формул, не говоря уж даже обо всяких простейших сносках-примечаниях – всё, "туши свет, кидай гранату", ручная правка всего документа гарантирована... ?

Сказочный Добролюб

Camel1000

02.06.21 00:34

2 0

но в режиме offline –

А вы пост-то читали? Все оффлайн и работает. Отключайте интернет и вперед.

Можете полностью заблокировать программе выход в интернет после регистрации или активации триала, все будет работать.

Плюс отдельно по косякам OCR-приложений

Делать OCR - это настолько просто сейчас, что даже смешно. А корявый рукописный текст вам никто хорошо не распознает. Обычный печатный более-менее пристойно выглядящий - вообще кто угодно.

Camel1000

Сказочный Добролюб

02.06.21 00:06

1 1

В старые добрые времена за 2400 можно было навечно купить штуки 4 офисных программы. А сейчас это безумие с подпиской всего и вся (действительно, зачем давать возможность покупать один раз, давайте будем заставлять всех платить ежегодно) - и это стоимость лицензии одной программы на год !

dfkom

01.06.21 17:20

0 4

Я в играх не очень разбираюсь, но слышал что они в основном зарабатывают на внутригровых покупках, так что сами игры могут быть и бесплатными.
Кроме того, цена грубо определяется как сумма затрат на разработку делить на размер потенциальной аудитории, и понятно что у игр она на несколько порядков выше.

officedocumentfinder

dfkom

01.06.21 17:45

2 0

Безотносительно к курсу рубля, 2400 в год - это перебор. Топовые игрушки на стиме дешевле стоят без подписок. Впрочем, вы, разумеется, полностью свободны в вопросах ценообразования, и уж точно не мне вам указывать)

dfkom

officedocumentfinder

01.06.21 17:40

0 3

А, так вы на курс рубля жалуетесь. Я думал на цену.

officedocumentfinder

dfkom

01.06.21 17:37

5 0

Кура доллара в том же 2000 году был на уровне 28 рублей, так что 2400 рублей это 85 долларов

dfkom

officedocumentfinder

01.06.21 17:30

0 1

Хотелось бы уточнить, в какие времена можно было за 32 доллара (а он тоже не стоит на месте, это примерно 20 долларов начала 2000х) купить 4 штуки офисных программы? То есть примерно по 8 долларов за штуку.

officedocumentfinder

dfkom

01.06.21 17:26

4 0

В гугл поиске первая ссылка идет на сайт *.com , антивирус ругается

Uncle Modest

01.06.21 15:44

0 5

Функционал выглядит очень интересным.
Но, судя по всему, забыли про одну важную вещь: продвинутый поиск по истории браузера.

Регулярно сталкиваюсь с тем, что где-то что-то в читал в интернете, помню ключевые слова, но их нет в заголовке страницы, а есть они только в тексте. Соответственно, найти их через поиск по истории браузера нельзя.

3321

01.06.21 15:10

0 0

Понятия не имею.

Camel1000

vpn

02.06.21 00:07

0 0

Для мозиллы есть такое?

vpn

Camel1000

01.06.21 20:26

0 0

Спасибо, не знал про такой.

3321

Camel1000

01.06.21 15:44

0 0

Функционал выглядит очень интересным.Но, судя по всему, забыли про одну важную вещь: продвинутый поиск по истории браузера.

With the Deeper History Chrome extension installed, you can easily search for any words that you remember reading within the contents of the page and navigate to that webpage
deeperhistory.wordpress.com

Camel1000

3321

01.06.21 15:30

0 4

Мне кажется разработчики на несколько лет опоздали с выводом продукта.

У меня коммерческий Office 365 и Google, все документы там, поиск внутри работает отлично, доступ откуда угодно, надежность хранения ощутимо выше личного HDD/SSD.

alexkerch

01.06.21 15:06

0 0

Сейчас такое время, что завтра бешеный принтер издаст указ о хранении документов граждан РФ только на серверах РФ, и РКН быстренько заблокирует все до чего дотянется.

officedocumentfinder

alexkerch

01.06.21 16:33

0 2

Примеры закрытия сервисов были в зоне не основных для экостистемы и не генерирующие прибыль, а тут коммерческие системы за которыми будущее и существенная часть настоящего.

Так рынок для продукта думаю еще есть, но он очень быстро сужается.

alexkerch

officedocumentfinder

01.06.21 16:23

0 1

Посыл верный, но облачные сервисы дело такое, сегодня они есть, завтра их нет. Примеров много, в том числе у MS и Google. Кроме того, у многих есть исторически накопленные архивы документов.

officedocumentfinder

alexkerch

01.06.21 15:20

0 2

Алекс, передай разрабам, что у меня Avast сделал на загрузочный файл стойку, правда, ничего определить не смог, но сказал, что файл подозрительный, отправил его своим в лабораторию на изучение и всячески против его использования.

Camel1000

01.06.21 14:25

0 2

И программа и установщик подписаны усиленной цифровой подписью (EV сертификат), на них уже даже Защитник Windows перестал делать стойку. Эвристики антивирусов отличаются параноидальностью и большим числом ложных срабатываний. Впрочем, достаточно подождать пока они проверят, успокоятся и внесу в свои базы.

officedocumentfinder

Camel1000

01.06.21 14:39

0 1

Нужная штука, если бы не облако.
А так -- нечего моим документам на чужом сервере делать.

deadkitten

01.06.21 13:38

1 2

Так для этого как раз есть корпоративная серверная версия. Она работает как сервис, позволяет настраивать группы (роли) пользователей и права доступа на документы из отдельных папок для этих ролей. Администрирование идет полностью из браузера.
officedocumentfinder.ru

officedocumentfinder

PapaTramp

02.06.21 02:11

0 0

Вот если бы была еще возможность установить программу на сервер, чтобы она проиндексировала, например, папки на NAS и была бы возможность для всех дать ссылку на этот сервер для поиска для любого сотрудника. А то поиск в браузере работает, я так понял, только для пользователя, где эта программа же и установлена?

PapaTramp

officedocumentfinder

02.06.21 01:49

0 0

Документы на сервер не передаются, это даже в обзоре прямо написано. Кроме того, облачный доступ можно вообще не использовать, на остальной функционал это никак не влияет.

officedocumentfinder

deadkitten

01.06.21 14:36

0 1

Лет 10 использую Архивариус.
Всем устраивает.

vorrutyer

01.06.21 13:24

0 2

Чем-то напомнило "Архивариус 3000"

Miller777

01.06.21 13:04

0 1

Только что вспомнил. А обычный txt индексируется? Если нет, то увы, это мимо меня.

Camel1000

officedocumentfinder

02.06.21 09:11

0 0

Пока только epub, но fb2 очень простой формат. Если будут запросы от пользователей, будет добавлен.

officedocumentfinder

Miller777

02.06.21 02:45

0 0

А ваш софт может в fb2 искать из коробки?

Miller777

officedocumentfinder

02.06.21 02:27

0 0

Архивариус не умел отображать найденные документы в полном виде. Этого вообще почти никто не умеет из аналогов.

officedocumentfinder

Miller777

01.06.21 14:49

0 0

Неужели появился поиск, лучше чем в Total Commandere? 😉
Поиск с распознавание - это круто. А сколько языков? Мне вот давеча китайский был нужен.

BlackKnight

01.06.21 12:54

1 0

Система распознавания позволяет указать два языка, основной и дополнительный. Сейчас один язык выбирается в настройках, второй всегда идет английский. Но если будут запросы, можно добавить выбор обоих языков.

officedocumentfinder

Camel1000

01.06.21 15:42

0 1

А как сделать, если у меня смешанные англо-русские или англо-французские документы?
PS Очень удобно, когда разрабы отвечают прямо в комментах обзора. За это мы Экслера ценим!

Camel1000

officedocumentfinder

01.06.21 15:33

1 2

В поставке идут английский, немецкий, французский и русский. Но добавить китайский несложно.

officedocumentfinder

BlackKnight

01.06.21 14:52

0 0

Я пользуюсь бесплатным DocFetcher
Ищет по разным типам файлов, показывает заголовок, имя файла, путь, есть просмотр файла.

Zritel

01.06.21 12:45

0 6

Я его пробовал, но даже на смешных объемах порядка сотен тысяч документов он обламывается.

Camel1000

Zritel

01.06.21 15:34

0 0

Плюсую, как профессиональный искатель в пдф файлах.

Pferd

Zritel

01.06.21 15:25

0 0

Благодарю!

Может искать и в fb2 внутри архивов.

Теперь у меня есть поиск по электронной библиотеке.

Miller777

Zritel

01.06.21 14:55

0 1

Эх, как хорошо был бесплатный Yandex Desktop Search (((
Убили проект (((

Dmitry 777

01.06.21 12:33

0 4

Тоже его вспомнил. Хороший был продукт.

Jordj

Dmitry 777

04.06.21 23:42

0 0

Рекорд Надоям

Slawek

Dmitry 777

01.06.21 12:56

0 6

R I P обоям (обоем?)

Dmitry 777

Camel1000

01.06.21 12:53

0 0

Как и Гугл Поиск.

Camel1000

Dmitry 777

01.06.21 12:38

0 1

Года 4 назад купил Архивариус 3000, активно им пользовался, весьма удобный и быстрый поисковик по документам, в общем, не разочаровал. Потом надобность упала, и забыл про него, а недавно узнал, что он не развивается уже с 2018 года. Но, можно ведь и неправедным путем его скачать да попробовать, даже относительно устаревший вариант, уверен, и сейчас не ударит лицом в грязь.

Bamboliny

01.06.21 11:13

0 1

Я им пользовался, был хорош. Я его купил тоже. Но с 18 года он заброшен, а старая версия стала тупить, виснуть, выросшие архивы не берет, памяти не хватает... В общем, как обычно, пользоваться discontinued продуктом толку мало.

Camel1000

Bamboliny

01.06.21 11:55

0 0

Однако тебе ещё и пресс-релизов всяких дофига присылают...

А ты уже писал здесь, где ты ещё работаешь (или в какой области/специализации), помимо своего сайта?

Eugen_Bond

01.06.21 10:47

0 1

Хорошая штука. Но мне она нужна 1-2 раза в месяц, предпочел бы облегчённую версию без браузеров, облаков и публикаций забесплатно или 2400 рублей за пару лицензий раз и навсегда.

Suspense

01.06.21 10:34

0 4

Цена на персональную версию сделана максимально низкой. Когда будет подключен прием платежей в РФ, будет еще ниже (на 20%) т.к. сейчас государство забирает НДС.
В подписку входит обновление до новых версий, что стимулирует развивать продукт, а при еще более низкой цене и разовом платеже есть большой шанс повторить судьбу Архивариуса. В итоге не останется вообще вариантов чем пользоваться.

officedocumentfinder

Suspense

01.06.21 14:45

2 2

Ну вот как раз информация для разработчиков 😄

Alex Exler

Suspense

01.06.21 10:36

0 0

Здорово, но опять же програма-сервис. Купил и спи спокойно не работает. А брать в аренду все привыкнуть не могу. Шибко много в нашей жизни регулярных и обязательных платежей типа ЖКХ. Еще и софт туда же движется. Надеюсь эта мода уйдет и не буду ее поддерживать рублем.
Полезу на трекеры.

SlaY74

01.06.21 10:33

0 8

Надеюсь эта мода уйдет

По некоторым софтинам которые распространяются по обоим принципам - посчитал.
В среднем за 3 года подписки ты отдаешь столько же - сколько отдал бы за разовую покупку.
То есть начиная с 4-го года подписка становится очень выгодной для продавца.
Так что модель "плати понемногу - но всю жизнь" будет навязываться всеми силами. И уж точно не уйдет

Dmitry 777

SlaY74

01.06.21 12:30

0 7

То есть, на компьютер без интернета локальный поиск работает? Или это в теории?

bblu

01.06.21 10:26

0 0

officedocumentfinder

bblu

01.06.21 18:26

0 1

Чтобы слить личные данные, конечно же

bblu

Alex Exler

01.06.21 18:22

0 0

Почему в теории? На практике. Индексы хранятся локально, зачем системе Интернет?

Alex Exler

bblu

01.06.21 10:35

0 1

Да, ещё вопрос: что с сетевыми дисками и вообще работой с локальной сетью?

Camel1000

01.06.21 09:59

0 0

Да, с сетевыми дисками - без проблем: все показывает, добавляет, индексирует и ищет.

Alex Exler

Camel1000

01.06.21 10:46

0 1

О, я что-то не догадался проверить, у меня все документы на локальном диске. Проверю, напишу и в обзоре допишу.

Alex Exler

Camel1000

01.06.21 10:34

0 0

Спасибо за обзор. Неужели наконец то вменяемый поиск? Я перепробовал, кажется, все, что на эту тему бывает. Как был хорош Гугл десктоп поиск, пока они сами, уроды, его не закрыли. Ну, про всякое старье типа dtSearch / Copernic и говорить нечего. Одно время был неплох наш Архивариус 3000, но он закрылся.
Ps лучший поиск по именам (конкретно именам) файлов под Винду - утилита Everything, особенно в комплекте с Тотал Коммандер.

Camel1000

01.06.21 09:56

0 4

ghisler.ch

Camel1000

reAgent

01.06.21 15:27

0 0

а можно инструкцию поподробнее? Как подключить?

reAgent

Camel1000

01.06.21 12:31

0 0

Копернику бывало плохо при поиске в русскоязычных документах на машине с нерусской локалью. Часть находил, часть не находил, часть отображал кракозябрами..
Гуглодесктоп в PDF искал только по первым, не помню уже, 150 килобайтам файла.
Пока лучшее что нашел для себя - X1 Search.

Telefaust

Camel1000

01.06.21 12:28

0 0

Да, ее можно подключить в поиске по Альт-Ф7, и тогда ее результаты выдаются в Тотал. Очень удобно, я ее отдельно и не использую больше.

Camel1000

Doctor Notes

01.06.21 11:57

0 2

утилита Everything, особенно в комплекте с Тотал Коммандер.

Everything использую, а вот про Тотал не понял - она с ним как-то интегрируется?

Doctor Notes

Camel1000

01.06.21 10:52

1 0

Если кому нужно: как-то потребовалось заменить сразу в большом количестве файлов определённые виды текста. Из того, что подошло кстати, советую Text Replacer

The Big Black Boots

01.06.21 09:37

0 0

Назад Вперед

Поиск

e-mail Экслера - toffler@gmail.com

Темы обзоров