Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Новости информационных технологий (http://forum.oszone.net/forumdisplay.php?f=47)
-   -   OCR CuneiForm: Распознавание текстов отныне бесплатно (http://forum.oszone.net/showthread.php?t=97618)

ShaRP 08-01-2008 18:15 711902

OCR CuneiForm: Распознавание текстов отныне бесплатно
 
Примечание автора темы: информация подается как вижу.


OCR CuneiForm: Распознавание текстов отныне бесплатно
Автор: nik / 13.12.2007 г.

header_l.jpgОбразованная в 1993 г. российская компания Cognitive Technologies объявляет о том, что отныне распознавать тексты можно бесплатно.
12 декабря 2007 г. Компания Cognitive Technologies объявляет о запуске программы «Распознавание должно быть на каждом компьютере», о выпуске free-ware версии OCR CuneiForm и об открытии исходных кодов OCR CuneiForm.
Приложение может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных.

Более того, в конце января 2008 г. Cognitive Technologies планирует подготовить бесплатное распознавание текстов в режиме онлайн на сайте www.cuneiform.ru. К концу следующего года с помощью данного ресурса, как ожидается, можно будет распознавать до 10 тыс. документов в день.

Проект является открытым. В марте будущего года планируется выложить исходный код программы. Любой желающий сможет доработать продукт в соответствии со своими желаниями и требованиями.

Предполагается, что одним из основных результатов проекта OCR CuneiForm должен стать рост популярности и распространенности решений в области оптического распознавания печатных текстов (Optical Character Recognition, OCR) благодаря открытости кода и нулевой стоимости ПО.

По данным компании, число активных пользователей OCR за счет использования Open Source к 2010 г. может возрасти в 5 раз, во многом за счет активного подключения офисных сотрудников, учащихся школ, студентов вузов, а также государственных структур, для которых бесплатное ПО станет хорошей альтернативой пиратским продуктам. Таким образом, число пользователей OCR к этому времени может составить порядка 25 млн. человек. Сегодня это число составляет около 5 млн. человек.
Информация об OCR CuneiForm:

OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.

Характеристики OCR CuneiForm:
высокое качество распознавания;
высокая скорость работы;
распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;
автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
полное сохранение топологии страницы;
поддержка пакетного режима сканирования и распознавания;
простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
встроенный текстовый редактор для работы с распознанным текстом;
совмещенный показ изображений и результатов распознавания.

В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие.

Подробная информация на официальном сайте http://www.cuneiform.ru



Источники: http://www.izcity.com/, chip.com.ua

mar 19-01-2008 19:46 720871

для желающих воспользоваться - не забыть прочитать FAQ. В частности, самый главный (имхо) его пункт простосто цитирую здесь:
Цитата:

При сканировании у меня возникает сообщение "Ошибка при передаче данных", что мне делать?
Необходимо отредактировать файл face.ini лежащий в директории windows. Находим в файле ключ TWAIN_TransferMode и делаем его равным memory-native
т.е. должно быть TWAIN_TransferMode=memory-native
Для программистов: вскоре, как уже написал ShaRP, будут выложены исходные коды, но уже сейчас доступно API

Baw17 19-01-2008 21:31 720955

ShaRP, попробовал я данную программу, ну что могу сказать
конечно до Finereader ей далеко, но как бесплатный аналог(замено) вполне сносто справляеться

mar 19-01-2008 22:51 721020

Поставили на win-машину дома (благо сканер на ней) - мне понравилось. Русский распознает без проблем, вид страницы (например, газетные колонки) воспроизводит и отрабатывает быстро. (Единственное, пришлось отредактировать эту строчку в ini-файле). Наличие API вообще открывает кучу возможностей.

Baw17,
А чего в ней нет необходимого для жизни? :)

ShaRP 19-01-2008 23:19 721039

Цитата:

Цитата mar
А чего в ней нет необходимого для жизни? »

PDFники не умеет кушать. А я раскатал губу, надеялся...

mar 19-01-2008 23:54 721052

ShaRP,
а-а-а Кстати, напиши им на форум - они принимают всякие предложения на что_бы_такое_еще_сделать

Baw17 20-01-2008 10:07 721218

Цитата:

Цитата mar
Baw17,
А чего в ней нет необходимого для жизни? »

распознает хуже чем Finereader

mar 20-01-2008 19:49 721531

Baw17,
а можно на каком-нибудь небольшом примере? что было и кто что распознал? (В том, что я подсовывала программе пока проблем не было)

Baw17 20-01-2008 20:07 721558

Вложений: 2
mar, я проверял без сканера, сделал скриншот страницы на всевозможных вариантах шрифта и попробовал распознать ее
результат прекрипил

mar 20-01-2008 23:12 721678

Baw17,
спасибо (ну сканер-то используется все равно что там, что там через один и тот же twain, так что в этом месте разницы быть не должно)

(порадовала поэма Роголя :))

Baw17 23-01-2008 17:47 723901

mar, еще плюс посмотри на размер doc документа

scha 12-11-2008 11:04 950391

Цитата:

Цитата mar
TWAIN_TransferMode=memory-native »

Замена реально работает! УРА!
В принципе
Цитата:

Цитата ShaRP
CuneiForm »

в чем-то лучше Файна. Меньше запутанности в настройке. Более понятен.
Не пользуюсь сканом в .пдф, так сканеры не профф, соответственно качество не для этого стандарта.
Мне эти советы очень помогли. Так как не удалось перехитрить файна. Дело в том, что в сети есть немало крякнутых версий. Понятно, что при запуске одной, другим будет "красный" в работе. Хотя цена в 1.5 т. явно соответствует этому продукту, но наше начальство не просто раскачать на "коммерческое предложение". Вот купить чего-то за пару сотен т., это нормально, а с пол-торашкой кто будет бегать просить?. Вот и пришлось обраться к CuneiForm. Но в целом прога на отличном уровне.

ЗЫ. Кстати, там есть опция "Конвертация в Word" ".... в Excell". Также нормально кажет в этих стандартах, не тока в .ttf.

igorgn 12-11-2008 13:18 950504

Цитата:

Цитата scha
Замена реально работает! УРА! »

обшарил весь этот "фэйс". И поиском пробовал.
Цитата:

Цитата mar
Находим в файле ключ TWAIN_TransferMode »

нет этого ключа, хоть убей! Или, он после создаётся. scha, выложи уже исправленный ini. Посмотрю и сравню.

mar 26-11-2008 15:53 964204

igorgn,
не могу: диск на win-машине полетел, а на новый поставили Linux. Может быть в новой версии нет ни проблемы, ни ключа?

igorgn 26-11-2008 16:00 964209

Цитата:

Цитата mar
Может быть в новой версии нет ни проблемы, ни ключа? »

на сайте производителя всё та же версия. Видно, обновляться и не думают. Мне "ini" нужен был для того, что у самого отсутствует, за отсутствием сканера (как я догадался).


Время: 13:51.

Время: 13:51.
© OSzone.net 2001-