![]() |
OCR CuneiForm: Распознавание текстов отныне бесплатно
Примечание автора темы: информация подается как вижу.
OCR CuneiForm: Распознавание текстов отныне бесплатно Автор: nik / 13.12.2007 г. header_l.jpgОбразованная в 1993 г. российская компания Cognitive Technologies объявляет о том, что отныне распознавать тексты можно бесплатно. 12 декабря 2007 г. Компания Cognitive Technologies объявляет о запуске программы «Распознавание должно быть на каждом компьютере», о выпуске free-ware версии OCR CuneiForm и об открытии исходных кодов OCR CuneiForm. Приложение может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. Более того, в конце января 2008 г. Cognitive Technologies планирует подготовить бесплатное распознавание текстов в режиме онлайн на сайте www.cuneiform.ru. К концу следующего года с помощью данного ресурса, как ожидается, можно будет распознавать до 10 тыс. документов в день. Проект является открытым. В марте будущего года планируется выложить исходный код программы. Любой желающий сможет доработать продукт в соответствии со своими желаниями и требованиями. Предполагается, что одним из основных результатов проекта OCR CuneiForm должен стать рост популярности и распространенности решений в области оптического распознавания печатных текстов (Optical Character Recognition, OCR) благодаря открытости кода и нулевой стоимости ПО. По данным компании, число активных пользователей OCR за счет использования Open Source к 2010 г. может возрасти в 5 раз, во многом за счет активного подключения офисных сотрудников, учащихся школ, студентов вузов, а также государственных структур, для которых бесплатное ПО станет хорошей альтернативой пиратским продуктам. Таким образом, число пользователей OCR к этому времени может составить порядка 25 млн. человек. Сегодня это число составляет около 5 млн. человек. Информация об OCR CuneiForm: OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи. Характеристики OCR CuneiForm: высокое качество распознавания; высокая скорость работы; распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20); работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации; распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки; автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе; полное сохранение топологии страницы; поддержка пакетного режима сканирования и распознавания; простота использования и интуитивный интерфейс, встроенные помощники по работе с программой; встроенный текстовый редактор для работы с распознанным текстом; совмещенный показ изображений и результатов распознавания. В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие. Подробная информация на официальном сайте http://www.cuneiform.ru Источники: http://www.izcity.com/, chip.com.ua |
для желающих воспользоваться - не забыть прочитать FAQ. В частности, самый главный (имхо) его пункт простосто цитирую здесь:
Цитата:
|
ShaRP, попробовал я данную программу, ну что могу сказать
конечно до Finereader ей далеко, но как бесплатный аналог(замено) вполне сносто справляеться |
Поставили на win-машину дома (благо сканер на ней) - мне понравилось. Русский распознает без проблем, вид страницы (например, газетные колонки) воспроизводит и отрабатывает быстро. (Единственное, пришлось отредактировать эту строчку в ini-файле). Наличие API вообще открывает кучу возможностей.
Baw17, А чего в ней нет необходимого для жизни? :) |
Цитата:
|
ShaRP,
а-а-а Кстати, напиши им на форум - они принимают всякие предложения на что_бы_такое_еще_сделать |
Цитата:
|
Baw17,
а можно на каком-нибудь небольшом примере? что было и кто что распознал? (В том, что я подсовывала программе пока проблем не было) |
Вложений: 2
mar, я проверял без сканера, сделал скриншот страницы на всевозможных вариантах шрифта и попробовал распознать ее
результат прекрипил |
Baw17,
спасибо (ну сканер-то используется все равно что там, что там через один и тот же twain, так что в этом месте разницы быть не должно) (порадовала поэма Роголя :)) |
mar, еще плюс посмотри на размер doc документа
|
Цитата:
В принципе Цитата:
Не пользуюсь сканом в .пдф, так сканеры не профф, соответственно качество не для этого стандарта. Мне эти советы очень помогли. Так как не удалось перехитрить файна. Дело в том, что в сети есть немало крякнутых версий. Понятно, что при запуске одной, другим будет "красный" в работе. Хотя цена в 1.5 т. явно соответствует этому продукту, но наше начальство не просто раскачать на "коммерческое предложение". Вот купить чего-то за пару сотен т., это нормально, а с пол-торашкой кто будет бегать просить?. Вот и пришлось обраться к CuneiForm. Но в целом прога на отличном уровне. ЗЫ. Кстати, там есть опция "Конвертация в Word" ".... в Excell". Также нормально кажет в этих стандартах, не тока в .ttf. |
|
igorgn,
не могу: диск на win-машине полетел, а на новый поставили Linux. Может быть в новой версии нет ни проблемы, ни ключа? |
Цитата:
|
Время: 13:51. |
Время: 13:51.
© OSzone.net 2001-