Яндекс.Диск научился распознавать текст на изображениях - RuLife.ru

Интернет и IT технологии
25.03.2015
Яндекс.Диск научился распознавать текст на изображениях

Яндекс.Диск научился распознавать текст на изображениях

Об этом сообщается в блоге «Яндекса».

Представители Яндекс отмечают, что на сегодняшний день поиск текста в изображениях реализован в трёх форматах — JPEG, GIF и PNG. Таким образом система позволит искать среди сохранённых фотографий на диске нужную — например, найти скан договора или визитку. Искать можно не только документы, но и любые фотографии, которые сделаны для того, чтобы сохранить текст, будь то объявление на двери подъезда или любопытный рекламный плакат в метро.

Для распознавания текста используется технология оптического распознавания символов, разработанная в стенах Яндекса.

Система включает в себя классификатор картинок и модуль распознавания.

Затем модуль распознавания разбивает линии текста на отдельные символы. На следующем этапе алгоритм оставляет только те линии текста, в которых он уверен. Для каждого алгоритм выбирает несколько наиболее вероятных вариантов распознавания. После этого алгоритм языковой модели принимает решение, какой из выбранных символов подходит больше, чем остальные. Данный инструмент опирается на словари и учитывает не только сходство символов с теми, которые знает система, но и контекст, то есть соседние символы. Например, если из нескольких вероятных символов получается слово, уже известное системе, она может принять решение, что на картинке изображено именно оно.

В сообщении отмечается, что точность распознавания текста зависит от типа изображения, его четкости, фона, на котором находится текст, и многих других факторов. Точность распознавания текстов на русском языке составляет около 80% для отсканированных документов, примерно 63% для фотографий с надписями и почти 100% для скриншотов. Систем распознавания, опирающихся на эту технологию, много, и все они разные.

Эту новость ещё не комментировалиНаписать комментарий
для комментирования нужно зарегистрироваться
Мир

Интернет и IT технологии