Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Издержки профессии: почему у гонщиков Формулы-1 такие большие шеи Издержки профессии: почему у гонщиков Формулы-1 такие большие шеи

Гонщик Формулы-1 — не просто водитель, он настоящий спортсмен

ТехИнсайдер
Электровелосипеды всего мира сэкономили в 4 раза больше нефти, чем электромобили Электровелосипеды всего мира сэкономили в 4 раза больше нефти, чем электромобили

Как электровелосипеды взяли верх над электрическими автомобилями

ТехИнсайдер
Опасная иллюзия: почему не стоит путать искусственный интеллект с чат-ботами Опасная иллюзия: почему не стоит путать искусственный интеллект с чат-ботами

ИИ — спаситель человечества или его зловещий повелитель?

Forbes
Сделано набело Сделано набело

Автор проекта Мария Единая преобразила устаревший интерьер

SALON-Interior
Пища для глаз: что такое визуальный голод и как фотографии еды воздействуют на мозг Пища для глаз: что такое визуальный голод и как фотографии еды воздействуют на мозг

Как наш мозг реагирует на виртуальное питание

Forbes
Полностью многоразовая ракетаноситель от фирмы Stoke Space Полностью многоразовая ракетаноситель от фирмы Stoke Space

Как Stoke Space решает проблему повторного использования вторых ступеней ракет

Наука и техника
Роза севера Роза севера

Самые могущественные во Франции «спонсоры» подарили Шартрскому собору розу

Вокруг света
Практические вопросы: Системы антиблокировки и стабилизации Практические вопросы: Системы антиблокировки и стабилизации

Система ABS увеличивает тормозной путь или уменьшает его? Полезна ли ESP?

4x4 Club
Из жизни моряка Из жизни моряка

Алессандро дель Гаудио провел свой первый сезон на новенькой 40‑метровой яхте

Y Magazine
Что на самом деле совершили панфиловцы и сам Панфилов осенью 1941-го Что на самом деле совершили панфиловцы и сам Панфилов осенью 1941-го

Дискуссии о подвиге 28 панфиловцев — «было? не было? а если было, то как?»

Maxim
ИИ научился предсказывать появление гигантских волн-убийц в океане ИИ научился предсказывать появление гигантских волн-убийц в океане

Ученые нашли формулу, позволяющую предсказать появление гигантских волн-убийц

ТехИнсайдер
В одну черную, черную пятницу… В одну черную, черную пятницу…

Что такое синдром упущенной выгоды и как нас заставляют покупать ненужное

Лиза
Не только ангина Не только ангина

17 причин белого налета в горле

Лиза
Идем на восток Идем на восток

Увидеть 3 архитектурные эпохи, пожить в XVIII веке и отведать арзамасских гусей

Вокруг света
Высокая певческая форманта в голосах мальчиков понравилась женской аудитории Высокая певческая форманта в голосах мальчиков понравилась женской аудитории

И мужчины, и женщины распознают высокую певческую форманту в голосах

N+1
Доступность термитов для шимпанзе долины Исса связали с сезонностью и расселением Доступность термитов для шимпанзе долины Исса связали с сезонностью и расселением

Антропологи несколько лет пробовали ловить термитов в долине Исса

N+1
Коллективные неврозы современности: психические расстройства, которыми страдают все Коллективные неврозы современности: психические расстройства, которыми страдают все

Отрывок из книги «Психотерапия и экзистенциализм»

ТехИнсайдер
Выдвинуть диверсию: как растет число инсайдерских атак от рядовых пользователей Выдвинуть диверсию: как растет число инсайдерских атак от рядовых пользователей

С начала года количество атак инсайдеров выросло в 1,5 раза

Forbes
Бао Ифэн: За последние 10 лет в Китае сильно изменился круг коллекционеров — они становятся все моложе Бао Ифэн: За последние 10 лет в Китае сильно изменился круг коллекционеров — они становятся все моложе

Бао Ифэн — о коллекционировании китайского искусства и азиатском арт-рынке

СНОБ
Девки не сидели в теремах: какой была интимная жизнь на Руси Девки не сидели в теремах: какой была интимная жизнь на Руси

Как на самом деле жили женщины в допетровскую эпоху?

Forbes
Бесстрашное величие Бесстрашное величие

Как возвышенное научилось быть смешным

Weekend
Смотрибельные и классные российские фильмы 90-х Смотрибельные и классные российские фильмы 90-х

Какие российские фильмы 90-х стоит посмотреть?

Maxim
На полярном круге На полярном круге

Вы будете очарованы белоснежной зимой и северным сиянием Салехарда

Отдых в России
Летим на Чукотку! Летим на Чукотку!

Говорят, это место – мечта любого туриста и одновременно – проклятие

Лиза
Фильм «Хоккейные папы»: выиграть турнир, чтобы спасти ледовый дворец Фильм «Хоккейные папы»: выиграть турнир, чтобы спасти ледовый дворец

Фильм «Хоккейные папы»: как отцы юных хоккеистов спасают ледовый дворец

Forbes
10 цитат Петра Ганнушкина, которые позволят проверить, не психопат ли вы 10 цитат Петра Ганнушкина, которые позволят проверить, не психопат ли вы

К каким выводам о человеке пришел один из родоначальников российской психиатрии

Psychologies
«Требуйте в лучших магазинах и аптеках»: история советского шампанского «Требуйте в лучших магазинах и аптеках»: история советского шампанского

Советское шампанское: как оно появилось и стало массовым

ТехИнсайдер
Почему термос перестал держать тепло: 3 житейских способа восстановить изоляцию Почему термос перестал держать тепло: 3 житейских способа восстановить изоляцию

Как починить термос, чтобы он снова радовал горячими напитками

ТехИнсайдер
Как играть в Как играть в

Как играть в "Доту 2" осознанно и приносить максимум пользы своей команде

CHIP
Чем полезен чай каркаде: 3 свойства Чем полезен чай каркаде: 3 свойства

Что такое чай каркаде и чем он полезен?

РБК
Открыть в приложении