Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Что влияет на вашу репутацию? Ученые раскрыли секрет успешного сотрудничества! Что влияет на вашу репутацию? Ученые раскрыли секрет успешного сотрудничества!

Как поддерживать сотрудничество между людьми без опоры на социальные нормы?

ТехИнсайдер
Спорт без боли Спорт без боли

Почему болят мышцы после тренировки и как быстро с этим справиться

Лиза
Рано списывать: 5 главных преимуществ HDD перед SSD Рано списывать: 5 главных преимуществ HDD перед SSD

Почему в некоторых случаях лучше купить HDD, а не SSD?

CHIP
Персональный «остров» Персональный «остров»

Новый флагман финской компании Saxdor Yachts — Saxdor 400 GTO

Y Magazine
Историк о диалоге как пути мировой культуры Историк о диалоге как пути мировой культуры

Какую роль играет умение обращать свои мысли к собеседнику?

РБК
Крысы прошлись по виртуальному пространству силой мысли Крысы прошлись по виртуальному пространству силой мысли

Крысы способны ориентироваться в виртуальном пространстве

N+1
Как похудеть на... 10 лет Как похудеть на... 10 лет

Как распрощаться не только с лишним весом, но и с «лишним» возрастом?

Лиза
Когда жизнь преподносит тебе только рвоту, радуйся — возможно, ты уже миллионер Когда жизнь преподносит тебе только рвоту, радуйся — возможно, ты уже миллионер

Что такое амбре, как она связана с рвотой и кому принадлежит?

ТехИнсайдер
Туризм, каким мы его знаем: кто открыл отдых для людей? Туризм, каким мы его знаем: кто открыл отдых для людей?

Кто же поставил туризм на промышленные рельсы?

Maxim
Как уроженец Арзамаса-16 основал сеть Poison Drop и привлек деньги миллиардера Как уроженец Арзамаса-16 основал сеть Poison Drop и привлек деньги миллиардера

Последние два года стали судьбоносными для продавца бижутерии Poison Drop

Forbes
Вампиры среди нас: 6 признаков энергетического «Дракулы» Вампиры среди нас: 6 признаков энергетического «Дракулы»

Такие люди иногда сами не подозревают, что паразитируют на окружающих

Psychologies
Свобода в союзе с гильотиной Свобода в союзе с гильотиной

Начиналась революция во Франции красиво — с Декларации прав человека

Дилетант
Массовый переход на электромобили должен был решить экологические проблемы — но создал новые Массовый переход на электромобили должен был решить экологические проблемы — но создал новые

Почему Норвегия, пионер по переходу на электрокары, пытается сократить их число

VC.RU
Нейросеть vs тревога: 3 простых упражнения, которые помогут справиться со стрессом Нейросеть vs тревога: 3 простых упражнения, которые помогут справиться со стрессом

Как нейросети усовершенствовали арт-терапию

Psychologies
Какой кофе бывает и как его выбрать: советы экспертов Какой кофе бывает и как его выбрать: советы экспертов

Как выбрать кофе домой?

РБК
Призрак изобилия Призрак изобилия

Как на ВДНХ вернулся пафос

Weekend
Бесстрашное величие Бесстрашное величие

Как возвышенное научилось быть смешным

Weekend
5 сигналов, что вы газлайтите самого себя 5 сигналов, что вы газлайтите самого себя

Как выглядит газлайтинг самого себя?

Psychologies
Почему так дорого? Почему так дорого?

Как узнать, сколько стоит handmade-изделие: подсказки самозанятому

Лиза
10 цитат Оливера Сакса, которые изменят ваше представление о сознании человека 10 цитат Оливера Сакса, которые изменят ваше представление о сознании человека

Как опыт общения с людьми меняет представление о сознании человека

Psychologies
Удар шведкой Удар шведкой

Ищем Скандинавию в китайском кроссовере Geely Monjaro

Автопилот
10 неожиданных методов применения молока в быту, которые вам точно захочется повторить 10 неожиданных методов применения молока в быту, которые вам точно захочется повторить

Этот вкусный напиток можно использовать не только в кулинарии! Не верите?

ТехИнсайдер
Проверим щитовидку Проверим щитовидку

5 незаметных симптомов, которые сигнализируют о проблемах щитовидной железы

Лиза
Работа в команде. 5 способов этому научиться Работа в команде. 5 способов этому научиться

Как стать человеком, который обладает навыками работы в команде?

Лиза
Аттосекундное дело Аттосекундное дело

Пьер Агостини, Ференц Краус и Ан Люйе придумали, как разглядеть электрон

Наука
«Останавливаться я не собираюсь» «Останавливаться я не собираюсь»

Екатерина Молоховская на сцене — артистка, а в жизни — психолог

OK!
Ксения Кузнецова: «Если мне что-то не нравится, начинаю над этим работать» Ксения Кузнецова: «Если мне что-то не нравится, начинаю над этим работать»

Ксения Кузнецова – о горах, доме без углов, восприятии своей внешности и счастье

Здоровье
«Порчу все, к чему прикасаюсь»: как детские травмы обесценивают успехи и достижения «Порчу все, к чему прикасаюсь»: как детские травмы обесценивают успехи и достижения

Глава из книги «Что знают мои кости» — о детских травмах

Forbes
Всем по собаке Всем по собаке

Как помогать бездомным животным и на какие фонды стоит обратить внимание

Grazia
Редкий гривистый голубь долетел до восточного побережья Австралии Редкий гривистый голубь долетел до восточного побережья Австралии

Редкий гривистый голубь гнездится на островах от Юго-Восточной Азии до Меланезии

N+1
Открыть в приложении