Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«Осторожно, двери закрываются»: 90 лет эволюции поездов Московского метро «Осторожно, двери закрываются»: 90 лет эволюции поездов Московского метро

Как поезда столичного метро из утилитарных машин превратились в символ прогресса

ТехИнсайдер
Интеллектуальная проходимость Интеллектуальная проходимость

Как электроника увеличивает внедорожные возможности машины

ТехИнсайдер
Дорого и сложно: что тормозит внедрение ИИ в медицину Дорого и сложно: что тормозит внедрение ИИ в медицину

Почему внедрение инноваций в медицине происходит так медленно?

Forbes
Увидеть Эверест и не умереть Увидеть Эверест и не умереть

Комфорт, отличная еда и суперсервис в Гималаях

Robb Report
5 фраз, которые мгновенно выдают неуверенного в себе человека — и как научиться звучать уверенно 5 фраз, которые мгновенно выдают неуверенного в себе человека — и как научиться звучать уверенно

Каких именно слов и выражений стоит избегать, чтобы речь звучала тверже

VOICE
Солнечный закат в цветке Солнечный закат в цветке

Может ли цветок передать всё великолепие африканского заката?

Наука и жизнь
Улицы волшебных фонарей Улицы волшебных фонарей

«Волшебный участок»: милицейская сказка

Weekend
«Картинки в голове: И другие рассказы о моей жизни с аутизмом» «Картинки в голове: И другие рассказы о моей жизни с аутизмом»

Как лекарства облегчают жизнь людям с РАС

N+1
Критикан высокой кухни Критикан высокой кухни

«Ничего»: гурманский кулинарный сериал

Weekend
Качество жизни Качество жизни

В чем секрет успеха новой модели Arcadia A96?

Y Magazine
10 самых ярких Ferrari, о которых стыдно не знать мужчине 10 самых ярких Ferrari, о которых стыдно не знать мужчине

Изучаем культовую и самую дорогую продукцию Ferrari

Maxim
12 признаков того, что ваша жена — нарцисс 12 признаков того, что ваша жена — нарцисс

Токсичные признаки женского нарциссизма

Psychologies
С днем рождения, небесный маэстро! С днем рождения, небесный маэстро!

Вспомним историю легендарного авиаконструктора — Андрея Николаевича Туполева

Наука и техника
Как приготовить идеальный стейк: научный советы Как приготовить идеальный стейк: научный советы

Как превратить простой кусок мяса в шедевр

ТехИнсайдер
Что бы вы сказали себе 18-летнему, если бы могли вернуться в прошлое? Вот 25 идей Что бы вы сказали себе 18-летнему, если бы могли вернуться в прошлое? Вот 25 идей

Как именно (и зачем) нужно обращаться к себе из прошлого

Psychologies
«Главное — это вера и огромное терпение» «Главное — это вера и огромное терпение»

Диана Мирошникова рассказала о воспитании музыкой и знаковых встречах

OK!
«Откуда берутся дети? Краткий путеводитель по переходу из лагеря чайлдфри к тихим радостям семейственности» «Откуда берутся дети? Краткий путеводитель по переходу из лагеря чайлдфри к тихим радостям семейственности»

Как во время беременности работает иммунитет

N+1
Путеводитель по винному миру. Как правильно читать и понимать «географические указания» на этикетках вин Путеводитель по винному миру. Как правильно читать и понимать «географические указания» на этикетках вин

Что такое «географические указания» на этикетках вин

СНОБ
Проповедники убийств Проповедники убийств

Жан-Поль Марат, Максимилиан Робеспьер и Жорж Дантон — идеологи террора

Дилетант
Идиот и злодейство Идиот и злодейство

Как саботажник Швейк оказался самым обнадеживающим супергероем литературы

Weekend
Приятно познакомиться: 6 вещей, которые ты должна знать о своей зубной щетке Приятно познакомиться: 6 вещей, которые ты должна знать о своей зубной щетке

Как правильно выбрать, использовать и ухаживать за зубной щеткой?

VOICE
Крылышки и бяк-бяк-бяк Крылышки и бяк-бяк-бяк

«Ниша»: руины советского мифа как актуальный предмет исследования

Weekend
Эксперименты и смекалка. Как инженеры создают суперстекла для гражданской авиации и транспорта Эксперименты и смекалка. Как инженеры создают суперстекла для гражданской авиации и транспорта

Как создаются сверхпрочные стекла из уникального материала для самолетов

СНОБ
Как выбрать и ухаживать за экошубой, чтобы она выглядела Как выбрать и ухаживать за экошубой, чтобы она выглядела

По каким критериям выбирать искусственную шубу и как потом за ней ухаживать?

VOICE
Как на годы продлить эффект от пластики: шпаргалка от хирурга Как на годы продлить эффект от пластики: шпаргалка от хирурга

Эти вещи нужно знать еще перед тем, как лечь под нож!

VOICE
Объединяй и властвуй Объединяй и властвуй

Блогосфера сегодня завоевала большую аудиторию, распространилась на все сферы

OK!
Отступление россиян поставило жирный крест на надеждах врага: европейцы вовсю кусали локти Отступление россиян поставило жирный крест на надеждах врага: европейцы вовсю кусали локти

Какой была битва под Витебском 1812 года

ТехИнсайдер
Какой срок службы у грязевых шин? Какой срок службы у грязевых шин?

Срок службы у грязевых шин зависит от региона эксплуатации и климата

4x4 Club
Как правильно спать, чтобы все успевать, похудеть и чувствовать себя отдохнувшей Как правильно спать, чтобы все успевать, похудеть и чувствовать себя отдохнувшей

Простые правила здорового сна

VOICE
5 самых популярных запросов, с которыми женщины идут к психологам 5 самых популярных запросов, с которыми женщины идут к психологам

Проблемы, за решением которых женщины обращаются к специалистам чаще всего

Psychologies
Открыть в приложении