Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Синдром беспокойных гениталий и алкаптонурия: 6 загадочный болезней, о которых вы могли даже не слышать Синдром беспокойных гениталий и алкаптонурия: 6 загадочный болезней, о которых вы могли даже не слышать

Какие удивительные диагнозы порой ставят людям?

ТехИнсайдер
Как отмыть руки после чистки грибов: 5 проверенных методов Как отмыть руки после чистки грибов: 5 проверенных методов

Что тогда делать с образовавшими темными и жирными пятнами на руках от грибов?

ТехИнсайдер
От нефтеразведки до торговли: как российские компании применяют нейросети От нефтеразведки до торговли: как российские компании применяют нейросети

В каких сферах применяют ИИ и каких результатов удалось добиться?

Inc.
Метеорологи уточнили оценку эффекта Туми в два раза Метеорологи уточнили оценку эффекта Туми в два раза

Уточнение оценки эффекта Туми сделает климатические модели более точными

N+1
Используй ложку и телефон: 20 способов доставить себе удовольствие Используй ложку и телефон: 20 способов доставить себе удовольствие

Двадцать разных способов мастурбации на любой вкус и цвет

Cosmopolitan
«Наши мастера не уступают мировым производителям»: Олег Клодт о рынке архитектуры «Наши мастера не уступают мировым производителям»: Олег Клодт о рынке архитектуры

Архитектор Олег Клодт — о том, чем отличается девелопмент в России и на Западе?

Forbes
«Сейчас такой период, когда меня наконец увидели» «Сейчас такой период, когда меня наконец увидели»

К 17 годам актриса Лиза Ищенко успела громко заявить о себе, и это не случайно!

OK!
Славный город Славный город

Все годы жизни Севастополь подтверждал правильный выбор своего имени

Отдых в России
Развлечение из детства с жуткой историей: когда придумали телефон из стаканчиков и нити и как он работает Развлечение из детства с жуткой историей: когда придумали телефон из стаканчиков и нити и как он работает

Многих на протяжении детства волновал вопрос, как работают ниточные телефоны

ТехИнсайдер
ИИ научился предсказывать появление гигантских волн-убийц в океане ИИ научился предсказывать появление гигантских волн-убийц в океане

Ученые нашли формулу, позволяющую предсказать появление гигантских волн-убийц

ТехИнсайдер
Слепки эпохи: что мешает востребованности Единой биометрической системы Слепки эпохи: что мешает востребованности Единой биометрической системы

Жесткое регулирование биометрии может помешать развивать новые сервисы

Forbes
Оказалось, что «кошачий» паразит делает пожилых людей слабее Оказалось, что «кошачий» паразит делает пожилых людей слабее

Кошачьи могут представлять серьезную опасность для пожилых людей

ТехИнсайдер
Что такое настоящие инновации. 6 очень важных технологий в автомобилях Что такое настоящие инновации. 6 очень важных технологий в автомобилях

Современные автомобили становятся настоящими гаджетами на колесах

РБК
Головкины Головкины

Дворянский род, сделавший себе имя благодаря семейным связям

Дилетант
Как оставаться активным во время депрессии: 5 рекомендаций Как оставаться активным во время депрессии: 5 рекомендаций

Как быть активным, если из-за депрессии совсем нет сил?

Psychologies
Миссия выполнима Миссия выполнима

Уникальный фэшн-проект: народный промысел фабрики «Крестецкая строчка»

OK!
Пойми меня, дорогой Пойми меня, дорогой

Главные правила, как общаться с мужчиной

Лиза
«Валентина Толкунова — это вся моя жизнь», — рассказывает директор певицы Любовь Майорова «Валентина Толкунова — это вся моя жизнь», — рассказывает директор певицы Любовь Майорова

Любовь Майорова вспоминает о певице Валентине Толкуновой

Коллекция. Караван историй
Вампиры среди нас: 6 признаков энергетического «Дракулы» Вампиры среди нас: 6 признаков энергетического «Дракулы»

Такие люди иногда сами не подозревают, что паразитируют на окружающих

Psychologies
Ольга Погодина: «У меня нет проблем с Вселенной, мы с ней давно договорились» Ольга Погодина: «У меня нет проблем с Вселенной, мы с ней давно договорились»

Несмотря на смутные времена, когда все плохо, все равно нельзя останавливаться

Караван историй
Выйти из тени Выйти из тени

В некоторых местах планеты бороться с нехваткой света приходится уже сейчас

Вокруг света
«Вставь это немедленно»: почему сцены секса в литературе так плохи «Вставь это немедленно»: почему сцены секса в литературе так плохи

Почему писателям так трудно даются удачные постельные сцены?

Psychologies
Энергия вулкана Энергия вулкана

Obsidian — первая суперъяхта, которую Feadship передала заказчику в 2023 году

Y Magazine
7 шагов, чтобы безболезненно вернуться к бывшему партнеру 7 шагов, чтобы безболезненно вернуться к бывшему партнеру

Стоит ли дать прошлым отношениям второй шанс?

Psychologies
Семь достоинств кофе Семь достоинств кофе

Научные исследования в корне меняют наши представления о кофе

Здоровье
Домик на крыше Домик на крыше

Сколько стоит пентхаус

Деньги
Союз правых: что помогло Хавьеру Милею победить на президентских выборах Союз правых: что помогло Хавьеру Милею победить на президентских выборах

Радикальная программа президента Аргентины вряд ли будет полностью реализована

Forbes
Авто особого назначения Авто особого назначения

На чем будут ездить российские чиновники

Деньги
«Математические игры с дурацкими рисунками: 75¼ простых, но требующих сообразительности игр, в которые можно играть где угодно» «Математические игры с дурацкими рисунками: 75¼ простых, но требующих сообразительности игр, в которые можно играть где угодно»

Отрывок из книги с развлекательными математическими задачками

N+1
«О поверхностях мы не знаем ничего» «О поверхностях мы не знаем ничего»

Пластиковые отходы действительно можно превратить в доходы

Наука
Открыть в приложении