Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Первый советский хакер остановил конвейер ВАЗа… и раскрыл заговор айтишников. Вот как это было Первый советский хакер остановил конвейер ВАЗа… и раскрыл заговор айтишников. Вот как это было

Амбициозный программист сначала стал преступником, затем национальным героем

ТехИнсайдер
Отрывок из романа Алисы Ханцис «Кариатиды» Отрывок из романа Алисы Ханцис «Кариатиды»

Глава из романа Алисы Ханцис «Кариатиды»

СНОБ
Как поменять сторону открывания холодильника — подробная инструкция Как поменять сторону открывания холодильника — подробная инструкция

Как поменять сторону открывания холодильника и не ошибиться

CHIP
Пухлая девочка в уродливых очках: как Билли Джин Кинг изменила себя, спорт и женщин Пухлая девочка в уродливых очках: как Билли Джин Кинг изменила себя, спорт и женщин

Как девочка из Калифорнии стала иконой для нескольких поколений женщин

Forbes
«Я жила с маньяком»: исповедь женщины, которая 30 лет страдала от секс-зависимости мужа «Я жила с маньяком»: исповедь женщины, которая 30 лет страдала от секс-зависимости мужа

Излишняя страсть в отношениях может мучать обоих партнеров: личная история

Psychologies
Мир сходит с ума от сериала «Удивительный цифровой цирк»: чем он покоряет зрителей Мир сходит с ума от сериала «Удивительный цифровой цирк»: чем он покоряет зрителей

В чем феномен моментального успеха «Удивительного цифрового цирка»

Psychologies
Заносить перо в рану Заносить перо в рану

Альбер Лондр — классик французской расследовательской журналистики

Дилетант
Переменное напряжение Переменное напряжение

ВЧ-мобиль – неосуществленный проект сороковых годов

Автопилот
12 признаков того, что ваша жена — нарцисс 12 признаков того, что ваша жена — нарцисс

Токсичные признаки женского нарциссизма

Psychologies
Стеклянный небосвод вместо стеклянного потолка. Отрывок из книги о женщинах-астрономах Стеклянный небосвод вместо стеклянного потолка. Отрывок из книги о женщинах-астрономах

История первых женщин-астрономов

СНОБ
Пять самых захватываюющих книг о проблемах первого контакта с инопланетянами Пять самых захватываюющих книг о проблемах первого контакта с инопланетянами

Книги, в которых описан первый контакт с инопланетянами в различных декорациях

Maxim
Как похудеть на... 10 лет Как похудеть на... 10 лет

Как распрощаться не только с лишним весом, но и с «лишним» возрастом?

Лиза
«Как заниматься сексом»: фильм о том, почему первый опыт часто оказывается травмой «Как заниматься сексом»: фильм о том, почему первый опыт часто оказывается травмой

«Как заниматься сексом»: фильм о подростках, исследующих свою сексуальность

Forbes
Константин Станиславский: Правда и мифы Константин Станиславский: Правда и мифы

Что в биографии Константина Станиславского правда, а что — устоявшийся вымысел?

Караван историй
Вау-эффект Вау-эффект

Джеймс Стюарт о пользе восторга, который мы испытываем, странствуя по миру

Robb Report
Как скачать видео с VK: 3 простых и проверенных способа в 2023 году Как скачать видео с VK: 3 простых и проверенных способа в 2023 году

Скачать видео с «Вконтакте» можно. В этой статье мы расскажем, как именно

CHIP
Доска почёта Доска почёта

Как изготавливают самые быстрые и красивые сноуборды

Robb Report
Что делать, если не работает один наушник: практические рекомендации Что делать, если не работает один наушник: практические рекомендации

Почему может не работать один наушник и как устранить неисправность

CHIP
Как отсутствие личных границ мешает полноценной жизни: две привычки, вызывающие стресс Как отсутствие личных границ мешает полноценной жизни: две привычки, вызывающие стресс

Почему люди сами себе придумывают стрессовые ситуации?

Psychologies
Отступление россиян поставило жирный крест на надеждах врага: европейцы вовсю кусали локти Отступление россиян поставило жирный крест на надеждах врага: европейцы вовсю кусали локти

Какой была битва под Витебском 1812 года

ТехИнсайдер
Не устал, но ухожу Не устал, но ухожу

«Дворец»: Роман Полански встречает конец света и прощается

Weekend
Основные принципы езды по снегу и льду Основные принципы езды по снегу и льду

Зимний офф-роуд — традиционная российская забава

4x4 Club
Такое все зеленое Такое все зеленое

Зеленая диета + 14 лучших продуктов

Лиза
Александр Сысоев — Forbes: «У меня не было мысли называть себя лидером индустрии» Александр Сысоев — Forbes: «У меня не было мысли называть себя лидером индустрии»

Александр Сысоев создал одну из самых успешных экосистем в ресторанной индустрии

Forbes
Театр поражения Театр поражения

С чего началась первая общеевропейская война и кто в ней победил

Weekend
От безработицы к дефициту кадров: как сломалась российская модель рынка труда От безработицы к дефициту кадров: как сломалась российская модель рынка труда

Что привело к нехватке рабочих рук и почему так сложно решить проблему вакансий

Forbes
Ментальный словарь: как наш мозг запоминает и использует слова Ментальный словарь: как наш мозг запоминает и использует слова

Все люди используют один и тот же язык совершенно по-разному

ТехИнсайдер
5 советов, как прожить более 100 лет, от австралийской долгожительницы 5 советов, как прожить более 100 лет, от австралийской долгожительницы

Позитивный настрой и занятия спортом: секреты долгожительницы

Inc.
10 неожиданных методов применения молока в быту, которые вам точно захочется повторить 10 неожиданных методов применения молока в быту, которые вам точно захочется повторить

Этот вкусный напиток можно использовать не только в кулинарии! Не верите?

ТехИнсайдер
Ученые опубликовали меню королевских трапез британских монархов Георга III и Георга IV Ученые опубликовали меню королевских трапез британских монархов Георга III и Георга IV

Какие блюда подавались к столу двух британских королей?

ТехИнсайдер
Открыть в приложении