Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

ИИ помогает собрать «мозг» квантового компьютера ИИ помогает собрать «мозг» квантового компьютера

Как модель ИИ собирает атомные решетки — основы будущих квантовых компьютеров

ТехИнсайдер
Почему может чесаться кожа Почему может чесаться кожа

Если у вас чешется кожа, вариантов, что же происходит может быть множество

ТехИнсайдер
Как выбрать фотопленку? Вот почему Portra 400 для портретов, а Ektar 100 — для пейзажей! Как выбрать фотопленку? Вот почему Portra 400 для портретов, а Ektar 100 — для пейзажей!

Проверенные варианты фотопленок, которые работают в разных условиях

ТехИнсайдер
«Останавливаться я не собираюсь» «Останавливаться я не собираюсь»

Екатерина Молоховская на сцене — артистка, а в жизни — психолог

OK!
Из мужского гардероба — в одежду для Барби: как розовый стал женским цветом Из мужского гардероба — в одежду для Барби: как розовый стал женским цветом

Как розовый стал воплощением гендерных стереотипов

Forbes
Облигации станут лесопарком Облигации станут лесопарком

Как банки расширяют практики устойчивого развития

Деньги
Что выкачивает из нас энергию: 6 неочевидных причин хронической усталости Что выкачивает из нас энергию: 6 неочевидных причин хронической усталости

Ощущаете, что вам постоянно не хватает жизненных сил?

Psychologies
Гнать волну Гнать волну

Серфинг — самый романтичный и один из самых сложных видов экстремального спорта

ТехИнсайдер
Норма, я тебя знаю Норма, я тебя знаю

Михаил Лабковский о понятии «норма», гениальности, детских травмах и счастье

Psychologies
Про отцов и для отцов: 5 книг, которые помогут разобраться в детско-родительских отношениях Про отцов и для отцов: 5 книг, которые помогут разобраться в детско-родительских отношениях

Хотите узнать о роли отца в культурной традиции и вашей собственной жизни?

Psychologies
Нестыдный рефлекс: 5 причин, почему сдерживать чихание вредно Нестыдный рефлекс: 5 причин, почему сдерживать чихание вредно

Почему позволять себе свободно чихать — это на здоровье

ТехИнсайдер
Нейросеть vs тревога: 3 простых упражнения, которые помогут справиться со стрессом Нейросеть vs тревога: 3 простых упражнения, которые помогут справиться со стрессом

Как нейросети усовершенствовали арт-терапию

Psychologies
Очевидная премия за очевидные открытия: Клаудиа Голдин Очевидная премия за очевидные открытия: Клаудиа Голдин

Клаудиа Голдин объяснила, почему женщины зарабатывают меньше мужчин

Наука
Гонимая и ненагражденная Гонимая и ненагражденная

Почему Лиза Мейтнер так и не получила Нобелевскую премию

Знание – сила
Как и когда шимпанзе ловят термитов на удочку Как и когда шимпанзе ловят термитов на удочку

Есть ли связь между доступностью термитов и тем, когда шимпанзе их ловят?

ТехИнсайдер
Странствие по странностям Странствие по странностям

Все ли со мной в порядке? Почему мои близкие так странно себя ведут?

Psychologies
В ловушке гениальности В ловушке гениальности

Были бы шедевры, если бы их творцы не отличались особенностями психики?

Psychologies
Почему во время менопаузы стоит сделать перманентный макияж: 5 плюсов процедуры для женщин 50+ Почему во время менопаузы стоит сделать перманентный макияж: 5 плюсов процедуры для женщин 50+

Выраженный эффект от перманентного макияжа можно увидеть во время менопаузы

VOICE
Хрононный радар Хрононный радар

Разрешаем последние нестыковки физики Quantum Break со сценаристом игры

N+1
Недорогие старые препараты предотвратили мигрень не хуже дорогих новых Недорогие старые препараты предотвратили мигрень не хуже дорогих новых

Ученые сравнили эффективность препаратов для профилактики приступов мигрени

N+1
«Женщину хотят и презирают одновременно»: почему мужчины не переносят отказ в сексе «Женщину хотят и презирают одновременно»: почему мужчины не переносят отказ в сексе

Отрывок из книги «Секс в эпоху согласия»

Psychologies
Дело не в мышцах, а в мозге: Янник Синнер тренируется по уникальной методике Дело не в мышцах, а в мозге: Янник Синнер тренируется по уникальной методике

Кто такой доктор Чеккарелли и в чем суть его волшебной методики

Forbes
Из спортивной журналистки в предпринимательницы Из спортивной журналистки в предпринимательницы

Как Мария Командная сменила футбол на косметику

Inc.
Как из соседей снова превратиться в супругов: 5 шагов к семейному счастью Как из соседей снова превратиться в супругов: 5 шагов к семейному счастью

Можно ли вернуть страсть и нежность в брак?

Psychologies
Семь чудес Моники Беллуччи Семь чудес Моники Беллуччи

Секрет ее вечной молодости прост — она никогда не жила по правилам

Караван историй
Как избавиться от головной боли без лекарств: 10 рабочих способов Как избавиться от головной боли без лекарств: 10 рабочих способов

На работе застала головная боль, а таблетки нет ни у вас, ни у коллег?

ТехИнсайдер
Достойна лучшего Достойна лучшего

Стоит ли заводить роман с лучшим другом?

VOICE
Сомнительная изнанка «Основного инстинкта»: как создавался один из самых популярных фильмов 1990-х Сомнительная изнанка «Основного инстинкта»: как создавался один из самых популярных фильмов 1990-х

На съемках «Основного инстинкта» не обошлось без скандалов и предательств

Правила жизни
Красная курица, или Парижские жители Красная курица, или Парижские жители

«Цыпленок для Линды»: нарисованная история про память

Weekend
Цена совершенства: психолог рассказал о последствиях синдрома отличника Цена совершенства: психолог рассказал о последствиях синдрома отличника

К каким последствиям может привести чрезмерная требовательность к себе

Psychologies
Открыть в приложении