Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как можно укрепить колени, уменьшить их скованность и ломоту с возрастом Как можно укрепить колени, уменьшить их скованность и ломоту с возрастом

Атрофия особенно сильно сказывается на коленях. Почему?

ТехИнсайдер
Мы выяснили, что такое — «Москвич 6». Это точно «китаец»? Мы выяснили, что такое — «Москвич 6». Это точно «китаец»?

Может ли «Москвич 6» в чем-то обставить своих земляков или это еще один китаец

РБК
Цифровое око правосудия. Как роботы помогают искать преступников в России Цифровое око правосудия. Как роботы помогают искать преступников в России

Смогут ли роботы заменить следователей и нужно ли это?

Inc.
Билайн взялся за трубку: зачем оператор купил сервис коллтрекинга Билайн взялся за трубку: зачем оператор купил сервис коллтрекинга

«Вымпелком» купил контрольный пакет в компании «Колибри»,

Forbes
Что такое калланетика и помогает ли она похудеть: 9 упражнений Что такое калланетика и помогает ли она похудеть: 9 упражнений

Эффективный комплекс упражнений для укрепления мышц, которые можно делать дома

РБК
Почему до сих пор не удалось найти дно у Бездонного озера — главной загадки Подмосковья? Почему до сих пор не удалось найти дно у Бездонного озера — главной загадки Подмосковья?

Вот уже почти 200 лет русские исследователи пытаются отыскать в Бездонном... дно

ТехИнсайдер
Полина Лазарева: «Найду любой повод, чтобы пострадать» Полина Лазарева: «Найду любой повод, чтобы пострадать»

Я стою на ногах только благодаря тому, что у меня есть на кого опереться

Караван историй
Как производители подсаживают вас на электронные сигареты: 3 коварных приема Как производители подсаживают вас на электронные сигареты: 3 коварных приема

Почему электронные сигареты такие популярные?

Psychologies
«Мышь»: роман о том, как зомби-апокалипсис уничтожает Москву и ее жителей «Мышь»: роман о том, как зомби-апокалипсис уничтожает Москву и ее жителей

Отрывок из романа «Мышь»: про апокалипсис ходячих мертвецов в России

Forbes
5 сигналов, что вы газлайтите самого себя 5 сигналов, что вы газлайтите самого себя

Как выглядит газлайтинг самого себя?

Psychologies
Алина Кохно Алина Кохно

Об опасности дефицита железа из первых уст

Здоровье
Цена совершенства: психолог рассказал о последствиях синдрома отличника Цена совершенства: психолог рассказал о последствиях синдрома отличника

К каким последствиям может привести чрезмерная требовательность к себе

Psychologies
Чувство дома Чувство дома

Как сохранить в себе чувство дома, где бы вы ни оказались

Новый очаг
Болен по собственному желанию Болен по собственному желанию

Как работает психосоматика простуды

Лиза
Как носить водолазку, если тебе за 50: советы стилистов Как носить водолазку, если тебе за 50: советы стилистов

Знаешь ли ты, что водолазки существуют уже сотни лет — как минимум с XV века?

VOICE
«Книга решений» Мишеля Гондри: история гения… или пациента с ментальным расстройством? «Книга решений» Мишеля Гондри: история гения… или пациента с ментальным расстройством?

Разбираем типажи из фильма «Книга решений» режиссера Мишеля Гондри

Psychologies
Лучшие нон-фикшн новинки этой зимы: 7 книг о ломбардах, женщинах-астрономах и геноме человека Лучшие нон-фикшн новинки этой зимы: 7 книг о ломбардах, женщинах-астрономах и геноме человека

Семь новинок издательской группы «Альпина»

ТехИнсайдер
Хорошие сериалы про женщин-следователей, от которых захватывает дух Хорошие сериалы про женщин-следователей, от которых захватывает дух

Детективные сериалы, которые демонстрируют лучшие качества женщин

VOICE
Как из соседей снова превратиться в супругов: 5 шагов к семейному счастью Как из соседей снова превратиться в супругов: 5 шагов к семейному счастью

Можно ли вернуть страсть и нежность в брак?

Psychologies
Цитрусовый помощник по дому: 7 способов применения лимонов не по назначению Цитрусовый помощник по дому: 7 способов применения лимонов не по назначению

Знаете ли вы, что лимон можно не только добавлять в чай?

ТехИнсайдер
Призрак изобилия Призрак изобилия

Как на ВДНХ вернулся пафос

Weekend
В стиле ретро В стиле ретро

Вдохновляемся нестареющей классикой

Лиза
Пацаны и чушпаны: как сериал «Слово пацана» исследует подростковую преступность 80-х Пацаны и чушпаны: как сериал «Слово пацана» исследует подростковую преступность 80-х

«Слово пацана»: очевидные недостатки и неочевидные достоинства сериала

Forbes
Джордан, Болт и Бобров: атлеты, проявившие себя в разных видах спорта Джордан, Болт и Бобров: атлеты, проявившие себя в разных видах спорта

Атлеты, которые проявляли себя в двух разных видах спорта одновременно

Forbes
Развлечение из детства с жуткой историей: когда придумали телефон из стаканчиков и нити и как он работает Развлечение из детства с жуткой историей: когда придумали телефон из стаканчиков и нити и как он работает

Многих на протяжении детства волновал вопрос, как работают ниточные телефоны

ТехИнсайдер
Формула чуда: как химики сделали шаг к разгадке тайны зарождения жизни Формула чуда: как химики сделали шаг к разгадке тайны зарождения жизни

Последовательная и стройная картина появления первых живых существ

Forbes
«Я показываю ту страшную жизнь, которая связана с этим дряхлым телом» «Я показываю ту страшную жизнь, которая связана с этим дряхлым телом»

Резо Гигинеишвили о своем фильме «Пациент №1»

Weekend
Я — сноб: режиссер Павел Мирзоев Я — сноб: режиссер Павел Мирзоев

Режиссер Павел Мирзоев — о связи с Франсуа Трюффо и любви к Санкт-Петербургу.

СНОБ
Что делать, если не работает один наушник: практические рекомендации Что делать, если не работает один наушник: практические рекомендации

Почему может не работать один наушник и как устранить неисправность

CHIP
«Сейчас такой период, когда меня наконец увидели» «Сейчас такой период, когда меня наконец увидели»

К 17 годам актриса Лиза Ищенко успела громко заявить о себе, и это не случайно!

OK!
Открыть в приложении