Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Только не перезванивайте: 5 простых способов, как узнать, кто звонил с неизвестного номера Только не перезванивайте: 5 простых способов, как узнать, кто звонил с неизвестного номера

Как понять, что с незнакомого номера звонит злоумышленник?

ТехИнсайдер
Когда возникает «наука», или История понятия «science» Когда возникает «наука», или История понятия «science»

Развитие научного знания в Англии в XVII веке

Знание – сила
Джуны нужны: неочевидные преимущества молодых айтишников и почему их не заменит ИИ Джуны нужны: неочевидные преимущества молодых айтишников и почему их не заменит ИИ

Работодателям имеет смысл вкладываться в развитие начинающих IT-специалистов

Inc.
«Мы поцеловались первый раз в кадре» «Мы поцеловались первый раз в кадре»

Актеры Анастасия Талызина и Сергей Новосад — о судьбоносных съемках и везении

OK!
Четыре способа вернуться к себе Четыре способа вернуться к себе

Разные виды психотерапии – разные пути, ведущие к внутренней зрелости

Psychologies
Cупермедведь Cупермедведь

Как Джон Полсон заработал миллиарды на неплатежах по ипотеке

Деньги
13 психологических приемов, которые помогают расшатать укоренившуюся вредную мысль 13 психологических приемов, которые помогают расшатать укоренившуюся вредную мысль

Как убеждения мешают вашей самооценке или не дают строить счастливые отношения?

Psychologies
Премия за самый короткий импульс света Премия за самый короткий импульс света

Как электроны связаны с современной наукой?

Наука и жизнь
В Британии нашли любовные письма, написанные в XVIII веке плененным французским морякам. Они похожи на современные переписки в WhatsApp В Британии нашли любовные письма, написанные в XVIII веке плененным французским морякам. Они похожи на современные переписки в WhatsApp

О чем писали люди XVIII века в любовных письмах?

Правила жизни
Алина Кохно Алина Кохно

Об опасности дефицита железа из первых уст

Здоровье
Поворот к себе Поворот к себе

Соня Аржаных — о первом гонораре, синдроме самозванца и мечте написать сценарий

Grazia
Биометрическая идентификация: миф или реальность? Биометрическая идентификация: миф или реальность?

Биометрическая идентификация: что это, насколько она безопасна и удобна

Наука и техника
Интеллектуальная проходимость Интеллектуальная проходимость

Как электроника увеличивает внедорожные возможности машины

ТехИнсайдер
Хватит кашлять! Хватит кашлять!

Натуральные средства от сухого кашля

Лиза
Психологи рассказали, почему нельзя задавать детям вопрос «Как дела в школе?» Психологи рассказали, почему нельзя задавать детям вопрос «Как дела в школе?»

Как спросить ребенка о его прошедшем дне, чтобы он дал честный ответ?

Inc.
Багряный сентябрь Багряный сентябрь

После свержения короля Людовика XVI новая власть действовала быстро и жёстко

Дилетант
Что скрывают панические атаки Что скрывают панические атаки

Вас замучили панические атаки, ипохондрия и другие страхи?

Psychologies
«Свекровь не дает нам с мужем заниматься сексом»: личная история и комментарий психолога «Свекровь не дает нам с мужем заниматься сексом»: личная история и комментарий психолога

Вместе с семейным психологом разбираемся в причинах нелюбви свекровей к невестам

Psychologies
«Книга решений» Мишеля Гондри: история гения… или пациента с ментальным расстройством? «Книга решений» Мишеля Гондри: история гения… или пациента с ментальным расстройством?

Разбираем типажи из фильма «Книга решений» режиссера Мишеля Гондри

Psychologies
Российские компании переписывают утиную историю Российские компании переписывают утиную историю

В чем причина резкого роста производства утки

Агроинвестор
Ведьма или чья-нибудь мама: почему актрис старше 40 лет ждет забвение в Голливуде Ведьма или чья-нибудь мама: почему актрис старше 40 лет ждет забвение в Голливуде

Как эйджизм по отношению к женщинам укоренился в кино

Forbes
Микрофинансисты нарастили долю одобрений займов клиентам «с улицы» Микрофинансисты нарастили долю одобрений займов клиентам «с улицы»

Микрофинансовые организации заметно нарастили долю займов клиентам «с улицы»

Forbes
Как малому бизнесу стать инвестором: какие есть доступные инструменты и способы Как малому бизнесу стать инвестором: какие есть доступные инструменты и способы

Инструменты, которые изменят для малого бизнеса представление об инвестировании

Inc.
12 признаков того, что ваша жена — нарцисс 12 признаков того, что ваша жена — нарцисс

Токсичные признаки женского нарциссизма

Psychologies
Билли Айлиш и Билл Гейтс: главные герои борьбы с изменением климата по версии Time Билли Айлиш и Билл Гейтс: главные герои борьбы с изменением климата по версии Time

Яркие и знаменитые личности, борющиеся с изменением климата

Forbes
«Наследие»: отрывок из нового романа Владимира Сорокина о докторе Гарине «Наследие»: отрывок из нового романа Владимира Сорокина о докторе Гарине

Глава из книги Владимира Сорокина «Наследие»

Forbes
Спорт круглый год: можно ли бегать зимой и какая от этого польза Спорт круглый год: можно ли бегать зимой и какая от этого польза

Бегать зимой можно! Нужно лишь учитывать некоторые нюансы

ТехИнсайдер
Утопления в Нанте Утопления в Нанте

Мрачное полотно Жозефа Обера, запечатлевшее нантские утопления

Дилетант
Нина Дворжецкая: «На «Оттепели» меня назвали пионервожатой» Нина Дворжецкая: «На «Оттепели» меня назвали пионервожатой»

Нина Дворжецкая поделилась своими взглядами на профессию артиста

Коллекция. Караван историй
Как правильно спать, чтобы все успевать, похудеть и чувствовать себя отдохнувшей Как правильно спать, чтобы все успевать, похудеть и чувствовать себя отдохнувшей

Простые правила здорового сна

VOICE
Открыть в приложении