Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как крупнейшая в мире миротворческая организация вызвала эпидемию, от которой погибли 10 000 человек Как крупнейшая в мире миротворческая организация вызвала эпидемию, от которой погибли 10 000 человек

Как в 2010 году миротворческая организация вызвала на Гаити эпидемию холеры

ТехИнсайдер
Передача семьи Романовых Уралсовету Передача семьи Романовых Уралсовету

Картина Владимира Пчёлина, изображающая передачу Николая II Уралсовету

Дилетант
Сетевые дементоры: что такое теория «мертвого интернета» и вытеснит ли ИИ живых людей Сетевые дементоры: что такое теория «мертвого интернета» и вытеснит ли ИИ живых людей

Какие риски для современного мира представляет GPT-контент?

Forbes
5 лучших безалкогольных коктейлей на новогодние праздники 5 лучших безалкогольных коктейлей на новогодние праздники

Интересные напитки для тех, кто не пьет алкоголь

ТехИнсайдер
Новое исследование: мат улучшает спортивные результаты Новое исследование: мат улучшает спортивные результаты

Как «матюки» во время физических нагрузок помогают превзойти свои возможности

Maxim
Смываться разрешается: как унитазы стали предметом искусства Смываться разрешается: как унитазы стали предметом искусства

Как золотые унитазы стали предметом совриска и причем тут Ленин

Правила жизни
Анна Кранк Анна Кранк

Анна Кранк — о розовых пони, боксе и русском национальном феминизме

Собака.ru
Все фильмы вселенной Гарри Поттера от худшего к лучшему Все фильмы вселенной Гарри Поттера от худшего к лучшему

А вам слабо пересмотреть «Гарри Поттеров» в порядке возрастания качества?

Maxim
«Валентина Толкунова — это вся моя жизнь», — рассказывает директор певицы Любовь Майорова «Валентина Толкунова — это вся моя жизнь», — рассказывает директор певицы Любовь Майорова

Любовь Майорова вспоминает о певице Валентине Толкуновой

Коллекция. Караван историй
Классика жанра: 3 выдающихся фантастических романа 90-х, которые вы могли пропустить Классика жанра: 3 выдающихся фантастических романа 90-х, которые вы могли пропустить

Фантастические романы, которые до сих пор впечатляют идеями и сюжетами

ТехИнсайдер
Что делать, если не работает один наушник: практические рекомендации Что делать, если не работает один наушник: практические рекомендации

Почему может не работать один наушник и как устранить неисправность

CHIP
Считавшегося вымершим златокрота переоткрыли спустя 80 лет Считавшегося вымершим златокрота переоткрыли спустя 80 лет

Зоологи переоткрыли златокрота Де Винтона — редкое млекопитающее

N+1
Правила игры на кухне Правила игры на кухне

Как родителям познакомить маленьких детей с миром большой кулинарии

Новый очаг
Аспирин в тарелке Аспирин в тарелке

Оказывается, многие продукты содержат аспирин. И добавляет его туда сама природа

Здоровье
Насморк Насморк

Нос стал хуже дышать. Обычно это никого не пугает. И зря

Здоровье
«Мама проверяла, дышу ли я»: история лыжницы, которая побеждает, несмотря на булимию «Мама проверяла, дышу ли я»: история лыжницы, которая побеждает, несмотря на булимию

32-летняя Джесси Диггинс является самой титулованной американкой в лыжных гонках

Forbes
Краткая история пикапов Jeep. С 1947 года и до наших дней Краткая история пикапов Jeep. С 1947 года и до наших дней

Что помешало Jeep продолжить грузовую линейку?

4x4 Club
Почему наша память становится хуже и как ее улучшить: 5 советов от невролога Почему наша память становится хуже и как ее улучшить: 5 советов от невролога

Что приводит к ухудшению памяти и что стоит сделать, чтобы улучшить ее

Psychologies
Планета номер Икс Планета номер Икс

Гипотетическую девятую планету до сих пор не увидели ни в один телескоп

ТехИнсайдер
10 маленьких машин, которые идеально подойдут для девушек 10 маленьких машин, которые идеально подойдут для девушек

Небольшие, но удобные машины

РБК
Кино о кино: 7 лучших документальных фильмов о самом дорогом искусстве Кино о кино: 7 лучших документальных фильмов о самом дорогом искусстве

Документальные фильмы, которые откроют для вас кинопроцесс с новой стороны

Правила жизни
Люди-триггеры: кто это и зачем они нужны в жизни каждого Люди-триггеры: кто это и зачем они нужны в жизни каждого

Как люди-триггеры влияют на нашу «темную сторону»

Psychologies
Спасение утонувшего Спасение утонувшего

«Как заниматься сексом»: дежурная тинейджерская агитка

Weekend
«Повезло этой беженке найти такой славный дом»: как жили спасенные от Холокоста дети «Повезло этой беженке найти такой славный дом»: как жили спасенные от Холокоста дети

Глава из книги Веры Гиссинг «Жемчужины детства»

Forbes
У американки с двумя матками выявили беременность в обеих У американки с двумя матками выявили беременность в обеих

32-летняя жительница Алабамы с двумя матками вынашивает ребенка в каждой из них

N+1
Королеву — под нож Королеву — под нож

Какой была жизнь и смерть Марии-Антуанетты

Дилетант
Однажды в Ростове Однажды в Ростове

История одного особняка

Новый очаг
Острые ощущения Острые ощущения

Они любят риск, покоряют вершины, но не могут остановиться. Что виной тому?

Здоровье
Чем подкармливать комнатные растения зимой: готовим домашние удобрения из пищевых отходов Чем подкармливать комнатные растения зимой: готовим домашние удобрения из пищевых отходов

Несколько средств, которые позволят буквально оживить ваши растения зимой

ТехИнсайдер
Александр Ефимович Теплоухов: личность, семья, работа Александр Ефимович Теплоухов: личность, семья, работа

Александр Теплоухов — крупнейший русский лесовод, археолог, историк, этнограф

Знание – сила
Открыть в приложении