Преобразование представлений информации. Автоматизация ввода

Несмотря на развитые методы и большое количество средств работы с различными видами информации, преобразование этих представлений (т.е. перевод из одной формы в другую с сохранением смысла) часто оказывается сложной задачей, не имеющей универсального решения.

Задача преобразования чаще всего строится так: есть некоторый поток данных, полученных в результате оцифровки. Требуется выделить из него исходный текст и выдать его в другой форме.

Вот несколько наиболее часто решаемых задач такого типа.

Рабочее окно распознавания текста Abbyy FineReader

Задача распознавания текста. В этом случае требуется на растровом изображении (матрице окрашенных точек) распознать текст и сформировать соответствующий документ. Решение этой задачи сильно осложнено существованием большого количества различных шрифтов, неточностями сканирования и повреждением оригинала (наличием зачеркнутого текста, например), сложными приемами разметки (таблицами, информационными “врезками”, внедрением в текст рисунков и т.д.). Особенно сложным является распознавание рукописного текста.

Программные средства распознавания текста обеспечивают: прием изображения со сканера или графического файла, распознавание структуры листа, распознавание текста и последующее редактирование (исправление неверно распознанных элементов), и сохранение полученного результата. Точность распознавания в современных системах такого рода находится на уровне 97–99%. Для повышения качества распознавания такие системы позволяют проводить обучение, т.е. модифицировать базу средств распознавания.

Промышленные варианты систем распознавания текста, используя то же самое ядро распознавания, обеспечивают автоматизированный ввод и распознавание (работу с автоматической подачей документов), передачу распознанной информации в общую базу данных. Используют такие системы для быстрого ввода и заполнения всевозможных стандартных форм. Узнать подобные формы можно по строго заданным местам для написания букв и маркерам, позволяющим точно позиционировать поля на листе.

Задача векторизации изображения. Эта задача родственна уже описанной, но в ней речь идет о распознавании графических примитивов: кривых, заполненных областей и их параметров.

Программы такого рода применяют для оцифровки чертежей (раньше существовавших в бумажной форме), картографических материалов, обработки спутниковых снимков и формирования карт.

“Бытовые” средства распознавания графических примитивов позволяют подготовить векторное изображение (для плаката, например) по ранее нарисованному на бумаге.

Задача голосового ввода. Создание промышленных систем автоматического распознавания речи позволило бы значительно ускорить ввод большого количества данных, но, к сожалению, пока такие системы не обеспечивают достаточно высокой степени распознавания.

Как и системы распознавания текста, такие системы практически всегда обучаемы. Перед началом работы каждому новому оператору нужно потратить довольно много времени для предоставления системе своих голосовых данных; для этого приходится наговаривать специально подобранные тексты.

Сейчас программное обеспечение голосового ввода позволяет использовать голосовые команды для управления компьютером. Такой интерфейс увеличивает доступность вычислительной техники в ситуациях, когда ручное управление затруднено (например, для людей с ограниченными возможностями).

Задача синтеза речи. Часто бывает трудно или неудобно использовать экран для чтения текста (например, в транспорте), или хотелось бы получить информацию по голосовому каналу связи. В этом случае применяют программы синтеза речи.

Технически эти программы проще, чем программы распознавания, но безупречной их работу назвать сложно — “начитанный” такими программами текст часто оказывается неестественным и плохо воспринимается человеком. Трудности возникают при расстановке ударений, интонировании предложений и фраз, чтении неизвестных системе слов.

Тем не менее такие системы активно применяются во всевозможных автоинформаторах, когда набор используемых слов и фраз невелик.

Операционные системы Microsoft Windows в своем составе имеют общий интерфейс такого рода — MicrosoftSpeech. Для этого интерфейса могут быть разработаны системы произнесения текста — так называемого “голоса”. Интерфейс позволяет разрабатывать программы, использующие синтез речи. В частности, один из новых стандартов языков для разработки web-сайтов предусматривает голосовое взаимодействие — чтение страниц и распознавание команд перехода по ссылкам.

Задачи такого рода (распознавания образов в особенности) традиционно считаются задачами, связанными с областью искусственного интеллекта, то есть с воссозданием мыслительной деятельности человека. Разработка общих методов распознавания визуальных образов, речи человека, задача поиска решений и закономерностей в сложных ситуациях — задача, которую пытаются решить почти с самого момента появления ЭВМ.

Появление общего решения позволило бы принципиально увеличить возможности компьютеров, построить принципиально новую среду работы пользователя, решить огромное количество производственных задач.

В настоящий момент решений такого рода не существует. Современные методы создания обучающихся систем для распознавания образов в приведенных системах используются как дополнительные средства поиска решений.

Примеры программных средств

Abbyy FineReader, Dragon NaturallySpeaking, Corel Trace

Методические рекомендации

Большая часть изложенного материала об основах организации обработки аудио- и видеоинформации, а также о создании с ее использованием комплексных программных продуктов может понадобиться учителю в старшей школе.

Для основной школы можно использовать материалы по темам: методы сжатия и хранение мультимедиа-данных (в контексте изучения темы “Архивирование и разархивирование”); мультимедиа, объединение различных видов информации в едином продукте. Хотя стандартом основной школы по информатике предусмотрено изучение темы: “Звуки и видеоизображение. Композиция и монтаж. Использование простых анимационных графических объектов”, контроль за освоением этих тем не предусмотрен (в стандарте эти элементы содержания выделены курсивом). Темы будут достаточно усвоены в том случае, когда в школе работает телецентр или видеостудия и монтаж фильмов или презентаций, запись фонограмм и прочая деятельность выполняется учащимися под руководством педагога. А в рамках уроков по информатике на это просто не хватает учебного времени.

Вопросы представления и технологии обработки звука и видео отсутствуют в контрольных измерительных материалах ЕГЭ по информатике. Но в экзаменационных билетах по информатике за курс среднего (полного) общего образования на обоих уровнях проверяются теоретические знания по темам: кодирование звуковой информации, форматы звуковых файлов, ввод и обработка звуковых файлов, использование инструментов специального программного обеспечения и цифрового оборудования для создания и преобразования звуковых файлов.

Принимая во внимание, что раскрытие тем в современных учебниках недостаточное, предлагаемый материал можно использовать в старшей школе в рамках изучения информатики на профильном уровне или в поддержку элективного курса, на котором предусматривается освоение работы по подготовке и монтажу видеоклипов, подготовка фонограмм для каких-либо сценических постановок или иная творческая деятельность (театральная студия, телецентр, видеостудия и пр.).

Примыкает к этим темам и группа вопросов, связанных с преобразованием информации из одного вида в другой (распознавание текста, векторизация изображений, речевой ввод и вывод). Эти вопросы по усмотрению учителя могут изучаться как отдельно, так и в сочетании с темой “Средства и технологии создания и преобразования информационных объектов” в старшей школе.