US 5987171 А, 16.11.1999. US 2003/0130992 A1, 10.07.2003. US 2004/0111408 A1, 10.06.2004. RU 2234126 C2, 10.08.2004. RU 2234734 C1, 20.08.2004.
Имя заявителя:
МАЙКРОСОФТ КОРПОРЕЙШН (US)
Изобретатели:
ВАЙОЛА Пол А. (US) ШИЛЬМАН Майкл (US)
Патентообладатели:
МАЙКРОСОФТ КОРПОРЕЙШН (US)
Приоритетные данные:
01.07.2005 US 11/173,280
Реферат
Изобретение относится к методам распознавания и может быть использовано для распознавания текстовых документов. Техническим результатом является улучшение точности распознавания документа. Двумерное представление документа используется для выделения визуальной структуры, которая способствует распознаванию документа. Визуальную структуру подвергают грамматическому анализу посредством ассоциирования множества грамматических правил с множеством типов символов, идентифицированных в визуальной структуре документа. Это позволяет распознавать компоненты документа (например, колонки, фамилии авторов, заголовки, сноски и т.д.), в результате чего структурные компоненты документа можно точно интерпретировать. При этом грамматический анализ основан на функции грамматической стоимости, которую выводят посредством методики обучения машины. Причем грамматический анализ содержит представление анализа в виде изображения и оценку изображения для реализации функции грамматической стоимости при определении оптимального анализа. Для упрощения распознавания документа можно использовать методики грамматического анализа, в которых используются методики усиления и/или "признаки быстрого распознавания" и т.п. 6 н. и 13 з.п. ф-лы, 10 ил., 5 табл.