| Использование XML DOM в VB и MS Office/VBA |
|
Источник: http://www.microsoft.ru/offext/developers/materials/material.aspx?id=49 Одна из "горячих" ИТ-тем нынешнего года - проблема интеграции разнородных информационных ресурсов, решение которой требует создания простого и надежного механизма обмена данными между различными приложениями. И сегодня, кажется, уже все знают: XML -- вот золотой ключик, который должен навести порядок в информационном хаосе великого множества форматов данных. Напомним, что XML и HTML базируется на одинаковых синтаксических принципах - информация записывается виде простого текста, в котором имеются управляющие команды (тэги) и собственно данные. XML отличается от HTML тем, что позволяет передавать не только данные, но также и информацию об их структуре. То есть HTML ориентирован на описание неструктурированных данных, а XML - структурированных. С точки зрения использования информации неструктурированные данные предназначены в первую очередь для визуального восприятия человеком, струкутрированные - для автоматической обработки (в том числе вычислений). Отметим, что оба этих языка представляют собой упрощенный вариант давно известного среди компьютерных лингвистов языка SGML (Standard Generation Markup Language). Подчеркнем, что сама по себе идея языка XML - текстового описания структуры и содержания некоторых данных - совсем не нова. Главным моментом здесь является то, что лидеры компьютерной индустрии вроде бы осознали необходимость перехода от внутренних, закрытых форматов к общим, открытым. (Но, честно говоря, вопрос о том, насколько это серьезное намерение (а не маркетинговые акции, чтобы показать свою готовность к открытости) можно будет судить лишь спустя некоторое время.) XML -- это мировой отраслевой стандарт, создание и развитие которого ведется под эгидой WWW Consortioum -- общественной организацией, представляющей интересы входящих в нее участников рынка). Если же говорить о прикладных программистов, то они уже очень давно оценили преимущества простых текстовых форматов данных по сравнению с двоичными при информационном взаимодействии компонентов вычислительных систем. Могу сослаться на пример из собственной программисткой практики десятилетней давности. При разработке информационно-аналитических систем для обработки геологических данных мы полностью перешли на текстовые форматы данных и описаний их структуры, резко сократив время на отладку программного комплекса и его конфигурирование под задачи пользователей. Сначала мы рассматривали такое решение как временное и хотели для повышения производительности перейти на двоичные форматы. Но жизнь сама показала, что это - пустая трата времени, так как производительность компьютеров росла быстрее, чем объем базы данных. Важное замечание. Текстовое представление данных имеет свои недостатки. Одно из них - проблемы с использованием символов, задействованных в качестве специальных (например, "<" и ">"). Вторая проблема - неоднозначность преобразования данных из внутреннего двоичного формата в текст и наоборот. В последнем случае особенное внимание нужно уделять национальной специфике форматов, особенно при работе с разными региональными установками и кодовыми таблицами. В этой связи нужно определенно сказать, что появление общего стандарта описания данных избавляет разработчиков придумывать собственные форматы. Разумеется, за любую универсальность приходится расплачиваться определенной избыточностью, но в данном случае она будет не столь велика и не будет сколь-нибудь заметна на современных компьютерах. Например, мне бы пришлось заменить свои старые описания параметров LastName = Колесовна Колесов Прежде чем перейти к конкретным техническим вопросам стоит также сделать еще одно важное замечание. Сам по себе XML не решает проблемы преобразования XML-документов, что необходимо для передачи данных между приложениями. Упрощенно говоря, XML лишь связывает, например, некоторый набор чисел с понятием (тегом) "цена", но, что означает данный термин, язык уже не может расшифровать. Таким образом, для правильной интерпретации содержимого XML-документов необходимо знать так называемую XML-схему, которая бы описывала бы смысл полей данных.
Введение в XML DOMVisual Basic 6.0 и приложения MS Office 2000 не включают поддержку XML на уровне пользователя и разработчика, хотя этом многие приложение Office используют передачу данных с помощью XML для выполнения внутренних операций. Вместе с тем, уже сегодня, не дожидаясь будущих версий этих систем (там что-то, связанное с XML, должно появиться), программисты могут применять XML-формат для обмена информацией с помощью написания собственных достаточно простых программных конструкций. Видятся два пути реализации этой задачи: 1. Использование специального объекта XML, называемого XMLDOM или DOMDocument (DOM - Document Object Model). Работа с этим объектом выполняется с помощью библиотеки Microsoft XML 2.0 (MSXML.DLL), на которую нужно сделать ссылку в окне Reference. (Обратите внимание: на моем компьютере в списке ссылок эта библиотека в начальный момент имеет индекс 1.0, а уже после ее подключения меняет его на 2.0.) С точки зрения программиста в применении DOMDocument можно выделить три момента:
2. На практике наиболее частой задачей является экспорт-импорт с помощью XML-файла, что можно делать с помощью обычных средств VB/VBA. Вывод данных в формате XML является вообще достаточно тривиальной задаче. С вводом дело обстоит посложнее, так как в этом случае нужно "руками" писать код для анализа синтаксиса и для разборки элементов документа. Как бы то ни было, в любом случае программист должен иметь в виду "ручной" метод экспорта-импорта, который иногда может быть очень полезен.
Передача набора записей из VB-приложения в ExcelВ наших "Советах для тех, кто программирует на VB" мы приводили два примера импорта данных из таблицы (набора записей, Recordset) в виде просто текстового файла (Совет 297) и HTM-файла (Совет 329). Попробуем выполнить аналогичную задачу с помощью XML-файла, который потом прочитаем в Excel. Импорт данных Для тестирования мы сделаем базу данных с таблицей такого содержания
Далее напишем код, который обращается для импорта данных к процедуре ExportXML (листинг 1): Dim strConnectString$, strSQL$, strHeading$ В результате его выполнения получим XML-файла, содержимое которого лучше всего посмотреть в Internet Explorer (рис.1). В плане понимания выполненных нами действий нужно отметить следующие моменты:
Создание нового DOMDocument объекта начинается со строки кода: Dim xmlDoc As DOMDocument Для выбора кодировки передаваемых данных нужно сформировать начальную строку следующего вида: StartString$ = "" но мне этого не удалось сделать - выдавалась сообщение о невозможности создания объекта. Ввод данных Для ввода сформированного XML-файла в Excel используем функцию ImportXML, которая создает объект DOMDocument, который можно затем дополнительно обрабатывать, и записывает введенные значения в рабочую таблицу. Ввод данных можно сделать с помощью такой макрокоманды: Sub MyMacro() В результате ее выполнения мы получим заполненную таблицу рабочей книги (рис. 2).
Теперь внимательней посмотрим, как производится ввод данных из созданного нами XML-файла. Обращение к функции ImportXML (Excel) в общем случае выглядит следующим образом: Set mXML = ImportXML(xmlFile$, ObjectPath$, PropertyPath$) Если мы используем установку ObjectPath = "*" (по умолчанию), то работа ведется во всеми объектами документа. В нашем случае это будут узлы с тегами (они могут иметь произвольные имена, в том числе одинаковые, например ), а включенные в них теги - свойствами. При формировании таблицы в Excel для определения имен колонок мы анализировали содержимое только первого узла, считая все узлы однородными. Однако если мы укажем ObjectPath = "", то выборка будет сделана только для данного узла. То же также можно управлять выборкой отдельных полей, например указав PropertyPath = "BirthDate". Вопросы перекодировок данных Анализируя выполненные нами операции по передачи данных, в первую очередь обратим внимание на то, что все данные (содержимое полей набора записей) передаются в виде текста. Преобразование информации в нашем случае выполнялось средствами VB, и поэтому был автоматически выбран формат в соответствии с текущими региональными установками. Принимающее приложение (Excel) также получило обычные текстовые данные, которые могут быть интерпретированы в принципе самым произвольным образом. Обратите внимание, что ячейки таблицы (рис.2) заполнены обычным текстом, в неопределенном формате (внешний признак этого - выравнивание по левому краю). Такая ситуация чревата ошибками при передаче XML-данных между компьютерами, имеющими разные региональные установки (для Америки значение "23.09.53" является недопустимой датой, а "1,23" - недопустимым числом). Для решения эта проблемы есть несколько путей. Например, можно применять пользовательские атрибуты, которые будет понимать и передатчик и приемник информации. Второй вариант -- присвоить каждому свойству узла "жесткий" тип данных и тогда будет использоваться соответствующий фиксированный формат Для реализации первого способа немного модифицируем код функции RecordsetToXMLDOM: For Each fldField In rs.Fields ' запись полей записи В результате этого в сформированном коде в теги с наименованием полей добавятся атрибуты с кодами типов данных (рис. 3). Соответственно при вводе данных их значения можно прочитать и сделать соответствующую установку форматов ячеек:
DateType = propertyNode.Attributes(0).nodeValue Для второго варианта нужно использоваться фиксированный, закрепленный за типом данных формат. Например, для переменных типа дата установку такого атрибута можно выполнить Set attr = xmlDoc.createAttribute("dt:dt") или воспользоваться свойством dataType: xmlField.dataType = "date" В это случае записываемые данных должны иметь обязательный формат даты "ГГГГ-ММ-ДД": xmlField.Text = "2000-12-02" Нужно также отметить, что тип поля необязательно задавать в каждом теге. Можно, например, сделать один раз такое описание всех полей при формировании узла или всего документа (в том числе со ссылкой на XML-схему).
Вывод данных о свойствах Word-документаТеперь попробуем решить такую задачу: будем формировать протокол работы с документами Word 2000, записывая информацию о встроенных свойствах при завершении работы с документом. Для начала напишем функцию DocPropertiesToXML, формирующую DOMDocument-объект для одного документа (листинг 3). Поместим эту функцию в модуль в составе глобального шаблона Normal.dot (нужно также для шаблона указать ссылку на MSXML.DLL). Далее создадим макрокоманду, которая будет формировать XML-файл для одного документа: Public Sub OneDocPropertyToXML() В результате вы получите файл со свойствами одного документа (фрагмент файла изображен на рис. 4). Его содержимое можно прочитать созданной ранее процедурой ImportXML в Excel, но для этого обращение к ней должно выглядеть следующим образом (главный узел должен быть указан в качестве объекта):
Set mXML = ImportXML("D:\myfile.xml", "//DocProperties") Напишем процедуру DocPropertyToLogXML, которая будет создавать файл протокола. Обратите внимание на операции включения созданного для конкретного документа XML-объекта в объекта Log-файла. Теперь создайте макрокоманду, которая будет добавлять информацию об активном документе в протокол: Call DocPropertyToLogXML(ThisDocument) В результате вы будет автоматически формировать XML-файл, структура которого приведена на рис. 5). Его также можно прочитать в Excel: Set mXML = ImportXML("D:\logfile.xml")
Примечание. Обращение на запись информации в Log-файл можно поместить в процедуру ThisDocument_Close каждого документа. Механизм программного формирования такого кода в каждом открываемом файле описан в статье Владимира Биллига "Документы Office 2000 и их проекты".
Создание архива входящей почтыПриведем еще один пример использования XML-файла, на этот раз для хранения архива поступающей электронной почты. Для этого нужно сначала сформировать две событийные процедуры: Dim mailBagFileName As String Ключевым процедурами в этой задаче являются процедуры MessageToXML и AddMessageToArchive (листинг 5). Общая логика формирования архива очень похожа на то, что мы делали, создавая протокол работы с Word-файлами: сначала преобразуем содержимое письма в DOMDocunemt, а потом подключаем его к единому файлу. Новшеством здесь является то, что документ письма имеет более сложную структуру (появились вложенные узлы для описания подключенных файлов) и для хранения тела письма используем секцию CDATA (содержимое письма может иметь символы, нарушающие синтаксис XML). Результат преобразования в XML показан на рис. 6.
Чтобы закончить с этой задачей, остается только написать ASP-cтраницу (листинг 6), который преобразует содержимое XML-архива писем в HTML-формат (рис. 7).
Листинг 1.Преобразование Recordset в DOMDocument-объект, а затем сохранение его в виде XML-файла. Public Sub ExportXML(rs As Recordset, strHeading$, FileName$)
Листинг 2.Импорт XML-файла и преобразование его в таблицы Excel Public Function ImportXML(xmlFileName As String, _
Листинг 3.Формирование XMLDOC объекта со свойствами документа Public Function DocPropertiesToXML(ThisDoc As Object) As DOMDocument
Листинг 4.Формирование Log-файла со свойствами документов Public Sub DocPropertyToLogXML(ThisDoc As Object)
Листинг 5.Процедуры преобразования входящих писем в XML-архив Public Function MessageToXML(itm As MailItem, attachmentPath As String)
Листинг 6.Код ASP-страницы для вывода информации о содержимом архива почты <%@LANGUAGE="VBSCRIPT"%>
© Андрей Колесов |