Введение в язык XML
Разметка и преобразования данных. XML и MySQL
Спецкурс для студентов ОТиПЛ, осенний семестр 2007/08 уч. г.
Спецкурс проходит при кафедре теоретической и прикладной лингвистики филологического факультета МГУ в сентябре-декабре 2007 г.
Спецкурс рассчитан на студентов всех курсов.
Задания
Задание № 1. Усложнение структуры документа, трансформации и DTD
[инструкция и материалы к заданию, ZIP, 11 Kb]
[инструкция] [biblio.xml] [biblio.dtd] [biblio.xsl] [biblio-a.xsl]
Примечание. Если при просмотре одного из файлов на сайте код не отображается, выберите в меню "Вид" команду "Просмотр HTML-кода".
Задание является обязательным для получения зачёта.
Задание № 2. Условный оператор и простые функции
[инструкция к заданию, RTF, 40 Kb]
Задание является обязательным для получения зачёта.
Материалы
Изучить язык XML и связанные с ним технологии вполне можно самостоятельно благодаря многочисленным справочным материалам и учебным
пособиям, доступным в Интернете. В частности, можно порекомендовать учебники, размещённые на сайте w3schools.com.
Это целый комплекс учебных материалов, лёгких в освоении и достаточных для первоначального знакомства с предметом:
Инструменты
XML-редактор/валидатор, не требующий инсталляции
FOXE (FirstObject.com XML Editor) — чрезвычайно
простой, компактный, быстродействующий XML-редактор. Не требует установки — просто распакуйте exe-файл (менее 900 Кб!)
и запустите. Поддерживает Unicode (UTF-8). Проверяет правильность синтаксиса документа, осуществляет валидацию относительно DTD
/ Schema.
Скачать [firstobject XML Editor v2.2, ZIP, 360 Kb]
XML-редактор/валидатор с поддержкой XSL
Exchanger XML Lite — мощный XML-редактор с большим набором функций, в т. ч. встроенным механизмом применения
трансформаций XSLT. Требует инсталляции с правами администратора. Требует наличия Java Virtual Machine версии не менее 1.4.2.
Скачать Exchanger XML Lite v3.2: [Без Java
VM, 28 Mb] [С Java VM, 41 Mb]
Как проверить работу трансформации, если нет редактора с поддержкой XSLT?
Он-лайн валидатор
Он-лайн валидатор поможет проверить правильность XML-документа, если DTD встроена или доступна в Интернете:
http://www.stg.brown.edu/service/xmlvalid/
Аннотация
Многие виды лингвистических данных относятся к полуструктурированным : они слишком неупорядоченны, чтобы описывать их в
виде таблиц, но вместе с тем обладают явной структурой, которую легко формализовать (например, с помощью регулярных выражений).
Именно для работы с такими данными оптимально подходит язык разметки XML (eXtensible Markup Language). Точнее говоря, XML — это метаязык ,
на котором пользователь может описать свой язык для каждой конкретной задачи. На самом деле, часто его можно и не описывать ,
а сразу писать на нём :
<?xml version="1.0" encoding="utf-8"?>
<speckurs-list>
<speckurs>
<sk-title> Введение в язык XML </sk-title>
<sk-teacher> А. В. Архипов </sk-teacher>
<sk-annot> Многие виды лингвистических данных относятся
к
полуструктурированным ... </sk-annot>
</speckurs>
</speckurs-list>
Одним из базовых принципов XML является чёткое разграничение оформления и содержания (этим он выгодно отличается от HTML) — элементы
XML несут содержательную нагрузку, задаваемую пользователем . Для работы с данными, описанными в формате XML, разработан
богатый инструментарий — механизмы навигации в структуре документов (XPointer, XPath), стили для визуализации (XSL), средства для
трансформаций (XSLT) и др. Важно, что обработка XML-документов встроена во все современные операционные системы; кроме того, существуют
высококачественные бесплатные приложения, работающие с XML.
XML-разметка позволяет автоматизировать многие этапы обработки данных. Так, в ходе спецкурса мы увидим, как с помощью XML-трансформаций
можно преобразовывать глоссированные тексты в формате Toolbox в красиво оформленные веб-страницы и документы OpenOffice / MS Word.
В конце курса планируется познакомить слушателей с переходом от XML-документов к онлайновым базам данных MySQL.