Компьютерный корпус текстов русских газет конца XX-ого века
Подготовка корпуса и его Интернет-версии осуществлено на основе исследования при финансовой поддержке Российского фонда фундаментальных исследований - РФФИ (гранты РФФИ № 01-07-90386 и № 02-06-80435 ).
Найти на этой странице
работает только в Internet Explorer 5.0 и выше
Оглавление
Введение
1. Системный подход и корпусная лингвистика.
2. Общая характеристика Компьютерного корпуса текстов русских газет конца XX-ого века.
3. Система маркировки газетных текстов маркерами конкретных жанров и жанровых типов.
4. Частотно-распределительные (по жанровым типам) словари лексических и иных единиц по всему корпусу.
5. Интернет-вариант корпуса.
6. Замечания и предложения. Введение.
Создатели Корпуса
Создание корпуса, его анализ, категоризация, исследование и разработка Интернет-варианта выполнены в лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ при финансовой поддержке Российского фонда фундаментальных исследований - РФФИ (гранты РФФИ № 01-07-90386 и № 02-06-80435) в 1999-2002-ом гг.
Поликарпов А.А. - автор идеи корпуса, его рабочего проекта, руководитель коллектива по созданию корпуса, его лингвистическому анализу и формированию его Интернет-варианта. Контроль омонимических и синонимических характеристик слов и корней , контроль новой лексики.
Кукушкина О.В. - участие в разработке рабочего проекта корпуса, создание и ведение морфологической и других баз данных по корпусу, автоматический морфологический, лексико-грамматический и лексико-семантический анализ единиц текстов корпуса.
Савчук С.О. - жанровый анализ текстов.
Виноградова В.Б. - жанровый анализ текстов.
Пирятинская Е.Ф. - морфемный анализ лексики.
Хмелев Д.В. - создание оболочки СУК (системы управления корпусами).
Варламов А.А. - адаптация оболочки и поддержка Интернет-варианта корпуса.
Токтонов А.Г. - анализ новой лексики.
Источники материала корпуса.
Источником Корпуса послужили текстовые файлы русскоязычных российских газет, накапливаемые в информационной системе фирмы Интегрум-Техно. Благодарим руководство фирмы за ценный материал, представленный нам в 1997 г.
Финансирование работ по созданию Корпуса.
Создание корпуса осуществлено при финансовой поддержке Российского фонда фундаментальных исследований - РФФИ (гранты РФФИ № 01-07-90386 и № 02-06-80435) в 1999-2002-ом гг.
1. Системный подход и корпусная лингвистика.
Для развития современной лингвистики и науки в целом характерным является системный подход [ Мельников, 1978; Mel’nikov, 1988 ]. Этот подход заключается в видении своего объекта как специфической целостности. Этот подход требует в эмпирическом, экспериментальном плане иметь дело не с произвольными выборками, а с полным объемом данных об изучаемом объекте. Только сплошной, без субъективного изъятия анализ материала позволяет получить полную, системную картину состояния изучаемого объекта. Если же приходится ограничиваться теми или иными выборками из общей совокупности данных об изучаемом объекте, то эти выборки должны удовлетворять как универсально-статистическим критериям достаточности и надежности, так и специально-предметным критериям качественной представительности выборки для объекта, разнообразно представленного во времени и пространстве.
Таковым объектом, обширно распределенным во времени и пространстве и является тот или иной национальный язык, постоянно развивающийся и представленный колоссальным разнообразием случаев его употребления в виде текстов, построенных в разных условиях и с разными целями.
Средством организации материала текстов той или иной сферы данного языка для его системного анализа и объективного представления является создание корпусов текстов, представительных для той или иной сферы.
Корпус текстов – это не просто коллекция отобранных по определённой методике и представленных в электронном виде текстов определённых сфер употребления языка (подобных коллекций существует сейчас великое множество), но такая коллекция, которая категоризована как со стороны интегральных характеристик каждого текста (например, жанровых), так и со стороны специфических характеристик различных единиц его организации (лексемы, словоформы, морфемы и т.п.) Подобная характеризация позволяет вести развёрнутый анализ различного рода зависимостей в текстах некоторой области. Кроме того, подобная коллекция должна быть организована в виде некоторой базы данных. Это облегчает её практическое использование и научный анализ.
Здесь представлен газетный корпус современного русского языка и его начальный лингвистический анализ. В равной мере на этом материале могут рассматриваться вопросы современной политической истории, социологии, социальной психологии, контент-анализа, теории рекламы и др. Основой для этого являются те словари, индексы и конкордансы, которые строятся из материала Корпуса с использованием специализированного программного инструментария.
2. Общая характеристика Компьютерного корпуса газетных текстов современного русского языка.
Ниже представлены некоторые результаты работы по созданию, категоризации и анализу "Компьютерного корпуса газетных текстов русского языка конца 20-го века", подготовленного в течение 2000 - 2002-ого гг. в Лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ по грантам РФФИ 00-07-90007 и 01-07-90386. В ходе выполнения данного проекта реализована серия основных задач построения и анализа базы данных газетного материала в интересах получения объективной картины состояния современного русского газетного языка (а отчасти и картины состояния всего языка в целом, если иметь в виду то, что в наборе газетных жанров присутствуют многие жанры других родов словесности). Для этого был осуществлен подбор обширного газетного материала для корпуса (тексты общим объемом более 11 млн. словоупотреблений) на основе принципов включения в него полных номеров 13 российских газет на русском языке за отдельные даты 1994-1997-ого гг., представленности в нем ежедневных и неежедневных (МН, Новая газета), "левых" (Завтра, Правда, Правда-5) и "правых", центральных и местных, общих и профессионально ориентированных (Литературная газета) газет. Эти принципы позволяют получить относительно объективную и надежную картину соотношения в газетном материале текстов различного типа, (например, различных жанров и жанровых типов) их единиц и отношений между ними. В том числе, это обеспечивает возможность анализа в дальнейшем не только общих для всего газетного языка характеристик, но и возможность анализа жанровой специфики представленности в нем лексико-фразеологической, грамматической и иной информации.
Корпус создан, анализируется и управляется на основе системы Диктум-1 (разработанной в Лаборатории общей и компьютерной лексикологии и лексикографии МГУ). С помощью этой системы тексты и единицы корпуса автоматически и полуавтоматически маркируются различного рода маркерами: тексты (и, соответственно, каждое их словоупотребление) - маркерами газеты-источника, объема текста, его жанра, даты публикации и т.п.; словоупотребления - маркерами грамматических, лексических, морфемных и иных категорий.
В составе всего газетного корпуса находится часть, которая исторически раньше всего была сформирована и была более подробно охарактеризована со стороны квалификации лексем и словоформ, реализуемых в ее текстах. Эту часть мы называем Ядерный газетный корпус. Объем Ядерного корпуса – ок. 1 млн. 350 тыс. словоупотреблений.
При подготовке демонстрационного варианта корпуса для Интернета был выделен из Ядерного корпуса его фрагмент общим объемом более 200тыс. словоупотреблений). Его единицы охарактеризованы наиболее подробно (см. ниже).
Общая картина источникового устройства Компьютерного корпуса русских газет выглядит следующим образом. Всего в корпусе 23110 текстов по полным номерам 13-ти разных российских газет на русском языке.
Ниже приводится Таблица 1 по объемным характеристикам разных привлеченных газет, представленных в Корпусе.
Таблица 1
Соотношение источников по их объёмам в Компьютерном корпусе текстов газет русского языка
Название газеты | Объем в числе словоупотреблений |
ЗАВТРА | 1215968 |
ИЗВЕСТИЯ | 1373682 |
ЛИТЕРАТУРНАЯ ГАЗЕТА | 1449307 |
МК | 1170229 |
МОСКОВСКИЕ НОВОСТИ | 1403472 |
НЕЗАВИСИМАЯ ГАЗЕТА | 905733 |
НОВАЯ ГАЗЕТА (ПОНЕДЕЛЬНИК) | 910042 |
НОВГОРОДСКИЕ ВЕДОМОСТИ | 14472 |
НОВГОРОД | 84589 |
ПРАВДА | 1438278 |
ПРАВДА-5 | 18819 |
СВОБОДНЫЙ САХАЛИН | 95652 |
ТОМСКАЯ НЕДЕЛЯ | 1321236 |
Все газеты вместе | 11401479 |
Разработка и реализация на материале корпуса принципов жанровой классификации газетных текстов (включая типизацию жанров, а также определение характеристических признаков различных типовых жанров) позволила выявить профиль распределения объемов текстов разного жанрового и источникового состава и особенностей употребления в них единиц.
Проведенная автоматическая лемматизация и морфологическая квалификация словоупотреблений Корпуса (с последующими контролирующими процедурами), а также морфемная сегментация словоформ и лексем позволила автоматически получить для него алфавитно-частотные и частотно-распределительные словари словоформ, лемм, корней и морфемных моделей.
В таком объёме и с такой подробной разработкой различных характеристик корпуса текстов на русском материале ещё не строились. Каждый текст газетного корпуса характеризовался (а) датой публикации источника (газеты), (б) названием источника, (в) рубрикой (если есть), (г) автором (если указан), (д) жанром текста и его (е) жанровым типом (на основе классификации, разработанной в Лаборатории общей и компьютерной лексикологии и лексикографии – см. ниже), (ж) объёмом текста.
Каждое словоупотребление во всем корпусе характеризовалось (а) той формой словоизменения, которая ему свойственна, (б) леммой (исходная форма лексемы), (в) некоторыми лексико-грамматическими, лексико-семантическими, морфемными и иными характеристиками.
3. Система маркировки газетных текстов маркерами конкретных жанров и жанровых типов.
В целях проведения жанровой квалификации газетных текстов была разработана система жанровых характеристик, которая уточнялась в процессе поэтапного анализа всего корпуса.
Жанр - это устойчивый тип текста, для которого характерен определенный тип содержания, способ его представления и языкового оформления. Определяющую роль играет способ интерпретации содержания автором. Так, одна и та же новостная информация может быть представлена как краткое информационное сообщение в жанре заметки, как сообщение с более подробной проработкой деталей в жанре корреспонденции, может быть проанализирована автором и включена в более широкий событийный контекст в жанре комментария, подвергнута обсуждению в беседе с каким-либо лицом или лицами в жанре интервью и т. д.
Изучение литературы по теме и проведенный анализ текстов позволили выявить круг основных жанрообразующих факторов.
I. Факторы, связанные с типом отражаемой внеязыковой действительности (предмет сообщения).
1. Характер объекта, отображаемого в тексте.
2. Актуальность или неактуальность сообщаемой информации.
3. Социальная значимость или незначимость сообщаемой информации.
4. Наблюдаемость или ненаблюдаемость отображенных в тексте событий автором сообщения.
II. Факторы, связанные с выбором коммуникативной цели сообщения.
1. Информирование как ведущая цель сообщения.
2. Побуждение как ведущая цель сообщения.
3. Желание разъяснить (эксплицировать) информацию в тексте.
4. Ориентация на изобразительность в тексте.
III. Факторы, связанные с выбором композиционно-стилевой формы текста.
1. Выбор формы персонификации информации.
2. Выбор способа изложения.
Признак имеет несколько значений: а) сообщение, б) повествование, в) рассуждение, г) описание, д) предписание, е) перечень.
3. Выбор субъектной формы текста (тип “образа автора”).
4. Выбор способа (открытый или скрытый) выражения оценки в тексте.
Оценочная информация может отсутствовать в тексте (деловые, информационные жанры), может быть открыто представлена в тексте, может составлять его основное содержание.
5. Наличие или отсутствие стандарта в форме изложения.
Признак имеет значения “+” (в деловых и некоторых информационных жанрах) и “-” (в большинстве жанров).
Для каждого жанра характерен свой образ автора, т. е. степень проявления авторского “я”, степень субъективации изложения за счет эмоционального или логико-аналитического компонента. На языковом уровне проявление авторского “я” выражается, например, в присутствии в тексте личных местоимений и глагольных форм 1 и 2 лица, модальных компонентов, эмоционально-оценочной лексики и т. д. Степень выраженности авторского “я” минимальна в информационном жанре заметки, в частности, агентской, в которой авторство не указывается, и максимальна в таких жанрах, как колонка, очерк, эссе. Однако поскольку для современной газеты характерна тенденция к усилению личного начала, стремление автора выразить свое отношение к сообщаемому становится обычным и в таких стандартных жанрах, как заметка. При этом, как показали наблюдения, речь может идти не о разрушении жанра заметки, а о его видоизменении.
Система жанров современной газеты имеет полевую организацию. Ее ядро формируют собственно газетные жанры. Периферию составляют жанры, возникающие при взаимодействии сферы газетной публицистики с другими сферами речевой практики - деловой, научной, художественной, разговорной. Ближе к ядру находятся художественно-публицистические жанры, научно-публицистические жанры (научно-публицистическая статья), рекламные материалы, дальше - жанры, типичные для других сфер общения и не являющиеся специфически газетными, хотя и помещаемые на газетную полосу (тексты официальных документов, художественные произведения, игры, тесты и др.). Их можно рассматривать как “цитаты” из других родов словесности, включение которых в газетный контекст обусловлено потребностью газеты снабжать читателя официальной и развлекательной информацией.
Анализ корпуса показал, что научно-публицистические жанры слабо представлены на страницах современных газет, ориентированных на массового читателя. Состояние науки, ее проблемы, перспективы развития становятся предметом исследования в публикациях, которые появляются в отраслевых изданиях (газета “Поиск”), в специальных приложениях, например, к “Независимой газете” (“НГ-Наука”), на специально отведенных полосах некоторых газет (“Общей газеты”, “Литературной газеты” и др.); в последнем случае для передачи научного содержания чаще всего используются традиционные информационно ориентированные газетные жанры корреспонденции, заметки, репортажа и др. Таким образом, приходится констатировать, что взаимодействие газетной публицистики с научной сферой происходит не на уровне образования новых жанровых типов и разновидностей, а на уровне использования методов научного анализа исследуемых проблем прежде всего в аналитических публикациях (использование статистических данных, данных социологических опросов, научных гипотез и т. д.; выбор объективной формы изложения и аргументированный анализ, которые сближают, в частности, газетную проблемную статью со статьей научной).
Что касается текстов разговорного характера, то в исследованном материале они представлены главным образом в жанре записки. Этот жанр встречается в единственной газете - “Томская неделя” в рубрике “Заборчик”, служащей для организации непосредственного неофициального общения молодежи и являющейся, по-видимому, аналогом “конференций”, “чатов” в Интернете.
Выбор определенной степени обобщения жанровых признаков обусловил наличие у некоторых жанров ряда конкретных разновидностей. Так, например, в зависимости от тематики выделяются разновидности статьи (обобщающая, или общеисследовательская, проблемная, или практико-аналитическая, литературно-критическая, полемическая), очерка (портретный, путевой, проблемный, исторический), обозрения (политическое, литературное, спортивное). Разновидности заметки (агентская, корреспондентская) зависят от типа авторства. Разновидности интервью (беседа, круглый стол, форум, пресс-конференция, горячая линия) связаны с различными формами организации диалога. В то же время анкета и опрос, хотя и связаны с интервью, представлены как самостоятельные жанры, поскольку их диалогичность имеет скрытый характер, личность интервьюера не выявлена.
Следует отметить, что некоторые жанры (биография, заявление, досье, ориентировка, молитва, проповедь, дневник, приметы и нек. др.) представлены единичными текстами. Кроме того, некоторые материалы представляют собой отрывки произведений (помечались как отрывок_книги, отрывок_худ. пр.) или подборку (цитат, писем, худ. произведений).
Обобщение жанровых характеристик привело к объединению конкретных жанров в 9 жанровых типов. Они следующие.
1) Собственно информационные жанры, содержанием которых является информация, представленная в максимально объективной форме, лишенной авторской индивидуальности.
2) Информационно-публицистические жанры, в которых объективное изложение информации сопровождается ее субъективной интерпретацией, эмоциональной или интеллектуальной оценкой. Следует отметить, что в эту группу попали и такие неспецифические для газеты жанры, как биография, заявление, приметы.
3) Собственно публицистические жанры, содержанием которых является переработанная автором информация: доказательство какого-либо положения, мнение, выражение чувств и т. д. Объективно новая для читателя информация играет здесь второстепенную роль.
4) Художественно-публицистические жанры, в которых используются различные приемы изобразительности, создания художественного текста.
5) Рекламные жанры, включающие как чисто рекламные тексты, так и рекламные сообщения, облеченные в форму традиционных газетных жанров (заметки, корреспонденции, интервью, очерка).
6) Художественные жанры.
7) Разговорные жанры.
8) Официально-деловые жанры.
9) Остальные, куда включены такие развлекательные жанры, как игра, кроссворд, гороскоп и т. д., жанры религиозного красноречия (проповедь, молитва), а также "другие", т.е. такие, отнесение которых к определенному жанру пока затруднительно.
4. Частотно-распределительные (по жанровым типам) словари лексических и иных единиц по всему корпусу.
На основе анализа текстов Корпуса получен полный распределительно-частотный словарь лексем.
Небольшой фрагмент его приводится ниже. Полный текст словаря, содержащий 159 тыс. разных лексем корпуса готовится к печати.
Таблица 2.
100 самых частых слов Компьютерного корпуса с показом их частотно-распределительных характеристик (по текстам разных жанровых типов)
№№ | Слово | Инф | Собст-публ | Инф-публ | Худож | Худож-публ | Реклам | Офиц-дел | Разг-пис | ост | Все жанры |
1 | в | 40104 | 72705 | 223130 | 7760 | 24912 | 4852 | 4475 | 229 | 28511 | 406678 |
2 | и | 26368 | 69056 | 185954 | 10287 | 24957 | 3207 | 4105 | 527 | 25185 | 349646 |
3 | на | 17612 | 30230 | 94984 | 4255 | 11497 | 2008 | 2190 | 124 | 12445 | 175345 |
4 | не | 9305 | 34316 | 95905 | 5449 | 13457 | 818 | 1856 | 345 | 13254 | 174705 |
5 | с | 10917 | 22892 | 69794 | 3140 | 8945 | 1618 | 1672 | 359 | 9549 | 128886 |
6 | этот | 7872 | 23143 | 68714 | 2695 | 7602 | 722 | 1275 | 88 | 9166 | 121277 |
7 | быть | 8273 | 21125 | 63479 | 3065 | 8365 | 684 | 1068 | 130 | 8651 | 114840 |
8 | что | 6829 | 20870 | 66187 | 2969 | 7509 | 460 | 1035 | 92 | 8373 | 114324 |
9 | тот | 5092 | 17878 | 51373 | 68 | 5618 | 431 | 823 | 60 | 6714 | 88057 |
10 | а | 4426 | 14587 | 40683 | 2840 | 6044 | 767 | 772 | 200 | 6516 | 76835 |
11 | по | 8691 | 12943 | 41833 | 1275 | 4131 | 874 | 966 | 33 | 5586 | 76332 |
12 | весь | 4540 | 14711 | 41630 | 2338 | 5805 | 557 | 761 | 145 | 5762 | 76249 |
13 | как | 3908 | 12176 | 34148 | 2179 | 4831 | 305 | 543 | 57 | 4357 | 62504 |
14 | к | 4288 | 10962 | 30331 | 1486 | 3737 | 439 | 620 | 168 | 3937 | 55968 |
15 | о | 4329 | 10653 | 30735 | 1012 | 3033 | 386 | 617 | 77 | 3888 | 54730 |
16 | из | 5172 | 9692 | 28336 | 1116 | 3594 | 495 | 471 | 398 | 3937 | 53211 |
17 | но | 2398 | 10201 | 29354 | 1581 | 4073 | 249 | 528 | 60 | 4034 | 52478 |
18 | год | 5226 | 9877 | 27120 | 583 | 2909 | 389 | 509 | 23 | 3624 | 50260 |
19 | свой | 3299 | 9189 | 25888 | 1084 | 3481 | 309 | 332 | 57 | 3163 | 46802 |
20 | за | 4132 | 8558 | 25000 | 1162 | 3158 | 362 | 491 | 31 | 3481 | 46375 |
21 | для | 3579 | 7182 | 21360 | 484 | 1958 | 439 | 652 | 13 | 2829 | 38496 |
22 | от | 3288 | 7274 | 20188 | 931 | 2461 | 361 | 638 | 53 | 2826 | 38020 |
23 | у | 2189 | 6395 | 19758 | 1412 | 3365 | 312 | 426 | 33 | 3104 | 36994 |
24 | же | 1812 | 6508 | 18254 | 914 | 2268 | 212 | 254 | 33 | 2514 | 32769 |
25 | один | 2472 | 6016 | 17228 | 778 | 2204 | 234 | 263 | 17 | 2474 | 31686 |
26 | человек | 1983 | 6046 | 15927 | 606 | 2376 | 188 | 255 | 10 | 2405 | 29796 |
27 | Россия | 2928 | 5271 | 17873 | 288 | 1198 | 319 | 261 | 1562 | 29700 | |
28 | мочь | 1562 | 5465 | 15788 | 730 | 1838 | 156 | 444 | 46 | 2186 | 28215 |
29 | так | 1528 | 5351 | 15000 | 974 | 2158 | 143 | 252 | 37 | 2089 | 27532 |
30 | такой | 1538 | 5122 | 14855 | 680 | 1670 | 130 | 341 | 38 | 1945 | 26319 |
31 | только | 1510 | 5133 | 14087 | 641 | 1721 | 187 | 342 | 12 | 1854 | 25487 |
32 | наш | 1347 | 4823 | 12803 | 565 | 1831 | 212 | 350 | 29 | 1962 | 23922 |
33 | бы | 896 | 4893 | 13600 | 678 | 1687 | 95 | 167 | 26 | 1760 | 23802 |
34 | до | 2349 | 4235 | 12457 | 520 | 1538 | 422 | 386 | 13 | 1805 | 23725 |
35 | время | 1955 | 4263 | 12682 | 387 | 1480 | 201 | 197 | 8 | 1649 | 22822 |
36 | еще | 1330 | 4273 | 12287 | 693 | 1820 | 142 | 163 | 20 | 1714 | 22442 |
37 | или | 1197 | 4257 | 11150 | 491 | 1422 | 429 | 479 | 10 | 1813 | 21248 |
38 | если | 1228 | 3996 | 11866 | 418 | 1252 | 136 | 365 | 36 | 1652 | 20949 |
39 | другой | 1369 | 3964 | 11380 | 404 | 1254 | 160 | 278 | 20 | 1584 | 20413 |
40 | новый | 2020 | 3377 | 10752 | 238 | 914 | 342 | 175 | 4 | 1471 | 19293 |
41 | стать | 1673 | 3494 | 10585 | 517 | 1306 | 120 | 99 | 5 | 1337 | 19136 |
42 | самый | 1219 | 3536 | 10477 | 337 | 1269 | 185 | 159 | 16 | 1337 | 18535 |
43 | первый | 1852 | 2953 | 10225 | 313 | 1010 | 144 | 161 | 16 | 1306 | 17980 |
44 | когда | 828 | 3456 | 9598 | 653 | 1621 | 66 | 159 | 18 | 1344 | 17743 |
45 | дело | 1288 | 3461 | 9785 | 282 | 993 | 60 | 135 | 3 | 1373 | 17380 |
46 | российский | 1778 | 2684 | 10858 | 50 | 430 | 126 | 197 | 961 | 17084 | |
47 | страна | 1495 | 3174 | 10111 | 153 | 658 | 130 | 138 | 908 | 16767 | |
48 | что | 949 | 3246 | 9200 | 505 | 1152 | 83 | 157 | 9 | 1246 | 16547 |
49 | день | 2385 | 2271 | 7755 | 464 | 1316 | 271 | 163 | 12 | 1337 | 15974 |
50 | чтобы | 941 | 2796 | 8713 | 451 | 1152 | 65 | 190 | 28 | 1167 | 15503 |
51 | ни | 655 | 3189 | 8534 | 458 | 1301 | 66 | 144 | 5 | 1101 | 15453 |
52 | говорить | 508 | 2771 | 8446 | 649 | 1311 | 38 | 113 | 10 | 1185 | 15031 |
53 | при | 1491 | 2916 | 8061 | 199 | 684 | 101 | 363 | 1 | 1074 | 14890 |
54 | два | 1481 | 2338 | 8047 | 352 | 960 | 122 | 134 | 7 | 1141 | 14582 |
55 | сам | 732 | 2849 | 7964 | 424 | 1167 | 73 | 106 | 11 | 1073 | 14399 |
56 | даже | 692 | 2891 | 7919 | 387 | 1233 | 73 | 114 | 6 | 1042 | 14357 |
57 | Москва | 1810 | 1869 | 7876 | 160 | 840 | 321 | 185 | 967 | 14028 | |
58 | президент | 1563 | 1563 | 9487 | 85 | 425 | 45 | 69 | 765 | 14002 | |
59 | сказать | 550 | 2492 | 7424 | 690 | 1263 | 53 | 67 | 18 | 1029 | 13586 |
60 | после | 1261 | 2250 | 7593 | 247 | 879 | 181 | 133 | 1 | 983 | 13528 |
61 | жизнь | 880 | 2937 | 6428 | 456 | 1418 | 119 | 110 | 13 | 1036 | 13397 |
62 | нет | 590 | 2464 | 7230 | 445 | 1044 | 56 | 112 | 3 | 1052 | 12996 |
63 | ли | 658 | 2411 | 7489 | 344 | 851 | 70 | 196 | 4 | 929 | 12952 |
64 | можно | 918 | 2458 | 7019 | 192 | 678 | 152 | 265 | 5 | 890 | 12577 |
65 | более | 1175 | 2384 | 7146 | 98 | 463 | 90 | 165 | 834 | 12355 | |
66 | вот | 513 | 2350 | 6336 | 625 | 1170 | 60 | 94 | 7 | 1042 | 12197 |
67 | под | 1011 | 2072 | 6363 | 445 | 986 | 130 | 111 | 3 | 865 | 11986 |
68 | должен | 901 | 2207 | 7122 | 140 | 515 | 40 | 258 | 1 | 800 | 11984 |
69 | русский | 692 | 2567 | 6208 | 376 | 1275 | 144 | 85 | 1 | 632 | 11980 |
70 | город | 2078 | 1764 | 5331 | 165 | 690 | 319 | 248 | 128 | 1000 | 11723 |
71 | очень | 554 | 1934 | 6556 | 283 | 842 | 80 | 163 | 237 | 1026 | 11675 |
72 | раз | 848 | 2044 | 6358 | 360 | 835 | 60 | 135 | 10 | 887 | 11537 |
73 | без | 853 | 2153 | 6028 | 318 | 941 | 114 | 161 | 35 | 864 | 11467 |
74 | где | 779 | 2051 | 6044 | 457 | 1034 | 95 | 97 | 6 | 800 | 11363 |
75 | вопрос | 775 | 1953 | 7205 | 103 | 393 | 56 | 115 | 703 | 11303 | |
76 | власть | 784 | 2403 | 6676 | 82 | 449 | 42 | 86 | 676 | 11198 | |
77 | последний | 1018 | 1887 | 6500 | 172 | 604 | 79 | 84 | 1 | 679 | 11024 |
78 | иметь | 787 | 2106 | 6251 | 110 | 523 | 81 | 229 | 2 | 783 | 10872 |
79 | работа | 1052 | 1928 | 5792 | 144 | 618 | 188 | 172 | 867 | 10761 | |
80 | мир | 1119 | 1997 | 5702 | 228 | 681 | 173 | 69 | 2 | 650 | 10621 |
81 | знать | 354 | 1930 | 5475 | 572 | 1158 | 56 | 108 | 66 | 897 | 10616 |
82 | деньги | 713 | 1836 | 5904 | 131 | 630 | 45 | 133 | 1054 | 10446 | |
83 | дом | 1011 | 1656 | 4866 | 331 | 915 | 386 | 175 | 4 | 1054 | 10398 |
84 | мой | 325 | 1836 | 4870 | 905 | 1330 | 47 | 59 | 91 | 825 | 10288 |
85 | слово | 759 | 2025 | 5454 | 327 | 725 | 63 | 70 | 3 | 743 | 10169 |
86 | место | 979 | 1711 | 5304 | 196 | 662 | 92 | 131 | 2 | 961 | 10038 |
87 | правительство | 1012 | 1422 | 6365 | 17 | 212 | 48 | 92 | 595 | 9763 | |
88 | сейчас | 617 | 1526 | 5863 | 189 | 551 | 41 | 48 | 2 | 686 | 9523 |
89 | да | 293 | 1805 | 4790 | 708 | 1075 | 29 | 51 | 6 | 721 | 9478 |
90 | сегодня | 822 | 1728 | 5340 | 117 | 429 | 88 | 78 | 2 | 594 | 9198 |
91 | какой | 361 | 1693 | 5232 | 317 | 745 | 40 | 95 | 4 | 706 | 9193 |
92 | каждый | 638 | 1753 | 4780 | 203 | 724 | 77 | 106 | 8 | 658 | 8947 |
93 | большой | 820 | 1527 | 4893 | 219 | 557 | 128 | 112 | 40 | 600 | 8896 |
94 | идти | 445 | 1606 | 4861 | 374 | 644 | 42 | 81 | 5 | 627 | 8685 |
95 | получить | 1001 | 1420 | 4667 | 68 | 425 | 68 | 133 | 1 | 691 | 8474 |
96 | здесь | 618 | 1426 | 4609 | 230 | 692 | 79 | 42 | 565 | 8261 | |
97 | однако | 807 | 1472 | 5047 | 51 | 300 | 21 | 93 | 454 | 8245 | |
98 | область | 1491 | 1572 | 4045 | 11 | 192 | 45 | 159 | 1 | 691 | 8207 |
99 | там | 328 | 1384 | 4490 | 403 | 833 | 55 | 53 | 1 | 643 | 8190 |
100 | несколько | 727 | 1433 | 4659 | 120 | 513 | 45 | 88 | 2 | 584 | 8171 |
Кроме того, подготовлены к печати полученные на том же материале:
- Частотно-распределительный словарь словоформ;
- Частотно-распределительный словарь корней;
- Частотно-распределительный словарь аффиксальных моделей слов;
- Частотно-распределительный словарь новых слов (не зафиксированных в ранее изданных толковых словарях).
- Частотно-распределительный словарь предлогов.
5. Интернет-вариант корпуса.
Была разработана специализированная оболочка "Система управления корпусами (СУК)" для работы с полнотекстовыми корпусами - их анализа и представления в Интернете. Она работает с данными, получаемыми с помощью АРМ "Dictum-1". Эти данные преобразуются с помощью специальной утилиты в необходимый формат. СУК позволяет интернет-пользователю: - задать запрос на любое слово корпуса и получить всю имеющуюся в корпусе информацию об этом слове; - получить весь набор признаков, используемых в корпусе; - получить все слова, которым приписан выбранный признак.
Важной особенностью использования данной оболочки является возможность выдачи списков слов, обладающих одним признаком. Так, выбрав из списка корней нужных корень, можно получить список всех слов корпуса, имеющих этот корень, и для каждого из них просмотреть контекст. Выбрав признак "одушевленность", можно получить все одушевленные существительные текста и т.п. Такая идеология создает возможность для решения многих обучающих и исследовательских задач.
6. Краткое описание фрагмента Компьютерного корпуса газетных текстов (более 200 тыс. словоупотреблений представлено в Интернете)
Работа оболочки была проверена на 1 млн. газетном корпусе. В настоящее время подготовлен для показа в Интернете фрагмент этого корпуса - Компьютерный микрокорпус газетных текстов, содержащий тексты общим объемом свыше 205000 словоупотреблений. В нем представлены 446 текстов следующих российских газет:
Завтра
ИЗВЕСТИЯ
МК
Московские Новости
Независимая
Новая Газета
Новгородские Ведомости
Томская Неделя Таблица 3.
Распределение по жанровым типам текстов в во фрагменте Интернет-варианта корпуса:
Жанровый тип Кол-во текстов Общий объем тек-стов в к-ве слово-употреблений в них Информационно-публицистический 164 92620 Остальное 6 2856 Официально-деловой 21 5463 Разговорно-письменный 26 686 Реклама 9 1525 Собственно-информационный 105 9912 Собственно-публицистический 94 79010 Художественное произведение 8 5033 Худохественно-публицистический 13 8414 Для характеризации словоупотреблений фрагмента корпуса сейчас используется 20 разных типов информации:
- Знак препинания справа,
- Исходная форма слова,
- Постоянные признаки,
- Переменные признаки,
- Лексико-грамматический разряд,
- Корень,
- Морфемная модель,
- Жанровый тип,
- Жанр,
- Номер документа,
- Источник,
- Именные синтаксемы,
- Синоним. группы лексем со стил. пометами,
- Омонимия,
- Семантический класс,
- Доминанты членов синон. групп лексем,
- Особенности употребления,
- Частотно-ранговые характеристики,
- Части текста,
- Предложение,
Для осуществления поисковых операций в базе Корпуса надо перейти в раздел «Поисковая система по корпусу».
7. Замечания и предложения.Работа над Интернет-вариантом корпуса только начинается. Мы будем благодарны за все отклики, замечания и предложения, шлите их, пожалуйста, сюда
Настоящее исследование и интернет-разработка корпуса выполнены при финансовой поддержке Российского фонда фундаментальных исследований - РФФИ (гранты РФФИ01-07-90386 и02-06-80435 ).