T A R T U R I I K L I K U Ü L I K O O L I T O I M E T I S E D УЧЕНЫЕ ЗАПИСКИ ТАРТУСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА ACTA ET COMMENTATIONES UNIVERSITATIS TARTUENSIS ALUSTATUD 1893.a. VIHIK 591 ВЫПУСК ОСНОВАНЫ В 1893.г. KVANTITATIIVSE LINGVISTIKA JA TEKSTIDE AUTOMAATANALÜÜSI AKTUAALSEID PROBLEEME АКТУАЛЬНЫЕ ПРОБЛЕМЫ КВАНТИТАТИВНОЙ ЛИНГВИСТИКИ И АВТОМАТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ Töid keelestatistika alalt VII Труды по лингвостатистике ТАРТУ 19 8 1 Toimetuskolleegiwn: Siiri Baitar, Jaan Soontak (vastutav toimetaja), Juhan Tuldava (esimees), Aino Valmet, Tiit-Rein Viitso, Astrid Villup. Редакционная коллегия: Сийри Райтар, Яан Соонтак (отв. редактор), Юхан Тулдава (председатель), Айно Валмет, Астрид Виллуп, Тийт-Рейн Вийтсо. Ученые записки Тартуского государственного университета. Выпуск 591. АКТУАЛЬНЫЕ ПРОБЛЕМЫ КВАНТИТАТИВНОЙ ЛИНГВИСТИКИ И АВТОМАТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ. . Труды по лингвостатистике УІІ. На русском языке. Резюме на английском и немецком языках. Тартуский государственный университет. .202 400, ЭССР, г.Тарту, ул.Юликооли, 18. Ответственный редактор Я.Соонтак. Сдано в печать І4.І2.І98І. MB І0Э52. Формат 30x45/4. ІЗумага печатная. ' Машинопись. Ротапринт. Учетно-издательских листов 10,2. Печатных листов 10,25. Тираж 400. Заказ J* 1353. Цена I руб. 50 коп. Типография ТІУ, 202400, г.Тарту, ул.Лялсона, 14. Тартуский государственный университет, І98! О КВАНТИТАТИВНОЙ ТИПОЛОГИИ ТЕКСТА П.М. Алексеев Возродившийся за последние годы интерес к изучению линг­ вистических свойств текста вызван потребностью в адекватных описаниях речевой деятельности (langage), которые использу­ ются при моделировании механизмов и процессов порождения и восприятия речи. Такие описания и модели необходимы для тео­ рии языка, лингводидактики, для теории и практики перевода, для работ по созданию систем автоматизированной переработки текста и систем искусственного интеллекта. Возникающие при этом задачи решаются в современном язы­ кознании коллективным, комплексным и многоаспектным изучени­ ем устройства и поведения сложных лингвистических объектов. Только в результате целенаправленных, системных исследований можно получить достоверные и развернутые сведения о языке и речи. Системные исследования языка и речи можно осуществлять как по линии дедуктивных порождающих процедур, так и по пути индуктивного моделирования текста. В первом случае система языка, его "грамматика" рассматривается как конечное множе­ ство детерминированных правил, а реализация системы - как бесконечное число регулярных цепочек слов, построенных по этим правилам. Объяснение языковых объектов "точными" терми­ нами тогда относится к компетенции "алгебраической" лингвис­ тики, а количественными методами описываются лишь явления ре­ чи, текста. Лингвисты, идущие по второму пути, считают, что система языка как результат коллективного опыта его носителей в дей­ ствительности порождает не все "грамматически правильные" цепочки, но только те из них, которые являются "осмысленны­ ми". В порождении текста участвуют система и норма языка, узус и ситуация, поэтому естественные языки должны ошсывать- ся контекстно-зависимыми грамматиками. Для выявления ограни­ чений, накладываемых нормой и ситуацией на функционирование системы, используются методы индуктивной лингвистики текста, в том числе статистико-вероятностные методы. Лингвистические объекты могут, таким образом, описываться с помощью вероят­ ностных оценок как на уровне речи, так и на уровне языка. 3 Индуктивное количественное исследование текста не сводит­ ся к накоплению фактического материала, но предусматривает его последовательное обобщение. В процессе количественного лингвистического анализа текста на каждом этапе обобщения вы­ являются характерные свойства текстов, идиолектов, подъязы­ ков, функциональных стилей, языков. Полученные этим путем ха­ рактеристики выступают в качестве типологических признаков соответствующего объекта, а лингвистика текста становится средством изучения типологии языка и речи. Текст как множе­ ство всех текстов на данном языке, уже созданных и тех, ко­ торые будут созданы, содержит полные сведения о системе и норме языка, обо всех лингвистических подсистемах. "Нет в языке ничего, чего не было бы ранее в речи" (Бенвенист,І974, с. 140; ср. Соссюр, 1977, с. 57) и, следовательно, в тексте. Поскольку при таком подходе важным инструментом являются количественные методы описания и анализа материала,можно ут­ верждать, что в задачи лингвистики текста входит его кванти­ тативно-типологическое описание, а сама эта дисциплина может приобрести статус квантитативной типологии текста. Этим тер­ мином здесь предлагается обозначать типологические исследо­ вания текста, которые исходят из статистико-вероятностных, системно-структурных и семиотико-информационных представле­ ний о языке и речи и применяют соответствующий этим представ­ лениям аппарат, сочетая его с собственно лингвистической ме­ тодикой анализа. В настоящее время накоплено большое число квантитативных исследований языка и речи. Однако обобщение, упорядочение и осмысление их материалов, выделение релевантных теоретичес­ ких понятий и принципов происходит пока еще медленно. Причи­ ну отставания теории квантитативной лингвистики от ее прак­ тики следует, вероятно, искать в первую очередь в том, что основные методические и технологические понятия этой области пока еще слабо связаны с такими общими понятиями теоретичес­ кого языкознания, как речевая деятельность, система и норма языка, узус, текст. Ближайшая задача индуктивной количественной лингвистики текста видится поэтому в выделении и обобщении ее концепту­ ально-методологической и методической базы, в экспликации этой базы на фоне общих понятий современного языкознания, соотносимых со схемой речевой деятельности. Цель квантитативной типологии текста определяется как по­ лучение вероятностных и статистико-информационных моделей, описывающих и объясняющих типологические особенности сложных лингвистических объектов, которые представлены текстом. Предметом квантитативной типологии текста можно считать описание речевой деятельности на различных уровнях ее сис­ темно-структурной организации, начиная с исходной, текстовой репрезентации. Текст со всеми содержащимися в нем лингвисти­ ческими единицами является непосредственным объектом изуче­ ния как единственная данная в наблюдении реальность. Текст, будучи результатом речевого акта, включает в себя некоторую часть инвентаря языковых элементов. Они сочетаются в тексте в соответствии с грамматикой языка и речи, отбираются для ис­ пользования в нем согласно этим правилам и в зависимости от условий внешней ситуации; их отбор регулируется и нормой язы­ ка. Таким образом, текст реализует и одновременно формирует систему языка, норму, речь, функциональные стили, подъязыки. Поэтому лингвистическая типология текста отражает типологию всех реализуемых в тексте лингвистических систем и подсистем. От наблюдений над текстом к выявлению его структуры, об об­ общений на уровне текста к наблюдениям на уровнях узуса,нор­ мы и системы языка - таков путь, который используется для ин­ дуктивного построения теорий речевой деятельности. Лингвистика текста, следовательно, является главным инс­ трументом для таких теорий. Она может тогда не ограничивать­ ся рассмотрением индивидуальности отдельного текста, как это делается в стилистике художественной речи. Ее задачей будет выявление определенного стереотипа, лежащего в основе устрой­ ства усредненного текста, выявление лексико-фразеологических, морфологических, синтаксических, ситуативных и других "фор­ мул" построения текста (Пиотровский, 1975, с. 55-56). Поня­ тие усредненного текста позволяет говорить о типологии текс­ та вообще, а не только о типологии текстов, хотя не исключа­ ется рассмотрение и отдельного текста. Важно подчеркнуть,что единые, унифицированные процедуры могут применяться для опи­ сания устройства текста типового и текста конкретного. Статистико-вероятностные приемы анализа речевого матери­ ала, сочетаясь с собственно лингвистическими приемами, обра­ зуют методику квантитативной типологии текста. Обсуждение проблем, возникающих в связи с лингвистическими, вероятност­ ными, системно-структурными и семиотико-информационными пред - ставлениями о речевой деятельности, лежит в области теории квантитативной типологии текста. 5 Аксиоматическая часть этой теории может быть представле­ на рядом утверждений, принимаемых в качестве постулатов. I. Язык и речь суть проявления языкового Феномена. 1 Таблица 2 Распределение способа выражения сказуемого по видам и группам симметрии гК.. ол-во симметричный асимметричный предик. пар зеркальная симметшя ритмичная симметрия смешан. наруш. наруш. наруш. симмет­ симметр. симметр. симметр. ось между ось. СИМ. простой ритм непростой ритм рия в начале в серед. в конце предикат. включает парами предикат. где такт ра­ где такт ра­ с расширением с сужением пару вен одной вен несколь­ пред. паре ким предикат. начала конца начала конца парам I 2 3 4 5 6 7 8 9 10 II 12 3 - 10 25 - - - - - - 4 - 10 4 5 - 20 I - - - - 3 10 - 18 5 - 4 9 - - 2 2 - 13 9 I 7 6 2 - 5 I - - - - 4 3 4 3 7 - I I - - - - - 4 2 - 3 8 3 9 - - I - - - - - I - - - 10 - - - - - - - I - I - II - - - - - - - - - - I - 7 15 64 2 2 2 26 28 7 41 метрик (рисо I), затем ряды были сгруппированы по признаку наличия или отсутствия в них симметрии (см. табл. 2). Из 220 рядов более половины (53 %) оказались симметрич­ ными с явным преобладанием ритмичной симметрии с простым рит­ мом, где такт равен одной предикативной паре (третья группа - 54 %). Причем, чем короче ряд, тем чаще наблкщается в нем симметрия. В третьей груше замечена еще одна закономерность: ее ряды представляют собой монотонное повторение то ли гла­ гола (V), то ж краткого причастия (Р), причем 54 ряда из 64 полностью "глагольных", а 10 - "причастных", которые оказа­ лись только трех- или четырехчленными. "Глагольные" яе ряди насчитывают 5, 6, 7, 8 и даже девять глаголов. На третьем месте по частоте ряды с зеркальной симметрией, причем среди них больше трехчленных, например: г-Р^ Р-/ / -JP, VL- V -Л/, -^Р и т.дГ . В отличие от рядов, составленных по прзиции сказуемых, здесь отсутствуют примеры ритмичной симметрии с непростым ритмом с расширением начала (пятая группа) и с сужением кон­ ца (восьмая груша). Примерно 12 % от общего количества рефератов составляет девятая груша, т.е. смешанная. Преобладает в ней зеркально- монотонная симметрия (12 случаев): Г- -^Р Р Р, V- - у - , W-J/P - Р Р Р Р Р Р или монотонно-зеркальная (7 случаев). В четырех случаях наблюдается монотонно-монотонная,напр., Р Р Р - ив одном случае монотонно-ритмичная симмет­ рия: V V V'V V — Р N- P N - Частота асимметричных рядов почти такая же, как и сим­ метричных. Полностью асимметричными оказались 26 рядов, ко­ торые не вошли ни в 10, ни в II, ни в 12 группы. Среди асим­ метричных наиболее многочисленной оказалась двенадцатая іруп- па, в которой симметрия нарушалась в конце ряда (41 ряд). На­ пример, У - Р (на один предикат) Р - Р -Р (на один предикат). Затем следует десятая груша (28 рядов), где нарушается симметрия в начале ряда. Например, Р - Р - V - Р (на один предикат) Р - WW (на один предикат). Сравнительно небольшая одиннадцатая груша с нарушением 5 33 симметрии в середине ряда. Например, - А - VVVна один предикат, V Р V VV VV на один предикат. Сравнение рядов предикатов по их позиции и по способу вы­ ражения на материале 220 рефератов показало, что в 73 рефе­ ратах oda ряда симметричны, причем в 40 рефератах (33,1 %) полностью совпадают группы семметрии. В 99 рефератах (45 %) симметрия частичная: либо по позиции, либо по способу выра­ жения. 48 рефератов (21,8 %) полностью асимметричны по пози­ ции и по способу выражения. Как показывает анализ, предикативным рядам свойственна ритмичная и зеркальная симметрия. При этом симметричны,в ос­ новном, рефераты с тремя-четырьмя сказуемыми, где преоблада­ ют простые предложения. Однако чрезмерность симметрии ниве­ лировала бы экспрессивные свойства языка и сделала бы рефе­ рат монотонным для читающего. Поэтому даже среди коротких рефератов почти 22 % асимметричных. Т.е. соотношение мевду симметрией и асимметрией в синтаксисе является тем принци­ пом, который лежит в основе функционирования элементов сис­ темы языка и речи (Хоккетт, 1970). Л И Т Е Р А Т У Р А Хоккетт У.Ф. Проблема языковых универсалий. - В кн.: Новое в лингвистике, У. 1970. SYMMETRY IN THE ANALYSIS OP PREDICATES Natalya P. Darchuk S u m m a r y In this study the principle of symmetry is applied to the analysis of predicates in scientific abstracts. Symmetry is revealed in both pre- or post-position of the predicate as to the subject and in the means of its expression. Types and groups of symmetrical structures are estab­ lished and statistically characterized. It was noted that the amount of symmetrically or rhyth­ mically organized predicate sequences lessens with the growth of their length. 34 АВТОМАТИЧЕСКИЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ ПОЭТИЧЕСКОГО ТЕКСТА А.В. Зубов Полезность использования квантитативных методов и совре­ менных ЭВМ в стиховедении сейчас не вызывает сомнения (Гас- паров, 1974, 18-33; Григорьев (ред.), 1973, 23-25). С помо­ щью машин составляются словари и конкордансы к отдельным про­ изведениям и собраниям произведений, словари рифм; проводят­ ся автоматический анализ ритмической организации стихов и анализ эмоционального фона стихотворного текста, и целый РЯД других работ (см., например, зарубежные работы, указанные в исследовании (Григорьев (ред.), 1973, 23-25) и советскую библиографию: Гиндин, 1978; Ралько, 1977, 144-208). Однако такие исследования проводятся, как правило, фраг­ ментарно. Исследователь не получает полной информации о ста­ тистической структуре всех произведений конкретного авторана разных уровнях: синтаксическом, лексическом, морфологическом и ритмическом. В нашей работе сделана попытка провести такой анализ на материале поэтических произведений С.Есенина (Есенин, 1966). На первом этапе работы был проведен с помощью ЭВМ ста­ тистический анализ употребительности лексики в поэтических произведениях С.Есенина. Были получены алфавитный и частот­ ный списки словоформ (Гайдукова, Зубов, 1975).В словарь вош­ ло 15 786 словоформ, выбранных из текста длиной в 56347 сло­ воупотреблений. На следующем этапе работы каждой словоформе "вручную"при­ сваивался код, содержащий русские буквы и десятичные цифры. Последние использовались для указания общего числа слогов и места ударного слога в словоформе. В процессе анализй- разли­ чались 17 классов слов: существительное (код - С), глагол в личной Форме (Г), глагол в инфинитиве (И), прилагательное (А), прилагательное в краткой форме (Л), наречие (Н), числи­ тельное количественное (Ч), числительное порядковое (Я), имя собственное (Б), причастие (П), деепричастие ^Д), предлог (Р), частица (Ц), местоимение (М), междометие (Ж), союз (Ю), модальное слово (Ф). Помимо этого, для каждой словоформы указывались граммати­ ческие значения рода, числа, падежа и времени. В итоге каждая словоформа получала код, состоящий из б знаков. Например, существительное ВЕСНОЙ и глагол РАСЦВЕЛА получали следующие коды: ВЕСНОЙ - СЖЕТ22, РАСЦВЕЛА - ПКЕПЗЗ Здесь: С - существительное, Г - глагол, Ж - женский род, Е - единственное число, Т - творительный падеж, П - прошедшее время. Число 22 у первого слова обозначает, что в нем 2 сло­ га и ударение падает на второй слог. Аналогично расшифровы­ вается и число 33 у второго слова. В процессе расстановки ударений в словоформах алфавитно­ го списка безударными считались все односложные служебные слова и односложные местоимения. Предлогам типа "В", "К" и им подобным словарным единицам, не образующим слогам, припи­ сывался код "00м. В дальнейшем алфавитный словарь вместе с кодами перфори­ ровался на перфокарты и вводился в память ЭВМ. Таким же об­ разом в ЭВМ вводились и все поэтические произведения С. Есе­ нина. Все нижеописываемые результаты получены на ЭВМ ЕС-1020 с помощью одной основной программы, состоящей из III7 операто­ ров языка ПЛ/І и 10 вспомогательных программ, написанных на том же алгоритмическом языке. Принцип действия основной программы весьма прост: нало­ жение каждой строки произведений автора на закодированный ал­ фавитный словарь автора и подсчет соответствующих буквенных и цифровых кодов слов каждой строки. Рассмотрим получаемые при этом результаты на примере пер­ вой строфы известного стихотворения С.Есенина (Есенин,1967, 161): Каждый труд благослови, удача! Рыбаку - чтоб с рыбой невода, Пахарю - чтоб плуг его и кляча Доставали хлеба на года. В результате замены каждого слова строки кодом соответ­ ствующего класса слова, "отбираемого" машиной в алфавитном словаре автора, ЭВМ выдает следующие структурные строки этой строфы на уровне классов слов (I): * Здесь и далее под словом понимается словоформа. МСГ,С! МСГС С-ЮРСС, (I) СЮРСС (2) С-ЮСМЮС сюсмюс ГСРС. ГСРС Рядом с каждой такой синтаксической формулой машина вы­ дает структуру строки на уровне классов слов, но без знаков пунктуации (2). Вслед за этим каждое слово строки заменялось информацией о количестве слогов в слове и месте ударного слога в нем. В итоге на печать выдавались структура строки по способу расп­ ределения в ней слогов всего и ударных слогов (3). 21 II 44 32 33 10 00 21 33 (3) 31 10 II 22 10 21 43 21 10 22 Далее, на основе информации (3) для каждой строки строи­ лась ритмическая формула строки. Место каждого очередного ударного слога строки R(k) подсчитывалось машиной по сле­ дующим формулам: R (і) — Uft), если U (і) Ф О R (М-) — ІГ $(і) U fk), при /:>/ и где U(0 - место ударного слога в слове строки с номером l ; 5( 0- число слогов в слове строки с номером I. Для рассматриваемого примера ритмические формулы строк имели следующий вид (4): 01 03 07 09 03 05 09 (4) 01 05 07 09 03 05 09 Помимо этого, для возможности проведения в дальнейшем анализа связи длины строки (в слогах) и. типа ритмических структур строк, для каждой строки выдавалась ритмическая фор­ мула строки в зависимости от длины строки (5): 10 01 03 07 09 09 03 05 09 (5) 10 01 05 07 09 09 03 05 09 Здесь первые две цифры каждой строки обозначают длину строки. Все пять типов информации (I), (2), (3), (4), (5) по всем строкам объединялись во внешней памяти машины. После оконча­ ния обработки всех I26I0 строк произведений С.Есенина, ЭВМ классифицировала и суммировала эту информацию по различным признакам. Так, наиболее употребительными структурами строк га уров­ не классов слов, оказались следующие (табл. I): Таблица I Наиболее употребительные структуры строк в произведениях С.Есенина Ж пп. Структура строки Абсолютная Относительная частота F частота I. АС. 76 0,00603 2. ГАС. 62 0,00492 3. ГС. 59 • 0,00468 4. РАС. 44 0,00349 5. ГСС. 42 0,00333 6. АС. 41 0,00325 7. РАС. 41 0,00325 8. ГРС. 40 0,00317 9. ГС. 40 0,00317 10. РСАС. .34 0,00270 Всего таких структур оказалось 8890. Из них первые 50 структур (включая р = 13) покрывают 1218 структур (9,6 %), первые 100 (включая р = 8) - 1709 структур (13,6 %). Несколько отличающиеся данные получены для структур строк без знаков. Начало соответствующего частотного списка приве­ дено в таблице 2. Таблица 2- Наиболее употребительные структуры строк без знаков в произведениях С.Есенина Ш Абсолютная пп. Структура строки Относительная частота частота I. АС 167 0,01324 2. ГС 151 0,01197 3. ГАС 133 0,01055 4. РАС 116 0,00920 5. ГСС 86 0,00682 6. ГРС 83 0,00658 38 7. САС 76 0,00603 8. РСАС 71 0,00563 9. гмс 70 0,00555 10. сс 55 0,00436 Общее число структур в этом случае оказалось гораздо меньшим - 6641. Из них первые 50 структур включают структуры с частотой FŽ 21 и покрывают 2293 структуры (18,2 %). Пер­ вая сотня э?их структур включает 3053 структуры, что состав­ ляет 24,2 % общего числа структур. Интересные результаты дает частотный список ритмических структур строк. Из общего числа I26I0 строк машиной зафик­ сировано 787 разных структур. Причем первые 10 структур (табл. 3) покрывают 32 % всех структур, первые 50-71 %,пер­ вые 100-80 %. Первые 160 структур (они включают все структу­ ры до частоты 9) покрывают 89 % всего количества структур. Таблица 3 Наиболее употребительные ритмические структуры строк в произведениях С.Есенина Абсолютная Относительная пп. Ритмическая структура строки частота частота I 03 06 09 670 0,05313 2 03 05 07 462 0,03664 3 02 05 08 450 0,03569 4 02 04 08 402 0,03188 5 03 07 394 0,03125 6 03 05 09 381 0,03021 7 03 06 08 380 0,03013 8 02 05 07 293 0,02324 9 03 05 287 0,02276 10 01 03 07 258 0,02046 При анализе распределения структур по количеству слогов в строке оказалось, что 88,5 % всех строк имеют длину от 6 до 12 слогов. Строк длиной в 8 слогов оказалось 20 % от об­ щего числа строк, в 9 слогов - 21,6 в 10 слогов - 15,7 % (это - самые употребительные типы ритмических структур). Достаточно интересные результаты можно наблюдать, анали­ зируя частотные списки употребляемости строк по распределению в них общего числа слогов в словах строки и мест ударных сло­ гов (табл. 4). 39 Таблица 4 Наиболее употребительные структуры строк по числу слогов в словах и месту ударного слога в них Л* Структура строки Абсолютная Относительная пп. частота частота I 21 21 33 29 0,00230 2 22 22 29 0,00230 3 21 27 0,00214 4 21 43 25 0,00198 5 43 33 25 0,00198 6 10 22 22 22 24 0,00190 7 10 22 22 32 23 0,00182 8 21 21 21 21 23 0,00182 9 33 22 22 23 0,00182 10 43 21 31 22 0,00174 Всего таких типов оказалось 6931. Первые 50 из них пок­ рывают 951 структуру (7,5 %), а первые 100-1603 структур (12,7 %). Большой объем информации получен при изучении взаимосвя­ зи длины строки в слогах и типа ритмических строк. Оказалось, что в исследуемом массиве стихотворений присутствует Г385 по­ добных типов зависимостей (табл. 5). На долю первых 50-ти за­ висимостей приходится 6175 или 49 % от общего I26I0 структур. Первые 100 структур покрывают 8182 структуры (64,9 %). Таблица 5 Наиболее употребительные ритмические типы строк в зависимости от длины строки в слогах ] Абсолютная Относительная Типы строк пп. частота частота I. 09 03 06 09 356 0,02823 2. 08 02 05 08 234 0,01856 3. 10 03 06 09 233 0,01848 4. 09 02 05 08 199 0,01578 5. 09 02 04 08 195 0,01546 6. 08 02 04 08 195 0,01546 7. 09 03 05 09 186 0,01475 8. 08 03 06 08 183 0,01451 40 9. 10 03 05 09 182 0,01443 10. 08 03 05 07 176 0,01396 Наконец, машина выдала данные, показывающие вышеуказан­ ную зависимость для всех длин строк. Например, наиболее упо­ требительные типы ритмических структур для строк длиной в 9 слогов выглядят так (табл. б). Таблица 6 Наиболее употребительные ритмические типы строк для строк длиной в 9 слогов Абсолютная Относительная пп. Типы строк частота частота I.. 09 03 06 09 356 0,02823 2. 09 02 05 08 199 0,01578 3. 09 02 04 08 195 0,01546 4. 09 03 05 09 186 0,01475 5. 09 01 03 06 09 143 0,01134 6. 09 03 06 08 137 0,01086 7. 09 03 05 07 133 0,01055 8. 09 02 04 06 08 91 0,00722 9. 09 02 06 08 89 0,00706 10. 09 03 07 74 0,00587 Следующий тип информации, выдаваемой компьютером, связан со статистикой грамматических особенностей текстов С. Есени­ на. После окончания обработки каждого стихотворения машина выдавала информацию о распределении в этом стихотворении ос­ новных классов слов. Такая же информация выдавалась и после окончания обработки всех произведений автора (табл. 7). В ходе программного наложения строк произведений на сло­ варь автора проводился подсчет употребительности в текстах С.Есенина грамматических значений рода, числа, падежа и вре­ мени. Все соответствующие данные выдавались машиной в виде таблиц, указывающих распределение данных значений по различ­ ным классам слов. Так, например, грамматические значения мужского, женско­ го и среднего рода употреблены С.Есениным в целом по текстам соответственно в 49,9%, 42,5%, 7,6% всех случаев. Для сущест­ вительных же эти цифры таковы: 45,3%, 42,5% и 12,2% (табл.8). 41 6 Таблица 7 Распределение классов слов в поэтических произведениях С.Есенина Класс слов Абсолютная Относительная пп. частота частота I. Существительное 16235 0,2882 2. Имя собственное 982 0,0175 3. Местоимение 7933 0,1408 4. Числительное коли­ чественное 301 0,0054 Итого: 25209 0,4474 5. Глагол 7485 0,1329 б. Глагол в инфинитиве 1203 0,0214 7. Прилагательное в краткой форме 496 0,0088 Итого: 9184 0,1630 8. Прилагат ельное 4674 0,0830 9. Причастие 673 0,0120 10. Числительное поряд­ ковое 83 0,0015 Итого: 5430 0,0964 II. Наречие 3700 0,0657 12. Деепричастие 466 0,0083 Итого: 4166 0,0740 13. Другие классы слов 12358 0,2194 Всего: 56347 1,0002 Таблица 8 Употребительность категории рода в поэтических произведениях С.Есенина Код и частота мужской j женский средний абсол. относ, j абсол. относ. абсол. относ. I 2 3 4 5 і б 7 Существительное I 7351 0,4528 j 6904 0,4253 і1980 0,1220 Имя собственное ; 665 0,6772 j 310 0,J157 j 7 0,0072 /// /// /// /// I 2 3 4 5 6 7 Местоимение 3929 0,4953 3632 0,4579 372 0,0469 Числительное ко­ личественное 229 0,7608 58 0,1927 14 0,0466 Глагол 4040 0,5398 3211 0,4290 234 0,0313 Прилагательное в краткой форме 354 0,7137 89 0,1795 53 0,1069 Прилагательное 2283 0,4885 2160 0,4622 231 0,0495 Причастие 477 0,7088 148 0,2200 48 0,0714 Числительное порядковое 76 0,9157 6 0,0723 I 0,0121 Итого: 19404 0,4993 I65I8 0,4251 2940 0,0757 Единственное число употреблялось С.Есениным в 76,7% слу­ чаев, множественное - в 23,3 %. Для существительных эти циф­ ры соответственно равны 73,5 % и 26,5 % (табл. 9). Таблица 9 Употребительность категории числа в поэтических произведениях С.Есенина Число и частота единственное множественное абсол. относит. абсол. относит. Существительное II926 0,7346 4309 0,2655 Имя собственное 975 0,9929 7 0,0071 Местоимение 6309 0,7953 1624 0,2047 Числительное количественное 265 0,8804 36 0,1196 Глагол 5888 0,7867 1597 0,2133 Прилагательное в краткой форме 411 0,8287 85 0,1713 Прилагательное 3492 0,7471 1182 0,2529 Причастие 477 0,7088 196 0,2912 Числительное порядковое 80 0,9639 3 0,0361 Итого: 29823 0,7674 9039 0,2326 Для глаголов и причастий даются таблицы распределения грамматических значений времени. Так, 43,8 % глаголов в текс­ тах употреблены в настоящем времени, 41,7 % - в прошедшем и 14,5 % - в будущем. Для причастий соотношение настоящего и 43 прошедшего времени определяется соответственно цифрами 20,' и 79,3 % (табл. 10). Таблица 10 Употребительность категории времени в поэтических произведениях С.Есенина Класс слов и частота Глагол Причастие Итого Абсол. Относ. Абсол. Относ. Абсол. Относ. Настоящее 2908 0,4380 139 0,2066 3047 0,4167 Прошедшее 2767 0,4168 534 0,7934 3301 0,4515 Будущее 964 0,1452 Повелительное наклонение 846 - Инфинитив 1203 - Компьютер выдал также распределения падежных форм для существительных, имен собственных, местоимений, порядковых и количественных числительных. Однако в виду большой омонимии падежных (форм эти данные требуют дополнительных уточнений. Полученная информация может быть с успехом использована не только в стиховедении, но и в литературоведении вообще, а также в стилистике и в лингвистике. Л И Т Е Р А Т У Р А Гаспаров М.Л. Современный русский стих. Метрика и ритмика. М., 1974." Гайдукова З.С., Зубов А.В. Частотный словарь поэтических произведений С.Есенина. - В кн.: Вопросы общей и при­ кладной лингвистики. Минск, 1975, с. 165-186. Гиндин С.И. Общее и русское стиховедение. Систематический указатель литературы, изданной в СССР на русском язы­ ке с 1958 по 1974 гг. - В кн.: Исследования по теории стиха. Л., 1978, с. 152-222. Григорьев В.П. (ред.) Поэт и слово. Опыт словаря. М., 1973. Есенин Сергей. Собрание сочинений в пяти томах. М., том I, 1966; том II, 1966; том ill, 1967. Есенин Сергей. Собрание сочинений в пяти томах. М., 1967, том, ill. Ралько І.Д. Вершаскладанне. Мінск. 1977. AUTOMATIC STATISTICAL ANALYSIS OP POETICAL TEXTS Alexander 7. Zubov S u m m a r y In this work, an attempt was made to carry out an ana­ lysis of syntactic, lexical, morphological and rhythmical peculiarities of texts by S. Esenin. The alphabetic and frequency lists of the forms taken by words were obtained. Each dictionary comprised 16,786 forms of words taken from the text, 65,347 usages of words in length. The following data were calculated: the usage of 17 word classes, the usage of grammatical meanings of gen­ der, number, case and tense. Information was obtained about the distribution of structure of lines on the level of word classes, and the distribution of rhythmic structures of lines. These results were obtained on an EC-1020 electronic computer by means of one master program comprising 1117 state­ ments of PL-1 and 10 auxiliary programs, written in the same algorithmic language. ЗАМЕЧАНИЯ О ПРИМЕНЕНИИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ДЛЯ ИЗУЧЕНИЯ ЗАВИСИМОСТЕЙ И СВЯЗЕЙ МЕЖДУ ХАРАКТЕРИСТИКАМИ ХУДОЖЕСТВЕННЫХ ТЕКСТОВ Ю.И. Левин О. Применение статистических методов в изучении литера­ туры (и, шире, языка) имеет ряд специфических черт, отличаю­ щих этот случай от применения статистики, скажем, в произ­ водстве. Специфика эта связана, прежде всего, со значительно большей неоднородностью рассматриваемых совокупностей (даже в наиболее "автоматизированной" области - фонологии),чем это бывает обычно в других областях применения статистки*. Пусть, например, сравниваются по каким-либо параметрам два текста. Прежде, чем говорить о различиях между ними, мы должны убе­ диться в том, что сами эти тексты "внутри себя" однородны, а не состоят из гетерогенных частей, "усреднение" между кото­ рыми резко нарушает истинную картину. С другой стороны, именно эта неоднородность часто позво­ ляет вообще обходиться без применения методов математической статистики (статистических критериев), ограничиваясь описа­ тельной статистикой и прямым "визуальным" сопоставлением чис­ ловых данных или графиков, - ибо различия между текстами час­ то оказываются статистически очевидными. Если же расхождения между текстами сравнительно невелики (скажем, сравнивается ямб "Полтавы" и "Медного всадника"),то применение статистических критериев становится необходимым, но возникает новая методологическая трудность, связанная с тем, что рассматривать здесь как генеральную совокупность (ГС). Если считать, что множество всех строк "Полтавы" ("Мед­ ного всадника") составляет ГС, и вести подсчеты по всау кор­ пусу, как это обычно делается, то результаты сравнения по какому-либо критерию не имеют смысла,, поскольку сравнение ГС * Кроме, пожалуй, социологии. Это сходство не случайно, ибо и в литературе, и в социальной жизни мы имеем дело со своеобразным сочетанием целеполагания и спонтанности, свя­ занным с человеческим творчеством (в широком смысле слова), что делает объекты изучения (художественные тексты, челове­ ческое поведение) гораздо более сложными, а их свойства ме­ нее предсказуемыми, чем в других областях, от техники до био­ логии. Можно сказать также, что такие объекты, как художест­ венные тексты, близки по своим свойствам к "субъектам'. статистически бессмысленно: с помощью критериев сравниваются выборки, и критерий позволяет судить о том, можно ли рассмат­ ривать эти выборки как извлеченные из одной и той же ГС (ги­ потеза об однородности). Выход состоит в том, чтобы рассмат­ ривать множество строк "Полтавы" как выборку из гипотетичес­ кой ("идеальной") бесконечной ГС, которую можно интерпрети­ ровать как множество всех текстов (строк), которые автор мог бы создать в том же "состоянии", в котором был создан рас­ сматриваемый текст. Существование аналогичной ГС надо пред­ положить и для "Медного всадника", и теперь проверять гипо­ тезу об однородности (то есть о том, что на деле эти две "идеальные" ГС совпадают; иначе: о том, что обе поэмы соз­ даны в одинаковом "состоянии")^. Эта заметка посвящена, прежде всего, особенностям устрой­ ства ГС, их элементов и выборок в рассматриваемой области. Нас интересует выявление различных типов ГС и заданных на них характеристик. При этом мы ограничиваемся рассмотрением случаев, когда статистика применяется не в чисто описатель­ ном плане, а для выявления зависимости каких-либо параметров текстов от "типа" этих текстов (разные авторы, жанры,направ­ ления, эпохи, метры и т.д.) или же корреляции между различ­ ными параметрами одного текста (корпуса текстов). 1 . С р а в н е н и е р а з л и ч н ы х т е к с т о в . 10. Речь может идти о сравнении а) для одного автора: "однотипных" текстов; текстов разных жанров; разных периодов; разных по тематике; б) текстов разных авторов; в) текстов разных литературных направлений и/или разных пе­ риодов; г) текстов разной тематики, разных жанров или функциональных стилей; д) стихотворных текстов разных размеров (одного автора или множества авторов); е) различных (в композиционном или тематическом отношении) частей одного текста (например, "военные", "мирные" и "фило­ софские" части "Войны и мира"; реплики разных персонажей в драме и т.д.) и т.д.^ В этой необходимости конструировать "идеальные" ГС нет еще особой специфики. Если мы решаем вопрос о симметрии мо­ неты, подбрасывая ее 100 раз, то эти 100 бросаний надо рас­ сматривать как выборку из "идеальной" бесконечной ГС,состоя­ щей из "всевозможных'1 бросаний этой монеты. Все примеры, связанные с различными типами текстов и Мы имеем, таким образом, к "текстов" (в широком смысле слова), которые сравниваются по интересующим нас характерис­ тикам. Если при этом выделенный для подсчетов объем текста п (в соответствующих единицах) мал по сравнению с объемом все­ го "текста" N (скажем,п < 0,1 N), то весь "текст" можно рас­ сматривать как ГС (характер элементов которой еще подлежит уточнению в зависимости от рассматриваемых характеристик), из которой извлечена выборка объема п (сюда же относится случай, когда весь "текст" незамкнут и/или необозрим; например, та­ кие "тексты", как "газетная публицистика" или "русский рас­ сказ 70-х годов XX века"); если же обследуется весь реальный текст или значительная его часть, то обследуемый объем сле­ дует считать выборкой из "идеальной" (гипотетической) ГС - см. п.О. Цель сравнения - проверка гипотезы о том, что наши выборки можно рассматривать (относительно данных характерис­ тик) как извлеченные из одной и той же ГС, или, иначе, о том, что тип текста не влияет на значения (распределения) изучае­ мых характеристик. Сравнение может идти по одному или нескольким параметрам (количественным характеристикам). Эти характеристики можно разделить на два класса. II. Первый класс: характеристика по самой своей природе относится к определенному формально выделяемому и имеющему "лингвистический смысл" сегменту текста: слову (число графем или слогов), предложению (число слов), стихотворной строке (число слогов, число ударений), стихотворению^ (число строк) и т.д., - причем весь текст членится без остатка^ на такие непересекающиеся сегменты. ГС в этом случае представляет собой "идеальный" или ре­ альный текст как множество сегментов (слов, предложений, строк, стихотворений и т.д.) соответствующего вида. В случае к = 2 сравнение проводится - если по характеру данных в этом есть необходимость - по известным критериям однородности,ис­ пользуемым в "задаче двух выборок", - наиболее известен крите­ их характеристиками, приводимые в этой заметке,являются чис­ то иллюстративными, и соответствующие перечни ни в коем слу­ чае не претендуют на полноту. ^ Если в качестве текста взято множество стихотворений, каждое из которых рассматривается как "единица" текста. ^ Это требование не является обязательным: "остаток" (скажем, внеметрические строки в стихотворении данного метра или сложные предложения, если нас интересуют только длины простых) мы можем просто игнорировать. 43 рий Стыодента (применимый, когда распределения хотя бы приб­ лиженно нормальны и обладают одинаковыми дисперсиями), но предпочтительнее "свободные от распределения" критерии типа критериев Смирнова (где сравниваются выборочные функции рас­ пределения), Вилкоксона, (для двух выборок) и . . В слу­ чае, когда к> 2, прибегают либо к "нестрогому" приему визу­ ального сравнения графиков (например, гистограмм или полиго­ нов частот), либо к дисперсионному анализу (что возможно при тех же предположениях, которые относятся к критерию Стыоден­ та), либо, наконец, к попарным сравнениям с помощью указан­ ных выше критериев . 12. Второй класс: характеристика не привязана к опреде­ ленному типу сегментов и может вычисляться и для текста в це­ лом и для любого его сегмента. 121. Рассмотрим вначале случай, когда именно тексту как целому приписывается одна числовая характеристика. В этом случае существенно, имеет ли эта величина выборочный харак­ тер, то есть может ли эта характеристика рассматриваться как реализация некоторой случайной величины, распределение кото­ рой в принципе известно (см. п. І2И) - или же она является существенно невыборочной (см. п. 1212). І2ІП. К первому классу относятся, прежде всего, частоты тех или иных элементов текста. Текст при этом мыслится раз­ битым^ на сегменты (элементы) типов , Az, , As (в част­ ности, А и Ю, или, общее, обладающие свойствами A,, Az,..., ks, - что позволяет отнести сюда и случай, когда события А- и Aj ( і 4 j ) совместимы®. Здесь возможны два эквивалентных подхода. Либо весь текст длины п (единица - сегмент) рас­ сматривается как выборка объема 1 из идеальной ГС^, реализу­ ющая для каждого А биномиальную случайную величину с ие- пытнаниями и с (неизвестной) вероятностью "успеха" (то есть наступления события А ) . Либо текст рассматривается как выборка объема из "идеальной" ГС, причем элементами выбор­ ки (и ГС) служат рассматриваемые сегменты, каждый из которых Отметим, что при сравнении только средних происходит потеря информации, связанной с характером распределения (сред­ ние могут совпадать и в случае значимого различия распреде­ лений данной характеристики в текстах). 7 Возможно, "с остатком" - см. сн. 5. ® Например, Aпри рассмотрении профиля ударности, где сег­мент - строка, 'l - ударен і-ый икт. ^ Которая в данном случае мыслится как состоящая из (ги­ потетических) текстов длины п каждый. 49 7 обладает или не обладает свойством А[. При любом подходе вы­ борочные данные сводятся к набору( ,п г ,..., п5 ) частот элементов со свойствами , А^,..., As.Такими сегментами мо­ гут быть а) фонемы (графемы): А- - некоторая фонема или группа фо­ нем; б) словоформы: А1 - существительные, - прилагательные и т.д.; А< - усеченные, А2 - полные формы прилагатель­ ных; кі - сущ. им., А2 - сущ. род. и т.д.; А - слово, входящее в метафору, Ж - остальные; А - словоформы частоты I, ЗГ - остальные; А - словоформы, принадлежа­ щие к числу 20 наиболее частых, Ж - остальные*® и . .; в) предложения: А, - простые, - сложносочиненные,Aj - сложноподчиненные и т.д.; г) стихотворные строки: А, - неточная рифма, Az - приб­ лизительная рифма, A3 - точная рифма; Ау, А2,... - ритмические формы данного размера и т.д.; д) стихотворения (см. сн. 4): А^, А2,... - различные раз­ меры и т.д. Наиболее распространенным критерием для проверки гипоте­ зы об однородности (т.е. о том, что все выборки извлечены из одной и той же ГС) или, что то же, о независимости (вероят­ ности сегментов А^, А2,..., А5 не зависят от типа текста), является критерий ^ для выборок (Крамер,1975, 482). Рас­ смотрим вначале "полиномиальный" случай, когда А; и Aj UVj) несовместимы. Если выборочные данные по к текстам сведены в таблицу тип~~ ^гип текс- суммы по сегмента 1 j k строкам П11 "' nij ' n i k П1. к п і і ' • • ' hik n L - • • h nsl • " nsj ' '• nsk ns- суммы по столбцам • nl- Ж «j- %- \~m k n - всего nj nk n 51 г у ( т{-п;р)г _ j j т г ; np 1 = і п ^ П ~ І n i ~ 4 ' где p=Hmi' ^ = і - р - Случай совместимых Aj покажем для большей ясности на примере сравнения текстов по профилю ударности (А; - ударен і-ый икт): -•^тексты суммы по 1 • • • І f e строкам Аі nll ... mп ч • ' ^lk i "il гг., ... n-ik m n u n" , k 4 ' ' ЧЕСЛО строк Ml ... Y l . n в j-м тексте 3 • n k где т - -- д.а?; - общее число строк с ударным t-м иктом, п.- - j U J число строк в j --M тексте (в отличие от полиномиального слу­ чая 5 вообще говоря, n./Z^j; ), а = Sun;. Здесь 1 j J j • > m - n n • ,• - _L . ч n tn - ta '3 n с ь(' k - i ) степенями свободы. І2И2. Иногда в качестве характеристик целого текста ис­ пользуются функции (а именно, отношения) частот отдельных элементов текста. Таковы, например, "меры", предложенные Б.Н Головиным (Головин,1971, I43-I5I). С точки зрения структуры и вероятностных свойств можно выделить три типа таких мер. а. Типа "меры связанности" = число предлогов и союзов . 3 • число предложений Такая величина совпадает (с точностью до множителя) со сред­ ним числом элементов данного типа в предложении - см. П.І2ИЗ. б. Типа число простых предложений _ т0 есть типа _т_, число сложных предложений n m где п - общее число элементов в выборке, m- число "успехов". Такие меры несущественно отличаются от относительных частот ™ f= тасло простых предложений у „ ncmat отличаются невы- n I общее число предложений / годно, поскольку относительные частоты можно сравнивать по известным критериям (например, ̂ 2, ), а отношения типа » хотя тоже в принципе сравнимы, однако требуют построения но­ вых, более сложных критериев. в. Типа число прилагательных ^ g отличие от случая б число существительных прилагательные и существительные не покрывают весь текст, и мы имеем здесь дело со следущей ситуацией: имеются два по­ линомиальных распределения, каждое с тремя исходами - А(при­ лагательные), к" (существительные), к'" (прочее). По тексту вычисляется отношение -~г, по другому, сравниваемому, отно- п' шение -р, . Для статистического сравнения текстов надо прове­ рить гипотезу о равенстве отношений двух вероятностей в двух "триномиальных'1 распределениях: j>^ (где ( р'- ) - ве­ роятность прилагательного (существительного) в і-ы тексте)« Критерии для проверки такой гипотезы неизвестны, хотя в прин­ ципе могут быть построены. 12113. К числовым характеристикам целого текста относят­ ся, далее, любые усредненные по всему тексту величины клас­ са і (см. п. И), характеризующие те или иные естественно вы­ деленные сегменты текста (например, среднее число графем в слове, слов в предложении, ударений в стихотворной строке и т.д.). Здесь нет ничего нового по сравнению с ситуацией п.И (только мы отказываемся от рассмотрения распределений, огра­ ничиваясь средними). Более интересны такие "меры", как дис­ персия той или иной количественной характеристики (например, длин предложений), или как коэффициент корреляции между ка­ кими-либо характеристиками текста. В этих случаях (как и в случае средних или частот) изучаемые тексты следует рассмат­ ривать как выборки (обычно из "идеальных" ГС), и использо­ вать критерии для сравнения соответствующих выборочных харак­ теристик (для дисперсий - критерий дисперсионного отношения для проверки гипотезы = <5^ в случае к = 2 и критерии Кокрена или Бартлета для проверки гипотезы = ... = в случае к > 2 ; для коэффициентов корреляции - критерий равен­ ства коэффициентов корреляции (Кендалл и Стьюарт, 1973,395). 1212. Иная ситуация возникает, когда рассматриваются "глобальные" характеристики целого текста, не имеющие выбо­ рочного характера, то есть такие, при рассмотрении которых нельзя рассматривать текст как выборку. Речь идет о таких "мерах" текста, которые аналогичны, скажем, длинам или весам предметов. Сюда относятся такие характеристики, как "мера компактности" распределения в тексте тех или иных элементов (Левин, 1967; Веденина и Шор, 1973), а также различные меры, связанные с лексической структурой текста (отношение объема словника к числу словоформ; доля текста, покрываемая словами частоты I или s наиболее частыми словами; параметр закона Ципфа для данного текста и т.д.). В силу невыборочного ха­ рактера этих величин статистическое сравнение текстов здесь невозможно - возможно лишь сравнение "на глаз", а также ран­ жирование текстов по значениям рассматриваемой меры. Отметим, что меры, связанные с лексической структурой текста, упомянутые выше, обладают важной особенностью: они существенно зависят от длины текста**. Поэтому по таким ха­ рактеристикам могут сопоставляться только тексты равного (или близкого) объема (или же равные по объему выборки из разных текстов)*^. 122. Поскольку характеристики рассматриваемого в п. 12 класса могут вычисляться для любого отрезка текста,часто ис­ пользуется следующий прием: текст разбивают на непересекаю­ щиеся отрезки равной "длины" (по числу графем, слов, предло­ жений, строк и т.д. - в зависимости от того, о какой харак­ теристике идет речь), скажем, 100, - причем эти отрезки мо­ гут и не покрывать весь текст, - и характеристика вычисляет­ ся для каждого из этих отрезков. Такой подход превращает рас­ сматриваемую характеристику в характеристику класса I (п. II), только сегменты, к которым относится характеристика,ока­ зываются здесь не "естественными" (как, например, предложе­ ние), а "искусственными", - и с ней можно обращаться как опи­ сано в п. II, в частности, рассматривать и сравнивать как распределения этой характеристики в различных текстах, так и средние значения. ГС в этом случае представляет собой текст То же верно, конечно, и для частоты того или иного элемента в тексте; но здесь эта зависимость - дело поправи­ мое, поскольку частота пропорциональна (в статистическом смысле) длине текста, что дает возможность рассматривать от­ носительную частоту. ^ Все, сказанное до сих пор в п. 12 применительно к це- D4 (может быть "идеальный") как множество отрезков длины 100. Такой подход имеет смысл при следующих обстоятельствах: а) когда происходит не сравнение текстов, а проверка од­ нородности данного текста; б) когда вычисляемая характеристика является невыбороч­ ной (п. 4.212) и/или зависящей от длины текста и, вычисленная для целого текста, не дает возможности применять статистиче­ ские критерии для сравнения текстов; в) когда неизвестны (или слишком сложны) критерии для сравнения значений характеристики по целым текстам (см. п. 12И2, в). В остальных случаях - то есть при сравнении частот,сред­ них значений, дисперсий, коэффициентов корреляции в текстах, каждый из которых внутренне однороден, - применение этой "многовыборочной" методики не дает никаких выгод по сравне­ нию с рассмотрением этих характеристик по целым текстам (просто вместо одной "большой" выборки рассматривается нес­ колько "малых"). 2 . В н у т р и т е к с т о в ы е к о р р е л я ц и и . 20. Здесь, в отличие от п. I, мы имеем дело с одной ГС, на элементах которой заданы две характеристики (будем рас­ сматривать только случай парной корреляции), каждая из кото­ рых может быть как качественной, так и количественной (в том числе частотной). Цель исследования - выявление определенно­ го статистического свойства ГС в целом, состоящего в том,что наличие у некоторого элемента данного значения одной из ха­ рактеристик влияет (или не влияет) на вероятность того, что вторая характеристика принимает то или иное значение. 21. Случай, когда одна из характеристик является качест­ венной (могущей принимать взаимоисключающие значения ,..., А^, в частности, А и Ю, а элементами ГС служат законченные тексты (загадка, пословица, стихотворение, рассказ и т.д.), может рассматриваться как с точки зрения "внутритекстовых" корреляций - если не множество текстов (может быть,"идеаль­ ное") берется как единая ГС, - так и с точки зрения п. 1,ес­ ли множества текстов, обладающих различными Aj, мы рассматри­ ваем в качестве различных ГС и сравниваем их по второй харак­ теристике. лому тексту, относится, конечно, и к любой (достаточно боль­ шой; выборке из него - в предположении об однородности текс- bb Пусть, например, ГС - множество (реальное или идеальное) русских загадок, выборка - некоторое случайно взятое его под­ множество, характеристика А - наличие (7Г - отсутствие) риф­ мы, В - наличие (В - отсутствие) антитезы. С помощью "таблицы сопряженности признаков (в данном случае 2x2)- (Pao 1968, 355) - и критерия ̂ может проверяться гипотеза о зависимо­ сти между этими характеристиками (или же может вычисляться выборочный коэффициент корреляции качественных признаков и устанавливаться значимость его отличия от нуля). С другой точки зрения (п. 1) мы можем рассматривать две ГС (два "жан­ ра") - скажем, рифмованных и нерифмованных загадок - и срав­ нивать их по частоте антитез, как в п. -12И1, пользуясь, на­ пример, критерием для двух выборок. Другой пример: ГС - некоторое множество стихотворений; выявляется связь мелщу тематикой (любовное, медитативное и т.д.) и длиной стихотворения (количественный признак) или размером (качественный признак) или частотой той или иной группы фонем (частотный признак) и т.д. Здесь также возможен альтернативный подход, когда каждая тематическая группа рас­ сматривается как ГС, и эти ГС сравниваются по второй харак­ теристике (в качестве различных ГС можно брать и, например, множества стихотворений, написанных различными размерами). 22. В других случаях - когда элементы ГС не являются за­ конченными текстами и/или когда обе характеристики не явля­ ются качественными - альтернативный подход типа п. I невоз­ можен. Приведем несколько примеров. а. Корреляции между частотой двух типов элементов А и В (например, существительных и прилагательных или неточных рифм и метафор) в текстах. ГС здесь - некоторое (реальное или идеальное) множество текстов, характеристики - относительные частоты элементов А и В в тексте. По выборке из ГС может быть вычислен выборочный коэффициент^корреляции г и установ­ лена значимость его отличия от нуля*^. б. Корреляция между количественными (например, стопность В этом и других случаях, когда может вычисляться г,н а него можно смотреть с двух точек зрения: I) г как оценка ис­ тинного коэффициента корреляции § , вычисляемая для проверки гипотезы § = 0; 2) т как "мера связанности" данных двух ха­ рактеристик для данной совокупности текстов. В этой второй ипостаси г может вычисляться для разных совокупностей текс­ тов (разных авторов, жанров и т.д.) и использоваться как ко­ личественная характеристика этих ГС для их сравнения в духе п. І2ИЗ. 66 ямба и частотнъш (например, доля текста, покрытая мета­ форами) признаками. Здесь также может вычисляться т , в. Корреляция между качественными признаками, носителями которых являются не (как в п. 21) целые тексты, а элементы текста, например, корреляция между метафорическим/неметафо­ рическим употреблением глагола и его видом или залогом или временем. Здесь ГС - реальный или идеальный текст как множе­ ство вхождений в него глагольных словоформ. Для выявления связи могут использоваться таблицы сопряженности признаков и критерий "f1 (в случае таблиц 2x2 может также вычисляться г ). 23. Кратко резюмируем то, что уже говорилось об употреб­ ляемом при изучении зависимостей в статистическом аппарате е Если изучается зависимость между признаками, хотя бы один из которых является качественным, то универсально применимый аппарат - таблицы сопряженности признаков и критерий В частном случае, когда каждый признак имеет два значения, по­ лучается таблица 2 х 2 и можно использовать не критерий 'f1 (являющийся приближенным), а пользоваться точным критерием для таблиц 2x2 (Большев и Смирнов, 1968, табл. 5.6), что особенно существенно в случае малых выборок, - или же вычис­ лять выборочный коэффициент корреляции для качествежых приз­ наков (приписывая А и В значение 1, а 7Г и И - значение 0) и устанавливать значимость его отличия от нуля. Если же оба признака - количественные (в частности, час­ тотные), то наиболее естественный путь - вычисление обычного выборочного коэффициента корреляции и установление значимос­ ти его отличия от нуля. Отметим, что в этом случае (и многих других) количе­ ственный признак может рассматриваться как качественный,при­ нимающий значения, скажем, А?, А^, А^, А^, А^ (А; - і-стоп­ ный ямб). При таком подходе г вычисляться уже не может, а используются таблицы сопряженности признаков ("стопность" - "тропность") и критерий Иг (при этом второй признак должен быть дискретизирован путем разбиения множества его возможных значений на интервалы). Наконец, можно рассматривать At- как "типы текстов", то есть как различные Ги, и использовать кри­ терий V1 как критерий однородности. Если при этом второй признак - количественный (и при­ том непрерывный), то необходима его дискретизация - см. сн. 14. То же, разумеется, можно проделать и при изучении зави­ симости между количественными признаками. Л 8 3. Подведем итоги, касающиеся характера ГС и их элемен­ тов. Во всех случаях ГС выступает как текст или корпус текс­ тов, реальный - или же идеальный, гипотетический (в случае, когда обследованию подвергается - то есть в выборку попадает - весь реальный текст или значительная его часть), рассмат­ риваемый как множество элементов либо определенной "естест­ венной" лингвистической (или "поэтической") природы - от фо­ немы (графемы) и слова до пословицы, стихотворения или дру­ гого законченного в себе текста (в последнем случае ГС явля­ ется "текстом" в обобщенном смысле слова*^), либо искусст­ венной природы - скажем, отрезков фиксированной длины. Эле­ менты эти могут и не покрывать весь текст как таковой - в таком случае оставшаяся часть текста мыслится несуществующей. При этом каждый элемент является носителем той или иной ко­ личественной или качественной характеристики (в случае изу­ чения корреляций - двух характеристик). Такой качественной характеристикой является обладание хотя бы одним из непере­ секающихся (тогда - ровно одним) или, реже, пересекающихся свойств , ..., As (часто s = 2: случай А и Ж). При этом иногда (см. п. 121И) возможен альтернативный подход: часто­ та элементов со свойством А- может рассматриваться как ко­ личественная характеристика текста, который при таком подхо­ де предстает уже не как состоящий из элементов, образующих выборку объема п, а как выборка объема 1 из (идеальной) ГС. Заметим в заключение, что выходя за пределы статистиче­ ского изучения текстов в общую лингвистику, психо- и социо­ лингвистику и т.д., мы встречаемся с ГС совершенно другого характера. Так, при изучении корреляции между числом фонем в языке и средней длиной морфемы (два количественных признака) элементами ГС служат языки; при изучении зависимости употре­ бления тех или иных фонетических, морфологических и т.д. ва­ риантов от возраста, социального статуса и других характе­ ристик (качественный - количественный или качественный приз­ наки) элементами ГС являются носители языка (а элементами вы­ борки - информанты) и т.д. В этом случае особенно ясно, что ГС выступает как не­ упорядоченное множество своих элементов, но это же верно и в других случаях: линейная упорядоченность "настоящего" текста при тех статистических рассмотрениях, о которых шла речь, во внимание не принимается. об Л И Т Е Р А Т У Р А Большев Л., Смирнов Н. Таблицы математической статистики.М., 1968. Веденина Д., Шор Е. Некоторые приемы стилистического иссле­ дования текста. М., 1973. Головин Б.Н. Язык и статистика. М., 1971. Кендалл М., Стьюарт А. Статистические выводы и связи. М., 1973. Крамер Г. Математические методы статистики. М., 1975. Левин Ю. О количественных характеристиках распределения сим­ волов в тексте. - Вопросы языкознания, 1967, 6. Pao С. Линейные статистические методы. М., 1968. NOTES ON APPLICATION OP MATHEMATICAL STATISTICS TO INVESTIGATION OP DEPENDENCES AND RELATIONS BETWEEN PARAMETERS OP LITERARY TEXTS Turi I. Levin S u m m a r y This paper deals with the specific traits of popula­ tions, samples, and their elements arising from statistical studies of literary texts. A classification of various real and possible types of statistical approaches to texts depending on the alms pur­ sued by the investigator is proposed and statistical tests corresponding to each type are indicated. 59 О РАСПРЕДЕЛЕНИЯХ ТЕРМИНОВ В АНГЛИЙСКОМ НАУЧНО-ТЕХНИЧЕСКОМ ТЕКСТЕ (ПОДЪЯЗЫК КВАНТОВЫХ ГЕНЕРАТОРОВ) Н. Манасян Проблема распределения терминов в научно-т ехническом тек­ сте становится весьма актуальной для функциональной стилисти - ки, инженерного языкознания и информатики. Распределения в на­ иболее обобщенной, абстрагированной форме представляют количе­ ственную организацию текста и его словаря и могут служить вы­ явлению типологии научно-технического стиля, его подстилей, подъязыков. Различные лексико-семантические группы словарных единиц описываются количественно различными статистическими распределениями их в тексте( Бектаев, Лукьяненков, 1971; Ка- ширина, 1973). Если установить в совокупности текстов распре­ деления для единиц, например, таких, как общеупотребительные, терминологические единицы, общенаучные, отраслевые и др. тер­ мины, то можно формальным путем классифицировать такие единицы в текстах аналогичного содержания, исходя из их распределений. Обычно в таких работах составляется частотный словарь ( вручную или с помощью ЭВМ) всех единиц текста (совокуп­ ности текстов) с фиксацией частот каждой единицы в каждой из равных по длине (I тыс. словоупотреблений) минимальных выборок При расписывании текста не регистрируется никакая содержатель­ ная информация õ его единицах. В результате в один и тот же класс единиц в соответствии с типом их распределения могут попасть омонимичные друг другу единицы, например, нетерминоло­ гическая единица и терминологическое употребление этой же еди­ ницы. Еще одна особенность предшествующих исследований состоит в том, что в них рассматривается ограниченное число единиц ча­ стотного словаря — 200-300 слов словоформ, то есть не более I - 3 % всего инвентаря или не более 10 % тех единиц инвента - ря, которые по своим количественным характеристикам (суммарная частота и число минимальных выборок) могли бы описываться распределениями. Наконец, в самих описаниях процедур расчетов, связанных с анализом распределений,либо отсутствует существенная информа - ция, либо имеют место определенные неточности. Исследование распределений терминов в текстах по кванто ­ вым генераторам на английском языке отличается от других работ прежде всего тем, что сам исходный материал, а именно употреб­ ления терминов, извлекался из текста "нетрадиционным" путем. При расписывании выборки объемся* 200 тыс. словоупотреблений регистрировались только термины, включая терминологические упо­ требления тех единиц, которые в другом контексте могли встре­ титься в общеупотребительном значении (то есть в этом втором случае они, естественно, не регистрировались). Другое отличие состоит в том, что из этой же текстовой выборки извлекались и терминологические сочетания. Следовательно, получены два час - тотных словаря — словарь однословных терминов и словарь тер- миносочетаний. Кроме того, из обоих частотных словарей для анализа отобраны все единицы, количественные характеристи­ ки которых (суммарная частота,частоты в минимальных выборках и число этих выборок) удовлетворяют требованиям анализа распре - делений. Таких единиц оказалось 1025. Количество вариант для каждой из них не менее 4; исключение составляют два термина "replace, " и "вшшпагіае, vn,, имеющие по два значения часто­ ты. Первоначально за основу алгоритма анализа была взята схе­ ма, описанная в(Бектаев, Лукьяненков, 1971). Однако в ходе работы над алгоритмом и программой расчета на ЭЕМ пришлось от­ казаться от строгого следования этой схеме, поскольку а) характер данных и величина выборки внесли изменения в вышеупомянутый алгоритм( у К. Б. Бектаева и К. Ф. Лукьяненкова выборка равна 400 тыс. словоупотреблений), б)в указанной схеме обнаружились некоторые неточности.На­ пример, при сравнении эмпирических рядов частот с теоретичес - кими при помощи критерия X2, авторы статьи берут для закона Пу­ ассона (1-1) степеней свободы, а для нормального и логариф - мически-нормального (1-2) , где 1 — количество интервалов частот после укрупнения малочисленных интервалов. Это предста­ вляется некорректным — в литературе по математической статис­ тике, включая также ту, на которую ссылаются авторы статьи, чи­ сло степеней свободы для законов Пуассона и Гаусса нормально­ го закона составляет (1-2) и (1-3) соответственно. Это ес­ тественно вытекает из понятия "степени свободы"и его определе­ ния, которое гласит, что при подсчете числа степеней свободы надо из числа разрядных частот вычесть число линейных связей , налагаемых на распределение. В линейные связи входят неизвест­ ные параметры и сумма наблюденных частот (так как величина вы­ борки всегда фиксирована). Анализ распределений относительно трех законов, Пуассо - на, Гаусса и логнормального, описываемый в настоящей статье , выполнен на ЭВМ BC-I020. Распределение каждой терминологичес - кой единицы проверялось по 12 вариантам объемов текста при че­ тырех разных объемах внутрисерийных выборок. Для сравнения построенных эмпирических рядов с теоретиче­ скими использовались критерий Пирсона X2 и критерий Колмогоро­ ва. Критерий X2 широко применяется как в статистике вообще, так и в лингвистической статистике в частности. Следует отме - тить, что его применение считается обоснованным только в том случае, если ни одна из разрядных частот не очень мала. Если же крайние частоты меньше пяти, их предлагают объединять так, чтобы суммы частот были не меньше пяти. Вследствие этого кри­ терий X2 нельзя было применить ко всем нашим данным, и в тех случаях, когда в силу указанных условий его применение было невозможным, был использован критерий Колмогорова. Описание щштериев см. в (Пиотровский, Бектаев, Пиотровская, 1977; Ми- тропольский, 1971; Вентцель, 1969). Ниже прилагается список анализируемых терминов. Степень приближения характеризуется уровнем 0,05. Условные обозначения и сокращения: # — машинный номер единицы; П — закон Пуассона; Н — нормальный закон; Л — ло­ гарифмически-нормальный закон; + — соответствие эмпирического распределения теоретическому; - — несоответствие эмпиричес - кого распределения теоретическому; у — частота единицы; а — имя прилагательное; adv — наречие; g — герундий; а — имя существительное; mm — имя числительное; PII — причас - 62 тие прошедшего времени; pn(attr) — имя собственное в атри - бутивной функции; • — глагол. Список анализируемых терминов T П H Д Jfc термин P П H Л 1 термин 1 laser, n 1640 - + - 50 number, п 201 - 2 mode, n 634 - - - 51 measure, 197 - 3 frequency, n 604 - - - 52 emission, n 189 + 4 beam, n 599 - - - 53 threshold, n 187 - 5 Pig., 576 - - - 54 absorption, n 186 - 6 energy, n 566 55 experiment, n 186 * 7 field, n 561 - - 56 pump, n 186 - 8 power, n 507 - + + 57 distribution, n 185 - 9 wave, n 496 - - - 58 photon, n 183 - 10 system, n 460 - + - 59 range, n 183 - 11 output, n 442 - - - 60 resonator, n 181 - 12 pulse, n 415 - - - 61 condition, n 177 - 13 radiation, n 399 - - - 62 operation, n 172 - 14 state, ri 378 - - - 63 material, n 171 - 15 gain, n 376 - - - 64 coupling, a 169 - 16 level, n 376 - - + 65 maximum, n 169 - 17 light, n 353 - - - 66 anplifi er, n 167 - 18 equation, n 343 - - + 67 term, n 164 - 19 optical, a 343 - - - 68 waveguide, n 162 - 20 cavity, n 342 - - - 69 structure, n 161 - 21 current, n 33О - - - 70 electric(al), a 159 - 22 electron, n 327 - - - 71 method, n 159 - 23 effect, n 321 - + + 72 efficiency, n 156 - 24 value, n 319 - - - 73 determine, v 155 - 25 result, n 296 + - - 74 noise, n 153 - 26 time, n 288 - - 75 theory, n 149 - 27 mirror, n 287 - - - 76 coefficient, n 147 + 28 wavelength, n 279 - - - 77 process, n 147 + 29 crystal, n 278 - - - 78 direction, n 146 - 30 maser(MASER),n 277 - - - 79 quantum, a 144 - 31 rate, n 259 - - - 80 Eq., n 142 - 32 measurement, n 248 - - - 81 constant, n 141 - 33 density, n 247 - - - 82 tube, n 140 - 34 atom, n 246 - - - 83 surface, n 139 + 35 line, n 245 - - + 84 magnetic, a 138 - 36 loss, n 244 - - - 85 model, n 137 - 37 transition, n 228 - - - 86 spectrum, n 135 - 38 device, v 226 - - - 87 solution, n 134 - 39 function, n 225 - - - 88 band, n 132 - 40 intensity, n 225 - - - 89 medium, n 132 - 41 high, a 218 - - - 90 low, a 130 - 42 signal, n 217 - - - 91 technique, n 130 + 43 phase, n 216 - - - 92 axis, n 129 - 44 region, n 216 - - - 93 dye, n 129 - 45 temperature, n 212 - - - 94 experimental, a 128 + 46 produce, v 211 - + - 95 amplitude, n 125 - 47 obtain, v 207 - - - 96 index, n 125 - 48 gas, n 204 - - - 97 order, n 125 + 49 length, n 201 - - - 98 reduce, v 125 + 99 pressure, v 123 - - 155 vary, v 89 - 00 source, n 123 + - 156 zero, n 89 - 01 component, n 122 - - 157 transverse, a 88 - 02 oscillator, n 122 - - 158 contain, v 87 + 03 problem, n 121 - - 159 ele ctromagne t ic,a 87 - 04 active, a 120 - - 160 saturation, n 87 + 05 analysis, n 119 - - 161 data, n 86 - 06 velocity, n 119 - - 162 laboratory, n 86 - 07 coherent, a 118 + - 163 peak, n 86 - 08 percent, n 118 - - 164 configuration, n 85 + 09 voltage, n 115 - - 165 variation, n 84 + Ю junction, n 114 - - 166 layer, n 83 - 11 nonlinear, a 114 - - 167 radius, n 82 - 12 factor, n 113 - - 168 behavior, n 81 13 discharge, n 112 - - 169 pump, v 81 - 14 modulation, n 112 - - 170 radio, n, a 81 _ 1 5 angle, n 110 - - 171 thickness, n 81 + 16 glass, n 110 - — 172 equal, a 80 + 17 interaction, n 110 - - 173 particle, n 80 - 18 observe, v no - - 174 film, n 79 - 19 plane, a 110 - - 175 pumping, a 79 - 20 element, n 109 - - 176 section, n 78 21 injection, n 109 - - 177 apply, v 77 + 22 parameter, n 109 - - 178 ion, n 77 - 23 microwave, a 108 - - 179 pattern, n 77 - 24 calculation, n 107 - - 180 property, n 77 - 25 oscillation, n Ю7 - - 181 provide, v 77 + 26 calculate, v Ю6 + - 182 upper, a 77 - 27 cell, n 105 - - 183 bandwidth, n 75 - 28 molecule, n Ю5 - - 184 polarization, n 75 - 29 form, n ЮЗ - - 185 cross, n 74 - 30 increase, v ЮЗ + - 186 emit, v 74 - 31 paper, n 1 02 + - 187 excitation, n 73 _ 32 figure, n 101 - - 188 pulsed, a 73 _ 33 reflection, n 101 - - 189 atomic, a 72 _ 34 detector, n 98 - - 190 develop, v 72 -ь 35 application, n 97 + - 191 diffraction, n 72 _ 36 guide, n 97 - - 192 result (in), v 72 4* 37 spectral, a 96 - - 193 ratio, n 71 + 38 stimulated, a 96 - - 194 unit, n 71 - 39 width, n 95 - - 195 approximation, n 70 _ 40 diode, n 94 - - 196 change, n 70 - 41 input, n 94 - - 197 effective, a 70 + 42 lasing, g 94 - - 198 shift, n 70 43 total, a 94 + - 199 development, n 69 + 44 generate, v 93 + - 200 lamp, n 69 - 45 grating, g 93 - - 201 minimum, n 69 + 46 thermal, a 92 - - 202 profile, n 69 47 excite, v 91 - - 203 single, a 69 + 48 operate, v 91 + + 204 amplification, n 68 49 resonance, n 91 - - 205 GW (cw), a/n 68 + 50 matrix, n 90 - - 206 rotational, a 68 - 51 point, n 90 - - 207 size, n 67 + 52 diameter, n 89 - - 208 vector, n 67 53 population, n 89 •+ - 209 dielectric, a 66 54 propagation, n 89 - - 2 1 0 aperture, n 65 - 04 211 circuit, n 65 - 268 tunable, a 53 - 212 carve, n 65 + - - 269 characteristic, n 52 + - 213 mechanism, n 65 - - - 270 define, v 52 > - 214 parametric, a 65 - - - 271 distance, n 52 - - 215 report, v 65 - 272 external, a 52 ~ 216 deeign, n 64 - - - 273 set, n 52 + ~ 217 linear, a 64 + 274 decay, n 51 - - 218 spontaneous, a 64 - 275 mechanical, a 51 - - 219 flow, n 63 276 relative, a 51 + - 220 dependence, n 62 + - - 277 sample, n 51 - ~ 221 parallel, a 62 278 chemical, a 50 + - 222 resonant, a 62 - - - 279 fraction, n 50 + - 223 apace, n 62 + - - 280 fringe, n 50 - - 224 target, n 62 - - - 281 generation, n 50 - - 225 electrode, n 61 282 heat, n 50 - - 226 reflect, v 61 + 283 predict, v 50 + - 227 scatter, v 61 - - - 284 ruby, n 50 - - 228 expression, n 60 + - - 285 study, n 50 + - 229 phenomenon, n 60 - - - 286 flux, n 49 - - 230 volume, n 60 - - - 287 normal, a 49 + _ 231 complex, a 59 288 satisfy, v 49 - _ 232 operator, n 59 - - - 289 scattering, n 49 *- - 233 rod, n 59 - - - 290 couple, v 48 + - 234 stability, n 59 291 nitrogen, n 48 - ~ 235 vapor, n 59 - - - 292 semiconductor, n 48 - - 236 coimnunication, n 58 293 substrate, n 48 - - 237 plate, n 58 294 hologram, n 47 - - 238 reflection, n 58 295 molecular, a 47 + - 239 spin, n 58 296 perturbation, n 47 - - 240 absorb, v 57 + 297 pumping, g 47 241 spatial, a 57 - - - 298 unstable, a 47 - ~ 242 theoretical, a 57 299 water, n 47 - ~ 243 amplify, v 56 + 300 disk, n 45 244 approximately,adv56 + - - 301 fluorescence, n 46 - - 245 lenae, n 56 - - - 302 infrared, a 46 - - 246 mixing, n 56 - - - ЗО3 portion, n 46 —, 247 proportional, a 56 +• - - 3°4 propagate, v 46 + - 248 work, n 56 + - - 3°5 solid-state, a 46 - » 249 area, n 55 - - - 3О6 stable, a 45 + » 250 concentration, n 55 - - - 3°7 excited, a 45 - - 251 inversion, n 55 - - - 308 hole, n 45 - _ 252 magnitude, n 55 + 3°9 increase, n 45 + - 253 motion, n 55 - - - 310 long, a 45 + _ 254 plasma, n 55 - - - 311 amount, n 44 - - 255 position, n 55 + - - 312 continuous, a 44 + - 256 action, n 54 + - - ЗІЗ longitudinal, a 44 - - 257 average, a 54 - - - 314 modulator, n 44 - - 258 cyclotron, n 54 - - - 315 numerical, a 44 - „ 259 dc, a/n 54 316 refractive, a 44 260 delay, n 54 317 torr, n 44 - - 261 Raman, pn(attr) 54 - - -318 agreement, n 43 + - 262 vibrational, a 54 - - _ 319 mixture, n 43 - - 263 Table (table ),n 53 320 modulate, v 43 - - 264 investigate, v 53 + - -321 strength, n 43 - - 26 5 liquid, a 53 - - _ 322 sum, n 43 + - 266 quantity, n 53 + 323 efficient, a 42 - - 267 relaxation, n 53 - _ _ 324 equilibrium, n 42 - - 325 highly, adv 42 + - - 382 shock, n 36 326 intence, a 42 + - - 383 spot, n 36 327 lifetime, n 42 - - - 384 computer, n 35 328 limit, n 42 + - - 385 gap, n 35 329 relation, n 42 + - - 386 interference, n 35 330 tune, v 42 - - - 387 scheme, n 35 331 constant, a 41 - - - 388 Stark, pn(attr) 35 332 decreeе е, v 41 + - - 389 superconductor, n 35 333 dimention, n 41 + - - 390 axial, a 34 334 electronic, a 41 + - - 391 dipole, n 34 335 feedback, n 41 - - - 392 duration, n 34 336 MR, a/6 41 - - - 393 electrooptic, a 34 337 fluctuation, n 41 - - - 394 experimentally, adv34 338 Gaussian, a 41 + - - 395 fiber, n 34 339 geometry, n 41 + - - 396 normalize, v 34 340 information, n 41 + - - 397 orientation, n 34 341 potential, n 41 - - - 398 reaction, n 34 342 reflectivity, n 41 - - - 399 receiver, n 34 343 relativistic, a 41 - - - 400 eolve, v 34 344 short, a 41 + - - 401 strong, a 34 345 cathode, n 40 - - - 402 transmit, v 34 346 estimate, v 40 + - - 403 vacuum, n 34 347 filter, n 40 + - - 404 bias, n 33 348 finite, a 40 + - - 405 charge, n 33 349 formula, n 40 - - - 406 consist, v 33 350 macroscopic, a 40 - - - 407 error, n 33 351 neon, n 40 - - - 408 face, n 33 352 transfer, n 40 - - - 409 interferometer, n 33 353 visible, a 40 - - - 410 narrow, a 33 354 center, n 39 + - - 411 observed, a 33 355 frame, n 39 - - - 412 oscillate, v 33 356 mount, v 39 + - - 413 prism, n 33 357 probability, n 39 - - - 414 ТВ, a/a 33 358 product, v 39 + - - 415 window, n 33 359 copper, a 38 - - - 416 analyze, v 32 360 ШВ, PH/n 38 - - - 417 applied, a 32 361 helium, n 38 4- - - 418 assumption, n 32 362 observation, n 38 + - - 419 boundary, a 32 363 optimum, n 38 + - - 420 chromium, n 32 364 physical, a 38 + - - 421 Josephson, pn(attr)32 365 probe, a 38 - - - 422 rectangular, a 32 366 transmission, n 38 - - - 423 research, n 32 367 aluminium, n 37 - - - 424 symmetric(al), a 32 368 control, v 37 + - - 425 use, v 32 369 detect, v 37 - - - 426 air, n 31 370 incident, a 37 - - - 427 conventional, a 31 371 radar, a 37 - - - 428 coupler, n 31 372 travel, v 37 - - - 429 diffusion, n 31 373 treatment, n 37 - - - 4 3 О D o p p l e r , p n ( a t t r ) 3 i 374 accurate, a 36 + - - 431 equivalent, a 31 375 carrier, a 36 - - - 432 flashlamp, n 31 376 coherence, n 36 + - - 433 interval, n 31 377 image, n 36 - - - 434 locking, g 31 378 optics,, n 36 - - - 435 negative, a 31 379 performance, n 36 + - - 436 polarized, a 31 380 ray, n 36 - - - 437 reduction, n 31 381 ring, n 36 ~ - - 438 accuracy, 11 3O 439 arrangement, n ЗО + 497 approximate, a 25 - 440 boundary, n 30 - ~ 498 decrease, n 25 + 44t circular, a ЗО - ~ 499 direct, a 25 + 442 growth, n 30 - ~ 500 limit, v 25 + 443 instability, n 30 - ~ 5О1 non-linearity, n 25 - 444 quality, n ЗО - ~ 502 polarize, v 25 + 445 spacing, n 30 + ~ 5О3 solid, a 25 + 446 broadening, n 29 - ~ 504 trap, v 25 - 447 channel, n 29 - ~ 505 vibration, n 25 - 448 cutoff, n 29 - ~ 506 atmosphere, n 24 - 449 fl*ont, n 29 - "507 atmospheric, a 24 - 450 Hamiltonian, n 29 - ~ 508 cool, v 24 + 451 internal, a 29 + 509 deposition, n 24 - 452 move, v 29 + ~ 510 instrument, n 24 - 453 optically, adv 29 + - 511 mean, a 24 + 454 path, n 29 - ~ 512 momentum, n 24 - 455 radial, a 29 - ""513 overall, a 24 - 456 scattering, a 29 - ~ 514 photomultiplier, n24 - 457 attenuation, n 28 + "515 plot, n 24 + 458 collision, n 28 + 516 radiate, v 24 + 459 contact, n 28 - "517 reference, n 24 - 460 heating, g 28 - ~ 518 reservoir, n 24 - 461 mercury, n 28 - У 9^ resistance, n . 24 + 462 operating, a 28 + - 520 RP (r-f, r.f.),a/n24- 463 pass, v 28 - ~ 521 segment, n 24 - 464 perpendicular, a 28 + ~ 522 single-mode, n 24 - 465 pure, a 28 + - 523 speed, n 24 - 466 pyroelectric, a 28 - ~ 524 steady, a 24 + 467 refraction, n 28 - - 525 test, n 24 - 468 responce, n 28 - - 526 wire, n 24 - 469 shape, n 28 + ~ 527 zero-order, a 24 - 470 yield, v 28 + - 528 adjust, v 23 + 471 arc, n 27 + - 529 analytical, a 23 + 472 argon, n 27 - - 530 buffer, a 23 - 473 combination, n 27 + - 531 degradation, n 23 - 474 dispersion, n 27 - - 532 detection, n 23 - 475 focal, a 27 - - 533 earth, n 23 - 476 focus, n 27 - - 534 evaluate, v 23 - 477 high-power, a 27 + - 535 expansion, n 23 + 478 integrated, a 27 + - 536 illuminate, v 23 - 479 interface, n 27 - - 537 moving, a 23 - 480 investigation, n 27 + - 538 pair, n 23 - 481 regime, n 27 + - 539 paramagnetically, 482 resulting, a 27 + adv 23 - 483 static, a 27 - - 540 focus, v 23 + 484 stationary, a 27 - - 541 scattered, a 23 - 485 susceptibility, n 27 - - 542 second, n 23 - 486 UV (uv), a 27 - ~ 543 situation, n 23 - 487 coupled, a 26 - - 544 stored, a 23 - 488 force, n 26 + - 545 temporal, a 23 - 489 injected, a 26 - - 546 xenon, a 23 - 490 measure, n 26 + - 547 wavefront, n 23 - 491 moment, n 26 - - 548 ammonia, a 22 - 492 procedure, n 26 + - 549 collisional, a 22 - 493 recombination, n 26 - - 55О confocal, a 22 - 494 semiclassical, a 26 - - 551 exposure, n 22 - 495 steady-state, a 26 - - 552 fixed, a 22 + 496 angular, a 25 + - 553 integral, n 22 + 554 ionization, n 22 612 estimate, n 19 555 monochroaiator, n 22 613 fabricate, v 19 556 object® & 22 - - - 614 flow, v 19 557 oxide, e 22 + - ~ 615 gate, n 19 558 periodic, a 22 - - - 616 geometric(al), a 19 559 plot, v 22 617 HP, а/л 19 560 stream, и 22 -618 lock, v 19 561 stress8 n 22 - - ~ 619 parasitic, a 19 562 eubmilliffieter, n 22 - - - 620 prediction, n 19 563 telescope» n 22 - - - 621 production, n 19 564 use g n 22 622 quartz, a 19 565 Bre gg, pn(attr) 21 623 resultant, a 19 566 calculated, a 21 + - - 624 screen, n 19 567 characteristic, a 21 - 62 5 splitter% n 19 568 conduction, n 21 - - - 626 statistical, a 19 569 conductivity, n 21 - - - 627 uncertainty, n 19 570 continuously, adv 21 + ~ - 628 uniform, a 19 571 cylindrical, a 21 + 629 watt, n 19 572 dispersive, в 21 - - - 630 adjacent, a 18 573 disturbance, n 21 631 approach, n 18 574 drift, n 21 632 burst, n 18 575 eigenvalue, n 21 633 compound, n 18 576 Pourier, psCattr) 21 + - - 634 cylinder, n 18 577 g&lliua, n 21 635 depth, n 18 578 metal, a. 21 + - - 636 display, v 18 579 mssle» n 21 637 examine, v 18 580 paee, n 21 + - - 638 formation, n 18 581 positive» a 21 - - ~ 639 linearly, adv 18 562 potential, a 21 - - - 640 kinetic, a 18 583 radiative, a 21 + 641 nature, n 18 584 replace, v 21 + - - 642 nuclear, a 18 585 rotation, n 21 643 physics, n 18 586 superconducting,a 21 - - - 644 planar, a 18 587 trace, n 21 645 remove, v 18 588 ultraviolet, a 21 646 resolution, n is 589 analyzer, n 20 647 satellite, n 13 590 curvature. n 20 + - ~ 648 slit, n ig 591 differential, a 20 + - - 649 spike, n 18 592 coordinate, n 20 + - - 650 stage, h 18 593 Fabry-Perot, a 20 - - - 651 ТЕМ, a/a ш 594 harmonic, a 20 - - — 652 traveling, a 18 595 magnification, n 20-- - 653 treat, v 18 596 maximize, v 20 + 6^4 absolute, a 17 597 metastable, a 20 - - - 6^5 aircraft, n 17 598 silicon, n 20 656 arsenide, a 17 599 standard, n 20 657 concept, n 17 600 symmetry, n 20 658 convert, v 17 601 transformation, n 20 - - - 659 core, n 17 602 transparent, a 20 + - - 660 diagonal, a 17 603 acceptor, n 19 661 displacement, n 17 604 array, n 19 - - - 662 drop, v 17 605 basis, n 19 + - - 663 enhancement, n 17 606 bend, n 19 664 Eresnel,pn(attr) 17 607 construct, v 19-- - 665 PIVHM, e/n/n/n 17 608 DP , PH/n 19 666 irradiation, n 17 609 divergence, n 19 + 667 millimeter, n 17 610 dynamic(al), a 19 668 nonequilibrium.n 17 611 eigenmode, n 19 + 669 periodicity, n 17 670 potassium, n 17 ~ - 727 create, v 14 - 671 pulsewidth, n 17 - - - 728 curved, a 14 - 672 rise, n 17 - - - 729 depend, v 14 - 673 sink, n 17 - 730 derivative, n 14 - 674 splitting, n 17 - - - 731 discrete, a 14 - 675 square, a 17 ™ - - 732 doped, a 14 - 676 step, n 17 733 evolution, n 14 - 677 stripe, a 17 -- - - 734 incoherent, a 14 - 678 terminal, a 17 - - - 735 limitation, n 14 - 679 t ime--dependent,a 17 ~ - - 736 loop, n 14 - 680 traveling-wave»a 17 - - - 737 manifold, n 14 - 681 zone, a 17 - - ~ 738 neodymium, n 14 - 682 charge, v 16 739 net, n 14 - 683 classical, a 16 - - - 740 publication, n 14 - 684 decay, v 16 - 741 Q-switched, a 14 - 685 degeneracy, n 16 742 Q-awiching, n 14 - 686 distortion, n 16 ™ - - 743 record, v 14 - 687 first-order, a 16 - - - 744 rhodamine, a 14 - 688 free-space, a 16 - - - 745 scientist, n 14 - 689 induce, v 16 - 746 summarize, v 14 - 690 induced, a 16 ~ - 747 ADP, a/n/n 13 + 6 9 1 integration, n 16 - 748 ambient, a 13 + 692 matching, g 16 - - - 749 Brewster,pn(attr) 13 - 693 millimeter-wave,a 16 - - - 750 center, v 13 - 694 mixer, n 16 - 751 central, a 13 - 695 oscillating, a 16 - 752 coaxial, a 13 - 696 phosphate, a 16 - - - 753 composition, n 13 - 697 sodium, n 16 - - ~ 754 computation, n 13 - 698 substance, n 16 - - - 755 control, n 13 - 699 TEA, a/a/a 16 756 damping, g 13 - 700 three-level, a 16 - - - 757 envelope, n 13 - 701 unity, n 16 758 fabrication, n 13 - 702 variable, a 16 - - - 759 Permi, pn(attr) 13 - 703 calibration, n 15 - - - 760 focusing, g 13 - 704 cascade, n 15 - - - 761 germanium, n 13 - 705 circuitry, n 15 - - - 762 instantaneous, a 13 - 706 express, n 15 ~ - - 763 match, v 13 - 707 hollow, a 15 - - - 764 metal, n 13 - 708 homogeneous, a 15 - - ~ 765 mode-locked, a 13 - 709 illustrate, v 15 - - - 766 monitore, v 13 - 710 impurity, n 15 767 multiline, a 13 - 711 integral, a 15 - 768 notation, n 13 - 712 irs a 1 5 - - - 769 repetition, n 13 - 713 lattice, n 15 - - - 770 small-signal, a 13 - 714 nanosecond, n 15 ~ ~ - 771 species, n 13 - 715 selection, n 15 - 772 stabilization, n 13 - 716 sensitivity, n 15 - 773 tensor, n 1 3 - 717 slope, n 15 - - _ 774 wall, n ІЗ - 718 spherical, a 15 - - - 775 beamwidth, n 12 - 719 absorber, n 14 - - - 776 blocking, a 12 - 720 absorbing, a 14 - - - 777 carbon, a 12 - 721 additive, a 1 4 - - - 778 cladding, n 12 - 722 adequate, a 14 - - - 779 connect, v 12 + 723 birefringence, n 14 - - - 780 enhanced, a 12 - 724 boson, n 14 - - - 781 flat, n 12 - 725 build, v и 782 four-level, a 12 - 726 capacitance, n 14 - - - 783 hydrogen, n 12 - 59 784 Incoming, a 12 - - - 840 quantum-mechani- Ю 785 infrared, n 12 - - cal, a 786 interacting, a 12 - - - 841 sequence, n 10 787 lossless, a 12 - - - 842 sputtering, g ю 788 nonradiative, a 12 - - - 843 strike, v 10 789 pipe, n 12 - 844 altitude, n 9 790 sapphire, n 12 - - - 845 domain, n 9 791 shot, n 12 - - ~ 846 dynamics, n 9 792 shutter, n 12 - - - 847 electron-hole, a 9 793 TM, a/a 12 - - - 848 flash, n 9 794 transform, n 12 - - - 849 gaseous, a 9 795 amplifying, a 11 + - - 85О green, a 9 796 analogXueJ, n 11 + - - 851 groove, n 9 797 ASB, PII/A/N 11 - - - 852 calcium, n 9 798 background, n 11-- - 853 conclusion, n 9 799 Boltzmann, n 11-- - 854 low-power, a 9 800 Brilloin, pn(attr; - 855 multilayer, a 9 801 chamber, n - 856 non-uniform, a 9 802 collimate, v - 857 off-diagonal, a 9 803 creation, n - 858 reflectance, n 9 804 depletion, n - 859 root, n 9 805 dissipation, n - 860 Shroedinger, a 9 806 electrostatic, a - 861 strip, n 9 807 fluid, n - 862 tapered, a 9 808 heater, n ~ 863 body, n 8 809 Lorentzian, n ~ 864 bound, n 8 810 low-noise, a - 855 chloride, n 8 811 outer, a "* 866 class, n 8 812 photodiode, a ~ 867 collection, n 8 813 phototube, n ~ 868 demonstrate, v 8 814 prove, v ~ 869 formulation, n 8 81 5 red, a - 870 lase, v 8 816 streaming, g ~ 871 megacycle, n 8 817 superconductivity, 872 miniature, a 8 n - 873 photoelectron, n 8 818 superposition, n - 874 picture, n 8 819 switch, n "875 quantization, n 8 820 train, n ~ 876 quasi-Fermi, a 8 821 transmitter, n " 877 radiating, a 8 822 tunabilityi n ~ 878 saturated, a 8 823 tunneling, a " 879 stainless-steel,a 8 824 two-photon, a - 880 synchronism 8 825 uniformity, n ~881 tunneling, n 8 826 valence, n - 882 Bloch, pn(attr) 7 827 asynmetry, n 10 ~ 883 column, n 7 828 bent, n Ю - - "884 constituent, n 7 829 bond, n 10 - - - 885 diffracted, a 7 830 carry, v 10 - - - 886 garnet, n 7 831 elastic, a 10 - - - 887 lithium, n 7 832 epitaxial, a 10 - - "888 quantized, a 7 833 height, n 10 - - - 889 self-focusing, g 7 834 inhomogeneous, a 10 - - "890 third-order, a 7 835 irradiance, n 1 0 - - "891 translational, a 7 836 luminescence, n 10 - - ~892 vanish, v 7 837 near-field, a 10 - - ~ 893 algorithm, n 7 838 nonresonant, a 10 - - - 894 alkali, a 6 839 passive, a 10 - - " 895 antiparallel, a 6 70 896 bonding, g 6 - 950 power output 16 897 cadmium, n 6 - - - 951 in phase 16 898 coated, a 6 - 952 input power 16 899 collinear, a 6 - 953 excited atom 16 900 energetic, a 6 - - - 954 laser light 15 901 exit, n 6 - 955 ТЕМ mode 15 902 increment, n б - - - 956 light pulse 15 903 jet, n 6 - 957 ground state 15 904 reconstruction, n 6 - - - 958 laser transition 15 905 transmittance, n 6 - - -959 reflection coeffi- 14 906 waveguiding, a 6 cient 14 907 stimulated emission54- - - 960conversion effi­ 908 electrical field 54 - - ciency 14 909 magnetic field 54 - - - 961 active material 14 910 for example 53 + - - 962 transverse mode 14 911 in terms of 53 + - - 963 integrated optics 14 912 output power 37 - - - 964 unstable resonator14 913 laser beam 35 + - - 965 electron beam 13 914 wave function 35 - - - 966 coupling coeffici­ 915 injection laser 35 - - ent 13 916 density matrix 34 - - - 967 laser diode 13 917 energy level 32 - - - 968 longitudinal mode 13 918 active region 31 - - - 969 unit volume 13 919 laser system 31 - - - 970 light beam 12 920 of the order of 28 + - - 971 electrooptic cry­ 921 radiation field 26 stal 12 922 power level 25 - - - 972 electron densuty 12 923 cross section 25 - - - 973 wave equation 12 924 refractive index 23 + - - 974 Doppler shift 12 925 coherent light 23 - - - 975 beam splitter 12 926 current pulse 23 - - - 976 absorption band 1 927 laser action 22 + - - 977 optical cavity 1 928 population inver­ 978 coupling loss 1 sion 22 + - - 979 gain profile 1 929 laser(»s) output 22 - 980 frequency range 1 930 gas laser 21 - - - 981 steady-state so­ 931 laser pulse 21 + - lution 1 932 boundary condition20 - - - 982 coherent state 1 933 spontaneous emis­ 983 semiclassical the­ sion 20 + - ory 1 934 ruby laser 20 - - - 984 incident wave 1 935 quantum state 20 - - - 985 valence band Ю 936 electromagnetic 986 absorption coeffi­ wave 20 - - cient Ю 937 matrix element 19 - -•- 987 threshold current 10 938 current density 18 - - - 988 noise figure 10 939 equation of motioni8 + - - 989 ТЕ mode Ю 940 rate equation, 18 + - - 990 ruby rod 10 941 excited state 18 + - - 991 macroscopic quan­ 942 dye laser 18 - - tum state 10 943 cavity length 17 - - - 992 reeponce time 1 с 944 optical maser 17 - - - 993 millimeter wave­ 945 pump power 17 - - length 1 0 946 above threshold 17 - - - 994 resonance condi­ 947 conduction band 16 - - tion 9 948 laser energy 15 - - - 995 threshold condi­ 949 index of refrac­ tion 9 tion 16 - - 996 in the laboratory 1011 absorbing molecules™ frame 9 - - - 1012 relaxation rate 8 - 997 Josephson(*s) jun­ 1 013 liquid nitrogen 7 - ction 9 - - - 1014 optical pulse 7 - 998 lower laser level 9 - - - Ю15 pumping pulse 7 - 999 solid-state maser 9 - - - 10'|6 spectral region 7 - 1 ООО relative phase 9 - - - 1017 time rate 7 - 1001 time scale 9 - - - 1018 heat sink 7 - 1002 phase shift 9 - - - Ю19 transition tem- 1003 shook wave 9 - - - perature 7 - 1004 parametric ampli­ 1020 electronic tran- fier 8 - - - aition 7 - 1005 Shrodinger('s) 1021 optical axis 6 - equation 8 - - - 1022 probability den- 1006 upper energy level 8 sity 6 - 1007 abeorption xoss 8 - 1023 Boltzmann dis~ І 008 ammonia maser 8 - - - tribution 6 - 1009 phase matching 8 ~ 1024 quasi-Pernri le~ 1010 waveguide mode 8 vel 6 - 1025 spot size 6 - Анализ распределений терминов в английском подъязыке ква­ нтовой электроники показал, что распределение большинства тер­ минологических единиц, 817 из 1025 обследованных, что состав ~ ляет 79,71 %, не подчиняются ни одному из вышеназванных теоре­ тических законов. Из оставшихся 208 терминов только законом Пуассона описываются 196 единиц, только нормальным, только логнормальным, нормальным и логнормальным одновременно — по 3 единицы, законом Пуассона и нормальным законом — 2, Пуассо­ на и логнормальным — I. Полученные результаты вполне согласуются с мнением о том, что неподчинение законам Пуассона и нормальному свидетельству­ ет о терминологичности лексических единиц (ср., Бектаев, Лу- кьяненков, с.1 09; Пиотровский, с.1 19). Следует отметить, что границы терминолсгичности/нетерми - нологичности, выраженные в соответствии/несоответствии иссле­ дуемым теоретическим законам, не имеют четко обозначенного ха­ рактера. Это говорит о том, что термины, как практически любое лингвистическое множество, является множеством с размытыми краями (ср., например, Пиотровский, с.208). 72 Л И Т Е Р А Т У Р А Бектаев, К. Б., Лукьяненков, К. Ф. О законах распределения единиц письменной речи. - Статистика речи и автоматический анализ текста. Л., 1971. Вентцель., Е. С. Теория вероятностей. М., 1969. Каширина. М. Е. О типах распределения лексических единиц в тексте. - Статистика речи и автоматический анализ текста. Л., 1974. Митропольский. А. К. Техника статистических вычислений. М., 1971. Пиотровский. Р. Г. Текст, машина, человек. Л., 1975. ПИОТРОВСКИЙ. Р. Г.. Бектаев. К. Ф.. Пиотровская. А. А. Мате­ матическая лингвистика. М., 1977. ОН DISTRIBUTION ANALYSIS ПГ ENGLISH SCIENTIFIC TEXTS (SUBLANGUAGE OF ACTIVE OSCILLATORS) Narinay Hanasyan S u m m a r y The article presents a description of a distribution analysis experiment (English texts on active oscillators). For the езфeriment a frequency dictionary on active oscil­ lators was used. During compilation of the frequency dic­ tionary only terms were registered. The terms were 1e m- mat ized. For the analysis 1,025 units were chosen from the frequency dictionary. The terminological units analy­ sis showed that most terms, 817 (79.71 96), were not governed by any of the theoretical laws. Of the remaining 208 units, 196 terms were governed only by Poisson's Law, only by Nor­ mal Law - 3, by Lognormal - 3» by Normal egad Lognormal at the same time - 3, by Poisson's and Normal - 2, by Poisson's and Lognormal - 1. 73 I0 ОБ ИЗМЕРЕНИИ СВЯЗИ ОТРАСЛЕВЫХ ТЕРМИНОСИСТЕМ С ПРИМЕНЕНИЕМ ЭВМ М.А. Марусенко Измерение связей реально функционирующих терминосистем на лексическом уровне является одним из важнейших элементов системного подхода к анализу терминосистем. В настоящее вре­ мя не -Ъуществует сколько-нибудь разработанной лингвистичес­ кой теории, позволяющей более или менее объективно произво­ дить выделение подъязыков и терминосистем. На практике для этого применяются наукометрические критерии: сколько наук, столько и "языков", сколько разделов имеет наука, столько у нее и "подъязыков". Однако такой подход не позволяет произ­ водить объективное членение, так как классификационное деле­ ние наук имеет очень много уровней и может вестись практиче­ ски бесконечно в соответствии с углубляющимся членением пред­ мета науки и с процессами интеграции и дифференциации наук, интенсивность которых особенно усилилась на настоящем этапе научно-технической революции. Свидетельством этого могут слу­ жить "Универсальная десятичная классификация" и "Рубрикатор изданий СССР", непрерывно пополняющиеся новыми рубриками.Кро­ ме того, такое членение зависит и от национальных традиций, сложившихся в процессе развития науки в тех или иных истори­ ческих условиях. В статье критерии обоснованности выделения терминосистем рассматриваются на материале французской радиотехнической терминологии. С точки зрения наукометрии существование подъ­ языка и, соответственно, терминосистемы радиотехники не вы­ зывает никаких сомнений. Это подтверждается существованием радиотехнических ВУЗ-ов, факультетов, кафедр, специальностей, в области научно-технической информации - большим числом спе­ циальных отраслевых изданий, монографий, в области термино- ведения - наличием специальных радиотехнических словарей и т.д. С другой стороны, радиотехника, наряду с электроникой, входит в состав науки более высокого яруса - радиоэлектрони­ ки. Кроме того, сама радиотехника состоит из значительного числа разделов, представляющих собой целые направления сов­ ременной науки и техники, таких как телевидение, радиолока­ ция, радиоастрономия, радиосвязь и т.д. 74 Учитывая все это, более конструктивным представляется подход к выделению терминосистем, основанный на анализе сис­ темных характеристик и собственно лингвистических особеннос­ тей реально функционирующих совокупностей научно-технических терминов. Для каждой отрасли науки и техники можно построить иер­ архию подъязыков, причем термины, употребляющиеся во многих предметных областях, образуют терминосистемы, находящиеся на вершине иерархии, а термины, употребляющиеся в отдельных об­ ластях, образуют терминосистемы отдельных подъязыков. Такие лексические единицы, которые принадлежат одной области и не воспроизводятся во всех остальных, образуют элементарную тер- миносистему. В этих условиях изучение связей терминосистем приобрета­ ет особое значение, так как неконтролируемое изменение усло­ вий может вывести объект за границы допустимого размытия функциональных состояний. Предметом изучения должны стать пре­ делы изменения условий, при которых объект остается идентич­ ным самому себе (Мельников Г.П., с. 55). Если имеются две совокупности терминов, то между ниди мо­ гут существовать следующие отношения: 1. Мic. My 2. М; П М,- 4 0 3. Ш£ = Му- 4. МI 0 Uj = 0 1. Одна терминосистема может включаться в другую; можно го­ ворить о терминосистемах разных иерархических уровней (нап­ ример, радиоэлектроника - радиотехника). 2. Обе терминосистемы могут пересекаться; в этом случае мож­ но говорить о двух терминосистемах одного уровня (например, радиолокация - радионавигация) либо о терминосистемах разных уровней (например, радионавигация - астрономия). 3. Обе терминосистемы тождественны; в этом случае выделение двух объектов по эмпирическим основаниям может быть ошибоч­ ным. 4. Две терминосистемы не имеют общих элементов, находятся в альтернативном отношении; в этом случае они не принадлежат одному и тому же естественному языку. Таким образом, изучая связи элементов двух терминосистем и давая им количественную оценку, можно устанавливать иерар­ хию отношений между этими системами и, тем самым, оценивать смысловую связанность предметных областей, послуживших объ­ ектами терминирования. Необходимо отметить, что такой способ оценки смысловой связи является в настоящее время единственным, так как на­ хождение такой оценки смысловой связанности двух предметных областей, которая имела бы "подходящую метрику для оценки та­ кой связанности, либо вообще недостижимо, либо в лучшем слу­ чае представляет собой дьявольски трудную задачу, причем ни один из известных подходов не имеет шансов привести к опре­ деленной функции, которая дает нам полезную меру для оценки смыслового расстояния между темами..." (Ваг-Hillel, I.,1964, P. 351)» Наиболее простым методом оценки близости двух классов яв­ ляется использование объемных оценок, например, числа элемен­ тов, принадлежащих пересечению двух классов. Такая оценка но­ сит абсолютный характер, однако может рассматривать и оцен­ ку, носящую относительный характер, если взять отношение чи­ сла элементов, входящих в пересечение двух классов, к общему числу элементов, содержащихся в обоих классах. В том случае, если неизвестен состав классов, то кроме объемных оценок при­ ходится вводить и содержательные, которые, как было показано выше, трудно поддаются формализации (Балашов Л.А. и др.,1973, с. б). Составы классов могут быть определены двумя способа­ ми: либо задаваться в виде инвентаря элементов (словари на­ учно-технических терминов, информационно-поисковые тезауру­ сы, ГОСТы)5 либо в виде списка элементов с указанием удель­ ного веса, значимости каждого элемента в системе (частотные и распределительные словари). В зависимости от способа задания состава классов опреде­ ляются и способы количественной оценки их близости. В линг- востатистике использовались различные эмпирические величины дня определения взаимодействия лексических систем, такие, например, как приводимые Ш.Мюллером (Müller Ch., 1968) и ЮЛ. Тулдава (1974) индексы лексической связи. Однако применение эмпирических индексов не нашло широкого применения и, по ря­ ду причин, не является перспективным. Во-первых, они не дают возможности осуществить статистическую оценку существенности результатов. Целесообразно применять для этого такие величи­ ны, для которых известен закон распределения и существуют разработанные методы определения значимости результатов. С этой точки зрения гораздо более перспективным является при­ менение методов корреляционно го анализа, предложенное Ю.А. Тулдава. Кроме того, известно, что согласно общему закону распре­ деления элементов сложных систем, который в лингвистике из­ вестен как закон Ципфа (см. Мартыненко Г.Я., 1978), неболь­ шое число элементов системы образует ее ядро и употребляется значительно чаще, чем большое число элементов, составляющих периферию системы. Поэтому при сравнении систем недостаточно учитывать только лишь факт наличия или отсутствия какого-ли­ бо элемента в той или иной системе, но важно учитывать также и значимость, удельный вес каждого элемента в каждой лекси­ ческой системе, образуемой данным текстом или словарем. Та­ кая задача требует выполнения большого числа расчетов и мо­ жет быть реализована только с помощью ЭВМ. Любой текст может быть представлен в виде частотного сло­ варя образующих его лексических единиц. Поэтому измерение лексической связи двух частотных словарей может производить­ ся непосредственно, а для текстов необходим дополнительный этап приведения текста к частотному словарю лексем или сло­ восочетаний, в зависимости от цели исследования. В качестве меры лексической связи предлагается использо­ вать широко применяемую в математической статистике величину - коэффициент корреляции Пирсона: - /У Ус — Scc; Žgi /і/ i/Vžxf- (Zxi)*]/VZyL -(Žjfi)* Заменив в формуле /I/ значения xt- и у; на значения отно­ сительных частот какой-либо лексической единицы в том или ином словаре, обозначив f £ t и f J z относительные частоты і- той единицы в словарях I и 2 и приняв и равными единице, получим: у- ~ 4 . / р / z£'- f у' ' ' При равенстве относительных частот всех единиц словаря Г = 1, в прочих случаях эта величина лежит практически в пределах 0 < г < 1. В описываемом эксперименте вычисление коэффициентов лек­ сической связи производилось для словарей статистически ус­ тойчивых научно-технических терминов 4 терминосистем подъ­ языка радиотехники (Марусенко М.А., 1981).Относительные час­ тоты и fa , а также коэффициенты лексической связи вы­ числялись на ЭВМ. Формула /2/ применялась для определения лексических связей между совокупностями статистически устой­ чивых терминов с учетом жанровой дифференциации. Для каждой пары терминосистем составлялись словари следующего вида: 77 Таблица I Фрагмент сопоставительного словаря для определения коэффициента лексической связи Т е р м и н ы Частота в Частота в т/системе I т/системе 2 cspacite 6 46 capacite de circuit 0 2 capacite de couplage 0 2 caracteristique 13 24 cavite 106 0 Результаты вычисления коэффициентов лексической связи могут сведены в таблицы: Таблица 2 Коэффициенты лексической связи терминосистем подъязыка радиотехники Радиопере­ Антенны Радиоло­ Радиопри­ датчики кация емники Радиопередатчики 0,3649 0,7170 0,6715 Антенны 0,4901 0,3731 Радиолокация 0,6956 Таблица 3 Коэффициенты лексической связи терминосистем, зафиксированных в монографиях Р/перед. Антенны Р/лок. Р/прием. Р/перед. 0,2583 0,6352 0,4582 Антенны 0,2949 0,2333 Р/лок. 0,5813 78 Таблица 4 Коэффициенты лексической связи термино­ систем, зафиксированных в журнальных статьях Р/перед. Антенны Р/лок. Р/прием. Р/перед. 0,3008 0,5604 0,6016 0,4372 0,3632 0,6800 Таблица 5 Коэффициенты лексической связи терминосистем разных жанров (монографии - журнальные статьи) внутри одной терминдсистемы Терминосистема Коэффициент лекси­ческой связи Р/перед. 0,6413 Антенны 0,6504 Р/лок. 0,7816 Р/прием. 0,4674 Поскольку все рассматриваемые терминосистемы принадлежат одному естественному языку, пересечение двух множеств должно быть не пустым: Mt (1 4 0. Если рассматривать эти термино­ системы в их отношениях к надсистеме - терминосистеме радио­ техники и между собой, то одинаковое отношение терминосистем к надсистеме и друг к другу должно выражаться одинаковой ме­ рой лексической связи. Отклонение меры лексической связи от средней величины в ту или иную сторону будет соответствовать тенденции либо к тождеству словарей ( М, = Пг), либо к вклю­ чению одного словаря в другой (М4 с: М2). В обоих случаях бу­ дет иметь место нарушение иерархической структуры по отноше­ нию к надсистеме. Кроме того, различие коэффициентов лекси­ ческой связи терминосистем разных жанров может послужить еще одним подтверждением неоднородности терминосистем, эмпириче­ ски включаемых в "подъязык радиотехники". Коэффициенты лексической связи двух терминосистем пред­ ставляют собой случайные величины, распределенные по нормаль­ ному закону (см. Митропольский А.К., 1961, с. 273). Поэтому для определения вышеуказанных отношений необходима проверка 79 статистических гипотез о равенстве или разности двух средних для величин, представляющих собой средние коэффициенты лек­ сической связи для различных терминосистем (таблица 2), для различных жанров внутри одной терминосистемы (таблица 5),для одинаковых жанров разных терминосистем (таблицы 3-4). Сред­ ние коэффициентов лексической связи и средние квадратичные отклонения составляют х, = 0,552 и - 0,1631, xz= 0,6352 и Гі = 0,1289, х3= 0,4102 и <= 0,1731, х^ 0,4915 и = 3,1455 для таблиц 2, 5, 3 и 4 соответственно. Проверка поU- критерию: /3/ показывает, что нулевая гипотеза HQ: aj = ag /9/ отклоняется только для хх к хj /U = 2,3522), т.е., что коэффициенты лек­ сической связи различных терминосистем в целом и в отдельно­ сти по жанрам существенно не различаются, в то время как для словарей разных жанров внутри одной терминосистемы они пред­ ставляют существенно большие величины. Таким образом,резуль­ таты статистического анализа показывают, что рассматриваемые совокупности терминов находятся в одинаковой связи друг с другом, т.е. представляют собой подсистемы одного иерархиче­ ского уровня. Л И Т Е Р А Т О Р А Балашов Л.А.. Гуськов А.А., Махотенко Ю.А.. Смолянов О.Г. Не­ которые критерии оценки классификационных систем. - На­ учно-техническая информация, сер. 2, 7, 1973. Мартыненко Г.Я. Некоторые закономерности концентрации и рас­ сеяния элементов в лингвистических и других сложных системах. - В кн.: Структурная и прикладная лингвисти­ ка, вып. I. -Л.: Изд-во ЛГУ, 1978, с. 63-79. Марусенко М.А. Системно-сопоставительный анализ функциониро­ вания терминосистем (на материале французской радио­ технической терминологии). АКД. Л., 1981. Митропольский А.К. Техника статистических вычислений. - М.: Физматгиз, 1961. Мельников Г.П. Системология и языковые аспекты кибернетики.- М.: Советское радио, 1978. 80 Тулдава Ю.А. Об измерении лексической связи текстов на уров­ не словаря. - В кн.: Вопросы статистической стилисти­ ки. - Киев: Наукова думка, 1974, с, 35-42. Ваг-Hillel, I» Language and information. - London г Addoaon- Wesley, 1964. Müller, СЗ а. Initiation a la atatistique lingulstique. - Pa­ ris: Larousae, 1968. COMPUTER MEASURING OP LEXICAL CONNECTION OF TERMIBOLOGIOAX SYSTEMS RELATING TO A CERTAIN BRANCH OF INDUSTRY Mikhail A. Marusenko S u m m a r y Consideration is given to methods of measuring the in­ terconnection of complex linguistic systems as exemplified by four radio-engineering sub-language terminological systems. An approach is adopted based on registering the value of every lexical unit in the respective system. The new quantitative criterion for measuring the connec­ tion is worked out, and a linguoetatistical experiment is realised on the computer. The experimental data obtained have been evaluated and tested. 81 СТАТИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ ФОНОЛОГИЧЕСКОЙ СТРУКТУРЫ СЛОВА (НА МАТЕРИАЛЕ ОДНОСЛОЖНЫХ СЛОВ РЯДА ИНДОЕВРОПЕЙСКИХ И КАЗАХСКОГО ЯЗЫКОВ) Г.Я. Панкрац Из комплекса вопросов о фонологической структуре слова в статье разбираются следующие: типы слов по количеству фонем (по длине), среднее количество фонем в словах (средняя длина слов), модели дистрибуции гласных и согласных фонем в сло­ вах, место гласной фонемы в словах, консонантные части слов, количество согласных фонем в консонантных частях слов, сред­ няя консонантность консонантных частей слов. Речь пойдет о фонологической структуре односложных слов, т.е. слов, состоящих из одной гласной и одной, двух и более согласных фонем. Материалом исследования послужили однослож­ ные слова ряда индоевропейских языков (русского, белорусско­ го, немецкого, нижненемецкого диалекта в СССР, английского) и одного тюркского (казахского)*. Ниже дается описание проанализированных слов по указан­ ным семи параметрам. I. Типы слов по количеству фонем (по длине) По полученным данным (см. таблицу I) в отношении количе­ ственных показателей тех или иных типов слов наиболее близки русский и белорусский языки. В индоевропейских языках одно­ сложные слова распределяются по длине по шести типам (одно-, двух-, трех-, четырех-, пяти-, шестифонемные), в казахском языке - по пяти (нет шестифонемных). В индоевропейских язы­ ках количество слов от двухфонемного к трехйонемному типу резко возрастает и от четырехфонемного к пятифонемному снова резко падает. В русском, белорусском и немецком языках мак­ симальное количество составляют четырехфонемные слова,в ниж­ ненемецком диалекте количество трех- и четырехфонемных слов одинаковое, а в английском языке преобладающее количество слов составляют трехфонемные. Слова отбирались из разных словарей в их исходной фор­ ме (слов русских, белорусских, немецких и нижненемецких при­ мерно по 1000, английских I40Ö и казахских 400). Таблица I Типы слов по длине (%) Я з ы к и п/п Типы слов русский бело- не- - анг- ка- рус- мец- немец- лий- зах- ский кий кий ский ский I. Однофонемные 0>7 0,5 0 ,1 0,3 0,8 0 ,5 2. Двухфонемные 3,6 3,9 7, 3 5,6 12,9 16, 2 3. Трехфонемные 38,8 38,8 40 ,6 41,8 49,4 73, 6 4. Четырехфонемные 45,7 45,9 40 9 41,8 31,9 9 Л 5. Пятифонемные 10,3 10,2 10 I 10,1 4,5 0, 3 6. Шестифонемные 0,9 0,7 I 0 0,4 0,5 В казахском языке количество слов от однофонемного типа к двухфонемному и к трехфонемному резко возрастает, достига­ ет максимума на трехфонемных словах ц от них к четырехфонем- ным резко падает. На таблице хорошо виден переход максимума от русских и белорусских слов, у которых четырехфонемный тип слов значи­ тельно превосходит все остальные, через немецкий язык, в ко­ тором количество трех- и четырехфонемных слов почти одинако­ вое, и нижненемецкий диалект, в котором эти два типа по ко­ личеству равные, к английскому языку, в котором трехфонемные слова составляют около половины слов, и к казахскому, в ко­ тором трехфонемные слова составляют около трех четвертей всех слов. Однофонемных слов во всех шести языках мало, а в казах­ ском также мало пятифонемных. 2. Среднее количество фонем в словах (их средняя длина) Средняя длина односложных слов в фонемном выражении сос­ тавляет: в русском языке - 3,64, в белорусском - 3,63, в не­ мецком - 3,62, в нижненемецком диалекте - 3,57, в английском языке - 3,28, в казахском - 2,93. Средняя длина односложных слов шести языков слева напра­ во, таким образом, постепенно уменьшается. Английское слово на І/ІО короче русского, белорусского и немецкого, а казах­ 83 ское слово короче слова в индоевропейских языках на 1/5*. В литературе имеются указания на связь длины слов с их частотностью в тексте в том смысле, что слова, обладающие большей частотностью, в среднем более короткие, а слова, об­ ладающие меньшей частотностью, в среднем более длинные. Так, Частотный словарь русского языка (1977) начинается с корот­ ких слов (в, и, не, на и т.д.), и средняя длина первой сотни слов составляет 3,53 фонемы, второй сотни - 4,82, третьей - 5,86 и т.д. Эти факты подтверждают положение о связи,сущест­ вующей между длиной и частотностью слов. В литературе имеются также указания на связь длины слов с количеством их значений, с их многозначностью. Эту связь можно сформулировать следующим образом: короткие слова в среднем имеют большее количество значений, более многознач­ ны, а более длинные слова менее многозначны (Плоткин, 1969). Вероятность появления слов в тексте с увеличением их дли­ ны резко уменьшается. Г.Арене указывает, что в выборке в II млн. немецких слов восьмисложные слова встретились 5038 раз, девятисложные - 1225 раз, слова в 10 слогов - 461 раз, в II слогов - 59 раз, в 12 слогов - 35 раз, в 13 слогов - 8 раз, в 14 слогов - 2 раза, в 15 слогов - I раз (Arena, 1965, с.73). В литературе далее приводятся данные о связи между дли­ ной слова и длиной предложения. Г.Арене указывает, в частно­ сти, на следующую закономерность в немецком языке: чем выше в каком-либо стиле длина слова, тем вше в данном стиле и средняя длина предложения; точнее - с увеличением средней длины слова на 0,05 слога средняя длина предложения увеличи­ вается на 5 слов (Arena, 1965, с. 7). В.А.Никонов в статье "Длина слова" (1978), сравнивая длину слова в русском, грузинском и казахском языках в четы­ рех видах речи Xразговорной речи, художественной речи, науч­ ной прозе, публицистике;, приходит к выводу о большей длине слова в казахском, чем в русском в разговорной речи и худо­ жественной прозе, а при сравнении обращения В.И.Ленина К населению" IŠ ноября х9І7 г. (Поли. coop, соч., 35, с.65-67) к выводу о том, что средняя длина слова в казахском самая большая, в грузинском она меньше и в русском самая маленькая, "так как казахское слово и грузинское слово вобрали в себя предлоги и некоторые частицы, существующие в русском языке отдельно". Таково положение в тексте. Мы же берем однослож­ ные слова в их исходной Форме, т.е. в изолированном виде. В литературе имеются, наконец, указания на то, что выяс­ нение вопросов архитектоники слова, в том числе их длины, представляет определенный интерес для построения типологиче­ ской классификации естественных языков, а также для ряда об­ ластей прикладной лингвистики. 3. Модели дистрибуции гласных и согласных фонем в словах В индоевропейских языках (см. таблицу 2) односложнив сло­ ва разбросаны по 18 моделям дистрибуции фонем (однофонемные в русском и белорусском языках - по двум, в остальных - по одной, двухфонемные - по двум, трехфонемные - по трем, четы- рехфонемные - по трем, четырехфонемные - по четырем, пятифо- немные - по четырем, в остальных - по трем, шестифонемные в русском, белорусском и немецком - по трем, в нижненемецком и английском - по двум). В казахском языке моделей дистрибуции в два раза меньше - всего восемь (однофонемные слова составляют всего одну мо­ дель, двухфонемные - две, трехфонемные - две, четырехфонем­ ные - две, пятифонемные - однууі Самая распространенная модель дистрибуции во всех словах - это модель СГС; ее удельный вес слева направо нарастает (36,8% - 71,3%). В казахском языке ее удельный вес почти в два раза больше, чем в славянских и немецких языках. Для двухфонемных слов в индоевропейских языках характер­ на модель СГ (она охватывает в них около 2/3 всех двухфонем­ ных слов), в казахском - ГС (она также охватывает около 2/3 слов), для трехфонемных во всех языках - СГС (она охватывает 92,3% всех индоевропейских и 96,9% всех казахских трехфонем­ ных слов), для четырехфонемных в индоевропейских языках ССГС (58,2% всех четырехфонемных слов) и в казахском - CTTJC (96,6% четырехфонемных слов), для пятифонемных в индоевропей­ ских языках - ССГСС (64,5% пятифонемных слов) и в казахском языке - СГССС (100% пятифонемных слов), для иіестифоиемных в индоевропейских языках - СССГСС (54,3% шестифонемных слов). 4. Место гласной фонемы в словах В двухфонемных словах индоевропейских языков (см. табли цу 3) гласная фонема в два раза чаще занимает конечную пози­ цию, чем начальную; в казахском языке, наоборот, в два раза чаще начальную позицию, чем конечную. 3 трехфонемных словах всех языков гласная фонема занима­ ет преимущественно медиальную (среднюю) позицию ~ в индоев- ÜU Таблица 2 Модели дистрибуции фонем (%) Модели Я з ы к и дистри­ буции русский бело­ немец - нижне­- анг- казах­ рус­ кий немец­- лий- ский ский кий ский I. Г 0,6 0,4 0,1 0,3 0,8 0,5 2. С 0,I 0,1 - - - - 3. ГС I,2 1,2 2,8 1,6 4,0 И,I 4. сг 2,4 2,7 4,5 4,0 8,9 5,1 5. гсс 0,2 0,2 2,1 ІД 0,8 2,3 6. сгс 36,8 36,9 36,4 39,2 44,2 71,3 7. ссг I,8 1,7 2,1 1,5 4,4 - 8. гссс 0,2 0,2 0,5 0,3 - - 9. сгсс 15,2 13,9 20,4 18,8 16,1 9,1 10. ссгс 30,I 31,5 19,9 22,5 15,6 0,3 II. сссг 0,2 0,3 0,1 0,2 0,2 - 12. гсссс - - 0,1 - - - 13. сгссс I, 2 1,1 1,7 1,8 0,5 0,3 14. ссгсс 7,0 6,3 6,6 6,7 2,6 - 15. сссгс 2,I 2,8 1,7 1,6 1,4 - 16. сгсссс 0,I 0,1 0,4 - - - 17. ссгссс 0, 35 0,25 0,2 о д о д - 18. сссгсс 0,45 0,35 0,4 0,3 0,4 - Таблица 3 Место гласной фонемы в словах (%) Щ Я з ы к и п/п Место гласной фонемы рус­ бело­ немец­ нижне­ анг­ казах­ ский рус­ кий немец­ лий­ ский ский кий ский I. В начальной 1,7 1,6 5,5 3,1 4,9 13,4 позиции 2. В интеркон­ >4,0 93,7 87,8 91,2 81,4 81,4 сонантной позиции 3. В конечной 4,3 4,7 6,7 5,7 13,7 5,2 позиции 86 ропейских языках такое положение в 92,3%, в казахском языке - в 96,9% всех трехфонемных слов. Это симметричное располо­ жение согласных фонем в односложных трехфонемных словах мож­ но считать общей для данных языков универсалией. В четырехфонемных словах в индоевропейских языках глас­ ная фонема расположена большей частью на третьем месте (58,2%), т.е. входит в состав второй половины слов; в казах­ ском же гласная фонема занимает обычно второе место (96,8%), т.е. расположена в первой половине слов. В пятифонемных словах индоевропейских языков налицо обыч­ но симметричное расположение согласных фонем (64,6% всех пя­ тифонемных слов). В небольшом вообще количестве пятифонемных слов в казахском языке гласная фонема расположена на втором месте, т.е. в первой половине слова (100%). Для индоевропейских слов с нечетным количеством фонем (тремя, пятью) универсалией является симметричное расположе­ ние согласных фонем. В казахском языке такое расположение распространяется лишь на трехфонемные. В словах с четным количеством фонем заметна тенденция к помещению гласных фонем в индоевропейских языках во второй половине слов, а в казахском языке - в первой половине. Во всех языках гласная фонема чаще всего занимает интер­ консонантную позицию. В индоевропейских языках гласная фоне­ ма чаще занимает конечную позицию, чем начальную (в два с лишним раза); в казахском языке наоборот - чаще начальную, чем конечную (также в два с липшим раза). 5. Консонантные части слов В индоевропейских языках доля слов с предвокальными кон­ сонантными частями больше, чем доля с поствокальными консо­ нантными частями; в казахском языке дело обстоит наоборот - слов с поствокальными консонантными частями больше, чем с предвокальными (см. таблицу 4). Таблица 4 Слова с консонантными частями (%) JW Консонантные Я з ы к и п/п части ве­ бело­ немец­ нижне­ анг­ казах­ ский рус­ кий немец­ лий­ ский ский кий ский I. Предвокальные Пэ7,7 97,9 94,3 96,6 94,3 86,1 2. Поствокальные 95 0 94,3 93,2 94,0 35,7 94,3 37 6. Количество согласных фонем в консонантных частях слов Во всех языках (см. таблицу 5) предвокальная консонант­ ная часть состоит в большинстве случаев из одной согласной фонемы (доля этих случаев слева направо возрастает). В ин­ доевропейских языках эта часть довольно часто состоит из двух согласных (их доля слева направо падает) и изредка из трех. В казахском языке изредка бывают две согласные,трех не бывает. Поствокальная консонантная часть во всех языках также состоит в большинстве случаев из одной фонемы (особенно ве­ лика доля однофонемных частей в казахском языке). Во всех языках в значительно меньшем количестве случаев в этой части слов встречаются две фонемы, редко три фонемы, а в славян­ ских и немецком языках совсем редко четыре фонемы. Таблица 5 Длина консонантных частей (%) #• Количество соглас- Я з ы к и п/п ных в консонантных частях рус­ бело- немец­ нижне­ анг­ казах­ ский РУ°- кий немец­ лий­ ский ский кий ский I. В предвокальных од­ на согласная фонема 55,8 54,6 63,4 63,7 69,6 85,8 две согласнее фо­ немы 39,2 39,9 28,7 30,8 22,7 0,3 три согласные фо­ немы 2,7 3,4 2,2 2,1 2,0 - 2, В поствокальных одна согласная фо­ нема 70,3 72,4 60,8 64,9 65,1 82,7 две согласные фо­ немы 22,8 20,8 29,4 26,9 19,8 11,3 три согласные фо­ немы 1,8 1,5 2,5 2,2 0,8 0,3 четыре согласные •фонемы 0,1 0,1 0,5 - - - 7. Средняя консонантность консонантных частей слов* Б индоевропейских языках (см. таблицу б) средняя консо- й Средняя консонантность каких-либо единиц получается в и:ч)ге деления всех согласных фонем во всех единицах (в дан­ ей нантаость предвокальных консонантных частей больше поство­ кальных консонантных частей, в казахском языке и здесь дело обстоит наоборот - консонантность поствокальных частей боль­ ше. Таблица 6 Средняя консонантность консонантных частей JW Консонантные части Я з ы к и п/п рус­ бело­ немец­ нижне­ анг­ казах­ ский рус­ кий немец­ лий­ ский ский кий ский I. Предвокальные 1,46 1,48 1,35 1,36 1,28 1,0 2. Поствокальные 1,28 1,25 1,38 1,33 1,25 1,13 Отобранный для исследования тюркский язык, казахский,от­ личается от индоевропейских языков самым значительным преоб­ ладанием трехійонемных односложных слов, самым маленьким сред­ ним количеством фонем, самым большим удельным весом модели дистрибуции фонем СГС, преимущественным помещением гласной фонемы в словах с четным количеством фонем в первой половине слова, большим числом случаев нахождения гласной фонемы в на­ чальной позиции, чем в конечной, большей средней консонант- ностью поствокальной консонантной части, наличием в предво- кальной части не больше двух и в поствокальной части не больше трех согласных. Для индоевропейских языков по сравнению с казахским,ха­ рактерны большая доля четырехфонемных слов (слева направо она падает и в английском языке уступает доле трехфонемных слов), большее среднее количество фонем, помещение гласной фонемы в словах с нечетным количеством фонем в середине слов (симметричное расположение согласных фонем по обе стороны гласной) и в словах с четным количеством фонем во второй по­ ловине слов, меньшее число случаев нахождения гласной фонемы в начальной позиции, чем в конечной, большая средняя консо­ нантность предвокальной консонантной части, наличие в пред- вокальной консонантной части трех согласных и в поствокаль­ ной четырех. ном случае, во всех консонантных частях) на количество еди­ ниц. 39 Л И Т Е Р А Т У Р А Никонов В.А. Длина слова. - Вопросы языкознания, 1978, 6, с. 104—III. Плоткин В.Я. 0 взаимоотношениях между фонетической и семанти­ ческой структурой слова. - В кн.: Актуальные проблемы лексикологии. Выпуск II, часть I. Новосибирск, 1969,с. 79-81. Частотный словарь русского языка. Под ред. Л.Н.Засориной. - М.: Русский язык, 1977. Arena. Н. Verborgene Ordnung. Die Beziehungen zwischen Satz- l'ange und Wortlänge in deutscher Erzahlprosa vom Barock Ьів heute. Düsseldorf, 19Ь5. STATISTISCHE UNTERSUCHUNG DER PHONOLOGISCHEN STRUKTUR DBS WORTES (ANHAND DER EINSILBIGEN WÖRTER EINIGER INDOEUROPÄISCHER SPRACHEN UND DBS KASACHISCHEN) Heinrich Pankratzl R e s ü m e e In der vorliegenden Arbeit wird die phonologische Struk- tur des einsilbigen Wortes (der Umfang des Wortes, die Mo­ delle der Distribution der Vokale und Konsonanten im Wort, die Stelle des Vokals im Wort, die konsonantischen Teile des Wortes und ihre mittlere Konsonantität) in einigen indoeuro- päischen Sprachen (im Russischen, Belorussischen, Deutschen, Plattdeutschen, Englischen) und im Kasachischen statistisch untersucht. 90 РАСПРЕДЕЛЕНИЕ ГЛАГОЛОВ В НАУЧНО-РЕФЕРАТИВНОМ ТЕКСТЕ В.И. Перебейнос Требование научно-технической революции к повышению эф­ фективности обмена научной информацией привело к росту веса научно-информационных изданий, особенно реферативных журна­ лов, призванных собирать публикации в каждой отрасли науки и в компактной форме информировать специалистов о их содержа­ нии. Не случаен поэтому интерес к изучению лингвистических характеристик научно-реферативного текста. В данной работе анализируются рефераты из РЖ "Кибернети­ ка" лишь одной тематической группы ("Программирование и тео­ рия математических машин"), что, как представляется, обеспе­ чивает однородность исследуемых текстов. Изучение закономерностей структурной организации рефера­ та может осуществляться на основе двух подходов: а) анализ закономерностей построения реферата как разновидности науч­ ного текста, б) выявление особенностей строения реферата в сопоставлении с реферируемым текстом. В нашем исследовании принят первый подход. Мы считаем, что изучение закономернос­ тей строения реферата важно и в теоретическом, и в практиче­ ском плане: анализ структуры реферата как разновидности ко­ ротких текстов даст возможность разработать методику и уточ­ нить проблематику лингвистики текста, а также построить ти­ пологию научных текстов. В практическом плане оно обеспечит базу для рекомендаций по составлению и редактированию, в том числе и автоматизированию рефератов. Мы исходили из того, что структура текста раскрывается не только в сверхфразовых единствах или более длинных едини­ цах текста, но и в характере отбора и расположения в тексте грамматических классов слов. Одним из возможных подходов к исследованию распределения в тексте грамматического класса слов является формальный ана­ лиз расстояний между двумя соседними вхождениями данного класса слов, без учета длины текста или каких-либо синтакси­ ческих или текстовых единиц. Такой анализ распределения единицы в тексте целесообраз­ но осуществлять для единиц высокочастотных. Так, цепочки классов слов между двумя вхождениями в текст существительно­ го в ряде случаев показывают характер синтаксического окру­ 91 жения существительного и соотносимы со словосочетаниями, как простыми, так и сложными. Глагол также можно отнести к высо­ кочастотным грамматическим классам слов: он занимает 4-е мес­ то в ранговом списке грамматических классов слов в рефера­ тивных текстах*. Анализ распределения расстояний между двумя соседними глаголами показал, что оно характеризуется тремя незначитель­ ными пиками, почти одинаковыми по высоте, на расстояниях в нуль, четыре и восемь слов (см. табл. I). Таблица I Распределение длины расстояний между двумя соседними глаголами в тексте реферата Длина Ее доля Длина Be доля Длина Be доля рас­ (в %) рас­ (в %) рас­ (в %) стоя­ стоя­ стоя­ ния ния ния 0 9,4 14 4,2 28 0,2 I 2,8 15 2,0 29 0,8 2 2,6 16 2,2 30 0,2 3 3,8 17 1,4 31 0,4 4 8,0 18 2,4 34 0,4 5 5,6 19 1,6 35 0,6 6 7,6 20 0,8 36 0,2 7 5,2 21 0,8 41 0,2 8 8,4 22 1,0 48 0,2 9 6,2 23 0,2 49 0,2 10 5,2 24 0,2 51 0,2 II 3,8 25 1,0 55 0,2 12 4,4 0,8 13 4,0 27 0,6 Контактное расположение глаголов указывает либо на мо­ дальное сказуемое (может быть, может показать), либо на со­ четания глагола-сказуемого с зависимым инфинитивом в роли до­ полнения (позволяет вычислить). * Сопоставить частоты глагола в рефератах и иных научных текстах затруднительно, так как обычно в класс глаголов вклю­ чают причастия и деепричастия. Данные, приводимые С.И. Кауф- •аном /Кауфман, 1970, 283/, позволяют вычислить частоту лич­ ных форм глагола вместе с инфинитивом, т.е. тех форм, кото­ рые включаются нами в грамматический класс глагола. Она сос­ тавляет всего 7,9 %, т.е. существенного расхождения между нею и частотой глагола в реферативных текстах (7,1 %) не на­ блюдается. 92 Пики на расстояниях в четыре и восемь слов, ведомо, на­ ходят объяснение в построении предложения. Как представляется, данные таблицы I свидетельствуют о целесообразности рассматривать не расстояния между соседним глаголами, а распределение глаголов по предложениям в рефе­ рате. Возможно, расстояния между соседними глаголами зависят от позиции глагола в предложении и определяются распределе­ нием длины предложения. Таблица 2 Распределение глаголов по позициям в предложении *# по­ Абсолютн. Относит, И по­ Абсолюта, Относит. зиции частота частота зиции частота (в %) I 946 23,65 18 14 0,35 2 537 13,42 19 18 0,45 3 701 17,52 20 9 0,23 4 448 11,20 21 II 0,27 5 303 7,57 22 9 0,23 6 227 5,67 23 6 0,15 7 165 4,12 24 6 0,15 8 120 3,00 25 2 0,05 9 92 2,30 26 5 0,13 10 87 2,17 27 3 0,06 II 77 1,93 28 2 0,05 12 43 1,07 29 2 0,05 13 50 1,25 35 I 0,03 14 36 0,90 36 I 0,03 15 24 0,60 38 I 0,03 16 28 0,70 45 I 0,03 17 25 0,62 Изучение распределения 4000 глаголов по позициям в пред­ ложении покаывает, что более 54 % глаголов занимают 1-3 по­ зицию в предложении, хотя максимальная удаленность глагола от начала предложения составляет 45 позиций. 73,9 % глаголов расположены не далее пятой, а 91,3 % - не далее десятой по­ зиции в предложении. Почти четверть всех глаголов находится на первом месте в предложении. Однако данные таблицы 2 не раскрывают зависимости рас­ стояния между соседними глаголами в тексте от позиции глаго­ ла в предложении. Вероятно, имеет значение не только позиция 93 глагола в предложении, но и линейная последовательность предложений, что составляет отдельный предмет исследования. Пока же следует отметить действие широко распространенного в языке и в речи закона предпочтения: наибольшее количество единиц (в данном случае - номеров позиций глагола в предло­ жении) встречается с высокой частотой и составляет большин­ ство в исследуемом массиве, а большое-количество единиц име­ ет низкую частоту и составляет незначительный процент масси­ ва /Dewey, 1923; Meier, 1964; Перебийніс, 1970, 157/. Таблица 3 Распределение глаголов в рефератах различной длины глаголов I 2 3 4 5 6 7 8 9 10 II 12 13 14 15 20 го 0 10 10 10 I I - - - - I - - - - - - 33 I 42 26 9 4 - I I 83 2 6 50 16 9 3 I 85 3 5 16 22 15 4 - 2 - 64 4 3 13 26 19 9 3 73 5 I 3 23 8 16 4 2 - - I - - - - - - 58 6 - I 8 21 9 3 4 - I 47 7 - I 9 9 6 16 7 3 I 53 8 - - 6 3 8 5 8 2 - - I - - - - - 34 9 - I 2 4 4 6 8 5 2 - - I - - - - 33 10 - - - - 6 I 2 4 4 I I 19 II - - - I 6 4 I I - - - I I - - - 15 12 - - - I 3 2 5 3 I 3 - I - - - - 19 13 _ _ - I 3 I 2 3 3 I 2 16 14 - - - - I 2 - I 2 I - - I - - - 8 15 I 3 2 I 2 9 16 I I 2 2 I 7 17 I I 3 4 9 13 _ _ 0 - - - - - - - - - - - - - 2 19 I I - 2 20 - - - - - - I - - - - - - - - - I 21 I I - 2 23 - - - - - - - - - - - - - I - - I 24 I I - 2 2Ь - I - - - I 2 Всего 67 I 31 96 79 49 44 27 20 16 14 4 2 2 I I 121 6Õ0 94 Если глагол, как предикативный центр предложения, равно­ мерно распределен по тексту реферата, то, во-первых, в каж­ дом предложении должен быть глагол, во-вторых, количество глаголов в тексте реферата будет увеличиваться с увеличением длины реферата, исчисляемой количеством входящих в него пред­ ложений. Таблица 3 показывает, что количество глаголов в рефера­ те действительно коррелирует с длиной текста. Для рефератов, состоящих из одного или двух предложений, как будто довольно хорошо просматривается и равномерность распределения глаго­ лов по тексту: в этих массивах больше всего рефератов, коли­ чество глаголов в которых равно количеству предложений в ре­ ферате. Однако в рефератах длиной в три и четыре предложения максимум сдвигается в сторону большего количества глаголов, хотя сумма рефератов, включающих меньше глаголов, чем пред­ ложений, в этих рефератах достаточно велика и составляет со­ ответственно 26,7 % и 30,2 %. В более длинных рефератах количество текстов с малым ко­ личеством глаголов уменьшается, каждая длина текста имеет свои особенности группировки текстов по признаку количества глаголов в них. Таблица 3 дает основания для предположения: среднее количество глаголов в предложении зависит от длин» реферата и увеличивается с ее ростом Распределение всех исследуемых рефератов на массивы в зависимости от длины реферата и определение среднего количе­ ства глаголов в предложении отдельно для каждого массива по­ казало более сложную зависимость между длиной реферата и средним количеством глаголов в предложении. Все рефераты об­ разовали три группы по признаку средней частоты глагола в предложении: полоса колебания средней частоты глагола впред­ ложении от 0,94 до 1,14 характерна для рефератов, состоящих из двух и из тринадцати предложений; от 1,20 до 1,32 наблю­ дается в рефератах, состоящих из I, 3, 4, 6, 7, Іі, 15 и 20 предложений; от I,36 до 1,42 свойственна рефератам из В, 8, 9, 10, II и 14 предложений. ^ Как видим, в каждой группе есть и короткие, и длинные рефераты, а наиболее длинные рефераты оказались в группе средней частоты глагола, а не в самой высокой, как предпола­ галось. Причины такой группировки рефератов требуют специ­ ального исследования, выходящего за рамки настоящей работы. Исследование распределений глагола в реферате, представ­ ленном в виде последовательности предложений, требует вычис­ 95 лить среднее количество глаголов в предложении, занимающем определенную позицию в реферате. Для этого каждый реферат представим в виде схемы, отражающей последовательность абсо­ лютных частот глаголов в предложении. Так, схема I-2-I пока­ зывает, что в первом предложении реферата, состоящего из трех предложений, есть один глагол, во втором - два, в третьем - один, т.е. в реферате всего четыре глагола. Такие схемы дают возможность определить среднюю частоту глагола в любом пред­ ложении реферата. Таблица 4 Зависимость частоты глагола от позиции предложения в реферате Количество Позиция предложения в реферате предложе­ ний в рефе­ рате I 2 3 4 5 6 7 3 2 1,02 1,08 3 1,20 1,30 1,34 4 1,03 1,43 1,21 1,20 5 1,25 1,38 1,54 1,46 1,30 6 1,04 1,29 1,45 1,33 1,20 1,41 7 1,00 1,29 1,45 1,39 1,32 1,^9 1,00 8 1,41 1,33 1,35 1,44 1,26 1,07 1,22 1,48 Полученные средние частоты в большинстве случаев не по­ казывают существенных расхождений, особенно в тех случаях, когда количество рефератов недостаточно для получения статис­ тически достоверных данных. Но все же представляет интерес тенденция к самой высокой частоте в третьем и к самой низкой - в первом предложении реферата. Низкая частота глагола в первом предложении может быть объяснена тем, что это предло­ жение является повторением заглавия, а предикат выражен чаще всего кратким причастием, составляющем в нашем исследовании самостоятельный грамматический класс слов. Для выяснения при­ чин других особенностей распределения средней частоты глаго­ ла в предложениях подробнее рассмотрим схемы, отражающие по­ следовательность количества глаголов в линейной цепи предло­ жений реферата. Как показывает таблица 3, реферат любой длины имеет раз­ ное количество глаголов, поэтому все схемы линейного располо­ жения глаголов следует сгруппировать в массивы с одинаковым количеством глагола в рефератах одной и той же длины и рас­ 96 сматривать как каждый массив отдельно, так и все рефераты данной длины вместе. Распределение глаголов в рефератах из двух предложений описывается І7-тьго схемами. Максимальное количество глаголов в одном предложении - пять - встречается только во втором предложении. Все схемы по характеру распределения глаголов образуют три группы: а) одинаковое количество глаголов в обо­ их предложениях (равномерное распределение) - 51,3 %; 3)уве- личение количества глаголов во втором предложении - 25,6 % рефератов; в) уменьшение количества глаголов во втором пред­ ложении - 23,1 %. Так как схемы второй группы незначительно превышают по количеству схем третьей группы, среднее количе­ ство глаголов во втором предложении реферата несколько выше, хоть и не выходит за пределы статистически допустимых коле­ баний. Больше всего (30 %) рефератов описываются схемой І-І, т.е. по одному глаголу в каждом предложении. В рефератах из трех предложений отмечено 52 схемы рас­ пределения глаголов, их можно сгруппировать следующим обра­ зом: а) монотонные, в которых глаголы распределены либо рав­ номерно (I—I—I или 2-2-2), либо с повышением их количества в каждом последующем предложении (0-1-2), либо с понижением (3-2-1). Такие схемы составляют 29,8 %\ б) симметричные, в которых крайние предложения имеют ли­ бо больше, либо меньше глаголов по сравнению со средним (38,2%); в) асимметричные, в которых количество глаголов в пред­ ложениях не упорядочено, их 32 %. Самая частая схема (I—I—I) составляет 12,2 %. Таким образом, более двух третей рефератов из трех пред­ ложений представляют собой некоторое гармоничное целое отно­ сительно распределения в них глаголов. Рассмотрим с этих же позиций рефераты из четырех предло­ жений. Естественно, схемы расположения глаголов в них слож­ нее и их больше (60 схем). Самая частая - монотонная схема I—I—I—I (12,5 %). Возможности симметричного построения схемы в рефератах этой длины увеличились. Если в рефератах из трех предложений мы имели дело лишь с одним видом симметрии - зер­ кальная симметрия с осью, проходящей через средний элемент схемы, - то в рефератах из четырех предложений есть симмет­ ричные схемы, в которых ось симметрии проходит между двумя средними элементами (например, 2-І-І-2), есть схемы ритмич­ ные (типа x-I-2-I), представляющие простой ритм или ритм с 13 97 расширением, при котором один, элемент такта остается посто­ янным, а второй увеличивается (2-I-3-I или 0-1-0-2); ритм с сужением, при котором один элемент уменьшается, а второй ос­ тается постоянным (0-2-0-1 или 1-2-3-2); ритм с двойным рас­ ширением, когда оба элемента увеличиваются на одинаковое чи­ сло (0-I-I-2), или с двойным сужением, как в 2-I-I-0 (умень­ шение на I каждого элемента второго такта). Анализ показывает, что монотонные схемы составляют 15,6%, симметричные с зеркальной симметрией - 11,5 %, ритмичные 52,1 %, т.е. и в этом массиве рефератов неупорядоченное рас­ положение глаголов встретилось лишь в 20,8 % текстов.Как ви­ дим, для рефератов из 4- п редложений наиболее характерно ритмичное расположение глаголов в тексте. Ритмичная структу­ ра, в отличие от зеркальной, характеризуется открытостью ря­ да: ритм можно повторять многократно, предел такого повторе­ ния и ограничение длины ритмической последовательности в рит­ ме не обозначены. Основой ритма в реферате из четырех предложений служит отрезок из двух предложений. Рассмотрим характер распределе­ ния глаголов в первом и втором такте (см. табл. 5). Возмож­ но, именно в нем кроется признак завершенности текста, со­ держится некоторое ограничение, указывающее на нее. Таблица 5 Характер распределения глаголов в первом и втором такте реферата из четырех предложений такта I ХарактеР^ ̂ ^ расположени^^^^ I II Равномерное 40,6 % 39,6 % С повышением 38,5 % 27,1 % С понижением і~0,8 % 33,3 % Проверка на существенность расхождения процентных пока­ зателей между первым и вторым тактом свидетельствует о том, что в первом такте существенно более высокую частоту имеет расположение глаголов с повышением их количества к концу такта, а во втором - с понижением (t равно 2,74 и I,99 соот­ ветственно , при табличном 1,98). Таким образом, текст реферата, состоящего из четырех предложений, стремится к обозначению завершенности текста,к строению зеркально симметричному, т.е. закрытому. Но образ­ 93 цом закрытости текста следует считать рефераты из трех пред­ ложений с симметричным расположением глаголов. В рефератах из пяти предложений насчитывается 67 схем распределения глаголов, из которых монотонных 7,8 %, симмет­ ричных - 9,1 %, ритмичных - 29,9 % и асимметричных - 53,2 %. Как видим, удельный вес симметрии и ритма в этих рефератах значительно ниже. Меняется и характер ритмических тактов: появилась новая разновидность ритма - ритм с удлинением (I- 2-1—1—2) или с укорочением, как в I—1—2—1-2 или 1—2—2—1—2. Рассмотрение первых и последних пар предложений показы­ вает ту же тенденцию, что и в рефератах из 4- предложений: количество глаголов в начальной паре предложений повышается к концу пары, а в последней - понижается. Иными словами,стро­ ение текста показывает стремление к симметричности. Можно предположить, что тексты рефератов этой длиш стро­ ятся, как из блоков, из последовательностей 2+3 или 3+2 пред­ ложения. Если это так, то вес асимметричных структур в бло­ ках, состоящих из трех предложений, должен быть примерно рав­ ным весу этих схем в текстах из трех предложений. Подсчеты показывают, что количество асимметричных структур в этих бло­ ках составляет 40,2 % в начальных и 44,2 % - в конечных.Воз­ можно, это свидетельствует о предпочтительности деления на блоки 3+2, а не 2+3, но окончательно решить, какое членение на блоки предпочтительнее (если оно вообще целесообразно), может только анализ сверхфразовых единств в сопоставлении со схемами расположения глагола. Но несомненно то, что рефераты длины в два и три предло­ жения - это образцы коротких законченных текстов, первый из которых служит основанием ритма в более длинных текстах, а второй, помимо этого, является еще и примером симметричности и структурного оформления законченности текста. Очевидно, не случайно, что среди рефератов больше всего рефератов в два и три предложения. С увеличением длины текста вес симметричных расположений глагола снижается, но возрастает возможность членить тексты на блоки и анализировать их взаимодействие. Так, рефераты длиной в шесть предложений при разделении их на два блока по три предложения в каждом показывают, что в начальном блоке вес асимметричных структур составляет 30,6$, а в конечном - 44,9 %, т.е. начало текста организовано более четко, чем его конец. 0 том же свидетельствуют рефераты дли­ не"- в семь предложений: при выделении в них начального и ко­ 99 нечного блока по три предложения в каждом первый из них со­ держит 34,1 % асимметричных схем расположения глаголов,а по­ следний - 45,4 %. Таким образом, анализ схем расположения глаголов в линей­ ной последовательности текста помогает раскрыть особенности его строения как целого и указывает на такие закономерности его структурной организации, которые нельзя обнаружить иным путем. Л И Т Е Р А Т У Р А Кауфман С.И. Из курса лекций по статистической стилистике. М., Московский обл. пед. институт им. Н.К.Крупской, 1970. ПеребийнIC B.C. КІЛЬКІСНІ та якісні характеристики системи фонем сучасноі украінськоі літературноі мови. - К.:На- укова думка, 1970. Dewey G. Relative Frequency of English Speech Sounds. Lon­ don, 1923. Meier H. Deutsche Sprachatatistik. Hildelsheim, 1964. DISTRIBUTION OP VERBS IN SCIENTIFIC ABSTRACTS Valentina Perebeynoss S u m m a r y The regularities of text structural organization can be traced in the distribution of grammatical word classes in the text considered as a whole. The distribution of verbs (finite forms and the infinitive) in scientific abstracts in the field of cybernetics is represented by means of patterns showing the number of verbs in each sentence of an abstract. Three groups of these patterns are established: monotonous (1-1-1, 0-1-2-3. 2-1-0 etc), symmetric, including mirror (0-1-0, 2-1-2 etc) and rhythmic (1-2-1-2 etc) patterns, and asymmetric (1-1-2, 2-1-0-1). Mirror symmetry is characteristic mostly of three-sen- tence abstracts, while four-sentence ones are mainly rhythmi­ cally built. The quota of symmetrically structured abstracts drops with the growth of abstract length, but abstracts of any length show a tendency to mark the beginning and the end of the text by lessened mean frequency of verbs in the first and the last sentences. 100 "ПРОЛЕГОМЕНЫ" К СТАТИСТИЧЕСКОЙ ТЕОРИИ ТЕКСТА Б.Я.Слепак I. Общие замечания* Лингвостатистика начиналась с изучения отдельных текстов (см. Марков, 1916; Yule, 1938; Williams, 1940). Середина на­ шего столетия была отмечена резким повышением интереса к ко­ личественным исследованиям речевого материала, что было об­ условлено, в первую очередь, усилившейся в этот период тен­ денцией к расширению взаимосвязи общественных, естественных и технических наук. Широкому введению статистической методо­ логии в языкознание способствовало интенсивное развитие ки­ бернетики, и не только потому, что электронная техника за­ метно уменьшала вычислительные затраты - результаты лингво- статистических изысканий были настоятельно необходимы для удовлетворения разнообразных практических задач, связанных с использованием ЭВМ для автоматической переработки текстового материала, в частности для машинного перевода, информацион­ ного поиска, автоматического аннотирования, реферирования, индексирования и др. Все это и предопределило в значительной мере смену ма­ гистральной лингвостатистической ориентации - количественное изучение отдельных текстов явно и безоговорочно уступило ме­ сто квантитативному описанию совокупного продукта коммуника­ тивно-речевой деятельности - речевого материала (речи).Текст сам по себе теперь начал рассматриваться как своеобразный "черный ящик", его внутреннее статистическое устройство, как правило, не служило объектом самостоятельного исследования. Сейчас, с нашей точки зрения, настало время - в соответ­ ствии с диалектикой развития статистической лингвистики возвратиться от широких количественных обобщений к тому, с чего начиналась эпоха квантификации языкознания, что объек­ тивно должно было предшествовать "статистике речи" - к ста­ тистике текста (ср. лингвистика текста, грамматика текста). Если в области статистики речи и статистики стиля уже на­ коплены данные, позволяющие делать обобщения, формулировать * Несколько нарочито звучащим словом "пролегомены" авто­ ру статьи хотелось лишь подчеркнуть предварительный, во мно­ гом зондирующий характер изложенных в ней мыслей и результа­ тов. 101 закономерности (хотя в общем еще далеко неокончательного ха­ рактера), то в сфере статистики текста обобщать и теоретизи­ ровать практически нечего.* Основная цель предлагаемой статьи - привлечь внимание языковедов к этому "забытому" региону стилостатистики, кото­ рый в результате парадокса развития квантитативной лингвис­ тики остается практически "белым пятном" на жнгвостатисти- ческой карте. 2. Некоторые теоретические предпосылки В качестве исходного, рабочего принимается следующее оп­ ределение текста: текст - это однозначно локализуемая в про­ странстве совокупность предложений®6, образующая сообщение, которое имеет самостоятельную коммуникативно-смысловую цен­ ность. С целью уточнения терминологического контекста, в кото­ ром используется понятие текста, отметим, что под речью (уст­ ной, письменной) понимается деятельность, связанная с реали­ зацией способности человека производить и регистрировать се­ миотически значимые звуки, сочетания звуков (слова) и соче­ тания слов (предложения). Укажем также на некоторые соответ­ ствия между используемыми в настоящей статье лингвистически­ ми понятиями и понятиями метаязыка математической статистики: коммуникативно-речевая деятельность *==» эксперимент; единицы (систеіи) языка <=*> единицы подсчета; текст 4=> единица наб­ людения; речевой материал и его разновидности <*=> генераль­ ная и выборочные совокупности; стиль 4—* способ организации генеральной совокупности (функция распределения, закон рас­ пределения). 8 Ярким подтверждением тому может служить одна из послед­ них работ К.Б.Бектаева (Бекьаев, 1978), в которой - вопреки тому, что можно ожидать по названию ~ статистика текста явно подменена статистикой текстов ("речи"). * Точнее, по всей видимости, говорить о том, что текст может состоять из і ... n + -I предложений. Примером "вырож­ денного" текста, состоящего из одного предложения, служит "поэма": "О, закрой свои бледные ноги!", имевшая распростра­ нение в начале XX века. 102 Представляется удачным термин "этноязык", предложенный А.И.Горшковым (см. Березин, Головин, 1979, 59). Данный тер­ мин позволяет избегать интерференции двух значений слова "язык": язык - важнейшее средство человеческого общения,ком­ плексное явление, характеризуемое тремя основными аспектами - структурным, материальным и функциональным (в таком значе­ нии и употребляется термин "этноязык"); язык - семиологиче- ская структура, совокупность знаков. Из текстов извлекаются частоты употребления языковых еди­ ниц и другие выборочные характеристики, которые объективизи­ руют понятие узуса; другой основной аспект коіадуникативно- речевой деятельности - коммуникативно-стилевая норма - конс­ титуируется вероятностями, распределениями вероятностей и корреляционными отношениями. 3. Квантийикаддя понятия "текст" 3.1. Статистическая идентификация текста Цробдема формулируется следующим образом: релевантно ли в статистическом плане само понятие текста как самостоятель­ ной единицы наблюдения? Ддя решения этого вопроса в плане внешних сопоставлений используем однофакторный дисперсионный анализ, с помощью которого можно одновременно сопоставить (на достоверностной основе) любое количество средних частот. Для корректного применения указанного метода необходимо,что­ бы генеральная совокупность была распределена близко к нор­ мальному и чтобы групповые дисперсии существенно не различа­ лись. Применим дисперсионный анализ для сопоставления частот употребления сложноподчиненных предложений в авторской речи романов С.Льюиса: "Главная улица" (ГлУ), "Бэббит" (Бэб), "Эроусмит" (Эр), "Кэсс Тимберлейн" (KT), "Кингсблад, потомок королей" (КПК). Процедура расчета критерия Бартлета В* слу­ жащего для сравнения групповых дисперсий и различных показа­ телей, фигурирующих в однофакторном дисперсионном анализе, подробно описана во многих работах по математической статис­ тике (см., например, Цустыльник, 1968; Урбах, 1964). В опи­ сываемом случае В = 2,464<^Q = 9,5 (при четырех степенях свободы), что позволяет гипотезу о равенстве дисперсий в со^ поставляемых текстах Льюиса признать справедливой. Машинный эксперимент по аппроксимации эмпирических распределений тео­ ретическим путем использования критерия хи-квадрат показал, что распределение сложноподчиненных предложений в авторской 103 речи романов С.Лымса подчиняется нормальному закону при уровне существенности Pq Q5 (As = + 0,203; = - 0,089). Исходные и кодированные данные для однофакторного дис­ персионного анализа приведены в таблицах 3.1 и 3.2 (величина микровыборки здесь и в дальнейшем изложении - 100 самостоя­ тельных предложений). В соответствии с этими данными _£= 4146,8; £ = 2 2 2 х = 3761,8; £,-= б + 2 + ... + 20 + + ІЗ2 = 4482; $А = 4146,8 - 3761,8 = 385,0; s2 = 4482 - 4146,8 = 335,2; /= 5-1 = 4; f2 = 3 6 - 5 = 3 1 ; gi = 385,0 = % з 335*2 = I0 8 г = 96*3 _ д 9# А 4 2 31 А/1 10,8 Таблица 3.1. Исходные данные для однофакторного дисперсионного анализа Тексты Н о м е в а м и к Р о в ы б о р о к I 2 3 4 5 6 7 8 9 10 ГлУ 24 26 22 29 26 30 31 26 23 36 Б б 28 25 26 26 30 28 Эр 25 28 29 29 30 32 34 30 33 КТ 34 36 33 38 27 33 КПК 36 35 37 40 33 Таблица 3.2. Однофакторный дисперсионный анализ I 2 3 4 5 6 7 8 9 10 % I 6 2 9 6 10 II 6 3 16 10 73 5329 5329 8 5 6 6 10 8 6 43 1849 308,2 5 8 9 9 10 12 14 10 13 9 90 8100 900 14 16 13 18 7 13 6 81 6561 1093,! 16 15 17 20 13 5 81 6561 1312,: Сумма 36 368 4146,8 Поскольку число 8,9 больше, чем Fq q5 = 2,91 душ fa = 4, f = 31 (^определяется по таблице критических значений кри­ терия Фишера), есть все основания считать, что фактор текста 104 (в аспекте времени написания) существенно влияет на частот­ ность употребления сложноподчиненных предложений в авторской речи романов С.Льюиса. Резкую противопоставленность текстов одного автора,, раз­ ных авторов, одного жанра, разных жанров вскрывают и попар­ ные сопоставления. Так, между романами Т.Драйзера "Сестра Керри" и "Финансист" (авторская речь) обнаружено 77 % суще­ ственных различий по 13 синтаксическим явлениям (типы и виды предложений, партиципные конструкции, инверсия, начала пред­ ложений и т.п.). Показатель размежеванности для ".Американской трагедии" и "Кэсса Тимберлейна", вычисляемой как отношение числа значимых различий к общему количеству сопоставлений,ра­ вен 0,85; для эссе Т.Драйзера "Трагическая Америка" (ТрА) и "Америку стоит спасать" (АСС) - 0,62; для "Трагической Аме­ рики" и "Титана" (Тит) - 0,70 (максимально возможное значе­ ние коэффициента размежеванности равно единице). Попарные сопоставления текстов производились с помощью параметрических и непараметрических (см. подробнее: Урбахд 1964; Сепетлиев, 1968) критериев различия. Последние более предпочтительны, поскольку их применение не предусматривает необходимости решения вопроса о характере распределения ва­ риант в генеральной совокупности (проблемы чрезвычайно слож­ ной и малоисследованной в лингвостатистике) и в то же время обеспечивает достоверностную оценку наблюдаемых различий. Проиллюстрируем применение непараметрических методов ана­ лиза на примере серийного критерия. При сопоставлении вариа­ ционных рядов, репрезентирующих функционирование сложносочи­ ненных предложений в авторской речи романов "Кэсс Тимберлейн" (число вариант tix = 32) и "Американской трагедии" (АТр) (лу= = 66), было обнаружено 2 серии ( S = 2), каждая из которых представляет собой непрерывную последовательность вариант, принадлежащих только к одному из двух рядов. Расчет серийного критерия Üs не требует сложных вычисле­ ний. В нашем случае (число вариант обоих рядов уменьшено на 5 - количество пар с нулевой разницей.между вариантами): Я = 2 • 27 • 61 = 3294; b = 27 + 61 - 88; —_ 3294 . _Т iт — Uчр лр, ^2 _ 8234 (3294 - 08) ,- . \ U* "-Г » "Л — '1 ГГЧ"' - .»'-««• I - •' 'л I """ — fJ_r V: * О r;f t > 88 5- 80^ - (88 - I) І4 Поскольку Us = 9,09 >2,58 (теоретическое критическое значение), нулевую гипотезу следует отвергнуть - между текс­ тами "Касс Тимберлейн" и "Американская трагедия" (авторская речь) по частотам сложносочиненных предложений наблюдаются существенные различия. Применение критерия Вилкоксона позволяет уточнить это заключение: рассмотренные вариационные ряда значимо различа­ ются по центральной тенденции, т.е. по средним частотам ( X соответственно 12,25 и 4,56). Многообещающие возможности для статистической идентифи­ кации текста открывает использование аппарата многомерной статистики, специализированного для одновременного сопостав­ ления сложных объектов по комплексу признаков. Стилостатис- тические работы многомерного характера немногочисленны (см., например, Kraue, Vasak, 1967; Мальцева, 1969; Слепак,І975). Чрезвычайно перспективным в этой связи представляется метод дискриминантного анализа, который дает возможность обобщен­ но и, что очень важно, достоверностно оценивать характер на­ блюдаемых различий в сопоставляемых текстах по величине нес­ кольких признаков. Картина, получаемая при анализе результатов попарных меж­ текстовых сопоставлений, как правило, мозаична и не всегда позволяет выявить единые и устойчивые качественно-количест­ венные тенденции. Правомерно ожидать, что разнообразные сти- лостатистические задачи, такие, например, как количественная типология текстов, стилевая дифференциация, периодизация творческого пути писателя, будут объективно решены на базе именно многомерного, комплексного подхода. 3.2. Статическая статистическая структура текста Под статической статистической структурой текста понима­ ется набор количественных характеристик, описывающих вариа­ ционные ряды, которые репрезентируют функционирование языко­ вых единиц в тексте, и предназначенных главным образом для оценки и сравнения средних величин и показателей рассеивания, показателей взаимосвязи и взаимообусловленности разных язы­ ковых средств, а также для аппроксимации эмпирических расп­ ределений теоретическими. Сопоставление попарно сопряженных вариант в замкнутом тексте может быть произведено с помощью непараметрического критерия знаков. В принципе, видимо, все языковые единицы в связном тексте в той или иной мере сопряжены, взаимосвязаны, 106 что обусловлено системным характером речевой организации тек­ ста (одно из объективных подтверждений правомерности систем­ ной трактовки текста см. в 3.3). Необходимо, например, определить, достоверна ли разница между частотами сложносочиненных и сочиненно-подчиненных пред­ ложений в авторской речи романа "Кингеблад" (см. табл. 3.3.). Таблица 3.3. Внутритекстовые сопоставления посредством критерия знаков Сложносочиненные 16 14 II 17 8 8 10 5 7 13 Сочиненно-подчиненны е 17 19 13 14 14 12 17 19 21 13 + + 't­ + + + + + 0 Продолжение Сложносочиненные II 8 is 7 12 7 II 9 9 12 Сочиненно-подчиненные 14 16 20 13 II 10 18 14 10 13 + + + + + 4" + + + Продолжение Сложносочиненные 14 10 19 Сочиненно-подчиненны е 15 13 18 + + Сопоставление пар показывает, что в 19-и случаях в автор­ ской речи романа "Кингеблад" обнаруживается преобладание со­ чиненно-подчиненных предложений над сложносочиненными, в 3- случаях чаще используются сложносочиненные предложения и,на­ конец, в одном случае разница между вариантами равна нулю. Сравнение полученного эмпирического числа реже встречающихся знаков 2= 3 с критическими табличными значениями Zgg = 6 и Zqj = 5 (при п = 22; количество вариант обоих сопоставляе­ мых рядов уменьшается на число, соответствующее числу пар ва­ риант, между которыми обнаружена нулевая разница; нулевая гипотеза принимается ̂ ри Z^Zgg И отвергается при Z^Zqj) показывает, что расхождения частот сложносочиненных и сочи­ ненно-подчиненных предложений в тексте "Кингсблад" не явля­ ются случайными. В авторской речи названного романа сложно­ сочиненные предложения употребляются реже. Как видно из приводимого ниже фрагмента таблицы (см.табл. 3.4), каждый замкнутый текст характеризуется своеобразным на­ бором отношений сопряженных языковых единиц. Интерес, на наш взгляд, представляет попытка обобщенной оценки синтаксической структуры текста с помощью энтропии - количественной меры информации, предложенной К.ГІенноном. 107 Таблица 3.4. Сопоставления сопряженных синтаксических явлений с помощью критерия знаков Исследуе­ мые тексты Сопряженные синтаксические явления Простые Сложные Сложно- Сочинен- Конструк- Конструк- яр-начала rap-начала предло- предаю- сочин, но-подч. ции с ции с при- предложе- предложений жения жения предл. предл. шжчаст. I частием II ний ск Фин Тит От АТр ГлУ Бэб Эр КТ КПК ТрА АСС Примечание: + означает наличие существенных расхождений с более высокими частоташ у того явления, в колонке которого данный знак помещен; = означает отсутствие существенных расхождений; - означает неопределенность вывода о характере наблюдаемых расхождений. СК - "Сестра Кер­ ри", Фин - "Финансист", Ст - "Стоик", NP - noun phrase, ШР - non-noun phrase. В роли символов алфавита в описываемом эксперименте выс­ тупают отдельные виды предложений; буквами алфавита являются элементарные предложения, объединенные в рамках пунктуацион­ ного единства посредством сочинительных или подчинительных связей. Набор выделенных видов предложений (алфавит) состоит из 16 символов (табл. 3.5). Теоретически число видов предло­ жений, выделяемых согласно используемым нами критериям, бес­ конечно, но, поскольку вероятности появления предложений с очень большим числом элементарных (порядка шести и более) крайне низки, этот набор можно представить в виде условно-ко- нечной совокупности символов. Для измерения энтропии текста (в ее первом приближении - при условии независимости вероятности появления отдельного символа в определенной точке сообщения от вероятности пред­ шествовавшего символа или символов) применим формулу,введен­ ную К.Шенноном: Щ-PiAz) ,̂ F(AZ)t. ~ P(AK)1§ZP(AK}], где PFA ) - вероятности встречаемости символов в сообщении. Из формулы Шеннона следует, что энтропия тем выше, чем больше символов в алфавите и чем равномерней распределены вероятности их употребления в реальном сообщении. Отсюда яс­ но, что максимальной энтропия будет в том случае, когда все символы равновероятны: Ho^g/V , где N - общее число символов алфавита. Чтобы определеить избыточность сообщения {R ), вначале высчитывают относительную энтропию: И -Ml "отн Но Избыточность определяется по формуле: ігч-Ноп,» . В контексте описываемого исследования показатели энтро­ пии (табл.. 3.6) рассматриваются в качестве мерила а)разнооб­ разия синтаксиса (само собой разумеется, что текст, в кото­ ром встречаются предложения только одного вида, например, простые, характеризуется нулевой энтропией на одно предложе­ ние и абсолютно однообразной - в плане использования разных моделей предложений - структурой); D) усложненности речи (ЧЕМ вше энтропия, тем чаще употребляются в тексте разные виды предложений, в том числе предложения с высокой насыщенностью 109 Твбпца 3.5. Вероятности символов алфавита видов предложенж* С и м в о л ы а л ф а в и т а в и д о в п р е д л о ж е н и й I 2 3 4 5 6 7 8 9 10 II 12 13 14 15 16 5038 2620 0733 0714 0397 0070 0159 0123 0022 0010 0038 0037 0010 0001 0013 0015 4348 2186 0877 0874 0583 0102 0268 02ТО 0064 0008 0115 0114 0021 0001 0063 0106 4706 2328 0725 0880 0410 0079 0316 0190 0062 0012 0095 0077 0018 0003 0042 0057 4036 2318 0379 1323 0344 0064 0615 0179 0036 ООН 0252 0082 0023 0003 0242 0093 4198 2791 0400 1148 0354 0046 0482 0171 0031 0006 0140 0068 0014 0003 0075 0073 3781 2492 0586 1247 0364 0103 0525 0214 0033 0003 0300 0103 ООН 0003 0153 0082 4595 2602 0402 1095 0262 0051 0457 0108 0021 0021 0169 0059 0005 0007 0087 0059 5677 1883 0655 0537 0378 0125 0161 0153 0071 0043 0051 0039 0041 0010 0042 0098 5117 1932 0782 0450 0507 0229 0193 0193 0121 0050 0071 0086 0061 0014 0058 0136 4286 1798 0928 0723 0581 0240 0295 0284 0149 0049 0109 0140 0102 0028 0054 0234 3738 2013 1003 0809 0659 0181 0344 0441 0119 0019 0100 0144 0069 0022 0087 0252 3748 2104 0861 0900 0661 0157 0439 0261 0139 0044 0161 0183 0083 0017 0074 0168 1. Нуль везде опущен. 2. Виды предложений: I - простые; 2 - сложноподчиненные с І-м придаточным; 3 - сложносочиненные с 2-мя элемен­ тарными ; 4 - сложноподчиненные с 2-мя придаточными; 5 - с 2-мя сочиненными и І-м придаточным; 6 - сложносо­ чиненные с 2-мя элементарными; 7 - сложноподчиненные с 3-мя придаточными; 8 - с 2-мя сочиненными и 2-мя придаточными; 9 - с 3-мя сочиненными и І-м придаточным; 10 - сложносочиненные с 4-мя элементарными; II - сложноподчиненные с 4-мя придаточными; 12 - с 2-мя сочиненными и 3-мя придаточными; 13 - с 3-мя сочиненными и 2-мя придаточными; 14 - сложносочиненные с 5-ю и более элементарными; 15 - сложноподчиненные с 5-ю и бо­ лее придаточными; 16 - сочиненно-подчиненные с 6-ю и более элементарными. элементарными); в) стандартности текста (чем ниже энтропия, тем больше обусловленность выбора из всего комплекта видов предложений ограниченного числа моделей, тем выше зафиксиро- ванность правил построения текста и, значит, его стандарт­ ность). Таблица 3.6. Значения энтропии Hj и избыточности R Т е к с т ы НІ R СК 2,0881 0,4780 ГлУ 2,1533 0,4617 ТрА 2,3034 0,4241 Тит 2,3655 0,4086 Ст 2,3908 0,4023 Бэб 2,4157 0,3961 Фин 2,5419 0,3645 АТр 2,5951 0,3512 АСС 2,6429 0,3393 Эр 2,7685 0,3079 КПК 2,8555 0,2861 кт 2,8575 0,2856 Примечания: I. HMngr,< = 4. 2. Тексты расположены в порядке увеличения энтропии. Самая высокая "структурность", если вслед за В.Ингве счи­ тать "показателем структурности" "любые отклонения от рав­ новероятностного исхода" (цитируется по: Ревзин, 1958),свой­ ственна авторской художественной речи последних по времени написания романов обоих авторов и художественно-публицисти­ ческой разновидности жанра эссе, представленной текстом "Америку стоит спасать" (см. табл. 3.6.). При этом достаточ­ но четко прослеживается закономерность: чем позднее написан текст, тем выше энтропия на один вид предложения, тем раз­ нообразней его статистический "портрет". На основании приведенных выше иллюстративных дяннут мод­ но сделать общий вывод: и внутритекстовые, и межтекстовые сопоставления неоспоримо свидетельствуют о том, что каждый замкнутый текст имеет своеобразную статическую статистиче­ скую структуру, благодаря которой он выделяется на фоне дру­ гих текстов как релевантная единица количественного наблю­ дения. III 3.3. Динамическая статистическая структура текста Количественная объективизация одного из основных качест­ венных дифференциальных признаков понятия "текст" - связнос­ ти может быть осуществлена в двух направлениях. Прежде всего необходимо ответить на вопрос: как ведут себя на разных уча­ стках речевого континуума текста различные языковые средст­ ва? Для решения задач такого рода непараметрическая статис­ тика предлагает метод последовательных серий (см. Сепетлиев, 77-79). Необходимо, например, проверить, как распределяются в от­ дельных, последовательно сменяющих друг друга "кадрах" ав­ торской речи романа "Финансист" сложноподчиненные предложе­ ния - равномерно или с тенденцией к чередованию "скоплений" высоких и низких частот. Технология применения метода после­ довательных серий проста. После ранжирования числовых значе­ ний в восходящей градации определяют медиану хд,е » находят разности конкретных значений и медианы, принимая во внимание только знаки этих разностей, устанавливают число серий с оди­ наковыми знаками и сравнивают его с теоретическим значением. В нашем случае (при числе наблюдений п = 60) число серий,ко­ торые бы могли появиться случайно, разно 22 £ 39. Пос­ кольку полученное эмпирическое число серий R = 20 меньше нижней границы табличного диапазона, правомерно заключить, что налицо систематические колебания ("скачки" и "падения") частот сложноподчиненных предложений в авторской речи романа "Финансист". После того как установлено, что "непрерывность" текста может сопровождаться неравномерным, "тенденциозным" употреб­ лением языковых средств, естественно возникает другой вопрос каковы величина и направление динамических изменений, наб- людаешх при функционировании языковых единиц, вовлеченных в сюжетно-композиционное развертывание текста? Одним из метаязыков, позволяющих описывать связный текст "как динамическую, закономерно организованную структуру" (В.В.Виноградов), является статистический аппарат динамиче­ ских рядов (см. Сепетлиев, 176-208), который служит для вы­ явления основной тенденции развития изучаемого явления, для отражения того типичного (не затемненного действием второс­ тепенных факторов), что характеризует иесдедуешй процесс. Другими словами, посредством аппарата динамических рядов ва- 235 2 30 \ 225 X 220 2/5 \ 2/0 \ L ^ 65 a hs ö ьо I" 30 £ži 25 g В 20 ^ ,s w 5 о 1 г j * s в Сегменты текста Рис. 3.1. Динамика функционирования синтаксически единиц в романе "Кэсс Тимбердейн1* S? 60 3S го О / 2 3 4 S 6 7 S 9 Сегменты текста йіс. 3.2. Динамика функционирования синтаксических единиц в романе "Эроусмит" риативность речи может изучаться не только в статической фор­ ме (в виде вариационных рядов), но и в динамике, как процесс (в виде динамических рядов). В описываемом эксперименте в роли независимой переменной (аргумента X) выступает последовательное сегментирование связного текста (ось абсцисс); в качестве переменной зависи­ мой (функции У) используется частотность синтаксических еди­ ниц в отдельных сегментах текста (ось ординат; см. рис. 3.1 и 3.2)Л Отметим, что на представленных рисунках не изобра­ жены эмпирические кривые, а даны уже выравненные теоретиче­ ские линии (прямые и параболы второй степени). Выравнивание осуществлялось с помощью метода наименьших квадратов. Для сохранения единства расчетов и облегчения графиче­ ской репрезентации произведена "компрессия" - на оси абсцисс откладывались сегменты текста длиной в 500 самостоятельных предложений, на оси ординат - средние частоты синтаксических явлений на 100 самостоятельных предложений. Из анализа приведенных графиков видно, что динамическая структура связного текста может быть представлена в вдце спе­ цифичной только для него системы тенденций развития,отражаю­ щих характер функционирования отдельных языковых явлений (синтагматику текста), их взаимосвязь и взаимообусловленность (парадигматику текста) и различающихся по величине и направ­ лению динамических изменений. Объективное подтверждение, таким образом, находит мысль советского психолога Л.С.Выготского о том-, что "новым для ис­ кусства фактором" являются не элементы художественного про­ изведения, которые "существуют до него", а "способ построе­ ния" (подчеркнуто наш - Б.С.) этих элементов (см.Выготский, 1962). Упорядоченность (сбалансированность) текста по парадиг­ матической и синтагматической осям, которая проявляется в своеобразной для каждого текста динамической статистической структуре, следует рассматривать как один из признаков, от­ личающих "текст" от "нетекста" - совокупности грамматически правильных высказываний. х Примечания к рис. 3.1 и 3.2. Синтаксические единицы: I - простые предложения: 2 - сложносочиненные предложения; 3 - сложноподчиненные; 4 - сочиненно-подчиненные; 5 - общее количество элементарных предложений на 100 самостоятельных предложений; 6 - конструкции с причастием I; 7 - конструкции с причастием II; 8 -NP-начала предложений. 115 По величине динамических изменений синтаксические сред­ ства можно разделить на две основные группы: с ярко выражен­ ными тенденциями развития и, соответственно, с малозаметными тенденциями к изменению. Другими словами, различные синтак­ сические единицы неодинаково варьируют на протяжении всего текста (от его начала к концу), одни - больше, другие - мень­ ше. Из рассмотренных синтаксических явлений ярко выраженными тенденциями развития в большинстве текстов отличаются прос­ тые и сложноподчиненные предложения, NP-начала предложений, показатели средней насыщенности сложного предложения элемен­ тарными, общее количество элементарных предложений на 100 самостоятельных предложений. Отметим, что одно и то же синтаксическое явление может функционировать с ярко выраженными тенденциями развития в одном тексте и с малозаметными - в другом. Так, из обследо­ ванных текстов наименее заметные динамические изменения про­ слеживаются при функционировании синтаксических единиц в тек­ стах "Титан", "Главная улица" и "Трагическая Америка". К числу явлений, частоты которых малозаметно изменяются на протяжении всех обследованных текстов, необходимо отнести сложносочиненные предложения и конструкции с причастием II (их можно назвать "стационарными"). Использование сочиненно- подчиненных предложений и конструкций с причастием I харак­ теризуется несколько более высокой внутритекстовой динамикой. С точки зрения направления динамических изменений функ­ ционирование синтаксических единиц в связных текстах харак­ теризуется тенденциями или I) к более частому использованию от начала до конца текста (сопоставляются первая и последняя точки теоретической линии) или 2) к менее частому употребле­ нию. Исследование внутритекстовой динамики функционирования синтаксических явлений может послужить основой для количест­ венной типологии текстов. Так, например, четко противопостав­ ляются тексты с тенденцией к более частому использованию к концу текста простых и сложноподчиненных предложений текстам с противоположной по направлению тенденцией, тексты с тен­ денцией к увеличению к концу текста общего количества эле­ ментарных предложений на 100 самостоятельных и средней насы­ щенности сложного предложения элементарными текстами с про­ тивоположными по направлению тенденциями и т.д. В связи с проблемой внутритекстовой вариативности нами был также рассмотрен и вопрос о взаимоотношении средней час­ 116 тоты выборки из художественного текста со средней частотой для авторской речи всего текста, обследованного всплошь е рассматриваемого в качестве генеральной совокупности. Приме­ нение критерия t , вычисляемого_по формуле: показывает, что выборочное обследование художественного тек­ ста, если его осуществлять по принципу "spread sampling*(см. Yule), дает очень надежные результаты. Само собой разумеется^ что объем выборки должен зависеть, в первую очередь, от ве­ личины вариации рассматриваемого синтаксического явления в тексте. 3.4. Тексты и стиль Стили этноязыка как устойчивые, функционально-целесооб­ разные способы отбора и сочетания языковых средств формиру­ ются в коммуникативно-речевой деятельности и реализуются в текстах. Взаимоотношения текстов и стиля строятся на принци­ пе сложного динамизма, который заключается в следующем: не­ смотря на наличие внутристилевой вариативности выделяются ив- тегративно-динамические тенденции, объединяющие тексты одно­ го стиля и противопоставляющие тексты разной стилевой отне­ сенности. Пример такой тенденции - высокие частоты сложносо­ чиненных предложений в информативных журнальных научно-тех­ нических текстах (1 = 20,14; 12,34; 14,17; 10,17) и очень низкие частоты этого вида предложений в публицистических тек­ стах (I = 3,40; 5,54; 4,80; 6,94). 4. Заключение Основываясь на вышеизложенном и осознавая его во многом предварительный характер, попытаемся предложить определение текста, уточненное за счет введения квантифицируешх диффе- ренциальных признаков.' Текст - это однозначно выделяемая, письменно зафиксиро­ ванная, функционально-целесообразная, непрерывная, системно организованная последовательность слов или предложений, об­ разующая сообщение, характеризующаяся композиционной целост- * Ср., например, с определением, предложенным И.Р. Галь­ периным (см. Гальперин, 1974). 117 нос ты), имеющая общий модальный характер, обладающая само­ стоятельной коммуникативно-информационной ценностью, соотно­ симая с определенным стилем на основе принципа сложного ди­ намизма и отличающаяся от других текстов своеобразной стати­ ческой и динамической статистической структурой. Л И Т Е Р А Т У Р А Бектаев К.Б. Статистико-инйормационная типология тюркского текста. - Алма-Ата: Изд-во Наука Казахской ССР, 1978. Выготский Л.С. Психология искусства (Анализ эстетической ре­ акции). - В кн.: Симпозиум по структурному изучению знаковых систем. - М.: Изд-во АН СССР, 1962, с. 118- 122. Гальпешн И.Р. О понятии текст. - Вопросы языкознания, 1974, с. 68-77. Мальцева Г.Ф. Некоторые количественные приемы описания инди­ видуального авторского стиля. - В кн.: Статистика тек­ ста, т. I. - Минск: Изд-во Белорусского государствен­ ного университета, 1969, с. 206-247. Марков А.А. Об одном применении статистического метода. - В кн.: Известия императорской Академии наук, 6-я серия, IX, *4, 1916. Д отшгт.тпгк Е.И. Статистические методу анализа и обработки наблюдений. - М.: Наука, 1968. Ревзин И.И. 0 соотношении структурных и статистических мето­ дов в современной лингвистике. - В кн.: Вопросы стати­ стики речи (Материалы совещания).-Л.: ЛГУ, 1958, с.45- 56. Сепетлиев Д. Статистические методы в научных медицинских ис­ следованиях. - М.: Медицина, 1968. Слепак Б.Я. Попытка индуктивного выделения функционально- стилевых разновидностей английского языка. - В кн.:Во­ просы романо-германского языкознания, вып. 4. - Сара­ тов: СГУ, 1975, с. 74-78. Урбах В.Ю, йюметрические методы. - М.: Наука, 1964. Kraus Jirf - Vasak Pavel. Попытка количественной типологии текстов. - In; Prague Studies in Mathematical Linguis­ tics. - Praha: Academia, 1967, p. 77-88. Williams C.B. A Note on the Statistical Analysis of Sentence- length ae a Criterion of Literary Style. - In: Biomet- 118 rica, vol. XXXI, pt. 3-4, Cambridge University Press, March, 1940, p, 356-361. Yule G.U. On Sentence-length as a Statistical Characteristic of Style in Prose: with Application to Two Cases of Disputed Authorship. - In: Biometrica, vol. XXX, 1938, P. 363-390. A "PROLEGOMENA" TO THE STATISTICAL THEORY OF TEXT Boris Slepaok S u m m a r y An attempt has been made baaed on preliminary statisti­ cal observations to define more exactly the notion of text. The problem has barely been touched upon in modern stylosfcat- istics. Mainly nonparametric methods of analysis have been employed. Text is treated as an intermittent sequence of wards or sentences having integral conmunicativlty - informational value as well as compositional and modal integrity, organized as a system, associated with an appropriate style due to in- tegratively-dynamic speech trends and possessing compare* to other texts a distinctive static and dynamic statistical com­ position. 119 СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ МЕЖСЕГМЕНТНЫХ ГРАНИЦ В ДИАЛОГЕ Д.И. Сливняк В этой работе, как и в предшествующих (Сливняк, 1977, 1979), статистическими методами исследуется функционирование в диалоге трех коммуникативно важных грамматических катего­ рий предложения: лица, коммуникативной целевой установки (ут­ верждение/вопрос) и времени. Целью является изучение законо­ мерностей, характеризующих "поверхностный уровень" организа­ ции диалога. В этом - существенное отличие данной работы от распространенного подхода, при котором основным объектом ис­ следования является глубинный, семантический аспект коммуни­ кативных процессов.Для осшсления получаешх результатов ста­ тистические закономерности сопоставляются с содержательными соображениями,о тносящимися к свойствам диалогической коммуни­ кации. Тем самым, в какой-то мере, затрагивается и "глубин­ ный уровень" диалога. Заметим, однако, что используемые при этом рассуждения никоим образом не претендуют на доказатель­ ную силу, - скорее их можно рассматривать как правдоподобные гипотезы. Поведение лица, целевой установки и времени рассматрива­ ется в данной работе для предложений, соседних с границами сешентов определенного рода, на которые разбивается диало­ гический текст. Такими сегментами могут быть, например, те­ матические блоки (Теплицкая, 1975), сверхфразовые единства и т.п. Как будет показано, искомые закономерности в извест­ ной степени независимы от процедуры членения текста. Исследование состоит из двух этапов. На первом текст чле­ нится интуитивным образом на отрезки, соответствующие "раз­ говору на одну тему" (ТЕ-членение). Выделяется ч "оценочная" позиция, в которой наблюдаемые явления наиболее доступны для содержательного истолкования. А именно, рассматриваются пред­ ложения, расположенные в конце сегмента и одновременно - в конце реплики. Для различных типов предложения вводится осо­ бая характеристика - импульс, с помощью которой удается с единой точки зрения охватить совокупность наблюдаемых фак­ тов. Исследуются также ситуации на других, интуитивно менее прозрачных позициях. Показано, что установленные для них 120 факты тесно связаны с закономерностями, имеющими место в оце­ ночной позиции. Этой связи дается содержательное истолкова­ ние, опирающееся на понятие импульса, что, на наш взгляд,яв­ ляется основным результатом работы. На втором этапе интуитив­ ная сегментация текста заменяется другим членением, основан­ ным на весьма простой формальной процедуре (£-членение). Не­ смотря на то, что новое разбиение заметно отличается от пре­ дыдущего, характер наблюдаемых явлений в основном сохраняет­ ся. В то же время оно приводит и к некоторш новым интерес­ ным закономерностям. Статистической обработке подверглись 12 пьес на трех язы­ ках: I. А.П.Чехов, Дядя Ваня (русск. яз.). 2. А.С. Пушкин, Борис Годунов (русск. яз.). 3. Б.Брехт, Матушка Кураж (нем. яз.). 4. Н.В.Гоголь, Ревизор (русск. яз.). 5. А. Корнейчук» Калиновая роща (русск. перев.). 6. Г.Тер-Григорян, Поговорим начистоту (русск. перев.). 7. Ж.Ромен, Кнок (франц. яз.). 8. А.Штейн, Флаг адмирала (русск. яз.). 9. С.Беккет, В ожи­ дании Годо (франц. яз.). 10. В.Билль-Белоцерковский, Шторм (русск. яз.). II. Ж.Ануй, Антигона (франц. яз.). 12. Г. Сун- дукян, Пэпо (русск. перев.). Кроме того, использовались записи русской разговорной ре­ чи из книги "Русская разговорная речь (тексты)", М., 1978. Результаты приведены в табл. 1-3, где строки I—12 соответст­ вуют отдельным пьесам, а строки РРІ, РР2 - записям разговор­ ной речи, разбитым на две части по 1000 предложений в каж­ дой. Сравнивая какие-либо две характеристики текста, считаем неравенство между ними установленным, если оно выполнено по крайней мере для девяти из 12 пьес. Нашей целью является установление закономерностей, не связанных с особенностями конкретных языков. Поэтому и пред­ лагаемая методика обработки данных должна быть достаточно об­ щей, не зависящей от этих особенностей. При обработке ста­ тистических данных предложению приписываются лицо и время его сказуемого. С категорией времени были связаны определенные трудности, так как языки, на материале которых выполнялась работа, существенно различаются устройством этой системы.Ука­ занная категория была подвергнута следующей унификации: ви- до-временные формы различных языков, обозначающие действие, заканчивающееся до момента речи, объединяются в унифициро­ ванное "прошедшее"; начинающиеся после момента речи - в "бу­ дущее", а те нормы, для которых момент речи заключен между началом и концом действия, - в "настоящее", 121 16 При обработке текстов применялись следующие правила. Та или иная грамматическая категория приписывается предложению на основании формальных признаков. Например.{ЯйШ іЬ CiiYvi рассматривается как настоящее, а не прошедшее; рито­ рический вопрос - как вопрос, а не утверждение, и т.п. В сложных предложениях каждая самостоятельная предикация рас­ сматривается как отдельное предложение; придаточные опуска­ ются. Неполные предложения разного рода, эллипсисы, предло­ жения с глаголом-сказуемым в повелительном или сослагатель­ ном наклонениях объединяются в специальный класс "нулевых предложений", не подвергаемый анализу. Исключение составляют эллипсисы, для которых все три параметра однозначно восста­ навливаются из контекста. Под типом предложения понимается класс предложений, за­ даваемый полным или неполным набором указанных параметров. При записи типа лицо обозначается цифрами I, 2, 3; время - буквами П, Н, Б; целевая установка - буквами У, В. Примеры типов: БВ, 2У, I. Поведение трех рассматриваемых категорий исследуется сперва в позициях, на которых происходит смена темы диалога, - на тематических границах (ТГ). Поясним, что под этим пони­ мается. Рассмотрим пример.* В о й н и ц к и й . Я м о л ч у . М о л ч у и и з в и н я ю с ь . ( П а у з а ) . Елена Андреевна. А хорошая сегодня погода... Здесь диалог резко переходит с одной темы на другую, ко­ торая с прежней не имеет ничего общего. Отчетливо ощущается обрыв связности текста. В таких случаях будем говорить о те­ матической границе 1- р ода. Другой пример. Е л е н а А н д р е е в н а .. . И с е г о д н я з а з а в т р а к о м в ы опять спорили с Александром. Как это мелко! В о й н и ц к и й . Н о е с л и я е г о н е н а в и ж у ! Е л е н а А н д р е е в н а . Н е н а в и д е т ь А л е к с а н д р а н е з а что, он такой же, как и все. Здесь переходная фраза - реплика Войницкого связывает прежнюю тему разговора - характеристику поведения Войницкого с новой - характеристикой Серебрякова. Благодаря этому между двумя частями текста ощущается некоторая связь. Такие плав­ ные переходы назовем границами 2-го рода. Границы 1- рода х Здесь и далее примеры взяты из пьесы А.П.Чехова "Дядя Ваня". 122 делят текст на отрезки, которые, в свою очередь, могут дели­ ться границами 2-го рода. Подобные разбиения уже неоднократно рассматривались.Так, отрезки, порожденные границами 1- р ода, соответствуют "те­ мам" в терминологии Е.М.Розенбаума (Розенбаум, І97Ь, с. 14), а более мелкие отрезки, связанные с границами 2-го рода, - его "подтемам". К последним близки "тематические блоки" (Теп- лицкая, 1975). Мы не будем делать различия между тематическими граница­ ми 1- и 2-го рода. Отрезок текста, заключенный между со­ седними ТГ, назовем тематическим единством (ТЕ), а членение текста, произведенное указанным образом, - ТЕ-членением. Будем относить к диалогическим все характеристики и пред­ ставления, относящиеся к позициям на стыках реплик, а к мо­ нологическим - внутри реплик. В частности, будем говорить о диалогических и монологических ТГ. В обоих приведенных выше примерах ТГ были диалогическими. Приведем пример монологиче­ ской ТГ. А с т р о в... А как рассветет, ко мне поедем. Идеть? j У ме­ ня есть фельдшер, который никогда не скажет "идет",а "идеть". Мошенник страшный... Разбиение текста на ТЕ - задача трудно формализуемая, в виду чего мы предпочли исходить из содержательно го анализа текста. По отношению к каждой ТГ выделяются левая и правая позиции, в которых предложение непосредственно предшествует ТГ или следует за нею. В зависимости от того, где происходит смена темы, - внутри реплики или между ними, - получаем че­ тыре позиции: левую и правую монологические (JIM и ПМ) и ле­ вую и правую диалогические (ЛД и ПД). Выясним, как меняются количественные соотношения между различными типами предложе­ ний при переходе от всего текста к каждой из четырех указан­ ных позиций. Начнем с ЛД-позиции, которую назовем оценочной, так как в ней яснее всего видна природа изучаемых явлений. Закономерности, наблюдаемые в этой позиции, послужат ключом для интерпретации фактов, установленных для других трех по­ зиций. Будем исходить из следующего представления: предложение, расположенное в конце реплики, может, в зависимости от свое­ го типа облегчить или затруднить смену темы. Второе дол­ жно иметь место, если последняя фраза говорящего побуждает слушателя к продолжению разговора в прежнем направлении. На­ пример, если реплика заканчивается вопросом, маловероятно, 123 чтобы слушатель перешел к новой теме, так как вопрос обычно требует реакции-ответа, иначе говоря, является диалогическим стимулом. Вообще, чем больше для предложения, завершающего реплику, шансы оказаться диалогическим стимулом, тем менее вероятно для него завершить ТЕ, то есть оказаться в ЛД-пози­ ции*. Введем, на интуитивном уровне, соответствующую характе­ ристику типа предложения - его импульс, под которым будем по­ нимать относительную способность предложений данного типа вы­ ступать в качестве диалогического стимула. Импульс является количественной величиной, но в наши цели не входит его вы­ числение (и, тем самым, точное количественное определение).В то же время, мы будем сравнивать импульсы разных типов. Возвращаясь к приведенному примеру, можно сказать, что импульс вопроса больше, чем импульс утверждения, так как во­ прос, оставшийся без ответа, - аномалия, а утверждение, за­ мыкающее собою ТЕ, - обычное явление. Итак, чем выше импульс у предложений данного типа, расположенных в конце реплики, тем меньше для них шансы оказаться в ЛД-позиции, и наоборот. Иначе говоря, если ввести меру "притяжения" того или иного типа к ЛД-позиции, то всякое неравенство, связывающее значе­ ния этой меры для двух типов, можно интерпретировать как об­ ратное соотношение между соответствующими импульсами. Ука­ занным способом и будет получена система импульсных соотно­ шений, играющая основную роль в данной работе. Перейдем к определению упомянутой выше меры. Пусть Q\^ - массив всех предложений некоторого типа ОС , расположенных слева от границы реплики, a - совокупность тех из них, которые замыкают ТЕ. Пусть и обозначают также число предложений в соответствующем массиве. Тогда отношение есть доля массива по отношению к так что сравнивая значения при различныхX » можно судить об относительной связи ЛД-позиции и типа X. Индекс "д" указывает, что речь идет о диалогической характеристике, описывающей ситуацию на стыках реплик. Здесь мы ограничиваемся ситуациями, в которых диалоги­ ческим стимулом нагружено предложение, замыкающее реплику, причём сам стимул индуцирует продолжение разговора на ту же тему. Как видно из дальнейшего, такое упрощение допустимо. 124 Приведем некоторые результаты, полученные для . Огра­ ничимся наиболее важными и простыми типами предложений, за­ даваемыми путем фиксации только одного параметра: X = В, 2, П и т.д. Начнем с оппозиции "утверждение-вопрос". Как уже отмечалось, кажется очевидны», что вопрос обладает большим импульсом, чем утверждение. Соответствующее неравенство меж­ ду должно иметь вид * eW. (2) € Ü И действительно, как видно из таблицы I, оно всегда выполня­ ется. Рассмотрим с точки зрения понятия импульса и другие две категории - лица и времени. При этом, говоря об истолковании соответствующих неравенств, будем пренебрегать наличием в тексте вопросов и ограничимся одними утверждениями - доля во­ просов в тексте обычно весьма мала, а в рассматриваемой по­ зиции, согласно (2), и подавно. Для категории лица установ­ лены неравенства * < В* , (4) согласно которым наибольшим импульсом обладает второе лицо,а наименьшим - первое. Это можно объяснить следующим образом. Из двух типов большим импульсом должен обладать тот, в рам­ ках которого слушающий получает от говорящего более актуаль­ ную, важную для себя информацию и, следовательно, испытывает большую потребность в реакции на нее. В частности, для слу­ шателя более актуально высказывание о нем самом (2 лицо),чем о говорящем (I лицо), а 3 лицо занимает промежуточное поло­ жение. Для категории унифицированного времени получены неравен­ ства ei а а а <4 , е> 4- (5) Как видим, будущее имеет наименьший импульс, что, возможно, связано с наименьшей осведомленностью о нем участников- диа­ лога. Для в* и бЛ устойчивого неравенства получить не уда­ лось. 2 Итак, с помощью величин получена некоторая система соотношений между импульсами. Выясним, насколько она согла­ суется с фактами, наблюдаемыми для остальных позиций ПД, ЛМ и ГШ. Соответствующие величины, аналогичные, обозначим 125 Cj, , С* , где буква "С" относится к позиции справа от ТГ, а индексы "д" и "м" - к диалогическим и монолог'ическим величинам. Определяются они аналогично Сделаем это для С^ . Введем монологический аналог мас- сиваф^ . Для этого вместо пар предложений, расположенных на стыках реплик, рассмотрим пары соседних предложений, принад­ лежащих одной и той же реплике. Пусть - массив предложе­ ний типа , являющихся правыми членами таких пар, то есть не являющихся начальными в какой-либо реплике; - совокуп­ ность тех из них, которые начинают ТЕ. Тогда м ( б ) На определении величин С ̂ , 6?^ останавливаться не будем. Рассмотрим результаты подсчета» С х (табл. 1,2). Как видно из таблицы I, величинаб/^ ведет себя подобно бЛ, хотя и в менее четко выраженной форме. Именно, для выпол­ няются монологические аналоги неравенств (2), (3), (5): в Г > но первое из них выражено слабее, чем для 0>^. Кроме того, выполняется неравенство ju (8) - монологический аналог вытекающего из (3), (4) соотношения еЛ <ь%. oi "4" Однако (4) перестает быть верным. Иными словами, картина для предложений, замыкающих ТЕ, примерно одинакова как внутри, так и на стыках реплик, но на последних выражена резче. Для С., выполняются неравенства, обратные (2), (3), (9): Но аналог (4), как и для величин В^, уже не имеет места. При переходе от к общая картина остается прежней - выполняются диалогические аналоги соотношений (10): (?>с% съ>с\, , (И) 6 2 3 ? 12- причем первое из них выражено слабее, чем в (10). Таким образом, картина для предложений, открывающих ТЕ, щготивоположна картине для предложений, замыкающих ТЕ: при переходе от В^кС^знаки неравенства меняются на обратные, а первое место с точки зрения информативности переходит от диалогических позиций к монологическим. Заметим, что для по­ зиций ПД, ЛМ и ПМ не выполняются аналоги (4). Как будет по- 126 Таблица I Л CLS* e> g вд sl «®л pti в? Ьг ГЧГ & 4 а" < в * к I 0,20 0,34 0,90 0,71 1,05 0, 00 0,64 0,81 1,03 0,64 2 0,11 0,84 0,90 0,56 0,35 0, 96 0,46 0,54 0,55 0,32 3 0,52 0,71 1,04 1,08 1,06 0, 87 0,75 0,59 0,76 0,72 4 0,18 0,55 0,78 0,78 0,62 0, 30 0,61 0,57 0,64 0,27 5 0,21 0,41 0,92 0,58 0,77 0, 43 0,60 0,28 0,64 0,70 6 0,39 0,63 0,91 0,87 1,20 0, 39 0,52 0,50 0,51 0,89 7 0,14 0,33 0,87 0,71 0,71 0, 54 0,19 3,02 3,02 0,23 8 0,33 0,61 0,79 0,77 0,70 0, 56 0,98 0,58 0,57 1,12 9 0,45 0,70 0,73 0,75 0,70 0, 86 0,83 0,36 0,44 0,59 10 0,26 0,40 1,20 0,60 0,72 0, 13 1,35 0,60 1,01 1,37 II 0,13 0,22 0,96 1,24 0,87 0, 50 0,33 1,55 1,50 0,20 12 0,34 0,58 0,70 0,70 0,84 0, 96 0,87 0,56 0,78 0,78 PPI 0,17 0,40 0,89 1,93 1,34 0,36 0,22 1,65 2,29 0,27 PP2 0.3Ö 0,00 0,82 0,45 0,78 0,67 1,95 0,50 0,95 3,43 казано, поведение 1- л ица вообще является в некотором смыс­ ле аномальным. . м Сходство неравенств для с неравенствами для делает естественным расширение понятия импульса на рассматриваемые три позиции. Условимся смотреть на импульс как на характеристику, присущую данному типу независимо от места предложения в речевой цепи. Покажем, что при этом со­ держательный характер импульса сохраняется и в ЛМ, ПМ и ПД- позициях. Рассмотрим сперва ЛМ-позицию. В условиях спонтанного диа­ лога любое предложение внутри реплики рискует оказаться в ней последним из-за вступления в разговор слушающего. В частнос­ ти, когда говорящий заканчивает ТЕ внутри реплики, он, по су­ ществу, еще не знает, будет ли смена темы монологической или диалогической. Поэтому его речевая стратегия в конце такого ТЕ имитирует ситуацию слева от диалогической ТГ. Этим и мож­ но объяснить сходство (7), (8) с (2) - (Ь). Однако продолже­ ние монолога по другую сторону от ТГ, как правило, все же прогнозируется говорящим. Поэтому он обладает некоторой сво­ бодой в формировании перехода через ТГ, что делает для него менее обязательными соотношения между импульсами, присущие 127 Таблица 2 гм С*" О, cl cl С* Св С? С* il ал чЛ( г 4- 4̂. С% м cl с Ci СL * Ч d. I 2,90 1,94 1,53 1,21 0,86 1,12 8 1,53 1,30 1,31 1,17 2,10 1,95 2 1,85 1,55 1,75 1,92 2,28 4,70 9 3,01 2,25 2,32 2,10 1,27 1,43 3 3,27 1,95 1,78 1,61 1,95 1,66 10 2,77 2,36 1,96 1,89 1,04 1,03 4 2,16 3,00 1,55 0,91 0,87 3,05 II 2,36 1,79 2,25 2,22 1,43 3,14 ö 3,05 1,46 1,02 1,88 1,27 1,77 12 1,39 0,96 0,97 1,53 1,41 1,55 6 1,94 2,37 1,24 0,92 1,07 0,75 PPI 1,80 I,И 1,41 2,35 2,44 3,10 7 3,76 2,54 1,76 2,24 2,11 1,69 РР2 5,12 2,77 3,34 1,90 2,26 2,64 о« 1 о диалогическим ТГ. В результате неравенства (7), (8) оказыва­ ются "ослабленным" вариантом неравенств (2) - (5). Перейдем к ПМ-позиции. Как было сказано, относящиеся к ней неравенства (10) являются обращением (2) - (5).Таким об- — ДА . разом, с возрастанием импульса величина не убывает, по­ добно , а, наоборот, возрастает. Ноявляется мерой притяжения предложений типаУ к ПМ-позиции. Следовательно, в монологе прослеживается весьма четкая тенденция: говорящий предпочитает начинать новое ТЕ с предложений сильного шпуль - са. Можно предположить, что такие предложения мобилизуют внимание слушателя для восприятия нового ТЕ, являясь своеоб­ разными "красными строками". ^ Остается обсудить ПД-поэицию. Связи между Сх аналогичны связям между , но выражены менее четко (табл. 2). Это мо­ жет быть объяснено следующим образом. Диалогическая связ­ ность, поскольку она выходит за рамки индивидуальной речевой деятельности, является значительно более структурированной и четкой, чем монологическая. Поэтому ее отсутствие (то есть отсутствие стимула слева) на ТГ 1- р ода - достаточно силь­ ный сигнал для смены ТЕ, уменьшающий необходимость в специ­ альных сигналах справа от ТГ. Присутствия же ее, хотя и в ослабленной форме, на ТГ 2-го рода опять-таки достаточно для того, чтобы заметно исказить картину, присущую ПД-позиции.Из этих же рассуждений следует, что в ЛД-позиции соотношения между импульсами должны быть выражены резче, чем в ПД-пози- ции. Как видно из анализа таблиц I, 2, это действительна име­ ет место. Резюмируя изложенное, можно сказать, что - независимо от расположения ТЕ относительно границ реп­ лик существует тенденция начинать его предложениями сильного и заканчивать предложениями слабого импульса; в позиции слева от ТГ соотношения между импульсами вы­ ражены сильнее для диалогических, а в позиции справа - для монологических ТГ; - для диалогических ТГ ведущей является позиция слева от ТГ..,, Эти факты дают основание рассматривать импульс как отно­ сительную способность предложений данного типа вызывать внут­ реннюю реакцию слушателя. В каждой из рассмотренных позиций эта способность реализуется по-своему. В частности, в ЛД- позиции она выступает как мера "внешнего" диалогического сти- мула. 17 129 Определим теперь формальную процедуру членения текста, которой посвящена вторая часть работы. В лингвистике сейчас известны весьма совершенные процедуры такого рода, например, метод Б.М.Гаспарова (Гаспаров, 1975). Однако именно в силу своих достоинств они трудоемки, что нежелательно при обра­ ботке больших массивов текста. В то же время, можно не предъ­ являть особенно высоких требований к сегментации, если целью является установление сильно выраженных статистических зако­ номерностей. В основе предлагаемого членения текста лежит явление суб­ ституции (повтор, анафора и т.д.), широко использовавшееся в подобных процедурах на начальном этапе развития лингвистики текста. Будем считать, что имеет место отношение субституции, в котором элемент (знаменательное слово или словосочетание) В является замещающим, а элемент А - замещаемым, если А и В обозначают один и тот же денотат, причем предложение, содер­ жащее В, следует непосредственно за предложением, содержащим А, и выполняется одно из следующих условий: I) А и В принадлежат одной лексеме; 2) элемент В - личное местоимение, денотат которого совпадает с денотатом А либо включает его в себя, или наоборот; 3) В - дейктический эле­ мент (местоимение или местоименное наречие), отсылающий к А. Предполагается, что в эллипсисах, поддающихся однознач­ ной расшифровке, недостающие члены восстановлены. Легко ви­ деть, что отношение субституции в этой трактовке весьма уп­ рощено и "грамматикализовано": сюда не включены способы вы­ ражения одного и того же денотата при помощи синонимов, пе­ рифраз и т.д., а также субституция для предложений, не рас­ положенных рядом. Двигаясь от любого замещающего элемента по цепочке суб­ ституций в обе стороны до конца цепочки, получаем сегмент текста, связанный с данным элементом. Разбиение текста на такие сегменты и есть искомое $ -членение текста. Мы ограни­ чимся сегментами, содержащими более одного предложения и не лежащими целиком внутри другого сегмента (очевидно, сегменты могут перекрываться). Введем аналоги позиций, левых и правых по отношению к ТГ. ІІри этом не будем различать монологических и даилогических позиций, так как для ТЕ-членения между ними не было обнару­ жено существенных различий. Назовем начальными (НП) предло­ жения, начинающие сегмент, и свободными (СП) - предложения, находящиеся вне сегментов. 130 Кажется естественным в качестве аналога позиции, откры­ вающей ТЕ, взять массив НП. Введем на нем меру, соответству­ ющую Су . Пусть - число предложений типа X во всем тек­ сте, а Ui ~ число начальных предложений типа X . По анало­ гии с (б) определим Г - -U (12) Чч~ U:x х ' Если между позицией справа от ТГ и(массивом НП действительно существует сходство, для величин Су следует ожидать выполне­ ния аналогов (2) - (5). Эти ожидания оправдываются - выпол­ няются неравенства (табл. 3): f ^ t f Cg>c^ ,c^>c' ,c >s l l c g ,с г >с 3 > (із) <><• Сн, (15) выполняющееся для & -членения текста, - в отличие от ТЕ-чле- нения. Можно показать, что в его основе лежат некоторые осо­ бенности поведения 3-го лица, а именно, типов ЗП и ЗН. В целом можно считать установленным, что при £ -членении начальные предложения являются удовлетворительным соответст­ вием для позиций справа от ТГ. При этом полученные в первой части соотношения между импульсами сохраняются, несмотря на новую трактовку самого импульса. Найдем теперь соответствие для позиций слева от ТГ. Ка­ залось бы, в этой роли должны выступать предложения, закан­ чивающие сегмент. Однако обработка данных на этом массиве привела к отрицательным результатам: ни одна из ожидаемых закономерностей не оказалась устойчиво выполненной. Эмпири­ ческий поиск дал довольно неожиданный результат: искомым ана­ логом позиции слева от ТГ оказался массив СП. Перейдем к изложению результатов, полученных для этого 131 массива. Начнем с определения аналога меры в^. Пусть, как и раньше,- число предложений типа Ы. во всем тексте, а - число свободных предложений типах. По аналогии с (I) следо­ вало бы в качестве искомой меры взять отношение ^: . Од­ нако целесообразно несколько изменить это определение, чтобы "очистить" новую меру от влияния неравенств (13), (14), свя­ занных с массивом НП. Исключим последний из текста, положив Заметим, что при ТЕ-членении такая предосторожность была из­ лишней ввиду малочисленности предложений,расположенных спра­ ва от ТГ. Как видно из таблицы 3, для выполняются аналоги (2), Л (3), (5): 6і <в' 5 A (16) Таблица 3 ' d, С ci *4 ejt a; ̂ с * Сг Су "сГ Сз 6*5- £>3 I 1,67 1,42 1,08 1,31 1,41 1,12 0,59 0,63 1,04 0,71 2 2,05 1,07 1,10 1,70 1,61 0,99 0,67 0,59 1,05 0,54 3 1,57 1,55 1,71 1,19 1,17 0,90 0,80 0,55 0,84 0,74 4 2,00 1,32 1,17 I,II 1,36 0,85 0,90 0,79 0,97 0,77 5 1,81 1,36 1,21 1,40 1,40 0,77 0,74 0,86 0,94 0,69 6 1,47 1,40 0,99 1,19 I,II 0,86 1,06 0,75 0,89 0,92 7 1,82 1,61 1,43 1,38 1,52 0,75 0,95 0,63 0,97 0,56 8 1,76 1,46 1,37 1,12 1,22 0,97 0,68 0,83 1,00 0,65 9 1,44 1,16 0,96 1,23 1,46 0,94 0,70 0,42 0,75 0,73 10 1,95 1,54 1,37 1,74 1,68 0,97 0,93 0,81 0,90 1,07 II 1,31 1,10 1,13 1,28 1,35 0,82 0,69 0,90 1,06 0,55 12 1,33 і.и 1,04 1,16 1,07 0,73 0,69 0,85 0,96 0,63 РРІ 2,47 1,36 1,03' 1,59 1,67 0,88 1,33 0,79 0,85 1,09 РР2 0,96 1,31 1,12 2,25 1,84 0,71 1,80 0,64 0,71 1,45 Имеет место также "зеркальное" соответствие (15): . Таким образом, массив СП действительно играет роль позиции слева от ТГ при -членении. Первое лицо и на массиве СП ве­ дет себя аномально - выполняются неравенства ' . (І7) обратные соответствующим соотношениям для 132 Возвращаясь к содержательной трактовке импульса,отметим, что результаты, полученные для $-членения, не противоречат, по нашему мнению, взгляду на импульс как на меру "внутренней" реакции слушателя, хотя реализуется она уже по-иному. Остановимся также на результатах обработки разговорной речи. Как видно из таблиц 1-3 (строки РРІ, РР2), для нее в основном наблюдаются те же закономерности. Все отклонения от них относятся к левым позициям ЛД, ЛМ, СП. На первом месте - ЛМ-позиция, в которой из пяти рассмотренных неравенств вы­ полняется для обеих строк РРІ, РР2 только одно. Отметим так­ же, что неравенства, связывающие в СП-позиции величину с и » обратны для обеих строк РРІ, РР2 соответствующим неравенствам (16), (17). Однако малый объем выборки не дает оснований для каких-либо выводов из этих наблюдений. Обсудим теперь в целом совокупность полученных выше не­ равенств. Как отмечалось, мы ограничиваемся простейшими ти­ пами предложений, характеризуемых одним параметром. Рассмат­ риваемые в работе неравенства связаны с попарным сравнением типов, относящихся к одной грамматической категории. Это при­ водит к семи сравнениям: трем - в системе лица (1-2, I - 3, 2-3), трем - в системе времени (П-Н, П-Б, Н-Б) и одному - для целевой установки (У-В). Каждое допускает проверку на шести позициях: четырех - для ТЕ-чденения (ЛД, ЛМ, ПД, ПМ) и двух для £ -членения (НП, СП). Для каждого типа в каждой из этих шести позиций подсчитывается определенная числовая числовая характеристика (меры В, С). Дня сравнений У-В, 2-3 на всех шести позициях и для сравнений П-Б, Н-Б на всех позициях, кроме ПД и ПМ, наблюдаются устойчивые неравенства между со­ ответствующими мерами В, С. При этом если известен знак не­ равенства в одной из позиций, его можно однозначно получить и во всех остальных. Именно, знак неравенства для правых по­ зиций ПД, ПМ, НП противоположен знаку для левых - ЛД, ЛМ,СП, внутри же этих подгрупп знак сохраняется. В соответствии с принятой в работе точкой зрения мы счи­ таем, «что в основе неравенств, подчиняющихся этому правилу, лежат импульсные соотношения, то есть определенная упоря­ доченность импульсов сравниваемых типов. Для оппозиций "воп­ рос-утверждение" и (в меньшей степени) "2 лицо - 3 лицо" та­ кая гипотеза представляется интуитивно очевидной. Для оппо­ зиций "прошедшее-будущее" и "настоящее-будущее" это менее очевидно, однако маловероятно, чтобы соотношения, до такой степени сходные по своему поведению, имели разное происхож­ 133 дение. Вообще, будем считать, что в основе всякого сравнения, подчиняющегося описанному правилу, лежит некоторое импульс­ ное соотношение. Его знак совпадает со знаком соответствующе­ го неравенства для мер С в правых позициях и противоположен знаку неравенств для мер В в левых. Тем самым, если восста­ навливать знак импульсного соотношения таким способом, он не зависит от позиции, на которой производится сравнение. Обсудим, как ведет себя с этой точки зрения 1- л ицо. В ЛД-позиции для него получен самый низкий в системе лица им­ пульс. Для позиций Ж, ПД, ПМ и НП соотношение между импуль­ сами I и 2 лица сохраняется, но для I и 3 лица устойчивого соотношения обнаружить не удается. Наконец, в СП-позиции I лицо оказывается впереди и 2, и 3 лица. Ввиду этого нельзя говорить об импульсном характере неравенств, связанных с I лицом, и, возможно, даже о самом импульсе I лица. В заключение сделаем один подсчет. Семь попарных сравне­ ний типов, каждое на шести позициях, приводят к 42 комбина­ циям, в каждой из которых в принципе можно ожидать устойчи­ вого неравенства для мер В, С. Такие неравенства удалось об­ наружить для 30 комбинаций. Тем самым для них исследуеше со­ отношения оказались достаточно сильными, чтобы проявиться на фоне помех. Большая часть полученных неравенств (20 из 30) объясняется при помощи категории импульса. Можно надеяться, что понятие импульса окажется полезным и за пределами рассмотренных здесь грамматических категорий. Л И Т Е Р А Т У Р А Гаспаров Б.М. Принципы синтагматического описания уровня предложения. - Труды по русской и славянской филоло­ гии, вып. 23. Тарту, 1975. Розенбаум Е.М. Основы обучения диалогической речи на языко­ вом факультете педагогических вузов. М., 1975. Сливняк Д.И. 0 количественной связи двух характеристик пред­ ложения. - Вестник общественных наук АН Армянской ССР, I, 1977. Сливняк Д.И. Об одном способе статистического анализа диало­ га. - Вестник общественных наук АН Армянской ССР, 6, 1979. 134 Теплицкая Н.И. О структуре диалогического текста. - Сб. на­ учи. трудов МГПИИЯ им. Тореза, Вопросы романо-герм.фи­ лологии, вып. 84. 1975, с. 314-331. STATISTICAL CHARACTERISTICS OP INTERSEGMENTAL BOUNDARIES IS THE DIALOGUE ttnitri Slivnyak S u m m a r y The subject - matter of the present investigation is the statistical analysis of dialogic texts in several lan­ guages intuitively segmented into thematic units. A kind of formal segmentation based on the substitution phenomenon has also been considered. On the general background of the whole text, close to segmental boundaries, frequency shifts of sentences classified into three categories are studied: per­ son, communicative status (affirmation/question), tense. A specific characteristic of the sentence - impulse is introduced, which allows us to elucidate from the unified point of view, the majority of regularities obtained. It is observed that these regularities are relatively independent irrespective of the method of segmentation as well as the coincidence of segmental and cue boundaries. 135 ОПЫТ КЛАССИФИКАЦИИ ТЕКСТОВ С ПОМОЩЬЮ КЛАСТЕР-АНАЛИЗА Ю. Тулдава В статье рассматриваются основные принципы кластер-ана­ лиза и описывается эксперимент проведения такого анализа на материале 20 текстов художественной прозы с целью сравнения результатов отдельных опытов,проведенных на основе разных на­ боров квантитативно-лингвистических характеристик текстов Зкс- перимент проводился в Группе прикладной лингвистики ТГУ. Ис­ пользовалась ЭВМ ЕС-1022 и машинная программа, разработан­ ная Р. Ээремаа (1978а, 19786) для практического применения кластерного метода B.X R Основные принципы кластер-анализа. Кластер-анализ можно определить как совокупность методов, предназначенных для разбиения некоторого множества объектов на группы, или кластеры (англ. cluster «группа, кучка, пучок') так, чтобы в каждой группе находились в некотором смысле наиболее близкие между собой объекты. Методы кластер-анализа отаосягся к группе процедур, именуемых в совокупности методами распоз­ навания образов (Елисеева И.И., Рукавишников В.О., 1977, с. 9), а в более узком смысле методы кластер-анализа можно от­ нести к методам классификации многомерных наблюдений (см., например, Айвазян С.А. и др., 1974). Особенностью классифи­ кации многомерных наблюдений является то, что каждый объект описывается с помощью набора (множества) зафиксированных на нем признаков, причем для построения классификации таких объектов используется данный набор признаков в их взаимосвя­ зи. Наиболее характерными чертами кластер-анализа считаются образование единой меры, охватывающей ряд признаков, и чис­ то количественное решение вопроса о классификации (группи­ ровке) объектов наблюдения (Боярский А.Я., 1977, с. 8). Существует ряд разновидностей кластер-анализа, но для них является общим наличие трех основных типа данных,исполь­ зуемых при проведении анализа: исходные многомерные данные, данные о близости, данные о кластерах (Крускал Дж., 1980, с. 21). Соответственно можно различать три этапа исследова­ ния: на первом, подготовительном, этапе упорядочиваются ис- х См. также статью Р. Ээремаа в настоящем сборнике. 136 ходные данные, а на двух последующих этапах измеряется бли­ зость (сходство или различие) между классифицируемыми объек­ тами и конструируется кластер-система, которая объединяет объекты при различных уровнях близости. Два последних этапа выполняются, как правило, с помощью автоматических процедур классификации на ЭВМ. Решением задачи кластер-анализа яв­ ляется разбиение, удовлетворящее определенному критерию ка­ чества. Общую ситуацию при проведении кластер-анализа можно фор­ мально описать следующим образом (ср. Дюран В., Оделл П., 1977). Имеется исходное множество Т = {lj, ...» Tnj из а объектов (например, текстов), принадлежащих некоторой по­ пуляции . Рассматривается некоторое множество наблюдае­ мых характеристик (признаков) С = (C.j, Cg, ..., Ck)', кото­ рыми обладает каждый объект из Т. Наблюдаемые характеристи­ ки могут быть как качественными, так и количественными. В данном случае рассматриваются количественные характеристи­ ки, т.е. измерения таких характеристик. Результат измерения j-й характеристики объекта обозначается символом х- , а вектор Х- = fх-J размерности к х і будет отвечать каж­ дому ряду измерений (для 1- о бъекта). Сказанное можнэпро­ иллюстрировать с помощью таблицы (такой вид имеет обычно таблица исходных данных): Признаки Объекты С1 с2 . Т1 ХН ХІ2 • • ХІЯ = Ч л Т2 х2і х22 • Х2 і X Th хщ ХЛ2 - • * п к -О Следовательно, для множества объектов Т мы располагаем множеством векторов измерений X = jx.j, Х£, ... X^j , кото­ рое описывает множество Т. Задача кластер-анализа заключа­ ется в том, чтобы на основе данных, содержащихся в множе­ стве X, разбить множество объектов Т на т (причем т < п ) кластеров (подмножеств) 7ГІ , 7rZ) . ,, 7Гт так, чтобы каждый объект Т принадлежал одному и только одному подмножеству і* 137 $ ii разбиения (разбиение на непересекающиеся кластеры). Однако, учитывая то, что во многих областях исследования (в том числе в лингвистике) реальные системы характеризуются, как правило, "размытостью" границ, в новейших приложениях клас­ тер-анализа предусматривается также отнесение объектов по кластерам, разрешающее пересечение, т.е. конструируются клас­ тер-системы, где кластеры могут покрываться (Ээремаа, Р., 1978а, с. 91). В данной работе мы используем как о&ящп щ>- цедуру разбиения объектов на непересекающиеся кластеры, так и один из алгоритмов кластеризации с пересечением. Необходимо подчеркнуть, что кластер-анализ, как и вся­ кий другой метод классификации, субъективен и относителен в том смысле, что результаты анализа целиком определяются теми признаками, которые положены в его основу. Классифика­ ции, основанные на большом количестве и разнообразии приз­ наков, будут, конечно, более эффективны для определения "ес­ тественного" порядка среди объектов и явлений (если удается использовать всю доступную информацию о признаках классифи­ цируемых объектов). В других случаях, когда исследователя интересуют только некоторые свойства объектов, или когда кластер-анализ должен служить нуждам некоторых специальных практических приложений, можно довольствоваться небольшим числом специально отобранных признаков. В настоящей работе ставится как рад такая ограниченная задача - выявить возмож­ ности классификации текстов с помощью кластер-анализа на ос­ нове некоторых известных в практике квантитативной лингвис­ тики формальных характеристик статистической структуры текс­ та. При этом встает вопрос о сходстве результатов различных опытов, проведенных на одном и том же материале, но на ос­ нове разных наборов признаков. Общая задача кластеризации текстов, в том числе худо­ жественных текстов, возникает в исследованиях по изучению типологии текстов (для стилистических, педагогических и др. целей), при решении задач в области информатики, аттрибуции текстов и т.д. Исходные данные. В данной работе подвергаются кластер- анализу 20 текстов - выборок по 5000 словоупотреблений из авторской речи 20 произведений современной эстонской худо­ жественной прозы (см. Список текстов в конце статьи). Счи­ тается, что выборки по 5000 словоупотреблений (каждая из ко­ торых в свою очередь разделена на 5 порций по 1000 слово­ употреблений) достаточны для выявления некоторых существен­ 138 ных формальных показателей интересующей нас статистапюской организации текстов (в сравнительном плане при одинаковых объемах текстов). На материале названных 20 текстов было проведено три ошіта на основе разных наборов кэмервяй кван­ титативно-лингвистических характеристик текстов. Наборы ха­ рактеристик следующие: - покрываемость текста словоформами (опьгг I); - лексический спектр (опыт 2); - динамика роста словаря (опыт 3); Конкретные исходные данные приводятся в таблицах I - 3. В первом опыте рассматривается "покрываемость текста", т.е. относительные накопленные частоты словоформ при рангах / = I, і - 10, і = 50 и т.д. (ранги убывающих частот в час­ тотном списке словоформ дня данной выборки). Покрываемость текста фиксированным массивом наиболее частых словоформ считается одной из важнейших характеристик квантитативной ти­ пологии языков (Бект&ев К.Б., 1978, с. 52). Показатели по­ крываемое™ текста могут служить также дифференциальными признаками индивидуальных стилей. На нашем материале видно, например (см. табл. I), что при / = 10 относительная на­ копленная частота словоформ колеблется от 10,1 % (текст # 10) до 16,7 % (текст 17), т.е. десять наиболее чвістотных словоформ покрывают у различных авторов различные доли в тексте. Для проведения кластер-анализа используются в пер­ вом omrre девять численных показателей в каждом ряду изме­ рений, т.е. каждый текст описан набором из девяти количест­ венных характеристик покрываемости. Во втором опыте тексты характеризуются набором числен­ ных показателей т. наз. лексического спектра, т.е. долями словоформ с данной частотой в словаре рассматриваемо го текс­ та (выборки). Лексический спектр считается также важным ти­ пологическим показателем языков и текстов. В данном случае можно констатировать существенное колебание долей Словоформ с частотой F = 1 (см. табл. 2), например, у текстов 3 и # 10 этот показатель равняется 73,29 и 81,74 % соответствен­ но. В данном опыте используются двенадцать численных пока­ зателей лексического спектра для каждого текста. В третьем опыте рассматриваются данные об объеме словаря в зависимости от объема текста. Фиксируется количество раз­ ных словоформ при объемах текста от / = 1000 до / = 5000 словоупотреблений (см. табл. 3). Показатель объема словаря при данном объеме текста используется часто в лингвостатисти- 139 Таблица I Опыт IP I. Исходные данные: покрываемость текста словоформами (#) Р а н Г И С л 0 В 0 Ф 0 IP Р * Автор 1-1 10 50 100 500 1000 текста 1500 2000 2500 1. Э.Бээкман 2,7 11 0 21 4 28,3 50 6 62 ,6 72,6 82 6 92,6 2. В.Гросс 2,6 12 0 23 3 30,4 52 4 64 ,2 74,2 84 1 94,1 3. А.Хинт 2,8 13 ,8 26 7 33,7 57 5 70 ,7 80,7 90 ,7 100,0 4. Х.Кийк 3,5 12 9 24 4 31,2 53 6 65 2 75,2 85 2 95,2 5. Я.Кросс 5,7 13 8 25 0 31,3 52 2 62 7 72,7 82 7 92,8 6. П.Куусберг 2,4 14 3 27 0 34,7 57 6 69,7 79,7 89 8 99,8 7. Л.Промет 3,4 14 4 25 5 32,7 54 4 66 1 76,1 86 1 96,1 8. В.Саар 3,4 15 3 27 9 35,7 58 9 71 1 81,1 91 2 100,0 9. X.Сеpro 3,1 10 7 20 3 27,а 50 6 62 1 72,2 82 3 92,4 10. Р.Сирге 1,6 10 1 20 2 27,1 47 2 58 5 68,5 78 6 88,6 11. М.Траат 3,3 15 4 27 0 33,9 55 5 66 8 76,7 86 6 96,5 12. Э.Ветемаа 2,6 14 3 27 2 35,2 57, 6 69 0 79,0 89 0 99,0 13. А.Каал 3,7 14 1 27 2 34,8 56, 5 68 1 78,1 88 2 98,3 14. Т.Каллас 3,4 '13 В 25 4 32,3 55, 2 66 6 76,6 86 6 96,6 15. Ю.Пээгель 2,5 13 1 25 4 32,1 54, 5 66 1 76,2 86 4 96,6 16. Ю.Туулик 2,9 13 1 25 9 33,4 57, 1 70 1 80,1 90 2 100,0 17. А.Валтон 3,6 16 7 30 2 38,0 61, 1 72 5 82,5 92, 5 100,0 18. М.Унт 3,7 13 7 27 4 35,1 58, 2 70 2 80,2 90 3 100,0 19. Э.Нийт/Я.Кросс 3,5 11 5 21 4 27,6 48,9 59, 9 69,7 79, 4 89,2 20. Ю.Смуул 3,9 11 9 22 6 28,8 50, 0 61 4 71,4 81, 4 91,4 Таблица 2 Опыт IP 2. Исходные данные: лексический спектр (в словаре) - доля словоформ (%) с данной частотой F Ч а с Т 0 т а с л 0 в 0 ф 0 Р и ы текста Р-1 2 4 5 6 8 <3 10 11-20 >20 1. 79,12 10 ,32 4 11 1. 95 0, 98 0, 80 о, 66 0 ,21 0, 38 0,21 0,77 0,49 2. 78,70 10 ,65 4 22 1, 93 0, 96 0, 64 0, 43 0 ,39 0, 25 0,22 1,04 0,57 3. 73,29 13 ,60 4 22 3, 21 1, 38 0, 89 0, 81 0 ,37 0, 61 0,04 0,65 0,93 4. 78,74 10 ,45 3 94 2, 01 1, 24 0, 91 0, 37 0 ,33 0, 29 0,18 0,99 0,55 5. 81,65 9 ,40 2 83 2, 17 0, 94 0, 66 0, 28 0 ,25 0, 28 0,11 0,91 0,52 6. 76,00 12 ,16 4 38 1, 83 1, 04 0, 80 0, 88 0 ,44 0, 32 0,36 1,03 0,76 7. 78,28 10 ,97 4 30 1,7 4 1, 08 0, 63 0, 30 0 ,59 0, 41 0,22 0,96 0,52 8. 75,20 12 ,46 4 39 2, 05 1. 23 0, 94 0, 53 0 ,53 0, 33 0,33 1,31 0,70 9- 80,18 10 ,05 3 72 1, 32 1, 11 0, 80 0, 73 0 ,52 0, 25 0,17 0,63 0,52 10. 81,74 10 ,08 3 36 1, 47 0, 65 0, 52 0, 39 0 ,23 0, 13 0,29 0,72 0,42 11. 78,61 10 ,85 3 96 1, 91 0, 82 0, 71 0, 75 0 ,41 0, 22 0,19 0,97 0,60 12. 77 ,70 11 ,25 3 96 1, 53 1, 10 0, 74 0, 47 0 ,59 0, 59 0,19 1,25 0,63 13. 77,80 11 ,29 4 60 1, 24 1, 08 0, 74 0, 50 0 ,23 0, 27 0,43 1,12 0,70 14. 78,57 9 ,89 4 19 2, 21 1, 31 0, 94 0, 49 0 ,34 0, 30 0,22 0,94 0,60 15. 78,64 10 ,49 3 90 2, 17 1, 27 0, 90 0, 38 0 ,22 0, 19 0,19 0,94 0,71 16. 74,07 12 81 5 18 2, 09 1, 25 0, 96 0, 80 0 ,52 0, 32 0,12 1,08 0,80 17. 75,73 11 ,38 5 10 1, 98 1, 14 0, 84 0, 59 0 ,42 0, 46 0,34 1,22 0,80 18. 76,12 11 ,44 4 43 2, 42 1, 41 0, 64 0, 56 0 ,32 0, 48 1,13 0,81 19. 81,56 9 ,01 3 54 1, 80 1, 08 0, 62 0, 59 0 ,46 0, 16 0,07 0,72 0,39 20. 80,60 10 ,33 3 14 1, 77 1, 19 0, 68 0, 34 0 ,38 0, 14 0,24 0,68 0,51 МС о Таблица 3 \ Опыт IP 3. Исходные данные: динамика роста словаря (число разных словоформ при различных объема текста я ) IP О б ъ е м т е к с т а гекстг Автор я « 1000 2000 зооо •ООО 50в° -.'га 1. Э.Бээкман 731 1383 1865 2404 2869 2. В.Гросс 677 1315 185? 2358 2791 3. А.Хинт 649 1116 1597 2034 246» 4. Х.Кийк 710 1351 1628 2J15 rtm 5. Я.Кросс 723 1315 1914 2382 2*1 6. П.Куусберт 645 1166 1674 ЯП9 2906 7. Л.Пропет 674 1212 1720 atari 2694 8. В.Саар 633 1128 1700 2045 2439 9. Х.С рго 73* 1326 гт 8416 2876 10. Р.Сирге Т6* 1397 «17 2172 11. М.Траат *89 1235 27(2 it 26 aus 12. Э.Ветвмаа 680 1206 1734 2162 2992 13. А.Каал 651 1204 1690 2119 2586 14. Т.Каллао 663 1226 1733 2179 2668 15. Ю.Пэвгель 690 1224 1700 2223 2669 16. Ю.Тууни 624 1135 1560 2009 2491 17. А.Валтои 588 1036 1468 1955 2373 18. М.Унт 658 1176 1678 2133 2483 19. Э.Нийт/Н.Кросс 740 1357 1923 2473 2983 20. С.Смуу* 732 1361 1917 2473 2929 ке в качестве квантитативной мери "богаягртва* олфваря данно­ го текста. Следует отметить, что все нее описанные нрборы характе­ ристик (т.е. данные о покряваимости теиста, о лексическом спектре і об объеме словаря) рассматривается обычно как тес­ но связанные между собой квантитативные показателя статисти­ ческой структуры текста. Иногда говорят даже о наличии "же­ сткой" связи между этими показателями (при некоторых одеажг- ных условиях статистической организации текста, например,при условии точного выполнения закона Ципфа). Вопрос состоит в том, покажет ли наш эксперимент близкие результаты в трех разных опытах классификации реальных текстов, утатывая ска­ занное о взаимосвязи используемых наборов характеристик. Матрина близости. Математической основой для классифика­ ции объектов с помощью кластер-анализа является вычисление функций на парах объектов, исходя из численных энаяений приз­ наков.В результате получаются маярицы близости (матриц* сходстве или различия) между объектами. В таких матрицах представлено множество из п подлежащих кластеризации объектов, для кото­ рых исходные (первичные) данные измерений упрощены до набора из л(л - І)/2 значений близости между объектами по всем па­ рам объектов. Задачи кластер-анализа можно решать в терминах матрице сходства или в терминах матрицы различия. Матрицы сходства обычно конструируются на основе коэффициентов подобия или коэффициентов связи (корреляции). Матрицы различия констру­ ируются на основе показателей "расстояния" (обзор различных мер близости см. Елисеева И.И., Рукавишников В.О., 1977, с. 31 и след.). Выбор метрики для измерения расстояния опреде­ ляется природой исходных признаков и целью классификации. В данном исследовании мерой близости было выбрано обыч­ ное евклидово расстояние, исходя из следующих содержательных соображений: при данных наборах признаков и при равных объе­ мах текстов все значения признаков (т.е. отдельные компонен­ ты вектора) можно считать равноправными, и численные разли­ чия между отдельными значениями признаков сравниваемых текс­ тов можно считать существенными для определения расстояния между текстами. Однако для того, чтобы избежать слишком боль­ шого веса больших численных значений отдельных признаков по сравнению с малыми значениями, необходимо выравнивать диапа­ з о н ы и з м е н е н и я з н а ч е н и й п р и з н а к о в с п о м о щ ь ю н о р м а л и ­ зации исходных данных (обычным способом, т.е. вычитанием 143 среднего и делением на стандартное отклонение, так что дис­ персия оказывается равной единице, см. Дюран Б., 0делл П., 1977, с. 40). Евклидово расстояние id) определяется форму- лой: где xjs и xjt - нормированные значения признаков, к - число измерений. Значение сІ (Х^, Xt) для заданных векторов и Х^ считается эквивалентным расстоянию между самими объекта­ ми (текстами) Т5 и соответственно выбранному набору при­ знаков (Cj, Cg, С*)'. Предполагается, что близость меж­ ду текстами свидетельствует о близости стилей авторов в от­ ношении некоторых скрытых для прямого наблюдения индивиду­ альных особенностей, выражающихся в устойчивых квантитатив­ ных (лингвостатистических) характеристиках текста. Результаты измерения близости между объектами представ­ ляются в компактной форме в матрицах сходства или различия. В качестве примера рассмотрим матрицу различия по данным опыта і (см. табл. 4). Из таблицы видно, что наиболее близ­ кими текстами в отношении распределения численных данных о покрываемости текста являются тексты 6 (П, Куусберг) и 12 (Э. Ветемаа). Измерение евклидова расстояния между рас­ сматриваемыми признаками этих текстов дает результат ä(Х^, Xjg) = 0,4843. Действительно, сравнение соответствующих век­ торов измерений (см. табл. I) показывает большое сходство в распределении значений признаков: Х6 : 2,4 - 14,3 - 27,0 - 34,7 - 57,6 - 69,7 - 79,7 - 89,3 - 99,8; ХІ2: 2,6 - 14,3 - 27,2 - 35,2 - 57,6 - 69,0 - 79,0 - 89,0 - 99,0 С другой стороны, наиболее отдаленными друг отдэуга ока­ зываются тексты 10 (Р. Сирге) и 17 (А. Валтон): cl(XJQ, XI7) = 10,2680. Распределение данных о покрываемости в этих текстах имеет следующий вид: ХІ0 : 1,6 - 10,1 - 20,2 - 27,1 - 47,2 - 58,5 - 68,5 - 78,£ - 88,6; ХІ7 : 3,6 - 16,7 - 30,2 - 38,0 - 61,1 - 72,5 - 82, 5 - 92,5 - 100,0. Информацию, содержащуюся в матрице различия, можно ис­ пользовать для т. наз. многомерного шкалирования с помощью графа близости (Крускал Дж., 1980, с. 28) или для проведе- 144 см irv «л J KMO вл лм ̂ ш •г» ^^ «9> ЛCX ЛМ w g\ «Of" * СЧ Р<^Г <С«Ч СГ* «О0» ^«*> ''О — СІЧГ и 0*)\ счгч •* <**>•»•- we «* ч> Г-»* ГЮ> »Гч» •» •о в Л Л —•*« w.> ««Ц Ое* >г-0 О(м Vл о"О гtN «<ОN ОК> wШ> Гw"» «Ов ^-* *> кх KN' *r\ (VN ••^ о гГп 1 »" »* «WО и nm «ч nKint кn\ о*—>- -'w >- Чі 4 ВCV «а К®\0«> «Ч Vt WвX| •*0> -КфХ W-Гt-fX ft-n ч) ® сч —f е» *-• сч сч О*П »• « Т О ̂® ЮО О КV\ ̂®l CWl "*• w' ' Vt Ф*\і<в>о <Чс> ~~+*ющ « СЧ <—N« оО>- <Оо оГ- гг~- сч —»«п fv tn "> V e/4 Г-- М <о ф, О1 Ю ОМ ̂ **4 ф ••4> оOk |УfХ\ ОCN» <~,- «(ГM>f>ф.О фь Ok С f* «TN * Гч » Л Іф n 4f О |Г) Si ̂К> <• оСЧ Q*000* <^ о«о •;• > ' -» (д " ч» с«ч <л ^ f \ «> р) N IСSЧ fІvГ чв «»К* СЧ о. <• к о\ Ч<Го ^F>> кА> -»• —• ЧС> «о воо» V 9 V t г\ ""• КЧ СЧ Х счк\ СЧ СЧ Ю П К о* «пПЧ>Мв(Ч«)в | 4 f«xл «"ОО мю» Cч#> *в•>% гс»ч СaЧ Ч>w ч»в о>о «во і—*«> Ко\ »*-Ч«Хг г«л Сй с fо «Ча) ссмч 4 ІЛ Г» «А V «6 со СЧ *в <Ö ^ I о сч«с г- -^іг іла о м сч « о о <с Г- 1Г\ «О —« К" Г~ »^« С in «л О « «9л> ̂ю л » ( СЧ• | >\Л«ІП М К\|Л л N •«Л <СЧ N I» гK- Гv^ « <•N-« вЧо) <во» ^® Осо о « Щ ф о> Г- )ЛЮ «о 4 »кч^ ^) гЧ-> fxс.ч кіл\ ®сч ов.і «і0л ^—*о г<ч a«oо оf осч г«-, + ся гл « tr* *о г̂ eo о еа І4Ь ния кластер-анализа, предусматривающего дискретное комбина­ торное представление, чаще всего в виде дерева (дендрограм- мы). Конструирование кластер-системы. При конструировании кластер-системы, или кластеризации, исходят из данных о бли­ зости между объектами, то есть, образно говоря, в алгорит­ мах кластеризации матрицу близости берут в качестве входа,а разбиение на кластеры является выходом (Крускал Дж., 1980, с. 22). Методы кластеризации можно разделить на иерархичес­ кие и неиерархические (обзор наиболее известных разновидно­ стей кластер-анализа см. Айвазян С.А. и др., 1974, с. 99 и след.). Иерархические процедуры кластеризации бывают двух типов - агломеративные и дивизимные (разделительные). Прин­ цип работы агломеративных алгоритмов состоит в последователь­ ном объединении в кластер сначала самых близких, а затем и все более отдаленных друг от друга объектов. В разделитель­ ных иерархических процедурах, наоборот, множество объектов последовательно разбивается на группы. В данном исследовании была выбрана разновидность агломеративного иерархического метода кластеризации. Для практического решения вопроса на ЭВМ был использован метод В^, представляющий собой усовер­ шенствованный вариант т. наз. Кэмбриджского алгоритма (под­ робнее см. Ээремаа Р., 1978а, с. 61 и след.). При использо­ вании метода Вк можно обобщенно говорить о к- кластериза­ ции, характеризуя параметром к допустимую покрываемость кластеров до к элементов. Если имеется п объектов, подле­ жащих кластеризации, то параметр к может принимать целочис­ ленные значения из отрезка [і, п - 2]. Отметим, что при А = і, т.е. при 1-кластеризации (совпадающей в данном случае с методом "одной связи", или "ближайшего соседа") получаются непересекающиеся кластеры, и их можно представить в виде ден- дрограммы (диаграммы-дерева). При к 1 это уже невозмож­ но. В таком случае результат анализа на ЭВМ печатается как разбиение на уровне, определенном вперед или автоматически на ЭВМ. В данной работе используются два подхода: І-класте- ризация и 2-кластеризация(разбиение при к= I и к = 2; пос­ ледний подход используется в качестве вспомогательного).Важ­ ным фактором при проведении анализа является уровень клас­ сификации, обозначаемый символом А (подробнее см. Ээремаа Р., 1978 а, с. 57 и след.). Как уже было сказано, при использовании агломеративного иерархического метода разбиение объектов на кластеры совер­ 146 шается ступенчато. Процесс кластеризации начинается с того, что (на 1-м шагу) два наиболее близко расположенных объекта (в первом опыте тексты М 6 и 12, см. табл. 4) объединяются и рассматриваются как один кластер. Это приводит к тому, что число объектов уменьшается и становится равным п - 1, при­ чем один кластер будет содержать два объекта, а п - 2 ос­ тальных по одному. Процесс можно повторять до тех пор, пока все объекты не сгруппируются в один большой кластер.Резуль­ таты такого процесса обычно изображаются графически в виде диаграммы-дерева или дендрограммы, и с помощью отдельных таб­ лиц с результатами кластеризации на каждом шагу (дендрограм­ мы и таблицы ведаются в готовом виде на ЭВМ). Дендрограмма дает возможность наглядной интерпретации всего хода после­ довательной кластеризации (по данным наших опытов см. рис. I - 3). Весь процесс кластеризации в данных опытах заканчи­ вается на 19-м шагу (при П » 20), где все объекты (тексты) объединяются в один кластер. Критерий качества. Процесс последовательной кластериза­ ции может сам по себе дать ценную информацию при анализе взаимоотношений между объектами данной совокупности.Но вста­ ет вопрос, где (на каком шагу, на каком уровне) достигается "оптимальное" решение кластер-анализа. Этот вопрос связан с т. наз. критерием качества, или критерием оптимальности клас­ теризации. Критерий качества определяется различным путем, причем отмечается, что "выбор того или иного критерия осуще­ ствляется весьма произвольно и опирается скорее на эмпири­ ческие и профессионально-интуитивные соображения,чем на ка­ кую-либо строгую формализованную систему" (Айвазян С.А. и др., 1974, с. 85). С формальной точки зрения оптимальное раз­ биение определяется требованием наибольшей однородное™ внут­ ри кластеров и возможно большего различия между кластерами. Для этого существуют особые количественные оценки ("функци­ оналы качества разбиения"). Но в практической работе, в за­ висимости от конкретного материала и целей исследования,кри­ териями качества могут служить, например, возможность содер­ жательной интерпретации найденных кластеров или согласован­ ность полученной классификации с теоретическими представле­ ниями (см. Елисеева И.И., Рукавишников В.0., 1977, с. И). Вопрос о критерии качества тесно связан и с выбором необхо­ димого числа кластеров, которое определяется либо априорно (в зависимости от конкретных условий эксперимента), либо в процессе разбиения множества объектов на -кластеры, В данном 147 Уровень классификации (А ) os to IS 2,0 2,5 3..0 5Г 10. 17. / 9 < / 9. IS 2. /3" 4. 11. /7 ?• ъ /4» /о М. 15~. 6 /2< /2о. -1 /6' J. 16. //< 13 8. 1S. 19 20 Рис. 1. Дендрограмма последовательной кластеризации 20 текстов на основе сравнения показателей покрываемости текста сло­ воформами (опыт R 1). Цифры слева - номера текстов. Цифры в схеме - номера шагов объединения текстов в группы. 148 Уровень классификации (Л) if 2.0 2,5 3,0 3S 3. /о. /j> 13. 16. 6. f? 8. S 17. 12 /*- 18. 1. г: <* I, то трудно изобразить результат к-кластерш- зацин деревом Скак в случае I-кластеризацииJ, из-за сущест­ вования покрываемых элементов в кластерах. Поэтому алгоритм к-кластеризации при к>1 работает в таком режиме, что снача­ ла выпечатыва тся разбиение на одном уровне, определенном заранее или выбранном ЭВМ. Затем исследователь оценивает получаемое разбиение, исходи из своих профессионально-тео­ ретических соображений и из численных показатели, харак­ теризующих разбиение. Он либо удовлетворен полученным раз­ биением, либо желает представления разбиения на некотором другом уровне. Исследователь может задать то конкретное значение КР, которому соответствующий уровень его интере­ сует, или определить уровень целочисленным значением тре­ буемых межобъектннх связей, которые надо учитывать прш конструировании разбиения на уровне. Если в нашем примере определить уровень требуемыми ис­ ходна» связями 22, то выпечатается уровень 1,451. При автоматическом определении уровня выбирается в ЭВМ наибольший уз*>вень среди тех, которым соответствует относи­ тельно мало искаженных связей. Отметим, что уровнем g, ко­ торому соответствует относительно мало искаженных связей, считается тот, который удовлетворяет условиям. О(g) > п• к/2 И 0'( g) 4 3-0(g)/2, где o(g) означает число связей по исходным КР на уровне г* о' (g)- число связей на уровне g после к-кластеризации. При 2-кластеризации автоматически определяется в ЭВМ уровень и* 1,451, так как этот уровень наибольший среди тех, при которых удовлетворены вышеприведенные условия. Отметим ещё, что разбиение всегда печатается вместе с разными численными характеристиками, характеризующими раз­ биения (в том числе, например коэффициенты стабильности и сплоченности каждого кластера). Как уже было указано, при k-кластерязации возникает искажение исходного КР. Это искажение можно измерить. При­ менимая мера искажения А такова, что последовательность искажений A(d,Bk(d)) монотонно убывает с увеличением к и достигает нуля при к» п-1. В реализованном алгоритме к- 1Ы кластерезацнн значение параметра к может бить задано заранее ш же оно определяется автоматически в ЭВМ. Для определения автоматически значения параметра к, исследует его те значе­ ния, при которнх последовательность искажений A (d , B 2 ( d ) ) , k «1,2,,..,n -2, изменяется скачкообразно и делается выбор по определенны* критерия*. Под конец отметин, что вннензложенная реализация к-кла­ стеризации позволяет кластериэнровать сре к > 1 до 360 объек тов, при к =1 число объектов неогреничеио. Л И Т Е Р А Т У Р А Ээоемаа Р. Общая теория конструирования кластер-систем и —алгоритмы для нахождения их численных представлений. - В кн.: Статистическая обработка данных. Труды ВЦ. Внп. 42. Тарту, 1978(a), с. 53-77. Ээремаа Р. Алгоритм опознания кластеров к-дендрограммы. ТруДГВЦ. Внп. 42. Тарту, 1978(6), с. 78-93. Jardine С.J.. Jardine N.. Sibson В. The structure and construction of taxononHc hierarchies. - Math. Bio­ sciences 1967* vol. 1, pp. 17>-179. Jardine H.. S lbs on if. A model for taxonomy. - Math. Bio- sciences, 1968(a), vol. 2, pp. 465-482. Jardine N., Sibson R. The construction of hierarchic and non-hierarchic "classifications. - The Computer Journal, 1968(b), vol. 11, pp. 177-184. Jardine N.. Sibson R. Mathematical Taxonomy. London: Wiley, 1971. ON A POSSIBILITY OF THE REALIZATION OF CLUSTER-ANALYSIS Ruth Ääremaa S u m m a r y In this article a graph-theoretic description of the cluster methods used in the paper of J. Tuldava is presen­ ted. These cluster methods use data in the form of dissimi­ larity (or similarity) coefficients on a set of objects in the process of the construction of a cluster system. The cluster system, or the k-dendrogram may be described as a hierarchy with numerical levels. Clusters - the sets of objects which are grouped at some level in the k-dendrogram - may overlap bo the extent of k - 1 elements. The clustering program has been written for the EC-1022 computer in the Computer Centre of the Tarcu State Univer­ sity. 162 СОДЕРЖАНИЕ Алексеев Д.М. О квантитативной типологии текста 3 Аншзюшенко В.М. Вычислительная лингвистика как научная дисциплина 14 Дарчук H.IL Симметрия в предикативных парах 25 З бов А.В. Автоматический статистический анализ поэти­ ческого текста ' 35 Левин Ю.И. Замечания о приложении математической стати­ стики дня изучения зависимостей и связей между характеристиками художественных текстов ....... 46 Манасян Н.С. О распределениях терминов в английском на­ учно-техническом тексте 60 Марусенко М.А. 0(5 измерении связи отраслевых термино- систем с применением ЭВМ 74 Данкрац Г. Статистическое исследование фонологической структуры слова (на материале односложных слов ряда индоевропейских и казахского языков) 82 Перебейнос В.И. Распределение глаголов в научно-рефера­ тивном тексте 91 Слепак Б.А. "Пролегомены" к статистической теории текс­ та 101 Сливняк Д.И. Статистические характеристики межсегмент­ ных границ в диалоге 120 Тулдава Ю.А. Опыт классификации текстов с помощью клас­ тер-анализа 136 Ээремаа Р.В. Об одной возможности проведения кластер- анализа 158 163 SUMMARIES - RESÜMEES Alekseyev. P.M. On Quantitative Typology of Text 13 Andryushtshenko. Y.M. Computational Linguistics as a Scientific Discipline 24 Darchuk. N«P. Symmetry in the Analysis of Predicates ... 34 Zubov. A.V. Automatic Statistical Analysis of Poetical Texts 45 Levin. Yu.I. Notes on Application of Mathematical Sta­ tistics to Investigation of Dependences and Rela­ tions between Parameters of Literary Texts 59 Manasyan. N. On Distribution Analysis in English Scien­ tific Texts (Sublanguage of Active Oscillators) ... 73 Marusenko. M.A. Computer Measuring of Lexical Connection . of Terminological Systems Relating to a Certain Branch.of Industry 81 Pankratz. H. Statistische Untersuchung der phonologi- schen Struktur des Wortes (anhand der einsilbigen Wörter einiger indoeuropäischer Sprachen und des Kasachischen) 90 Perebelnos. Y.I. Distribution of Verbs in Scientific Abstracts 100 Slepack. B. A "Prolegomena" to the Statistical Theory of Text 119 Slivmrak. D. Statistical Characteristics of Interseg­ mental Boundaries in the Dialogue 135 Tuldava. J. On Classification of Texts with the Help of Cluster Analysis 157 X&reaaa, R. On я Possibility of the Realization of Cluster-analysis 162 164