Поисковые системы - статьи

       

Имена собственные. Русско-английская транслитерация.


Практика показывает, что большинство деловых поисковых задач в Интернете в той или иной степени связано с поиском имен собственных - названий компаний и организаций, всевозможных стандартов, оборудования и т.п. Любимые стихи и биографию эстрадной звезды также проще отыскать по личным именам. Во многих поисковых ситуациях, которые, казалось бы, не имеют прямого отношения к именам собственным, привлечение последних обеспечивает наибольшую результативность. Например, если вы решили разыскать в Сети фотодокументы, имеющие отношение к кометам и в целом к космической тематике, то применение термина NASA (аббревиатура Американского Национального Управление по Аэронавтике) как одного из элементов запроса, не только облегчит задачу, но и даст некоторые гарантии достоверности информации.

Многие наименования имеют национальное происхождение и появляются в тексте документа в оригинальном написании - с использованием символов соответствующих алфавитов - немецкого, французского, японского и др. Если такое имя попадает в URL ресурса, то разработчик вынужден прописать его средствами латинской графики. Сама по себе проблема транслитерации, т. е. точной передачи букв или сочетаний букв одного языка средствами алфавита другого языка, не нова. Трудно добиться взаимной однозначности такого перевода в прямом и обратном направлениях без разработки жестких стандартов. В мире хорошо известны ИСО (www.iso.ch)- стандарты по транслитерации языков всех континентов из одной графики в другую, которыми широко пользуются в алфавитных каталогах иностранной литературы. Однако имена в Интернете дают не специалисты библиотечного дела. Это и приводит к стихийному размыванию стандартов и появлению реальных проблем при поиске.

Если говорить о русских наименованиях в Сети, присутствующих в URL ресурсов, то от стандарта ISO-9-1986 -(E)/ISO/TC 46 по транслитерации знаков славянской кириллицы знаками латинского алфавита наблюдаются заметные отклонения. Существование нескольких русских кодировок типа translit для обмена почтовыми сообщениями, англоязычное происхождение самого Интернета, а также доминирование в образовательной системе России английского языка над другими определяют тенденции таких отклонений.
В таблице 1 мы приводим обобщенную русско- латинскую систему транслитерации, фактически тяготеющую к русско-английской. Она составлена на основе анализа большого количества имен российской части Интернета и нескольких распространенных в Сети схем транслитерации.

Буква или сочетание (рус.)Варианты транслитерации (лат.)

аa
бb
вv, w
гg, h, gu
гвgv, gw, gu
гзgz, x
дd
джdzh, j, g
еe, ye, je, ie
ёe, yo, io, ye, ie, jo,je
жzh, g, j
зz, s
иi, y
ияia, iya, ija
йy, i
ий, ыйна конце слов y, iy, i, ii
кk, c, ch
ксks, x
квkv, kw, qu
лl, ll
мm
нn
оo
пp, pp
рr , rr
сs, c, ss
тt, th
уu
фf, ph
хkh, h
цts, tz
чch
шsh, ch
щshch
ьопуска-ется, "'"
ъопуска-ется, "'"
ы y, i
эe
юyu, u, ju, iu
яya, ia, a
Таблица 1. Обобщенная система русско-латинской транслитерации, ориентированная на решение поисковых задач. Особое внимание читателя обращаем на то, что наиболее вероятные варианты транслитерации приведены для каждой буквы или сочетания в числе первых, после чего следуют менее употребительные. Здесь было бы уместно обсудить несколько важных моментов, которые не слишком внятно отражены в таблице. Многозначность транслитерации при отсутствии признанного стандарта неизбежна. Так, русская буква в заменяется , как правило, литерой v (www.vladivostok.com от г. Владивосток), тогда как w встречается гораздо реже (www.rdw.ru. - от названия газеты Работа для вас). Отдельно следует отметить случай употребления русских наименований, звучание или транслитерация которых близки или совпадают с англоязычным эквивалентом. Они создают некоторые проблемы при поиске узла. Например, русскоязычный сервер Кавказские Минеральные Воды, казалось бы, должен иметь имя www.kmv.ru, однако реальный адрес другой - www.cmw.ru - от англ. Caucasian Mineral Water; аналогично для сервера Альфа-Капитал -www.acapital.ru - от английского сapital, а не от русского кapital. Очевидно, что таблицу транслитерации, ориентированную на реальные поисковые задачи, следует расширить не только соответствиями - в - v,w; к - k, c; но рядом других (см.


табл.1.) Тем не менее не все возможные варианты оказались учтены, поскольку нет смысла еще больше размывать систему транслитерации случаями, связанными c факторами чисто английского языкового происхождения. Если вам, скажем, понадобилась, компания известная под именем Мун, то имя узла www.mun.com вполне может оказаться неверным, если первоисточник подразумевал английское Moon (луна) со своим специфическим написанием. Варианты типа у-oo не включались в таблицу. В подобных ситуациях, требующих хорошего знания иностранного языка как такового и его звуко-графических соответствий, целесообразно прибегать к так называемым словарям "плохого произношения". В них обычно приводится все многообразие графических вариантов проблемно звучащей лексики. На сегодня можно считать почти состоявшейся замену ранее активно используемой "пронемецкой" литеры j для передачи русских гласных (у - ju, ё -jo, я - ja,и реже е - je ) на "более английский" вариант - литеру y (yu, yo, ya, реже ye). Русская буква е обычно заменяется латинской e, особенно после согласных (www.perm.ru - от г. Пермь). После гласной встречается как литера e (www.krylatskoe.msk.ru - от Крылатское), так и сочетание ye (Krylatskoye). Букву й в середине слова чаще заменяет литера i (Doinov - фамилия Дойнов, далее сокр. ф.), а в конце слов после гласной - y ( Rushchay - ф. Рущай). Сочетания -ий и -ый на конце слов чаще передаются единственной буквой y (www.primorsky.ru - от Приморский край), но есть и другие варианты (www.mari.su - от республики Марий Эл). Для буквы я применяется также несколько способов ее передачи: ya - обычно появляется после согласной или в начале слова (www.bryansk.ru -от г. Брянск; www.yaroslavl.su - от г. Ярославль, но и www.krasnoyarsk.ru от г. Красноярск), a чаще встречается после гласной, особенно после i на конце слов (www.karelia.ru - от респ. Карелия) Что касается мягкого и твердого знаков, то в URL они обычно никак не передаются (www.citynet.kharkov.ua - от г.


Харьков), хотя в поле текста Web-страницы можно столкнуться с использованием апострофа (Solov'ev - ф. Соловьев ). Наконец, русская ы наиболее часто передается с помощью y (www.syzran.ru от Сызрань), i используется для этого гораздо реже. Русские доменные имена Отечественные разработчики активно эксплуатируют английскую и русскую лексику, давая имена Web-узлам. Если вы решили почерпнуть из Сети материалы по изучению английского языка, то пробный заход на www.language.ru (от англ. language - язык) оказался бы результативным. Адрес сервера, связанного с языковым образованием, вряд ли мог иметь вид www.yazyk.ru - это выглядело бы скорее забавно, чем привлекательно. Однако компании, реализующей на российском рынке сахар, которая открывает в Сети свой узел, есть над чем подумать - сервер с именем www.sakhar.ru (или www.sahar.ru) может оказаться чуть более видимым для потенциального клиента, чем www.sugar.ru (от англ. sugar - сахар). Сайт телепрограммы Моя семья, претендующий на самую широкую российскую аудиторию вполне резонно именует себя www.moya-semya.ru, а не www.my-family.ru (c англ. my family - моя семья). Тем не менее понятно, что, даже ориентируясь на "прогрессивную" поблику, в некоторых случаях приходится отдавать дань традициям политической и культурной жизни государства. Например, большинство политических образований и движений России предпочитает поддерживать в качестве основных узлы в домене ru с соответствующими русскими названиями (напр. www.yabloko.ru - объединение "Яблоко"). Некоторые транслитерированные наименования едва заметно отличаются от английских эквивалентов, напр. literature (англ.) и literatura (рус.), что также требует аккуратного обращения. В заключение отметим, что одной из целей этой статьи было привлечь внимание читателя к возможностям URL-поиска в Web-пространстве. Найденный узел или каталог - это почти всегда более емкое, чем единичный документ, собрание материалов. Особое предпочтение здесь следует отдать тем поисковым системам, которые позволяют комбинировать URL-запросы с внутритекстовым поиском, а также выборочно работать с фрагментами адреса - доменным именем узла, доменом верхнего уровня, именами каталогов и файлов.Другой важный аспект работы в Сети -это корректное применение имен собственных, которые способны стать опорными ключевыми словами для широко спектра поисковых задач и обеспечить высокую результативность поиска.  

Содержание раздела