Поисковые системы - статьи

       

Доменные имена: реалии Сети


В первые годы становления Паутины доменное имя Web-сервера нередко отождествлялось с именем компании-провайдера, а основную смысловую нагрузку в адресной схеме URL несли названия подкаталогов, поскольку именно они были связаны с реальными поставщиками информации, арендующими дисковое пространство. В сегодняшней Сети стала обычной практика, когда даже не очень крупная компания может позволить себе содержание персонального сервера. Часто доменное имя нового узла регистрируется разработчиком под определенный проект.

Таким образом, если искомое ключевое слово входит в доменное имя сервера, то вероятность получить исчерпывающие сведения о предмете с такого "специализированного" под ваш интерес узла существенно возрастает.

В Интернете можно отыскать немало простеньких пособий 2-3-летней давности, обучающих тому, как сходу угадать имя нужного сервера на основе минимальных начальных данных. Сегодня эти материалы явно нуждаются в уточнении. Навыки игры в "угадайку" при наличии развитой системы поисковых сервисов могут показаться ненужными, однако это не так по двум причинам. Во-первых, если вам повезет, вы можете установить соединение с сервером, который не зарегистрирован ни в одной ИПС (о том, как происходит регистрация см. КомпьтерПресс N 5). Во-вторых, даже если приходится прибегать к URL-поиску на поисковой машине, то угадывание с самого начала хотя бы некоторых элементов адреса существенно сокращает время решения задачи. Начнем с несколько простых, но важных замечаний.

Односложные имена и домены верхнего уровня

Если компания или коммерческий проект, имеющие в "светской" жизни односложное название, реализуют в Сети свой сервер, то его имя с высокой вероятностью укладывается в формат www.name.com, а для российского сектора Интернета - www.name.ru, где name - имя компании или проекта.

Даже беглое знакомство с Сетью показывает, что в качестве названий фигурируют не только имена собственные (напр., www.disney.com - сервер У. Диснея; www.intel.ru -российский узел компании Intel), которые первоначально могут быть и неизвестны, но и те, которые в обычной языковой практике используются как нарицательные.
Если смысловая нагрузка имен очевидна (напр., www.windows95.com - сайт с программами для Windows; www.gazeta.ru - от рус. "газета"), то их легко использовать при поиске. Проблемы начинаются тогда, когда приходится разыскивать названия, воспринятые на слух. Отдельный случай - использование имен неанглоязычного происхождения, в частности русских, которые в строке URL должны быть прописаны средствами латинского алфавита, однако об этом - чуть ниже. Тем не менее если даже предположить, что нам удалось верно восстановить "светское" имя проекта, точное попадание на узел вероятно лишь в случае сравнительно коротких имен, как в примерах выше. Длинные же имена, приходящие в Сеть, могут подвергаться сокращению с большой долей произвола, особенно это относится к сравнительно "старым" серверам государственных организаций. Наиболее употребимо сохранение нескольких первых букв имени с конечной согласной (www.mos.ru - мэрия Москвы, www.chel.su от г.Челябинск), затем идут сокращения с выборочным удалением букв из середины слова, чаще гласных (www.chg.ru - от г. Черноголовка; www.tmsk.ru от г. Томск). Если имя первоисточника многосложное, но одно из слов доминирует по своему весу, то в имени сервера может остаться одна доминанта (узел "Новочеркасск-Он-Лайн" - www.novoch.ru; узел "Чертовы кулички" - www.kulichki.com ) Появление дополнительного домена в имени и отклонение от схемы с наличием элемента "www" делают точное угадывание затруднительным. Примеры - http://hope.nsk.su - узел клуба "Надежда" (от англ. hope) из г. Новосибирска (nsk). В этом случае разумнее обратиться к URL-поиску на ИПС. Если есть основания полагать, что искомый узел базируется в домене определенного государства или является некоммерческим, то в тех схемах, о которых мы говорили выше, вместо com и ru следует подставить нужный домен. Всегда полезно иметь под рукой полный список доменов верхнего уровня по странам. Он опубликован на многих серверах Сети, один из адресов -http://www.uninett.no/navn/domreg.html Двусложные и многосложные имена Полное название организации или проекта, открывающих в Сети свое представительство, может состоять и из нескольких слов, которые находят свое отражение в доменном имени узла или, в более общем случае, в URL ресурса.


При этом обычно в имени сервера используется соответствующая аббревиатура. Заметим, что формироваться она может по-разному: из первых букв слов названия, по одной из каждого (www.ndr.ru - от "Наш Дом - Россия"); при участии нескольких первых букв (www.amcyber.com от "American Cybernetics"). Двусложные названия стоят в этом ряду особняком - слов оказывается слишком мало для создания яркой, запоминающейся аббревиатуры. Кроме того свободных двухбуквенных имен в популярных доменах совсем немного. Как показал недавний скандал с компанией General Motors и ее сервером www.gm.com, экономия на длине имени может слишком дорого обойтись солидной организации. Когда стороний разработчик зарегистрировал узел сомнительного содержания под именем www.general-motors.com, ему удалось добиться внушительной популярности сайта на волне ошибочных посещений, а авторитет крупной компании был подорван. Естественно, что двусложные имена сегодня стали часто встречаться без сокращений. Наиболее употребимы такие варианты как слияние двух слов в одно (www.webcrawler.com - от Web Crawler), а также написание их через дефис (www.biblio-globus.ru от Библио Глобус). Другие разделители встречаются гораздо реже. Применяются также и частичные аббревиатуры (www.cpress.com от КомпьютерПресс), и распределение имен по разным доменам (http://altavista.digital.com). Именной сленг Применение сленга всегда связано со стремлением к более яркой, живой лексике, однако есть и обратная сторона медали - сленг понятен не всем. Одним из проявлений, которое следует отнести к сленгу, является присутсвие в Сети большого количества серверов, имена которых неадекватны содержимому узла, но звучат ярко и метафорично (напр., портал www.stars.ru. - от англ. stars - звезды с отнюдь не астрономической тематикой). Ставка разработчика на то, что оригинальность имени облегчит продвижение сайта и увеличит его видимость в Сети вполне понятна, однако URL-поиск таких узлов на ИПС может оказаться бесполезным.


Скажем, если вы разыскиваете сетевой книжный (англ. book) магазин (shop, store), то один из вариантов запроса может иметь вид url:(book and shop), где для определенности использован синтакис команд расширенного поиска AltaVista. При этом узел "Мистраль" (www.mistral.ru от англ. mistral - холодный сев. ветер на юге Франции), довольно известный подборкой компьютерной литературы, наверняка не попадет в поле вашего зрения. В этом проявляется ограниченность URL-поиска в чистом виде. Часто в доменных именах наряду с буквами появляются и цифры (узел Тысяча мегагерц - www.1000Mhz.ru ). Речь здесь, разумеется не идет об IP- адресах, хотя цифровой состав последних вполне можно использовать при URL -поиске. Некоторые находки авторов оказываются трудно предсказуемыми. Так, цифрой 4 могут заменяться предлоги за и для (от англ. 4 - four, звучащего так же как и предлог for со значением за, для) в сочетаниях типа 4free (за бесплатно) и 4you (для вас). Цифра 2 применяется как эквивалент предлага to также из-за совпадения звучания (от 2 - two, произносимого как предлог to - в, к, по направлению), например, в сочетаниях типа death2life (c англ., от смерти к жизни). Иногда эту цифру можно встретить не в доменном имени узла, а в конечном файле - программе преобразования одного формата данных в другой (напр., bmp2gif.exe - от bmp к gif). Известный сервер программного обеспечения "Two Cows" ("Две коровы") использует "ошибочное" (т.е. tu вместо two) написание своего имени - www.tucows.com (рис. 3).

Рис.3. Web-сайт "Two Cows" c "орфографической ошибкой" в доменном имени. Имя почтового ящика популярной телепрограммы канала НТВ "Сегоднячко" имеет вид todayko (от англ. today - сегодня, плюс непереведенный русский уменьшительный суффикс ko). Один из серверов г. Магнитогорска называется www.magnitka.ru (от сленгового Магнитка) и т.п. Для таких ситуаций поисковый прием подсказывается сам собой- следует использовать в запросах те фрагменты слов, которые с малой вероятностью подверженны искажениям.Для примеров выше это cow, today и magnit.

Содержание раздела