| |
|
|
GOOGLE заговорил по-русски без акцента |
ВЕСЬ МИР ПОД МЫШКОИ
В конце 2007 года в Москве и Санкт-Петербурге открылись офисы крупнейшей международной поисковой системы Google. Насколько значимо это для российского сегмента Сети? С этого вопроса мы начали беседу с Сергеем Бурковым, руководителем проекта "GoogleРоссия". Моя твоя не понимайт?
- Наши новые офисы занимаются и адаптацией продуктов компании для России, и разработкой новых технологий для всего мира.Мы намерены проиндексировать всю информацию, имеющуюся в мировой виртуальной сети и сделать ее удобной, доступной для населения планеты, в том числе и России. Но везде свои особенности. Например, русский язык. Проблема здесь с падежами, с морфологией. В русском 6 падежей существительных в двух числах - 12 словоформ. Так же - с прилагательными, местоимениями, глаголами, отглагольными прилагательными. Пользователь ищет корм для собак, а ему, возможно, следует и поискать корм для собаки, а также собачий корм... Или человеку надо найти средство для борьбы с потом, а ему предлагаются еще и ссылки, в которых встречается фраза "А потом мы вышли на улицу". Потом и потом - слова-омофоны. Как поисковику их различить? Мы уже решили эту задачу - с помощью статистических методов: изучения частот, с которыми словоформы встречаются в контекстах.
- Статистика без лингвистики?
- Иногда это называют статистической лингвистикой. Анализируются сочетания пар, троек слов, варианты окончаний. Яндекс несколько лет назад вышел в лидеры потому, что у него были отработаны проблемы морфологии. Google же до того, как он пришел в Россию, рассматривал пот, потом и потом как три разных понятия. "Google-Новости" собирают российскую информацию из различных источников, кластеризуя похожие сообщения: если о каком-то событии есть 20 статей в 20 источниках, то с помощью машинных алгоритмов они будут собраны вместе. Но в одном источнике написано "Николай Петров сказал", а в другом - "Как было сказано Николаем Петровым". Когда система не понимает морфологии русского языка, она воспримет слова Пе тров и Петровым как два разных. Наши программисты и математики преодолели и это. А российские адреса! Скажем, улица Балчуг, дом 7/5, стр. 2... Где еще в мире такое встретите? А в Японии своя традиция, в Боливии - своя... Это было важно и при адаптации карт Google. У нас сегодня имеются карты 24 городов России с поиском по магазинам, ресторанам, кинотеатрам ("Желтые страницы"). Сюда можно зайти и запросить что-нибудь, типа "Кофемания на Никитской". А в каталоге, на который выйдет пользователь, написано "Кофемания" и адрес: Никитская улица, дом 5. Но система "догадается". Совмещена карта и со спутниковыми фотографиями - можно рассмотреть улицы, дома, магазины и даже рельеф. Кроме фотографий с неба, есть фотографии и с земли, из альбомов пользователей. Человек может ткнуть мышкой в точку на карте - и "зацепить" за нее свои снимки. Система запомнит. И новые пользователи, разглядывая карту территории, увидят. Словом, если вы собираетесь в Воронеж, то можете заранее его детально рассмотреть. И распланировать там свой досуг - с помощью еще одного гугловского продукта, календаря. Потому что некий, скажем, любитель джаза из Воронежа уже создал свой календарь всех джазовых концертов в городе, и этот календарь вам доступен. Можете держать на нашем сервере тексты, таблицы, графику, заходить в них через браузер - смотреть, редактировать.
- И не нужен жесткий диск?
- Не исключено, что через какое-то время человеку не нужен будет жесткий диск - только браузер и выход в Интернет. А в компьютере ничего не будет, кроме кэшей. Если прежде мы только адаптировали для российского пользователя наши глобальные продукты, то прошлым летом абсолютно новый продукт "Ответы" был запущен впервые именно в России. Пользователи отвечают на вопросы, задаваемые другими пользователями. В результате, к вашему вопросу будет "приклеено" 3, 5, 10 ответов, и вы вправе поставить звездочку: этот ответ правильный, а этот нет. Можно и подписаться на ответы по конкретной теме: поставьте галочку в окошке - и по E-mail придет извещен ие. Все ответы попадают в базу данных основного Google, классифицируются, снабжаются тегами: про компьютеры, про музыку... И если вы сформулируете в WWW.GOOGLE.RU развернутый вопрос, web-поиск выдаст вам ответ из системы "Ответы".
- Словом, пользователи сами расширяют вашу базу данных?
- Да! В этом суть Web 2.0 и тенденция Интернета в целом: пользователи создают информацию. Это и блоги, и фотографии, и фильмы. Так, Google принадлежит служба YouTube, сайт которой позволяет бесплатно размещать видеоролики, а затем другим пользователям их находить.
Давайте жить дружно
Еще одна инициатива Google касается социальных сетей. В России это "Одноклассники", "В контакте", "Мой круг" и еще много мелких. В мире особо популярны Facebook, MySpace - у них по 50-100 миллионов пользователей. Это создает фрагментацию, неудобную пользователям. Например, я имею account на "Одноклассниках", хочу найти человека, который сидит "В контакте", но не могу с ним связаться. Или вхожу в группу любителей Третьяковской галереи "В контакте", а такая же группа есть и в "Моем круге"... Нужно зарегистрироваться в каждой из сетей - заполнить на себя весь "Профиль": "Мои любимые книги", "Мои любимые блюда", везде залогиниться... Пользователя это достало. И Google предложил свой единый стандарт - OpenSocial. Он будет доступен с каждого ресурса. Чтобы человек мог с "В контакте" попасть на MySpace, с MySpace на hi5, с hi5 на "Одноклассников"... одним нажатием кнопки. Конечно, еще предстоит уговорить хозяев этих сетей, и может статься, некоторые скажут: нет, мы хотим свой огороженный садик. Но такие оказываются в проигрыше. Это облегчит жизнь и разработчикам: есть хороший сервис на Facebook, почему бы его не иметь еще и на "Одноклассниках"? И наоборот. Пока можно искать "друзей моих друзей" в рамках одной Сети - а почему бы не во всех, насквозь? С различными Instant Messenger - похожая ситуация. Мы произвели объединение AOL и ICQ: теперь Google Talk может с ними разговаривать.
Самый въедливый покупатель Наш московский офис уже готовит и то, что будет использоваться в мире. Если мы справились с морфологией русского языка, то почему бы не разобраться с морфологией украинского, болгарского? Речь идет о статистических принципах? Поработать можно, к примеру, над аварским. Но опять же везде своя специфика. Что хорошо американцу или индусу, может быть не удобно русскому. Например, анализ показал, что 77% россиян, покупающих технику, считают основным источником информации поисковые сервисы.
- А разве так не во всем мире?
- Россияне внимательно сравнивают не только цены, но и технические характеристики. В Штатах же многие ориентируются, скорее, на скидки или покупают то, что им предложат, "постучав": много импульсивных покупок, на что электронная коммерция в США очень хорошо ориентирована - пока вы бродите по американскому электронному магазину, вам то и дело предлагают что-то новое, и люди покупаются. В России такое почти не проходит. Русский будет долго прикидывать... нужно сходить на Wikipedia, на Google, на сайт производителя, на форум, сравнить. Русский покупатель - самый въедливый. Въедливость и в том, что россияне обычно просматривают гораздо больше результатов поиска... уж точно не одну первую страницу. В Европе или в Америке... три, пять первых результатов. И это относится к любой информации. В России иногда первые три пропускают: "Да там все проплачено". Так вот, в Google все честно: результаты поиска (те, что слева) не продаются ни за какие деньги. Что алгоритм поиска скажет, то и будет. Колоночка справа - это платная реклама.
- Еще лет 7 назад можно было вытаскивать компанию в первые ряды, регулярно ее перепрописывая. А сейчас?
- Прописывания как такового просто уже нет. Вы создали новый сайт - можете нас известить о нем, и дальше система будет к вам заходить по расписанию. Повторно заявиться? Система отбросит вас. Оптимизация тоже бывает белая и черная. Если сайт посвящен, например, служебному собаководству, ничего плохого в том, что на ключевые сл ова собака, овчарка и т. д. он будет появляться в первых рядах. Но если сайт с порнографией выскакивает на запрос "Ко мне, Мухтар!"... Алгоритмы ранжирования сейчас очень сложны, с огромным количеством математических трюков - и это позволяет нам выставлять самую релевантную информацию на первых местах. Найти миллион страниц, полных мусора, - дело нехитрое. А вот выбрать из них 3-5 тех, которые "в точку", - сложный процесс. И мы верим, что в этом весьма поднаторели.
На сайте Seo Study - WWW.SEO-STUDY.RU - опубликовано интервью с Мэтом Катсом (Matt Cutts), известным специалистом по персонализации и оптимизации поиска. Полный адрес текста - WWW.SEO - STUDY.R U/SEO-INTERVYU/MATT-CUTTS. Здесь немало полезной информации: как для обычных пользователей, так и для профессионалов. Основной вывод статьи: нет одинаковых результатов поиска для всех, многое зависит от внешних факторов, в том числе и от географии.
Портал WWW. SEARCHENGINES.RU - это сетевая Энциклопедия поисковых систем. Здесь собраны практические рекомендации и теоретические статьи по работе в поисковиках. Есть новостной блок. Много интересных наблюдений об основных тенденциях развития Интернета, ближайших перспективах его развития.
Рейтинг лучших поисковиков для детей постоянно отслеживает сайт HTTP: //SEARCHENGINEWATCH.COM. Мировыми лидерами, по его версии, являются сегодня HTTP://KIDS.QUINTURA.COM и WWW.FACTMONSTER.COM. В качестве основных критериев называются визуальная привлекательность, релевантность результатов, соотношение коммерческих ссылок с образовательными, а также легкость в навигации.
|
|
| |
Web site engine code is Copyright © 2006 by SLAED CMS. All rights reserved.
| |
|
© by ziGmat
|
|