суббота, 23 октября 2010 г.

Продвинутый поиск информации в интернете

Со стороны многое кажется предельно простым и понятным, любая проблема — пустяковой, а задача — решаемой. Но стоит взяться за дело самому, как тут же возникает куча подводных камней и всяческих непоняток. Вот взять хотя бы поиск в интернете: что может быть проще? Каждый может ввести в браузере www.google.com и воспользоваться прелестями поисковой системы, но почему-то найти то, что надо, удается далеко не всем. А все потому, что любой инструмент нужно использовать со знанием дела и подчас самый простой из них оказывается намного мощнее, чем все думают. Да тот же самый Google! 

Можно легко найти реферат по биологии, не особо заморачиваясь по поводу ключевых слов и не имея даже малейшего представления о модификаторах, кардинально влияющих на результаты поиска. Но если речь идет о чем-то специфическом, а времени на поиск катастрофически мало, забывать о тонкостях поисковой системы просто непростительно. Впрочем, хитрости поиска — это далеко не все, о чем мы хотим рассказать тебе в этой статье. 
Логическое «ИЛИ» 

Первое, что нужно запомнить, — принципы обработки ключевых слов. По умолчанию к каждому ключевому слову поисковая система применяет операцию логического «И». Это значит, что на запрос «Хакер крутой журнал» Google выдаст только те страницы, которые одновременно будут содержать и слово «Хакер», и «крутой», и «журнал». Проблема в том, что далеко не всегда это является обязательным условием. Если требуется найти страницы, включающие хотя бы одно из слов, нужно поставить между ними оператор OR. 

Пример: хакер крутой OR жалкий журнал 

Точное совпадение 

Сложные алгоритмы поиска Google учитывают морфологию языка, различные особенности построения веб-документа и вовсе не предполагают, что найденные страницы будут содержать в точности ту фразу, которая указана в строке запроса. Слова могут быть разбросаны по всей странице и даже иметь другую форму, что в большинстве случаев очень удобно. Но что если требуется именно точное совпадение? Скажем, нужно найти текст песни по одной известной строке? В этом случае надо заключить нужные слова в кавычки. 

Пример: ”one of us” 

Плюсы важных слов 

Чтобы сделать акцент на одно или несколько ключевых слов, поставь перед ними знак «+». Это поможет системе понять, какие из ключевых слов наиболее важные, и сформулировать результаты поиска более точно. 

Пример: хакер +журнал 

Убираем лишнее 

Полученные результаты нередко засоряет какая-то лишняя информация. Чтобы не тратить время на ее просмотр, советую наложить на результаты поиска фильтр. Сделать это несложно. Надо лишь указать «слова-паразиты», поставив перед ними знак «-» — и включающие их страницы будут тут же исключены из результатов поиска. 

Пример: журнал хакер –ламер 

Поиск по конкретному сайту 

Часто бывает ситуация, когда ты точно знаешь, что нужная информация есть на конкретном сайте, но ты никак не можешь ее найти. Тут волей-неволей начинаешь задумываться об эффективном поиске, но не встроенными средствами сайта (подчас абсолютно бестолковыми), а мощными механизмам Google. И, в общем-то, проблемы в этом нет, если взять на вооружение модификатор site:somesite.com. 

Пример: В одном из номеров у нас был материал «Google-hack». Его в момент можно найти, набрав в Google «”Google-hack” site:www.xakep.ru». 

Учитываем название документа 

Намного большей эффективности поиска удается добиться, если с помощью модификатора intitle указать слова, которые обязательно должны входить в заголовок документа. 

Пример: intitle:статьи site:www.xakep.ru 

Знай конкурентов в лицо 

Лучший способ найти дружественные (и конкурирующие) сайты — спросить об этом Google. В ответ на модификатор related:<URL сайта> он с радостью выдаст сайты со схожей тематикой и контентом. 

Пример: На запрос «related:www.xakep.ru» системы выдаст линки на www.securitylab.ru, www.securityfocus.com и прочие проекты по информационной безопасности. 

Кто на нас ссылается? 

Можно использовать Google и для того, чтобы проверить популярность конкретного проекта. Так, модификатор link:<URL сайта> отобразит все страницы, которые ссылаются на этот ресурс. Логика простая: чем их больше, тем ресурс популярнее. 

Пример: link:www.xakep.ru 

Используй синонимы 

Google знает, что такое синонимы! Если хочешь, чтобы в результаты вошли страницы не только с конкретным указанным словом, но и c его синонимами, поставь перед ним знак «~». 

Пример: ipod ~hacking 

Как найти конкретный тип документа 

Если ты ищешь конкретный тип документа, не стесняйся сказать об этом Google. Будь это обычная страница, презентация, PDF или что-либо еще — можно найти все что угодно, при помощи модификатора filetype:. 

Пример: “SQL-injection” filetype:pdf. В ответ система выдаст ссылки на PDF-документы по SQL-injection. 

Не забывай про числовые диапазоны 

Редко используемый, но реально полезный прием. Возьми на вооружение модификатор «X..Y», позволяющий указать числовой диапазон. Ситуаций, когда такие ухищрения могут понадобиться, масса! 

Пример: хакер 2000..2002 

Быстрый калькулятор 

Для выполнения громоздких вычислений совсем не обязательно елозить мышкой и тыкать кнопки в глупом Windows-калькуляторе. Просто введи математическое выражение (с любым количеством действий и скобок) в Google — и тот быстро все посчитает. Более того, поисковик можно использовать как удобный конвертер валют! 

Пример 1: (31337-3.14)/87 

Пример 2: 600 USD in RUR 

Словарь терминов 

Чтобы быстро найти определения какого-либо термина, используется модификатор define:. Тот же самый результат ты получишь, если перед словом поставишь человеческие фразы «what is» или «что такое». 

Пример: define:LDAP 

Просмотрщик умерших сайтов 

Бывает, обратишься на сайт, а он в дауне. Что делать? Не один раз в подобной ситуации меня выручал кэш Google, в котором хранится огромное количество документов. Действовать нужно так: сначала набираешь нужный URL в строке запроса, а потом кликаешь «Сохранено в кэше» на странице результатов. Вуаля! 

Переведи любую страницу 

Мало кто знает о существовании замечательного сервиса для перевода веб-страниц translate.google.com. Это был бы еще один ресурс для банального перевода иностранного контента, если бы свою руку к нему не приложил Google. Нет, он не будет обрабатывать тексты как профессионал-переводчик. Но зато в случае проблем даст пользователю возможность разобраться со смыслом фразы или предложения самому. Переведенная страница как обычно выводится на экран, но юзер всегда может навести мышку на сомнительный отрывок и с помощью всплывающей подсказки узнать, как фраза звучала в оригинале. 

Вспомогательный прокси-сервер 

Привыкшим к безлимитному интернету и всеобщей дозволенности по части контента бывает очень обидно сталкиваться с серьезными ограничениями корпоративных прокси-серверов. В той же самой школе или университете. Если администратор фильтрует запросы по черному списку, в который входят запретные домены, это легко обходится с помощью следующего запроса переводчику Google: 

www.google.com/translate?langpair=ru|ru&u=www.xakep.ru 

Тогда браузер будет обращаться к поисковой системе, которая в 99% случаев не заблокирована, и уже через нее получать нужный контент. Указанная в параметрах пара языков «ru|ru» говорит о том, что переводить содержимое нужно с русского на русский, то есть фактически оставить все без изменений. Само собой, вместо русского можно использовать любой другой язык. 

Почти 3 Гб для хранения файлов 

Ты уже успел оценить функциональность и продуманность почтового сервиса Google Mail (www.gmail.com)? Тогда тебе определенно стоит попробовать еще одну дополнительную феньку - GMail Drive (www.viksoe.dk/code/gmail.htm). В то время как Google выделяет на каждый email-аккаунт более 2 Гб дискового пространства, Gmail Drive позволяет использовать его как свой собственный диск. После установки проги, в системе появляется еще один диск, который полностью аналогичен всем остальным. Разница лишь в том, что его файлы физически хранятся в интернете. 

Онлайн-фотоальбом 

С помощью бесплатного аккаунта на picasaweb.google.com можно выложить в инет 1 Гб фотографий. Очень неплохо для сервиса, который позволяет не только удобно закачивать, но и в офигенной форме просматривать изображения. Еще одна разработка от Google — оффлайн-программа Picasa — поможет быстро найти, отредактировать и залить в инет фотографии с твоего винта. Каждый раз при запуске Picasa автоматически определяет местоположение фотографий (даже тех, о которых ты забыл) и организует их по визуальным альбомам. А чтобы залить нужные фотки в инет, потребуется лишь пару раз кликнуть мышкой. 

Взломщик интернета 

Тебе, наверняка, не надо рассказывать, что Google – это идеальное средство для массового поиска уязвимых сценарий. Во всех красках этот процесс описал Форб в статье «Google-hack для маленьких» (www.xakep.ru/magazine/xa/076/056/1.asp). Однако получив пару тысяч страниц с результатами поиска, не спеши сразу кидаться в бой. Просматривать эти километровые страницы с огромным количеством ненужной информации – занятие довольно утомительное. Зато с помощью таких утилит, как uf0_google или googler, можно вытащить из них только то, что требуется, — ссылки. А дальше ты волен делать что хочешь: либо обрабатывать их вручную, либо скормить самописному скрипту или программе, которая все будет делать за тебя. Кстати говоря, по адресу http://johnny.ihackstuff.com/index.php?module=prodreviews собрана огромная коллекция запросов, с помощью которых ты сможешь искать дырявые скрипты. Думаю, она тебе пригодится :). 

Быстро ищем музыку 

Используя различные модификаторы, можно довольно хорошо приспособить Google для поиска музыки. Причем особенно успешные результаты достигаются, когда поиск осуществляется по листингам открытых директорий, то есть папок, в которых нет htm-документов для отображения, но навалена куча файлов. Сами листинги можно искать по ключевым словам «index of», «last modified», «parent of» в названии (тэг <title>) документа (с помощью модификатора intitle), исполнителя или песню — по точному совпадению (достаточно взять их в кавычки). Остается лишь задать наличие на странице одного из музыкальных расширений (mp3|wma|ogg) и исключить из результатов поиска все динамические и статические страницы (нам нужны только листинги, составленные веб-сервером). В конечном итоге запрос будет выглядеть примерно так: 

"index of" + "mp3" + "radiohead" -html -htm –php 

Подробный мануал ты найдешь на сайте www.geocities.com/my_haz_runs. Но чтобы не заморачиваться, рекомендую уже готовый инструмент: www.g2p.org быстро составит необходимый запрос и поможет найти нужные композиции. 

Останови шпионов! 

Google Analytics (www.google.com/analytics) — это специальный сервис от Google, который помогает веб-мастерам анализировать поток посетителей их сайта. С помощью специального JavaScript-сценария и кукисов он записывает самую разнообразную информацию о посетителе, включая его IP-адрес. Потом по этой информации можно отследить очень много вещей, что, естественно, нас не устраивает. Поэтому, пожалуй, оставим этот сервис не у дел, добавив в host-файл компьютера запись: 

127.0.0.1 www.google-analytics.com 

Firefox и Google 

Кажется, что Google выдает результаты в наиболее удобном виде? Ошибаешься, с помощью плагина CustomizeGoogle для Firefox (www.customizegoogle.com) реально сделать работу с поисковой системой еще более комфортной! Хочешь убрать надоедливую рекламу? Эта и еще десяток функций - к твоим услугам. Рекомендую также последнее нововведение — опцию Stream Google search result pages, которая фоном подгружает результаты поиска с других страниц и склеивает с той, что ты просматриваешь в текущий момент. 

В июле 2006 года Oxford English Dictionary, являющийся одним из самых авторитетных словарей английской языка, добавил в свое последнее издание слово «Google» в значении «искать информацию в интернете». Так «Google» официально стало английским словом. 
Google — искаженное написание английского слова «googol» («гугол»), используемого для обозначения числа, состоящего из единицы и ста нулей. 
Google ежедневно регистрирует около 50 миллионов поисковых запросов и индексирует более 8 миллиардов веб-страниц.

Комментариев нет:

Отправить комментарий