Вышла новая версия searx (https://github.com/asciimoo/searx/), свободного мета-поисковикового движка, работающего посредством комбинирования результатов выдачи различных поисковых систем. Это позволяет получать нейтральные (не зависящие от конкретного пользователя и поисковой системы) поисковые результаты и улучшает приватность, поскольку searx не хранит никаких данных о пользователе. Работает движок весьма быстро, так как поисковые запросы выполняются параллельно. Код проекта написан на языке Python и распространяется (https://github.com/asciimoo/searx/) под лицензией AGPLv3.
Ключевым отличием от других мета-поисковиков, таких как Ixquick (https://ixquick.com/) и DuckDuckGo (https://duckduckgo.com/), является поддержка неограниченного числа различных источников, реализованная с помощью специальных "адаптеров" на языке Python. В данной версии поддерживается около 40 различных источников (https://searx.me/stats?locale=ru), упорядоченных по категориям.
Открытый код движка позволяет любому использовать его на своём сервере, полностью контролируя работу программы. На текущий момент, searx уже установлен более чем на 20 публичных веб-сайтах (http://stats.searx.oe5tpo.com/), поддерживаемых пользователями.URL: https://github.com/asciimoo/searx/
Новость: http://www.opennet.me/opennews/art.shtml?num=41624
Сколько места занимает на диске "индекс" средненькой страницы?
Так как это метапоиск, объединяющий выдачи других поисковиков, то вряд ли он что-то индексирует.
> Так как это метапоиск, объединяющий выдачи других поисковиков, то вряд ли он
> что-то индексирует.В чем смысл гонять через себя трафик? Особенно если информация о предпочтениях пользователей не оседает (ложечки то нашлись, ух ты, и осадка не осталось ;)
Ты что, дурачек?)) Смысл в том, чтобы объединить выдачи других поисковиков и получить одну более лучшую выдачу. Возможно тебе стоит прочитать анонс, чтобы не задавать таких вопросов.
> получить одну более лучшую выдачу.а волшебной кнопочки "найти самый-более-лучший результат" там, случайно, нет?
Это невозможно. Каждый поисковик и так дает лучшую (для него) выдачу. Эта попытка намешать лучшие выдачи из разных поисковиков по каким-то замысловатым алгоритмам ни к чему кроме дублей результатов привести не может.
Можно использовать как анонимайзер запросов, если твоим сервером поиска пользуешься не только ты. Ну и все.
> Это невозможно. Каждый поисковик и так дает лучшую (для него) выдачу. Эта
> попытка намешать лучшие выдачи из разных поисковиков по каким-то замысловатым алгоритмам
> ни к чему кроме дублей результатов привести не может.
> Можно использовать как анонимайзер запросов, если твоим сервером поиска пользуешься не
> только ты. Ну и все.Ну вот, одна хорошая мысль есть! Дубли можно группировать и помещать в "верх" выдачи.
внезапно, это будет работать не на всех типах поисковых запросов
Группировку дублей собираются сделать.
> Ты что, дурачек?))Нет, он спрашивает, какой смысл тратить _свой_ трафик на _публичный_ сервис. И, возможно, подразумевает либо конечность альтруизма, либо интерес в виде перехвата и анализа.
PS: Ваш вопрос с учётом выколотых глазок смайликов вообще занятный, да.
Потому что публичный сервис предоставляет полезную функциональность и позволяет анонимам не тратить место на диске под индексы страниц))) Очевидное же разжевывать приходится))PS: ))))))
> Ты что, дурачек?)) Смысл в том, чтобы объединить выдачи других поисковиков и
> получить одну более лучшую выдачу. Возможно тебе стоит прочитать анонс, чтобы
> не задавать таких вопросов.Может я и дурачек! Надеюсь Вас это не сильно обременяет.
Но тема объединения сама по себе интересна (как хотя бы объединять?).Мне лень прочитать анонс (чукча писатель, а не читатель ;)
Используем 10-ть поисковиков.
Если даже 8-ть из 10-ти поисковиков выдают (по 10 ссылок на странице) хотя бы по 30% "мусора" (остальные два по 20%), складываем в рандомном порядке, получаем... Вам необходимо просмотреть 100 описаний с ссылками (по некоторым придется перейти), в которых 28% "мусора".
Не забывайте Вы ни как не можете повлиять на количество "мусора" выдаваемого сторонними поисковиками (пока сами не проиндексируете выданные ими ссылки на предмет например "релевантности" для полученного Вами от пользователя запроса).Один "правильный" (выбранный Вами) с вашей точки зрения поисковик, при правильно составленном Вами запросе выдаст Вам 10 результатов на странице из которых 20% "мусора". Даже при просмотре первых 3-х станиц Вы сэкономите только на "мусоре" 24% времени (не говоря о том, что остальные 7-мь Вам может быть и не придется просматривать).
Так что если Вы правильно объединяете, то это может быть very and very well for You!
Я ничего не объединяю, а пересказываю назначение прожекта из новости. Я не собираюсь проводить икспертизу о том, можно ли такой метапоиск реализовать или нельзя, т.к. не искперт и даже код этого поделия не смотрел (как и ты).
> одну более лучшую выдачу'И как оно определит, какие результаты для меня более лучшие? Если в сабже есть какие-то особые магические методы улучшить релевантность выдачи, гугл внедрит их у себя на следующий день после релиза.
Во-первых, не внедрит, потому что гугл ориентируется на среднестатистического пользователя, и фичи улучшающие выдачу для отдельных небольших групп требуют больше средств на поддержку чем дают профита. Он всегда будет середнячком "для всех".
Во-вторых, гугл скорее внедрит у себя больше рекламы и проплаченных ссылок.
В-третьих, то что гугл заблочил по велению копирастов или роскомнадзора, найдётся из других источников.
В-четвёртых, гугл всё-таки интексирует web, а сюда можно прикрутить специализованные поиски.
> Он всегда будет середнячком "для всех".Эх, если бы, они уже давно "пузырь фильтров" внедрили. http://dontbubble.us/?kad=ru_RU
Смысл в том, что если у нас есть куча корпоративных приложений, каждое из которых имеет свой поисковый движок, неплохо бы иметь возможность собрать всё в одном месте.Только писать это надо явно не на питоне.
я ни разу не фанат питона, но не могли бы вы пояснить почему?
> я ни разу не фанат питона, но не могли бы вы пояснить
> почему?Патамушта надо на джаве или .NET
Ну хотя бы потому, что для жавы полно быстродействующих средств для построения/обработки индексов, анализа текста и пр. Да и интегрировать какой-нибудь kerberos в питон-приложение для включение в вин-домен, по-моему откровенное извращение. При этом такие задачи интеграции решит любой jBoss.
Этот поисковик не строит индексы и не анализирует тексты. Делоть хттп запросы и простенько мержить выдачи можно и на питоне вполне ок.
ищет впечатляюще
Понравилось, что пишет откуда получает данные. Сделал с десяток запросов. Все адекватное выдал google. Когда у google появится хоть один серьезный конкурент, будет польза от таких проектов.
А чо, сам я не могу прочитать страницу с результатом поиска и сделать выводы своей головой?
эмм,
> git clone git@github.com:asciimoo/searx.git && cd searx
> Cloning into 'searx'...
> Permission denied (publickey).
> ...
1) man git
2) https://help.github.com/
3) git clone https://github.com/asciimoo/searx.git
ok
Тенденция потрясающая. Проект отличный. Поиск пока подхрамывает, но все впереди. Успехов в развитии.
Яндекса в списке источников нет.
Тем не менее ищет неплохо. Добавил себе )
Чем Nigma не устраивала http://info.nigma.ru/index.html