RussianNew York Homepage
Руссике артисты на Американской сценеРусские концерты на Американской сцене
  News   Events   Dating   Classifieds   Forum   Chat   YP   TV/Video    Photos 
  Журнал
Рейтинг
Архив
  Рубрики
Политика
Экономика
Спорт
Hi-Tech
Здоровье
Кино/Театр
Музыка
Животные
Путешествия
Светская жизнь
Происшествия
Война
Автомобили
Пикантные новости
Не пропустите
Мода
Астрология
Интернет
  Community
News Central
Дайджест Форума
Рейтинг ресурсов
Знакомства
Дискуссионный клуб
Чат
Фотоальбомы
Yellow Pages
Объявления
Читальный Зал
Гороскопы
Top Rating
  America TOP

 
Журнал » Интернет «Back
От спама спасет теория вероятности
2002-10-03 02:10:31
Непрошенные рекламные рассылки по электронной почте являются одной из наиболее серьезных проблем интернета. На их чтение и удаление тратится большое количество рабочего времени, а существующие на сегодняшний день фильтры не отличаются совершенством.
Однако работа по совершенствованию спам-фильтров продолжается. Американский программист и предприниматель Пол Грэм опубликовал в интернете статью, подробно описывающую эффективный метод борьбы с рекламными письмами. Этот метод основывается на теории вероятности и использует для фильтрации спама алгоритм Бейеса. В настоящее время большинство фильтров относят письмо к спаму на основании наличия у него определенного набора признаков. Это могут быть слова или их сочетания, целые предложения или тэги HTML. Такие методы могут оказаться весьма эффективными. Например, созданный Грэмом простой фильтр смог обнаружить 79,7% спама, и лишь в 1,2% случаев к спаму были отнесены обычные письма.

Однако усовершенствование этой системы оказалось более сложной задачей. Грэм посвятил ее решению более полугода, пока ему не пришло в голову использовать для фильтрации спама статистические алгоритмы. В разработанном Грэмом прототипе фильтра каждому встречающемуся в электронной переписке слову или тэгу присваивается значение вероятности его наличия в спаме. На основе этих вероятностей с помощью алгоритма Бейеса вычисляется вероятность того, что данное письмо является спамом.

Высокая вероятность присваивается как излюбленным спамерами словам, вроде sexy или promotion, так и таким неожиданным, на первый взгляд, сочетаниям как ff0000 - код ярко-красного цвета в HTML. Соответственно, низкая вероятность соответствует профессиональным терминам или просто редко использующимся в рекламе словам вроде standardization или mandatory.

В процессе испытания системы фильтрации спама Грэм пропустил через нее 8000 писем, половина из которых являлась спамом. В результате, через фильтры смогли просочиться лишь 0,5% рекламных сообщений, а количество ошибочных срабатываний фильтра на основе бейесовского подхода оказалось нулевым, передает Компьюлента.

По мнению Грэма, для того чтобы система была действительно эффективной, она должна поддерживать возможность индивидуальной настройки, поскольку терминология, использующаяся в электронной переписке разными людьми, отличается. Если же пользователь будет регулярно помечать рекламные письма как спам, то программа сможет накопить достаточно информации для эффективной фильтрации электронной почты.

Грэм разработал вариант своего фильтра на созданном им самим языке Arc (вариант LISP). В свою очередь, группа энтузиастов в настоящее время работает над проектом spambayes. Его целью является разработка спам-фильтра на основе бейесовского алгоритма и языка Python.

Корреспондент.net
Вернуться
Другие Новости в этой рубрике
  • Японское Министерство Финансов приторговывает монетами на eBay
  • На eBay продаются приглашения в группу тестирования
  • Модемы для сетей 3G: в Интернет - без проводов
  • Китайцы победили порнографию
  • Мужчины и женщины используют интернет по-разному
  • Новая опасность: интернет атакован
  • Количество рекламы в электронной почте будет увеличиваться
  • Изобретен новый способ борьбы с порнографией в интернете
  • Из Napster сделают крупнейший пункт обмена порнографией в интернете
  • Домен .ORG в ожидании вердикта
  • Microsoft не дает пользователям Netscape ''латать дырки'' в своем ПО
  • Онлайновый кинорынок, еще не родившись, начинает со скандала
  • В интернете произошло крупнейшее похищение номеров кредитных карт
  • AOL переместила концерты в интернет
  • 7% пользователей интернета ''подсели'' на киберсекс
  • www. помогите мне развестись c моим мужем . com
  • Хакеры Хаттаба атаковали 10 европейских банков
  • В Китае разрешили Google
  • За владельца sex.com предлагают $50 тысяч
  • Вторая часть ''Властелина колец'' уже в интернете
Еще »
Дайджест / Архив / Рейтинг 
 
Terms of Service | Privacy Policy | Advertise | Contact Us
Russian America Top Holostyak.com Рейтинг@Mail.ru © 2025 RussianAMERICA Holding
All Rights Reserved • Contact