каталог статей
Поиск:
пример: сотовые телефоны расширенный поиск
Начало » » » Защита от спама поможет оцифровать книжные архивы

Защита от спама поможет оцифровать книжные архивы

Ученые приспособили программу CAPTCHA, которая различает компьютеров и людей в Сети, для перевода бумажных текстов, созданных в "докомпьютерную" эпоху, в цифровой формат. Созданная американскими специалистами программа reCAPTCHA при помощи пользователей интернета позволяет расшифровывать тексты с более чем 99 процентной точностью. Как сообщают создатели reCAPTCHA в своей статье, опубликованной в журнале Science, к настоящему моменту программа перевела из "аналога" в "цифру" 440 миллионов слов.

Разработанная в Университете Карнеги-Меллона в Питтсбурге программа CAPTCHA (от англ. Completely Automated Public Turing test to tell Computers and Humans Apart - полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей) позволяет определить, кем является пользователь системы: машиной или человеком. Перед выполнением какого-либо действия (например, отправки e-mail-сообщения или регистрации на форуме) CAPTCHA просит пользователя распознать какое-либо слово или набор букв и/или цифр и ввести его с клавиатуры. Для человека подобная операция не составляет труда, однако оптические считывающие устройства, применяемые, например, программами по рассылке спама, часто не справляются с этой задачей.

Интернет-пользователи используют программу CAPTCHA около 200 миллионов раз в день. Исходя из расчета, что на распознавание и ввод одного слова (или набора букв и цифр) у человека, в среднем, уходит 10 секунд, специалисты из Университета Карнеги-Меллона подсчитали, что ежедневно человечество "теряет" около 500 тысяч часов печатного времени. Ученые решили употребить его для оцифровки книжных и газетных архивов.

Первым шагом для перевода бумажных текстов в цифровой формат является их "прочтение" с помощью оптических считывающих устройств. Из-за дефектов, возникших при хранении (например, пожелтения бумаги или расплывания шрифта) сканеры не могут распознать, в среднем, одно слово из пяти. Сомнительные слова расшифровываются вручную. reCAPTCHA перекладывает эту задачу на пользователей Сети. Программа отбирает неопознанные слова и предлагает их интернетчикам вместо обычного набора CAPTCHA. Если три пользователя опознают сомнительное слово одинаково, reCAPTCHA добавляет этот вариант в финальный текст.

Работа программы была протестирована на архивах газеты The New York Times. reCAPTCHA успешно перевела в "цифру" ее подшивку за 1908 год. Сейчас она "взялась" за следующие выпуски. Кроме того, интернет-пользователи с помощью reCAPTCHA оцифровывают книги из архива Internet Archive.

reCAPTCHA - не первая программа, которая использует "фоновую" активность пользователей Сети или их компьютеров для выполнения сложных монотонных действий (принцип распределенных вычислений). Проект SETI использует свободные ресурсы компьютеров пользователей интернета для расшифровки сигналов радиотелескопов. На сайте сlimatprediction.net желающие могут скачать программное обеспечение, которое будет проверять различные математические модели изменения климата и оценивать, как сильно влияют на общую картину небольшие изменения параметров.


Постоянный адрес статьи

Послать ссылку на этот обзор другу по ICQ или E-Mail:


Разместить у себя на ресурсе или в ЖЖ:


На любом форуме в своем сообщении:

Рейтинг статьи

Рейтинг: 2.9/5 (263 голоса)

Добавить на News2.ru Google slashdot YahooMyWeb Digg Technorati Delicious Забобрить эту страницу! Добавить на Newsland.ru Добавить на СМИ2 Добавить на RUmarkz Добавить на Ваау! Добавить на rucity.com Добавить в закладки МоёМесто.ru Добавить на Habr Добавить на Moi Novosti Добавить страницу к Mister Wong Добавить на Moikrug Добавить на Myscoop Добавить на 100zakladok Добавить на NewsGrad




Похожие статьи

1: Ключевые слова - теория
РелевантностьПоисковые машины рассчитывают релевантность текста, строя частотный ряд из слов. Чем чаще слово встречается в тексте, тем большую, по отношению к запросу пользователя, релевантность оно п...

2: Что такое «капча»?
Так же, как все, «капча», «капча», Я по Сети хожу, хожу, И у нее, «капча», «капча», Файлов себе прошу… (Песенка про CAPTCHA) Пользователи Интернета часто сталкиваются с «капчой». Например, вы регистри...

3: Как взаимодействуют бизнес и социальные сети?
Услышав в толпе сочетание слов "социальная сеть", большинство людей с содроганием или с удовольствием вспомнят ставшие синонимами этих слов Одноклассники.ru или набирающий обороты "В контакте". Но пол...

4: Как продвигать товары и услуги через Интернет?
Сайт – вот отличный инструмент для продвижения товаров и услуг через Интернет.Интернет является катализатором экономического роста, открывая бескрайние просторы для освоения новых рынков и аудиторий. ...

5: BWMeter 4.1.6: учет трафика
Вышла новая версия программы для отображения и подсчета трафика в сети. BWMeter может анализировать все пакеты данных и сообщать информацию о них (используемый порт и протокол и пр.). Благодаря этому ...




Copyright © 2006-2019 ExcelioN
Правовая информация
Все права защищены
.