В «Jeopardy!» все было совершенно по-другому. В отличие от шахмат, эта игра по самой своей природе не ограничена никакими рамками. В ней могут быть вопросы на любую тему, с которой знаком каждый образованный человек, включая историю, кинематограф, литературу, географию, массовую культуру и многое-многое другое. В таких условиях компьютер сталкивается с целым рядом чрезвычайно трудных проблем технического характера. Самая большая из них — необходимость понимать естественный язык: компьютер должен получать информацию и давать ответы в той же форме, что и обычные игроки. Еще одним особенно трудным препятствием на пути к победе в «Jeopardy!» является то обстоятельство, что это шоу не просто честная игра по правилам, но еще и увлекательное развлечение для миллионов телезрителей. Сценаристы часто намеренно добавляют в подсказки юмор, иронию и утонченную игру слов — другими словами, все те виды входных данных, которые как будто специально предназначены для того, чтобы спровоцировать компьютер на глупый ответ.
В одном документе компании IBM, в котором описывается технология Watson, указывается на следующее: «Мы имеем дело с носами, которые текут, и ногами, которые пахнут. Как "никаких шансов" может означать то же, что и "держи карман шире", а "умник" и "умница" — быть противоположными по смыслу? Как понять, когда "сгореть" — это о доме, который сгорел дотла, а когда — о человеке, который растратил весь свой потенциал? Почему, чтобы вывести данные на экране, мы должны их ввести?». Чтобы сыграть в «Jeopardy!», компьютер должен тонко чувствовать все нюансы повседневного словоупотребления, при этом демонстрируя такой общий уровень понимания смысла высказываний, который намного превосходит любые аналогичные компьютерные алгоритмы, предназначенные для погружения в пучину текста в поисках ответов. Возьмем, для примера подсказку «Забей его, и штраф тебе обеспечен». Это — подсказка из игры, которая была показана в эфире в июле 2000 г. При этом она была в самом верхнем ряду экрана с заданиями, т. е. считалась очень легкой. Попробуйте выполнить поиск по этим словам в Google, и вы получите множество страниц с информацией о различных видах штрафов за самые разные виды нарушений. (Разумеется, следует исключить из результатов точное совпадение с фразой на сайте, содержащем все вопросы из прошедших игр «Jeopardy!»). Правильный ответ — «Что такое „биток“?» — полностью ускользает от внимания алгоритма Google, отвечающего за поиск по ключевым словам.
Все эти трудности не были секретом для специалиста по искусственному интеллекту Дэвида Феруччи, который руководил командой, занимавшейся созданием Watson. Перед этим Феруччи возглавлял небольшую группу исследователей в IBM, разрабатывавшую систему, которая могла бы отвечать на вопросы, сформулированные на естественном языке. Феруччи и его коллеги включили свою систему, которую они назвали Piquant (англ. «пикантная»), в состав участников состязания, проводимого Национальным бюро стандартов и технологий, т. е. тем самым органом, который спонсировал выигранный Google конкурс по машинному переводу. По условиям состязания, системы должны были обработать ограниченный набор данных, содержащийся приблизительно в миллионе документов, а затем дать ответы на вопросы. При этом никаких временных ограничений установлено не было. В некоторых случаях на поиск ответа у алгоритмов уходило до нескольких минут. По степени сложности это задание не шло ни в какое сравнение с «Jeopardy!», где за каждой подсказкой стоит, казалось бы, безграничный объем знаний и где у машины была бы всего пара секунд для поиска правильного ответа, иначе у нее не было бы никаких шансов на победу над лучшими игроками.
Проблема Piquant (а также ее конкурентов) была не только в скорости, но и в точности. Система выдавала правильные ответы на вопросы лишь в 35 % случаев — для такого результата было бы достаточно просто ввести вопросы в строку поиска Google. Любые попытки команды Феруччи построить прототип системы для игры в «Jeopardy!» на основе проекта Piquant неизменно заканчивались неудачей. Сама мысль о том, что однажды Piquant сможет составить конкуренцию лучшему игроку «Jeopardy!» Кену Дженнигсу, казалась просто нелепой. Феруччи пришлось признать, что его команде придется начинать с нуля, а сам проект потребует масштабных исследований и разработок, на которые уйдет по меньшей мере полдесятилетия. В 2007 г. он получил одобрение от руководства IBM и принялся за разработку, как сам об этом говорит, «самой сложной интеллектуальной архитектуры, которую когда-либо видел мир». Он привлек к решению этой задачи ресурсы всей компании, собрав вместе специалистов по искусственному интеллекту из различных подразделений IBM, а также лучших университетов, включая МIT и Университет Карнеги — Меллона.
Команда Феруччи, в которую в конечном итоге вошло около двадцати исследователей, начала работу с создания массивного набора справочной информации, которая должна была послужить основой для ответов Watson. В него вошло приблизительно 200 млн страниц информации, включая словари и справочники, произведения литературы, газетные архивы, веб-страницы и почти все содержимое «Википедии». Затем они собрали исторические данные по всем выпускам телевикторины «Jeopardy!». Свыше 180 000 подсказок из предшествующих игр послужили исходным материалом для алгоритмов машинного обучения Watson, тогда как результаты лучших игроков были использованы для оттачивания игровой стратегии суперкомпьютера. При разработке Watson были созданы тысячи отдельных алгоритмов, каждый из которых был направлен на решение конкретной задачи, включая, например, поиск по тексту, сравнение дат, времени и мест, анализ грамматических конструкций в подсказках и преобразование исходной информации в надлежащим образом оформленные возможные ответы.