Игорь Макаров
Большая часть штучных профессионалов по грид-технологиям сейчас – это аспиранты. Роль целых институтов в больших грид-проектах зависит конкретно от их.

Фото: Сергей Ушаков
В центре маленький комнаты, заполненной ровненьким рокотом работающих компов, стоит мощный стеллаж с различными серверами. Сисадмин Андрей Зароченцев склоняется над 4-мя старенькими машинами: «Пентиум три, 600 мгц – машины 1999 года, – разводит руками он. – Не ахти, естественно! Раз за месяц приходится перебирать какую-нибудь из их. Но свою работу делают, наша точка на европейском мониторе пылает не мигая».Незаметные машины – кластер Санкт-Петербургского института, участвующий в проекте «АЛИСА», – в этом году ожидает нелегкое испытание. В конце 2007 года в Европейском центре ядерных исследовательских работ стартует масштабный опыт по ядерным столкновениям. Каждую секунду на большенном адронном коллайдере (БАК – см. статью «Создать Вселенную заново» в «Эксперте С-З» №17(270) от 8 мая 2006 года) будут происходить миллионы столкновений простых частиц. Объем данных, передающихся с сенсора вычислительным центрам по всему миру, составит приблизительно 1 Гбайт за секунду – примерно 10 Пбайт раз в год. Для передачи, хранения и обработки инфы ЦЕРН специально сделал распределенную грид-инфраструктуру, объединившую 70 институтов в 27 странах.
Мечты об общей розетке
Бурно развивающимся сейчас грид-технологиям прочат славу нового шага информационной революции, последующего после возникновения веба. В отличие от мировой сети World Wide Web, которая является средством для совместного использования инфы, грид – это средство для совместного использования вычислительных мощностей и хранилищ данных средством веба. Таким макаром, грид позволяет выйти за рамки обычного обмена данными меж компьютерами и в конце концов перевоплотить глобальную сеть компов в единый и фактически неограниченный вычислительный ресурс.
Как многие определения, родившиеся в среде физиков, своим заглавием грид (grid) должен смышленой метафоре. Еще в 1969 году Лен Клейнрок, заглядывая в туманное будущее, писал: «Вероятно, скоро мы увидим распространение „компьютерных коммунальных услуг“, которые, подобно электричеству и телефону, придут в дома и кабинеты по всей стране». Спустя 30 лет мысль использования глобальных вычислительных ресурсов и ресурсов памяти по аналогии с электросетью (powergrid) уже не кажется таковой сумасшедшей. Пройдет еще какое-то время, и юзер, подключая компьютер к сети грид, вправду закончит думать о том, где и как выполняются нужные ему вычисления, подобно тому как мы сейчас не думаем, откуда в бытовых розетках берется электричество. Вобщем, для этого грид-сообществу предстоит пройти через шаг консолидации и стандартизации.
Потребность в объединении вычислительных ресурсов для научных целей появилась в конце 1980-х годов. Такие большие проекты, как опыты по столкновению простых частиц на суперускорителях либо расшифровка генома человека, предъявляли завышенные требования к вычислительным мощностям. Объединяя компы и рабочие станции в локальные сети, а сети разных лабораторий – вместе, ученые пробовали использовать свободные микропроцессоры для сокращения времени обработки массивов данных. Мысль состояла в том, чтоб занять простаивающие мощности и соединить ресурсы различных организаций в собственного рода огромный мультипроцессор.
В 1998 году Ян Фостер из Арагонской государственной лаборатории Чикагского института и Карл Кессельман из Института информатики Института Южной Калифорнии предложили традиционное определение таковой распределенной программно-аппаратной инфраструктуры, которую они окрестили «грид». С того времени под термином «грид» предполагается «согласованная, открытая и стандартизованная среда, обеспечивающая гибкое, неопасное, скоординированное раздельное внедрение различных компьютерных ресурсов виртуальными организациями», другими словами свободными обществами юзеров, объединенных едиными научными либо инженерными задачками и действующими в согласовании с данными правилами.
Традиционное определение было настолько обширно, что его трактовали очень свободно. Фостер попробовал его сузить, сформулировав три главных аспекта грид: он должен координировать внедрение ресурсов при отсутствии централизованного управления; использовать стандартные, открытые, универсальные протоколы и интерфейсы; обеспечивать качественное сервис.
Предложенные аспекты выражают быстрее пожелания, каким грид должен стать в перспективе. Сейчас ни в каком из имеющихся грид-сегментов не обеспечивается выполнение всех этих требований полностью. Пока грид – это еще «незавершенный продукт», базисные технологии которого находятся на стадии прототипов и разрабатываются сотками исследователей и профессионалов по программному обеспечению в мире.
Сети науки
Проектов, в той либо другой степени связанных с грид, в мире сильно много. Одни из их ориентированы на развитие грид-инфраструктур, другие – на разработку программного обеспечения и различных средств для управления приложениями, третьи – на адаптацию к работе грид-приложений. Вобщем, вместе с экспериментальным сектором, в каком все эти элементы тестируются (к примеру, такие проекты, как CrossGrid либо RiDGrid), в мире повсевременно вырастает число эксплуатационных грид-сетей (Open Science Grid и TeraGrid в США, NorduGrid, EGEE и DEISA в Европе). Эти сети работают с реальной вычислительной нагрузкой семь дней в неделю 24 часа в день и содержат в себе несколько тыщ микропроцессоров. В отличие от экспериментальных частей, тут предъявляются жесткие требования к поддержке работоспособности локальных грид-сайтов, выше и требования к качеству программного обеспечения.
Истоки развития эксплуатационных грид лежат в области физики больших энергий. В течение лета 2003 года в отделе информационных технологий CERN (Европейский центр ядерных исследовательских работ) огромное количество юных профессионалов интенсивно работали над программным обеспечением для пуска первого шага проекта LHC Computing Grid (LCG). Задачка этого проекта, стартовавшего в 2002 году, заключалась в интеграции тыщ компов, размещенных в различных точках мира, с целью образования одного глобального вычислительного ресурса. Разработка опиралась на новый тип промежного программного обеспечения, специально создаваемого для грид и последнего поколения аппаратных средств.
После старта в 2007 году наибольшего в мире ускорителя БАК тыщам физиков будет нужно доступ к большущим массивам данных проводимых на нем тестов. Объем таких данных составит примерно 10 Пбайт раз в год, что более чем в тыщу раз превосходит количество инфы, содержащейся во всех книжках, издающихся каждый год в мире, и практически 10% всей инфы, которую население земли производит за год. Единственный разумный метод получить доступ к такому количеству инфы – это грид. Но проект LCG должен решить не только лишь делему хранения и доступа к данным – нужны еще вычислительные ресурсы для их анализа (а это около 100 тыс. современных индивидуальных компов). За большенными числами стоит и новенькая философия – данные и вычислительные мощности должны быть доступны тыщам ученых, участвующим в опытах с LHC, без всяких затруднений, независимо от того, где они находятся.
В целом грид-технологии способны решить две значимые трудности ученых – необходимость одновременной работы с множеством данных, хранящихся в различных организациях (обычно, в различных частях мира), и потребность оперативно делать огромные объемы вычислений. К примеру, ученые, следящие за уровнем атмосферного озона, употребляют для этого снимки из космоса: каждый денек только для этой задачки на землю со спутников пересылается около 100 Гбайт необработанных изображений. Без действенных сетевых ресурсов ученым пришлось бы проводить исследования там, где данные хранятся на физическом уровне. С другой стороны, даже современные суперкомпьютеры и кластеры компов будут веками обсчитывать многие из задач современной биологии и фармацевтики, к примеру воздействие на белки, связанные с определенной заболеванием, тыщ молекул – возможных фармацевтических препаратов.
На замену проекту LCG сейчас пришел EGEE, в каком ставится задачка сотворения повсевременно действующей общеевропейской инфраструктуры. Проект «Грид для электрической науки» – Enabling Grids for E-sciencE (EGEE), финансируемый Европейской комиссией, соединяет воединыжды более 90 институтов в 32 странах мира для сотворения и эксплуатации гибкой грид-инфраструктуры, работающей в режиме неизменной нагрузки. Сейчас в EGEE интегрированы приложения из последующих областей, определяемых общим термином e-science: биомедицина, астрофизика, вычислительная химия, наука о Земле, деньги, мультимедиа. Сейчас EGEE поддерживает более 20 тыс. микропроцессоров, также обеспечивает доступ к 5 Пбайт дискового места на серверах хранения. Каждодневная загрузка EGEE добивается до 20 тыс. заданий в денек.
Вычисления за средства
«Создающиеся сейчас большие грид-инфраструктуры обязаны иметь экономическую необходимость, – рассуждает профессионал в отрасли грид-технологий из Института высокопроизводительных вычислений и информационных систем Ира Шошмина. – Потому грид-сообщество больше начинает думать о том, чтоб запускать коммерческие, промышленные приложения».
«Ключевыми требованиями для начала коммерческой эксплуатации грид-систем являются простота использования этих технологий и обеспечение неопасного хранения, передачи и использования данных, – продолжает эту идея Пьер Гвиссе, директор евро центра Cetic (CoreGRID), проводящего исследования в области эффективности грид-технологий. – Чтоб бизнес освоил грид, очень важны будут истории фуррора, для умножения которых Европейская комиссия специально поддерживает сеть промышленного грид BEinGRID». Сейчас потребность в грид-ресурсах в коммерческом секторе очень высока. Компаниям приходится обрабатывать больше данных. Это типично не только лишь для индустрии, да и для бизнеса. Грид-технологии могут быть полезны там, где требуется создавать значимые объемы вычислений (к примеру, при финансовом моделировании, анализе рисков, инженерных разработках) либо распределенно использовать необъятные массивы данных. Главные секторы, которые могут выиграть от использования грид-технологий, – это телекоммуникации, деньги, индустрия и инжиниринг (к примеру, авиа— и автопромышленность), коммунальные службы, также компании, связанные с аутсорсингом.
Аналитический центр IDC, делая обзор того, как будут развиваться грид-технологии в наиблежайшие четыре года, приходит к выводу, что 2007 год может стать переломным для начала повсеместного использования грид-технологий в коммерческих целях. Уже сейчас за этим сектором пристально наблюдают все гиганты ИТ-индустрии. Свои проекты в области грид-технологий развивают AMD, IBM, SUN, Oracle и Гугл.
«По прогнозам IDC, в 2008 году более 25% от полного количества всех серверов будут применены в грид, – гласит менеджер компании Intel по грид-проектам Игорь Одинцов. – Потому что компания Intel сначала практикуется на производстве микропроцессоров, она внимательно смотрит за тем, как они будут употребляться в инфраструктуре грид. Потому компания уже сейчас разрабатывает свое программное обеспечение – среду GPE (Grid Programming Environment – программное окружение грид), основная часть разработчиков которой находится в Центре Intel по разработке и исследованиям в Санкт-Петербурге».
Чтобы не пропасть поодиночке
Сейчас на карте русского грид пылает всего несколько огоньков вокруг Москвы и Петербурга. При всем этом русским его можно именовать только условно. Основной сектор реально работающей сети грид представлен объединенными ресурсами восьми российских институтов, входящих в европейский проект EGEE.
Консорциум РДИГ (Русский грид для насыщенных операций с данными) представляет собой региональную федерацию в рамках проекта EGEE. Участниками РДИГ являются РНЦ «Курчатовский институт» (Москва), Институт физики больших энергий (Протвино), Институт математических заморочек биологии РАН (Пущино), Институт теоретической и экспериментальной физики (Москва), Объединенный институт ядерных исследовательских работ (Дубна), Институт прикладной арифметики им. М.В. Келдыша РАН (Москва), НИИ ядерной физики им. Д.В. Скобельцына МГУ (Москва). На Северо-Западе кроме Института ядерной физики РАН в Гатчине с ЦЕРНом и его грид-проектом связана также лаборатория сверхвысоких энергий Санкт-Петербургского муниципального института.
Нынешнее роль этих институтов в проекте по созданию общеевропейской сети грид имеет свою геройскую предысторию. В предыдущие годы несколько институтов ядерной физики без какого-нибудь финансирования участвовали в проекте DataGrid и выстроили 1-ый русский полигон грид, удачно совладали с установкой программной инфраструктуры и проведением экспериментальных расчетов. В итоге в июле 2003 года Русский региональный грид был включен в грид LCG.
По условиям проекта EGEE, пришедшего на замену LCG, расходы на роль в европейском грид-проекте делятся напополам меж Европейским союзом и страной-участницей. Наша родина свою часть до сего времени стопроцентно не занесла. «Российский консорциум РДИГ обеспечивает 3-4% общеевропейской работы, что приблизительно соответствует роли Рф в проекте, – гласит Александр Крюков из НИИ ядерной физики имени Д.В. Скобельцына МГУ. – Но для того чтоб выполнить свои обязательства по обработке экспериментальных данных, которые будут поступать с нового ускорителя в ЦЕРНе, большинству наших институтов придется в 10-15 раз прирастить имеющиеся вычислительные мощности. Если это не будет изготовлено, мы можем утратить доступ к конкретным результатам опыта, т.е. обесценим всю работу, которую Наша родина делала с 1994 года».
Формально РДИГ открыт для присоединения новых участников. Проект нацелен на обсчет приложений из различных областей наук: не только лишь физики больших энергий, да и биологии, арифметики, наук о Земле. Часть таких задач вправду обрабатывается. Вобщем, далековато не все университеты и научные центры страны торопятся войти в уже существующую сеть. Объединяться стихийным образом у русских институтов пока выходит плохо. Если один директор в 1990-е стоптал ноги, чтоб вышибить средства на компы для собственного института, то он по понятным причинам не желает делиться этой техникой просто так. Не считая того, пробы сделать инфраструктуру «на вырост», а не для решения определенных задач, обречены на провал.
«Часто ко мне на электрический адресок приходят предложения присоединиться к той либо другой виртуальной организации, – ведает Андрей Зароченцев. – Я задаю всего один вопрос, на который почему-либо никто не может ответить: „Для решения каких задач вам необходимы наши ресурсы?“ Большая часть наших энтузиастов желают сделать „грид ради грида“. Но ведь грид – это средство, а не цель. Как указывает практика, создание грид-инфраструктуры всегда шло за необходимостью решать определенные задачи».
В том, что в Рф есть определенные приложения, для которых нужны грид-ресурсы, никто не колеблется. Нет игрока, который взял бы на себя инициативу по построению государственного проекта.
«Грид-инфраструктура в Рф сейчас фактически не развита. Все, что есть, сотворено благодаря проекту EGEE, – продолжает Ира Шошмина. – Основная мысль грид-технологий – использовать простаивающие вычислительные ресурсы. Если в стране простаивают вычислительные ресурсы – это большой экономический убыток. Потому ресурсы принято отдавать сходу для нескольких приложений из различных научных областей. Так происходит в мире. Чтоб это развивалось в Рф, нужна муниципальная программа».
Государственной программки по развитию грид в Рф нет. При всем этом подобные программки разработаны всеми хоть сколько-либо технологически продвинутыми странами – не только лишь США, ЕС, Китаем либо Индией, да и еще более маленькими игроками, такими как Югославия, Венгрия, Румыния. Большая часть из их решили делему в течение одного-двух лет при довольно умеренных издержек страны. Основная роль, которую правительство брало на себя, была организационной.
Самым слабеньким звеном русской грид-инфраструктуры, как замечают все участники общества, является даже не столько недочет каналов связи либо малозначительные вычислительные мощности научных центров, а критичное отсутствие профессионалов, способных поддерживать эти технологии. «В русском обществе программистов пока очень малость экспертов, которые специализируются на разработке приложений для высокопроизводительных вычислений, – гласит Игорь Одинцов. — Для действенной работы приложения в среде грид задачки необходимо верно приготовить. Для одной и той же задачки можно написать программку, которая будет решать ее и за минутки, и за часы. Почти все находится в зависимости от мастерства программера. Потому для развития грид-технологий в стране принципиально огромное внимание уделять целенаправленной подготовке студентов».
Грид – это достаточно новые технологии, завязанные на новейшую архитектуру компов. Многие исследователи, которым необходимы массивные вычислительные инструменты, выросли на технике 1970-1980-х годов, использующей идеологию больших рабочих станций, мейнфреймов. «Сегодня нужно убеждать ученых и исследователей в полезности грид-ресурсов, – ведает Шошмина. – Свои задачки они по многу дней считают на кластерах. Многие и совсем не имеют доступа к вычислительным ресурсам. Должно пройти время, чтоб люди оценили способности новых технологий и адаптировали свои приложения. Нужно активизировать просветительскую деятельность на конференциях для ученых, практиков, молодежи, разрабатывать учебные курсы для студентов вузов. Но на данный момент просто не хватает профессионалов, имеющих практический опыт вычислений в грид-средах и способных совладать со значимым объемом работы в образовании».
Большая часть редчайших профессионалов в области грид-технологий сейчас – аспиранты, и риск того, что по окончании учебы они уйдут из науки, реально велик. С их уходом в каждом отдельном институте технологии могут быть потеряны. Потому всякий раз, когда Андрей Зароченцев поновой перебирает старенький компьютер, возможно окажется последним.
Санкт-Петербург




ужс я даже не могу представить как это больно 