Статьи QuantRise
Память как процессор: 60 лет эволюции
Автор: Денис Аветисян
Обзор охватывает историю технологий обработки данных внутри памяти, от первых концепций до современных решений для искусственного интеллекта и нейроморфных вычислений.
Систематизированный обзор аннотированной библиографии по технологиям обработки данных внутри памяти (PIM), охватывающий более 60 лет исследований, с акцентом на классификацию по типу архитектуры и области применения.
Несмотря на кажущуюся новизну концепций обработки данных в памяти (PIM), история подобных подходов насчитывает более шести десятилетий. Данная работа, представленная в виде ‘Annotated PIM Bibliography’, предлагает систематизированный обзор и аннотированную библиографию технологий PIM, включая варианты вычислений в памяти и около памяти. Представленный материал охватывает широкий спектр разработок, от классических ассоциативных систем до современных нейроморфных вычислений и приложений в области параллельной обработки. Какие перспективы открывает дальнейшее развитие PIM для создания энергоэффективных и высокопроизводительных вычислительных архитектур будущего?
История обработки данных в памяти: от теории к практике
Несмотря на более чем шестидесятилетнюю историю, концепция обработки данных в памяти (PIM) продолжает оставаться привлекательной, но пока не реализованной парадигмой в области вычислений. Изначально предложенная как способ преодоления ограничений, связанных с перемещением данных между процессором и памятью в традиционных архитектурах фон Неймана, PIM предполагает выполнение вычислительных операций непосредственно внутри микросхем памяти. Хотя первые разработки демонстрировали принципиальную возможность такого подхода, практическая реализация столкнулась со значительными техническими трудностями, включая вопросы масштабируемости, энергопотребления и совместимости с существующими системами. Тем не менее, постоянный рост объемов данных и потребность в повышении эффективности вычислений поддерживают интерес к PIM как к потенциальному решению, способному радикально изменить ландшафт компьютерных технологий.
Первые разработки в области вычислений в памяти, такие как концепция «Клеточной логики в памяти», продемонстрировали принципиальную возможность выполнения операций непосредственно внутри чипа памяти, избегая традиционных узких мест, связанных с перемещением данных. Однако, эти ранние системы столкнулись с серьезными ограничениями в масштабируемости. Сложность реализации и управления взаимодействием между большим количеством вычислительных элементов в памяти оказалась непомерно высокой, что препятствовало созданию практических и эффективных систем. Несмотря на перспективность идеи, технологические ограничения того времени не позволили реализовать полноценные вычислительные устройства, способные конкурировать с традиционными процессорами, и эти разработки остались в основном на уровне исследовательских прототипов, заложив, тем не менее, основу для дальнейших исследований в этой области.
Традиционная архитектура фон Неймана, лежащая в основе большинства современных вычислительных систем, сталкивается с фундаментальным ограничением, известным как “узкое место фон Неймана”. Это связано с тем, что процессор и память являются физически разделенными, что требует постоянного перемещения данных между ними. Каждая операция требует, чтобы данные были извлечены из памяти, обработаны процессором и затем результат возвращен обратно в память. Этот непрерывный обмен данными потребляет значительное количество энергии и времени, ограничивая общую производительность системы, особенно при обработке больших объемов данных. Именно эта проблема стимулирует поиск альтернативных архитектур, таких как вычисления в памяти (PIM), которые стремятся объединить обработку и хранение данных, минимизируя необходимость в перемещении данных и повышая энергоэффективность и скорость вычислений.
Современные архитектуры PIM: разнообразие подходов
Современные системы обработки данных в памяти (PIM) реализуются с использованием различных подходов. DRAM PIM использует существующую технологию динамической памяти, добавляя вычислительные возможности непосредственно в чипы DRAM, что позволяет выполнять простые операции над данными без перемещения их в процессор. Более специализированные решения, такие как Compute in Cache, интегрируют вычислительные блоки непосредственно в кэш-память процессора, обеспечивая ещё более тесную связь между вычислениями и данными и минимизируя задержки доступа. Данные архитектуры отличаются по степени интеграции, сложности реализации и целевым приложениям, но все они направлены на снижение энергопотребления и повышение производительности за счет сокращения перемещения данных между памятью и процессором.
Архитектуры UPMEM и DigitalPIM оптимизированы для приложений, интенсивно работающих с данными, обеспечивая высокую пропускную способность и низкую задержку при обработке больших объемов информации. В отличие от них, MIMHD (Memory-Integrated Multi-core Heterogeneous Digital) и реконфигурируемые CIM (Compute-In-Memory) массивы делают акцент на гибкости и возможности адаптации к различным типам задач и алгоритмов. MIMHD использует гетерогенные вычислительные ядра, интегрированные непосредственно в память, что позволяет динамически распределять ресурсы в зависимости от потребностей приложения. Реконфигурируемые CIM массивы, в свою очередь, позволяют изменять структуру и функциональность вычислительных элементов, обеспечивая оптимальную производительность для широкого спектра вычислений.
Архитектура Hybrid Memory Cube (HMC) представляет собой подход к интеграции логических схем и сетевых интерфейсов непосредственно в стек памяти. В отличие от традиционных архитектур, где процессор и память взаимодействуют через отдельные каналы, HMC объединяет DRAM-память и логические слои в единый пакет. Это достигается за счет использования сквозных межсоединений (through-silicon vias, TSV) для обеспечения высокоскоростной и энергоэффективной связи между логикой и памятью. В результате, HMC обеспечивает значительное повышение пропускной способности и снижение задержек по сравнению с традиционными решениями, что особенно важно для задач, требующих интенсивной обработки данных, таких как высокопроизводительные вычисления и анализ больших данных. Интеграция сетевых интерфейсов непосредственно в стек памяти также позволяет реализовать более эффективные и масштабируемые системы памяти.
Масштабирование PIM: от прототипов к системам
Прототипы Chick и Pathfinder демонстрируют возможности распределенной памяти для реализации PIM (Processing-in-Memory), что позволяет преодолеть ограничения масштабируемости, присущие одночиповым решениям. В отличие от традиционных архитектур, где данные перемещаются между процессором и памятью, эти прототипы реализуют обработку непосредственно внутри чипов памяти, используя распределенную архитектуру для параллельной обработки больших объемов данных. Это позволяет значительно увеличить пропускную способность и снизить задержки, особенно для задач, требующих интенсивной обработки данных, таких как машинное обучение и анализ больших данных. Распределенная архитектура обеспечивает возможность масштабирования системы путем добавления дополнительных чипов памяти, что позволяет обрабатывать еще большие объемы данных и повышать общую производительность системы.
Системы Yukon, IRAM и VIRAM используют векторную обработку данных и интегрированную оперативную память (RAM) для повышения производительности в целевых рабочих нагрузках. Yukon применяет векторные инструкции для ускорения обработки изображений и сигналов, используя близкое расположение памяти и вычислительных ресурсов. IRAM (In-Memory RAM) интегрирует логические элементы непосредственно в память, позволяя выполнять операции над данными непосредственно внутри чипа памяти, что снижает задержки и энергопотребление. VIRAM (Virtual IRAM) использует виртуализацию для гибкого распределения ресурсов IRAM между различными задачами, оптимизируя использование памяти и повышая общую пропускную способность системы.
В данной работе предпринята систематизация многочисленных архитектур обработки вблизи памяти (PIM) на основе стадии реализации и области применения. Классификация охватывает проекты, описанные в 19 научных статьях, представленных в данном разделе. Оценка и категоризация осуществляются по двум основным критериям: уровню зрелости разработки (от прототипов до функционирующих систем) и целевым задачам, для которых оптимизирована архитектура PIM, что позволяет провести сравнительный анализ и выявить тенденции развития данной области вычислительной техники.
Будущее: нейроморфные PIM и за его пределами
Нейроморфные процессоры в памяти (PIM), особенно те, что основаны на резистивной оперативной памяти (ReRAM), становятся все более перспективным решением для задач искусственного интеллекта и машинного обучения. В отличие от традиционной архитектуры фон Неймана, где обработка данных и хранение разделены, PIM объединяет эти функции непосредственно в памяти, что значительно снижает энергопотребление и задержки. Такой подход позволяет выполнять вычисления непосредственно там, где хранятся данные, избегая узких мест, связанных с постоянной передачей информации между процессором и памятью. Резистивная память, благодаря своей высокой плотности, низкому энергопотреблению и возможности выполнять аналоговые вычисления, является идеальным кандидатом для реализации нейроморфных PIM, открывая новые возможности для создания энергоэффективных и высокопроизводительных систем искусственного интеллекта, особенно в устройствах, работающих на периферии сети.
Развитие вычислительной техники для периферийных устройств, работающих в условиях ограниченного энергопотребления, стимулирует создание облегченных реализаций обработки в памяти (PIM), таких как PIM Lite. Эти решения направлены на снижение энергозатрат за счет минимизации перемещения данных между памятью и процессором, что особенно важно для мобильных устройств, датчиков и других приложений, работающих от батарей. Уменьшение объема передаваемых данных и локализация вычислений непосредственно в памяти позволяют значительно повысить энергоэффективность, продлевая срок службы батареи и расширяя возможности для развертывания интеллектуальных систем в удаленных и маломощных средах. Такой подход позволяет выполнять сложные алгоритмы машинного обучения непосредственно на периферийных устройствах, снижая зависимость от облачных вычислений и обеспечивая более быстрое и надежное функционирование.
Исследование охватывает значительный объем разработанных систем обработки в памяти (PIM), демонстрируя зрелость данной области. Анализ показал, что четырнадцать проектов достигли стадии прототипирования, что свидетельствует о возможности практической реализации представленных концепций. Более того, двадцать четыре работы посвящены коммерческим или близким к коммерческим системам, подтверждая растущий интерес индустрии и переход от теоретических разработок к реальным продуктам. Такое сочетание прототипов и коммерческих решений указывает на то, что технологии PIM активно развиваются и приближаются к широкому внедрению, особенно в областях, требующих высокой энергоэффективности и производительности.
Анализ научной литературы демонстрирует значительный интерес к разработке нейроморфных PIM-архитектур. Исследования, представленные в обзоре, показывают, что наибольшее количество работ — 25 — посвящено конструкциям, использующим традиционные технологические решения. Практически столько же, 24 работы, сосредоточены на использовании энергоэффективной резистивной памяти (ReRAM) для реализации PIM-функций. Оставшиеся 9 исследований охватывают альтернативные или смешанные технологические подходы, что свидетельствует о разнообразии путей развития данного направления и активном поиске оптимальных решений для повышения производительности и энергоэффективности систем искусственного интеллекта.
Представленная библиография технологий обработки в памяти (PIM) демонстрирует эволюцию принципов, направленных на снижение узких мест при передаче данных. Исследование охватывает десятилетия разработок, от ранних форм ассоциативной памяти до современных подходов, вдохновленных нейроморфными вычислениями. Как отмечал Дональд Дэвис: «Простота — высшая форма сложности». Эта мысль находит отражение в стремлении к оптимизации архитектуры систем, где избавление от избыточных операций и упрощение путей передачи данных становится ключом к повышению эффективности. Акцент на параллельной обработке и архитектуре, ориентированной на память, свидетельствует о переходе от сложных, многоуровневых систем к более элегантным и производительным решениям.
Что дальше?
Представленный обзор, подобно археологической раскопке, обнажил шестидесятилетнюю историю стремления к вычислениям, освобожденным от узкого места передачи данных. Однако, как часто бывает после раскопок, наиболее ценные находки — это не сами артефакты, а вопросы, которые они порождают. Вместо того чтобы констатировать прогресс, необходимо признать, что истинная проблема не в скорости передачи, а в самой парадигме последовательной обработки. Оптимизация узких мест лишь временно откладывает неизбежное осознание необходимости радикально иного подхода.
Будущее, вероятно, лежит не в бесконечном усложнении архитектур PIM, а в переосмыслении понятия “вычисление”. Акцент смещается с алгоритмов, предназначенных для выполнения на универсальных машинах, к алгоритмам, органично встроенным в структуру памяти. Истинный прорыв потребует отказа от универсальности в пользу специализированных решений, где “вычислительная мощность” определяется не количеством транзисторов, а эффективностью организации данных. Нейроморфные вычисления, как наиболее радикальный пример, демонстрируют эту тенденцию, но их реальное воплощение требует преодоления фундаментальных ограничений в области масштабируемости и энергоэффективности.
В конечном счете, ценность любого обзора заключается не в констатации фактов, а в выявлении пробелов. Данная работа подчеркивает, что наиболее плодотворное направление исследований — это не поиск более быстрых способов перемещения данных, а создание систем, где необходимость в перемещении данных исчезает как таковая. И в этом смысле, представленный обзор — это не финал, а лишь отправная точка для нового, более смелого этапа в истории вычислений.
Оригинал статьи: https://arxiv.org/pdf/2601.09002.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Статья также опубликована на личном сайте автора.