site name site name

Декомпозиционный анализ активации сети каскада реакций (iPANDA) как метод разработки биомаркеров.

Анализ активации сигнального пути является мощным подходом для извлечения биологически значимых характеристик из крупномасштабных транскриптомных и протеомных данных. Однако современные методы, основанные на сигнальных путях, часто не могут обеспечить стабильные признаки определенного фенотипа или надежных биомаркеров заболевания. В настоящем исследовании мы представляем декомпозиционный анализ активации каскада реакций in silico (iPANDA) в качестве масштабируемого надежного метода идентификации биомаркеров с использованием данных экспрессии генов. Метод iPANDA объединяет предварительно рассчитанные данные коэкспрессии генов с факторами важности генов, основанными на степени дифференциальной экспрессии генов и декомпозиции топологии пути для получения оценок активации пути. Используя наборы данных контроля качества микроматричного анализа (MAQC) и данные предварительной обработки неоадъювантной терапии рака молочной железы на основе таксола из нескольких источников, мы демонстрируем, что iPANDA обеспечивает значительное подавление помех в транскриптомных данных и выявляет очень надежные наборы биологически значимых сигналов пути. Мы успешно применяем iPANDA для стратификации больных раком молочной железы в зависимости от их чувствительности к неоадъювантной терапии.
 
Применение новых контролируемых алгоритмов обучения к крупномасштабным транскриптомным данным может трансформировать традиционные подходы к классификации болезней, персонализированной медицине и разработке прогностических моделей. Тем не менее, их использование в качестве метода для клинических применений затрудняется рядом признанных проблем и ограничений. Одной из наиболее актуальных проблем в анализе транскриптомных данных является внутренняя сложность взаимодействия генных сетей, которая остается серьезным препятствием в построении комплексных прогностических моделей. Более того, большое разнообразие экспериментальных платформ и несогласованность данных, поступающих с различных типов оборудования, также могут привести к неправильной интерпретации основных биологических процессов. Хотя в последние годы был предложен ряд (1,2) подходов к нормализации данных, по-прежнему трудно добиться надежных результатов в группе независимых наборов данных, даже если они получены с одной и той же профилированной платформы (3). Это объясняется рядом биологических факторов, таких как широкая гетерогенность в популяции, дисперсия на стадии клеточного цикла используемых клеток или набор технических факторов, таких как подготовка образца или периодические изменения в реагентах. 
Несмотря на эти проблемы, различные алгоритмы анализа транскриптомных данных были разработаны как в академических, так и в коммерческих условиях, и были предприняты многочисленные попытки применить эти алгоритмы клинически, в частности, для прогнозирования реакции пациента на различную терапию против рака (4-6). Канонически эти подходы предназначены для идентификации дифференциально экспрессируемых генов между группами образцов. Хотя это может привести к идентификации предполагаемых генетических биомаркеров и паттернов сигналов экспрессии исследуемого процесса, эти методы не позволяют уловить тонкие различия между образцами, возникающие в результате динамического взаимодействия между генами на уровне сигнальных сетей. 

Кроме того, помехи, создаваемые изменениями в экспериментальных протоколах, могут дополнительно влиять на способность любого подхода точно определять различие между образцами. Чтобы обойти эти ограничения, был предложен ряд вычислительных скоринговых платформ, которые могут проецировать данные экспрессии генов в молекулярную сигнальную сеть для интеграционного анализа путей (7). Основным преимуществом методов, основанных на путях, является их способность выполнять биологически значимую редукцию измерений в результате анализа. Однако, несмотря на значительные успехи, современные методы, основанные на путях, все еще несовершенны в экстраполяции функциональных состояний транскриптомов в биологические сети. Многие популярные алгоритмы, основанные на путях, такие как Анализ представленности генов (GSEA) и его расширения, основаны исключительно на статистике представленности генов, рассматривая пути как неструктурированные наборы генов (8). Другая группа анализов, включающая в себяФакторный анализ сигнального пути (SPIA), анализ топологического набора генов и DEGraph, рассматривает пути как ориентированные или неориентированные графы, представляющие сети биохимических взаимодействий на уровне генов и белков (9-11).
В алгоритме Oncofinder представлен подход на полпути, где информация о топологии пути используется для распределения ролей активации или репрессии определенных генов в пути и затем оценки его общей активации (12). Хотя эти подходы очень полезны, они не могут преодолеть вышеупомянутые ограничения, что создает необходимость в разработке новых крупномасштабных аналитических методологий, которые более точно выводят сложные транскриптомные изменения в сеть биологически значимых сигнальных осей. В этом исследовании мы предлагаем новый метод для крупномасштабного транскриптомного анализа данных, называемый invitro декомпозиционный анализ разложения сети активации пути (iPANDA). Мы демонстрируем эффективность этого метода, используя множественные наборы данных по лечению рака молочной железы паклитакселом, полученные из GeneExpressionOmnibus (GEO) 13.Данные по раку молочной железы были выбраны для анализа как одни из самых сложных по нескольким направлениям. Поскольку рак молочной железы имеет высокую степень межопухолевой и внутриопухолевой гетерогенности, этот тип рака является одним из наиболее сложных с точки зрения прогнозирования исхода и ответа на лечение (14). Это особенно верно для опухолей с плохим прогнозом и меньшим количеством эффективных методов лечения, таких как отрицательные по рецептору эстрогена (человеческий рецептор 2 эпидермального фактора роста (HER2) -позитивный и HER2-негативный) типы рака молочной железы(15). Таким образом, в данном конкретном случае традиционных методов анализа транскриптомных данных может быть недостаточно. Рак молочной железы также является вторым по распространенности раком в США после рака кожи и второй по значимости причиной смерти от рака у женщин после рака легких (16). Следовательно, существует настоятельная потребность в разработке высоко надежных методов анализа транскриптомных данных нового поколения.Наше исследование показывает, что iPANDA является эффективным инструментом для сокращения биологически значимых измерений транскриптомных данных. Используя неоадъювантные данные по лечению рака молочной железы до лечения с известными результатами лечения и статусом рецептора (рецептор эстрогена и HER2), мы показываем, что iPANDA способна производить очень надежные наборы маркеров пути, которые могут быть далее использованы для разделения образцов на респондентных и нереспондентных.


 

Рисунок 1 | Общая схема расчета iPANDA конвейера. Изменения кратности между уровнями экспрессии генов в исследуемых образцах и средним уровнем экспрессии образцов в пределах нормального набора служат входными данными для алгоритма iPANDA. Основные этапы алгоритма iPANDA включают оценку статистических весов (1), группировку генов по коэкспрессии в модули (2), оценку топологических весов (3) и вычисление баллов активации пути iPANDA (4).

Полученные результаты
Обзор метода iPANDA. В качестве входных данных для алгоритма iPANDA используются кратные изменения между уровнями экспрессии генов в исследуемых образцах (образцы опухолей) и средним уровнем экспрессии образцов в нормальном наборе. Поскольку некоторые гены могут оказывать более сильное влияние на активацию пути, чем другие, был введен фактор важности генов. В течение последних нескольких десятилетий было предложено несколько подходов расчета иерархии важности генов (7). Подавляющее большинство этих подходов направлены на обогащение моделей, основанных на путях, с помощью специфических генных маркеров, наиболее актуальных для данного исследования. В то время как некоторые из них используют подробные кинетические модели нескольких конкретных метаболических сетей для получения факторов важности (17), в других важность генов определяется на основе статистического анализа данных о экспрессии генов, полученных для случаев заболевания и здоровых образцов (8,18). В качестве альтернативы, несколько подходов основаны на топологической декомпозиции карт пути, первоначально предложенных в 2005 году (ссылка 19).Эти подходы имеют тенденцию придавать больший вес генам, которые занимают центральные позиции на карте (20). Важно отметить, однако, что измерение центральности гена сильно варьируется между алгоритмами, часто приводя к изменчивым результатам. В нашем методе мы предлагаем новый подход, который объединяет различные аналитические концепции, описанные выше, в единую сетевую модель, поскольку одновременно используются статистические и топологические веса для оценки важности генов (рис. 1). Сглаженный порог, основанный на значениях P из t-теста, выполненного для групп нормальных и опухолевых образцов, применяется к значениям экспрессии гена. Сглаженный порог определяется как непрерывная функция значения P в диапазоне от 0 до 1. Статистический вес для генов также определяется во время этой процедуры.
Топологический вес для генов получен во время декомпозиции карты пути. Топологический вес каждого гена пропорционален количеству независимых путей через генную сеть путей, представленных в виде ориентированного графа. Хорошо известно, что множественные гены демонстрируют значительные корреляции в уровнях экспрессии (21). Большинство алгоритмов анализа пути трактуют уровни экспрессии генов как независимые переменные, что, несмотря на распространенное мнение, не подходит, когда применяются коэффициенты, основанные на топологии. Действительно, из-за взаимозаменяемости не существует зависимости значений активации пути от того, как веса топологии распределяются по набору совместно экспрессируемых генов с коррелированными уровнями экспрессии и, следовательно, коррелированными изменениями складок.Таким образом, вычисление топологических коэффициентов для набора совместно экспрессируемых генов неэффективно, если только группа совместно экспрессируемых генов не рассматривается как единое целое. Чтобы обойти эту проблему, в алгоритм iPANDA введены генные модули, отражающие коэкспрессию генов. Широкая база данных по коэкспрессии генов в образцах человека COEXPRESdb (21) и база данных нижестоящих генов, контролируемых различными факторами транскрипции (220, использовалась для группировки генов в модули. Таким образом, топологические коэффициенты оцениваются для каждого генного модуля в целом, а не для отдельных генов внутри модуля. Вклад генных единиц (включая генные модули и отдельные гены) в активацию пути рассчитывается как произведение их кратных изменений в логарифмическом масштабе, топологических и статистических весах. Затем вклады умножаются на дискретный коэффициент, равный þ 1 или 1, в случае активации или подавления пути конкретным блоком, соответственно.
Наконец, оценки активации, которые мы называем значениями iPANDA, получаются как линейная комбинация оценок, рассчитанных для генных единиц, которые вносят вклад в активацию / подавление пути. Поэтому значения iPANDA представляют подписанные оценки, показывающие интенсивность и направление активации пути (подробности см. В разделе «Методы»). 
Метрики качества пути. Хотя в настоящее время существует несколько общедоступных конвейеров для сравнительного анализа алгоритмов транскриптомного анализа данных (7,23–25), наша цель состояла в том, чтобы обобщить подходы к тестированию алгоритмов на основе путей и выявить общие черты надежного анализа данных выражений на основе путей. Мы называем эти функции «отличительными признаками анализа пути». Эффективные методы анализа транскриптомных данных, основанных на путях, должны быть способны обеспечить значительное снижение помех во входных данных и агрегировать выходные данные в виде небольшого числа высокоинформативных функций (маркеров путей). Масштабируемость (способность одинаково обрабатывать пути с небольшим или большим количеством генов) является еще одним критическим аспектом, который следует учитывать при разработке подхода к надежному анализу путей, поскольку значения активации путей для путей разных размеров должны быть в равной степени достоверными. Список идентифицированных маркеров пути должен соответствовать конкретному фенотипу или медицинскому состоянию и быть устойчивым по множеству наборов данных, связанных с исследуемым процессом или биологическим состоянием.
Время расчета должно быть разумным, чтобы обеспечить высокопроизводительный скрининг больших наборов транскриптомных данных. Чтобы использовать алгоритмiPANDA в отношении этих отличительных признаков и полностью оценить его истинный потенциал и ограничения, мы напрямую сравнили результаты, полученные iPANDA с использованием наборов данных по контролю качества рака молочной железы и анализа микрочипов (MAQC) -I, с пятью другими широко используемыми альтернативными методами (GSEA8, SPIA9, анализ уровня генного пути экспрессии (PLAGE) 26, анализ представленности групп генов в одной выборке (ssGSEA) 27 и алгоритм устранения помех на основе соответствующей топологии сети (DART) 28). Кроме того, мы сравнили производительность нашего классификатора на основе iPANDA с эффективностью предикторов на уровне генов, разработанных лучшими командами MAQC-II (ссылка 23) и IMPROVER24, использующими наборы данных из задачи MAQC-II в отношении способности различать конечные точки рака.

Рисунок 2 | Примерное сходство между данными, полученными с использованием различных профилирующих платформ. Коэффициенты корреляции Пирсона по выборкам между уровнями экспрессии генов (дифференциальные гены используются только с групповым t-тестовым P = 0,05), полученным на платформах Affymetrix и Agilent для одного и того же набора образцов, показаны синим цветом. Выборочные корреляции Пирсона между соответствующими значениями активации пути, рассчитанными с использованием iPANDA, показаны желтым цветом. Пунктирные и пунктирные линии представляют соответственно медиану с верхним и нижним квартилями эмпирического распределения. Данные по экспрессии генов были получены из набора данных MicroArray Quality Control (MAQC) (идентификатор GEO GSE5350). Применение iPANDA приводит к более высокой корреляции между данными, полученными с использованием разных экспериментальных платформ для одних и тех же образцов.

iPANDA как инструмент снижения помех в транскриптомных данных.
Одной из основных проблем, которые следует учитывать при разработке нового алгоритма анализа транскриптомных данных, является способность предлагаемого метода уменьшать помехи при сохранении биологически значимой информации о результатах. Поскольку алгоритмы анализа на основе пути считаются методами уменьшения размерности, оценки активации пути должны представлять собирательные переменные, описывающие только биологически значимые изменения в профиле экспрессии гена. Чтобы оценить способность алгоритма iPANDA выполнять снижение помех при сохранении биологически значимых характеристик, мы провели анализ хорошо известного набора данных MAQC (идентификатор GEOGSE5350) (ссылка 29). Он содержит данные для одних и тех же образцов клеток, обработанных с использованием различных платформ профилирования транскриптома.
Удовлетворительный алгоритм анализа пути или сети должен снизить уровень помех и продемонстрировать более высокую степень сходства между выборками по сравнению со сходством, рассчитанным с использованием данных генного набора. Для оценки сходства уровней генов были использованы только кратные изменения для дифференциально экспрессируемых генов (t-тестовое Р-значение 0,05). Корреляция Пирсона была выбрана в качестве метрики для измерения сходства между образцами. Выборочные коэффициенты корреляции были получены для тех же образцов, профилированных на платформах Affymetrix и Agilent. Аналогичная процедура была выполнена с использованием значений активации пути (значения iPANDA). Результаты, полученные для набора образцов из данных MAQC, показаны на рис. 2. Примечательно, что сходство, рассчитанное с использованием значений активации пути, сгенерированных алгоритмом iPANDA, значительно превышает значение, рассчитанное с использованием кратных изменений для дифференциально выраженных генов (корреляция среднего значения выборки составила более 0,88 и 0,79 соответственно).
Для дальнейшей проверки нашего алгоритма мы напрямую сравнили его эффективность по снижению помех с эффективностью других обычно используемых методов анализа путей на основе транскриптома, таких как SPIA, GSEA, ssGSEA, PLAGE и DART (дополнительный рисунок 1). Средняя выборочная корреляция между платформами составила 0,88 для iPANDA по сравнению с 0,53 для GSEA, 0,84 для SPIA, 0,69 для ssGSEA, 0,67 для PLAGE и 0,41 для DART. Кроме того, выборочное корреляционное распределение, полученное с использованием значений iPANDA, сужается до диапазона от 0,79 до 0,94 по сравнению с 0,08–0,80, 0,60–0,92, 0,61–0,74, 0,45–0,75 и 0,11–0,60 для GSEA, SPIA, ssGSEA, PLAGE и DART соответственно (дополнительный рис. 1). Важно отметить, что iPANDA не придает больше веса генам, которые, как правило, надежно коэкспрессируются с использованием информации из базы данных COEXPRESSdb. Информация от COEXPRESSdb используется исключительно для группировки генов в модули, и, следовательно, не может дать какой-либо благоприятный уклон в сторону iPANDA в этой оценке. Даже когда функция группировки генов в модули «отключена», что означает, что все гены рассматриваются индивидуально и информация из COEXPRESSdb не используется, оценки iPANDA показывают более высокое выборочное сходство между данными, полученными с использованием различных платформ профилирования, по сравнению со сходством рассчитывается на уровне гена (дополнительный рис. 2).В совокупности iPANDA демонстрирует лучшую производительность по снижению помех по сравнению с другими подходами к анализу пути, что позволяет считать его мощным, надежным инструментом для снижения помех при анализе транскриптомных данных.

Идентификация и актуальность биомаркеров.
В качестве следующего шага мы обратились к способности iPANDA идентифицировать потенциальные биомаркеры (или маркеры пути) исследуемого фенотипа. Одним из широко используемых методов оценки способности маркеров транскриптомного пути различать две группы образцов (например, устойчивость или чувствительность к терапии) является измерение характеристик площади под кривой (AUC). Способность генерировать большое количество биомаркеров с высокими значениями AUC является основным требованием для любого предполагаемого алгоритма транскриптомного анализа данных, который будет использоваться в моделях прогнозирования. 
Чтобы оценить способность нашего метода производить потенциальные биомаркеры, мы отобрали несколько наборов данных экспрессии генов у пациентов с раком молочной железы с измеренным ответом на лечение паклитакселом. Алгоритм iPANDA был применен для получения оценок активации пути для каждого образца. Для каждого набора данных по раку молочной железы, использованного в этом исследовании, мы тщательно отобрали нормальный тканеспецифический нормальный контроль (микрочипы, полученные от здоровых субъектов с использованием той же платформы профилирования, что и в наборе данных по опухолям, см. Дополнительную таблицу 2).Значения Р t-критерия для генов рассчитывали по всей группе образцов рака молочной железы по сравнению с образцами здоровых тканей, чтобы оценить статистические веса, которые затем использовались для получения показателей iPANDA активации по пути выборки. Подход перекрестной проверки с использованием выборок из набора данных GSE20194 был использован для получения пороговых значений для расчета статистических весов и объединения генных модулей. Чтобы избежать введения искусственного смещения наборов данных для генных весов в результате этого подхода, генные веса в iPANDA рассчитывались для каждого из наборов данных, используемых для этого анализа отдельно (независимо).
Списки 30 лучших маркеров путей чувствительности к лечению паклитакселом, полученные для HER2-положительного (HER2P) и ERNHER2-отрицательного (HER2N) типов рака молочной железы, отрицательного к рецептору эстрогена, приведены на рис. 3. Четыре и пять независимых наборов данных были использовали для сравнения типов рака ERNHER2P и ERNHER2N соответственно. Сигнальные пути были ранжированы по их средним значениям AUC по изученным независимым наборам данных. Такие пути, как ERBB, PTEN, BRCA1, PPAR, TGF-бета и RAS, о которых ранее сообщалось, что они вызывают реакцию на лечение паклитакселом, можно найти в этих списках (30–34). Хотя сгенерированные iPANDA списки маркеров пути, полученные в данных по одному и тому же типу рака, имеют заметное пересечение, списки маркеров значительно различаются для разных типов рака. Это согласуется с наблюдением, что механизмы устойчивости к лечению паклитакселом зависят от подтипа рака молочной железы (35-36).
В списках можно найти пути с различным количеством генов-членов, начиная от 10 членов (оборот адгезии пути сосудистого эндотелиального фактора роста) до более 400 (основной путь передачи сигналов AKT). Это показывает, что алгоритм iPANDA одинаково обрабатывает малые и большие пути, указывая на признак масштабируемости действительных методов анализа путей. Аналогичные расчеты были выполнены с использованием пяти различных сторонних алгоритмов анализа пути, таких как GSEA, SPIA, PLAGE, DART и ssGSEA. Как показано на дополнительных рисунках 3–7, количество надежных маркеров пути и соответствующих значений AUC для этих маркеров, полученных каждым из сторонних методов, было существенно ниже по сравнению с iPANDA.
Чтобы дополнительно оценить способность iPANDA обнаруживать соответствующие пути, мы оценили его эффективность с помощью критериев приоритизации в соответствии с недавно предложенными методами анализа калибровочного конвейера (25). В этом конвейере расстановка приоритетов представляет способность метода назначать более высокие ранги путям, относящимся к данному условию в тесте с прямым сравнением между двумя группами выборок. Хотя алгоритм iPANDA не превосходил альтернативные методы, которые, согласно сообщениям, являются лучшими в соответствии с критериями приоритизации (PADOG37 и MIPA38) (дополнительный рисунок 8 и дополнительное примечание 1), он превосходит некоторые другие популярные методы, включая ssGSEA и PLAGE, и демонстрирует способность генерировать весьма релевантные результаты, поскольку пути, которые, как ожидается, будут нарушены, имеют значительно более низкие ранги (более высокие баллы), чем если бы они ожидались случайно.Кроме того, конвейер определения приоритетов опирается на очень специфический набор путей, которые, как ожидается, будут нарушены при определенных болезненных состояниях. Каждый из этих путей состоит из генов, связанных с несколькими механизмами биологической регуляции, поэтому эти пути содержат несколько редко связанных компонентов. В противоположность этому iPANDA специально разработан для работы с регулирующими цепями с четко определенной топологией (например, путь mTOR, путь AKT и т. Д.). Следовательно, дизайн этой конкретной оценки приоритетов может впоследствии привести к недооценке производительности iPANDA.