Home Page Title Page Contents Spectral clustering of Big Data in genetics: applications to RNA-seq data Tsvetelin Zaevski, Ognyan Kunchev, Dean Paleje

Подобни документи
Линейна алгебра 11. Собствени стойности и собствени вектори на матрица и линейно преобразувание. Диагонализиране на матрица специалности: Математика,

Линейна алгебра 12. Квадратични форми специалности: Математика, Бизнес математика, Приложна математика, I курс лектор: Марта Теофилова Линейна алгебра

Microsoft Word - PMS sec1212.doc

Линейна алгебра 7. Умножение на матрици. Обратими матрици. Матрични уравнения специалности: Математика, Бизнес математика, Приложна математика, I курс

IATI Day 1 / Senior Задача Activity (Bulgarian) X INTERNATIONAL AUTUMN TOURNAMENT IN INFORMATICS SHUMEN 2018 При лошо време навън Лора и Боби обичат д

Рекурсия Трифон Трифонов Увод в програмирането, спец. Компютърни науки, 1 поток, спец. Софтуерно инженерство, 2016/17 г. 21 декември 2016 г. 4 януари

ICrAData Софтуер за Интеркритериален анализ Николай Икономов 1, Петър Василев 2, Олимпия Роева 2 1 Институт по математика и информатика, БАН nikonomov

ГОДИШНИК НА УНИВЕРСИТЕТА ПО АРХИТЕКТУРА, СТРОИТЕЛСТВО И ГЕОДЕЗИЯ СОФИЯ Том Volume Брой Issue ANNUAL OF THE UNIVERSITY OF ARCHITECTURE, CIVIL E

Microsoft Word - Sem02_KH_VM2-19.doc

Основен вариант, клас Задача 1. (3 точки) За кои n съществуват различни естествени числа a 1, a 2,..., a n, за които сборът е естествено число

ГОДИШНИК НА УНИВЕРСИТЕТА ПО АРХИТЕКТУРА, СТРОИТЕЛСТВО И ГЕОДЕЗИЯ СОФИЯ Том Volume Брой Issue ANNUAL OF THE UNIVERSITY OF ARCHITECTURE, CIVIL E

Семинар № 2: Граници на редици, признаци на Даламбер и Коши за сходимост на редове

31V-B.dvi

Microsoft Word - IGM-SER1010.doc

Лекция Многокомпонентен анализ на смеси чрез техните УВ-Вид спектри.. Електронни спектри на смес от вещества. Обикновено UV/Vis спектър на едно вещест

Логаритмична регресия

Microsoft PowerPoint - DBoyadzhieva

Примерни задачи за линейни изображения уч. год. Задача 1. В линейното пространство V с базис e 1, e 2, e 3 са дадени векторите a 1 = e 1 +

kk7w.dvi

036v-b.dvi

Microsoft Word - Tema-8-klas-PLOVDIV.doc

Семинар Матрици, детерминанти и система от линейни уравнения (преговор) Задача. Съберете и извадете двете матрици A и B на ръка A B Р

Microsoft Word - SPSS_CA_3

в общ вид и е напълно приложима и за многомерни системи с малък брой входове и изходи, каквито често се срещат в техниката. Акцент в труда е автоматиз

Софийски университет Св. Климент Охридски Факултет по математика и информатика Курсов проект по Системи за паралелна обработка Тема: Изобразяване на ф

54. НАЦИОНАЛНА ОЛИМПИАДА ПО МАТЕМАТИКА НАЦИОНАЛЕН КРЪГ Задача 1. Да се намерят всички тройки от естествени числа (x, y, z) такива, че 2005 x + y + 200

Вариант 1 Писмен Изпит по Дискретни Структури 14/02/2018 г. Оценката се образува по следния начин: 2 + бр. точки, Наредени двойки бележим с ъглови ско

Microsoft Word - seminar12.docx

СОФИЙСКА МАТЕМАТИЧЕСКА ГИМНАЗИЯ ТУРНИР ПО МАТЕМАТИКА И ИНФОРМАТИКА "ЗА ТОРТАТА НА ДИРЕКТОРА" ТЕМА ПО МАТЕМАТИКА 8 КЛАС Задача 1. Да се реши в цели чис

Модални регулатори на състоянието

JOHN ATANASOFF SOCIETY OF AUTOMATICS AND INFORMATICS International Conference AUTOMATICS AND INFORMATICS 12 PROCEEDINGS Published by JOHN ATANASOFF SO

Графика и Презентации - Геометрично Моделиране

Converting a regular

munss2.dvi

Машинно обучение Лабораторно упражнение 4 Линейна регресия и градиентно спускане Целта на упражнението е да се реализира линейна регресия, в която фун

ХТМУ Светослав Ненов Навигация Диференчни схеми Начална страница Курсове Математика Диференчни схеми Уравнение на топлопроводимост FTCS схема Настройк

Microsoft Word - ProectB.doc

Глава 15 Въпрос 15: Оператор на Рейнолдс. Крайна породеност на пръстена от инвариантни полиноми на крайна матрична група. Навсякъде в настоящия въпрос

Лекция Спектрално и структурно подобие: използване в спектроскопията Спектрални признаци Спектралният признак е число, което се изчислява по определен

Homework 3

НАЦИОНАЛНА ПРИРОДО-МАТЕМАТИЧЕСКА ГИМНАЗИЯ АКАД. Л. ЧАКАЛОВ XXI МАТЕМАТИЧЕСКО СЪСТЕЗАНИЕ,,РИКИ 27 април 2014г. ПРИМЕРНИ РЕШЕНИЯ Задача 1. Да се реши ур

Slide 1

Проектиране на непрекъснат ПИД - регулатор. Динамичните свойства на системите за автоматично регулиране, при реализация на първия етап от проектиранет

Машинно обучение - въведение

I

Препис:

Spectral clustering of Big Data in genetics: applications to RNA-seq data Tsvetelin Zaevski, Ognyan Kunchev, Dean Palejev, Eugenia Stoimenova Institute of Mathematics and Informatics, Bulgarian Academy of Sciences Page 1 of 16 14 септември 2017 г.

Page 1 of 16 Обща схема на спектралната клъстеризация: 1. Нека W R n n със стойности w ij, където n е броят на елементите, е съответната матрица на подобие. Нека също d i = w ij и D е диагоналната матрица, j=1,...,n конструирана чрез d i. Нека k е броят на клъстерите. 2. Изчисляваме Лапласиана L = D W. 3. Намираме първите k собствени вектора u 1,..., u k на L. 4. Нека U R n k е матрицата конструирана от векторите u 1,..., u k като колони. 5. Нека y i R k, for i = 1,..., n, е съответният i-ти ред на U. 6. Клъстерираме точките y i, i = 1,..., n, в k клъстера, C 1, C 2,..., C k, използвайки k-means algorithm. 7. Клъстерите, A 1, A 2,..., A k, на първоначалните дани се получават чрез A i = {j, y j C i }.

Мишките на Bottomly: 1. 21 мишки 10 от тях са здрави, а 11 болни. 2. 36536 гена, 8824 от тях имат изразяване повече от 8. 3. Има много методи, които разделят гените на важни и неважни. Page 2 of 16 1 803 433 469 585 321 301 461 309 374 781 56 55 27 44 32 47 40 40 30 27 46 58 32 19 18 44 22 17 24 29 15 34 78 860 528 401 584 401 331 431 341 480 930 88 653 365 414 454 331 473 548 413 395 1153 93 40 17 49 47 36 28 31 23 20 36 120 81 54 171 44 21 63 27 24 14 164 125 54 15 52 33 28 14 31 25 28 37 126 117 97 41 162 218 165 200 287 152 181 127 182 112 129 108 93 99 114 93 99 195 131 2173 1139 1683 1489 1463 1502 1794 1330 1286 2436

Page 3 of 16 1. Поставяме очкваните важни и неважни гени като две отделни множества 2. Генерираме корелациони матрици една чрез използване на (2, 2) бета разпределение и друга с параметри (2, 5). 3. Заменяме първоначалната корелационна матрица с генерираната. За всеки важен ген изчисляваме коефициент, който е сумата от квадратите на корелационните коефициенти между него и всички неважни гени. Използваме същото за неважните гени. 4. Има някои неважни гени, които имат много малка корелация с останалите (по малка от 0.03). Тези гени ги поставяме близо до неважните. 5. Избираме различни нива на значимост l = 0.6; 0.7; 0.8; 0.9; 0.98 и променяме корелационната матрица. 6. Матрицата на подобие (1) евклидово разстояние за важните гени и (2) модифицираната корелационна матрица за останалите разстояния.

Page 4 of 16 Резултати използваме четири модела. Важните гени варират от 470 до 1145. Броят на важните гени след клъстеризацията за бета разпределение (2, 2) варира между 1. 471 и 3417 за модела на Anders and Huber (2010), 2. 1000 и 3753 за модела на Robinson et al. (2010), 3. 849 и 3655 за модела на Ritchie et al. (2015), 4. 1120 и 3844 за модела на M.I. Love and Anders (2014).

Броят на важните гени след клъстеризацията за бета разпределение (2, 5) варира между Page 5 of 16 1. 486 и 817 за модела на Anders and Huber (2010), 2. 1010 и 1322 за модела на Robinson et al. (2010), 3. 845 и 1180 за модела на Ritchie et al. (2015), 4. 1155 и 1464 за модела на M.I. Love and Anders (2014).

1. Нека M е множеството от важните гени (след клъстерирането). 2. Нека M 1 е множеството от тези важни гени, които преди клъстерирането не са били важни. 3. Нека N е множеството от неважните гени. Следните две неравенства са верни те обясняват математическата логика на алгоритъма. Page 6 of 16 min {max { C (M, M 1 ) }} > l max {max { C (M, N) }} < l където l е нивото на значимост. Това означава, че (1) 1. За всеки важен ген, за който първоначално сме мислели, че не е важен, съществува поне един друг важен ген, такъв че корелацията между двата е по-голяма от нивото на значимост l. 2. За всеки неважен ген няма нито един важен, такъв че корелацията между тях e по-голяма от нивото на

Beta parameters (2, 2), significant level l = 0.6 important genes 470 1.5 Clustered Data (clustered in 0.12s) 1 0.5 Page 7 of 16 0-0.5-1 -1.5-1.5-1 -0.5 0 0.5 1 1.5

Beta parameters (2, 2), significant level l = 0.7 important genes 470 1.5 Clustered Data (clustered in 0.11s) 1 0.5 Page 8 of 16 0-0.5-1 -1.5-1.5-1 -0.5 0 0.5 1 1.5

Beta parameters (2, 2), significant level l = 0.8 important genes 470 1.5 Clustered Data (clustered in 0.14s) 1 0.5 Page 9 of 16 0-0.5-1 -1.5-1.5-1 -0.5 0 0.5 1 1.5

Beta parameters (2, 2), significant level l = 0.9 important genes 470 1.5 Clustered Data (clustered in 0.16s) 1 0.5 Page 10 of 16 0-0.5-1 -1.5-1.5-1 -0.5 0 0.5 1 1.5

Beta parameters (2, 2), significant level l = 0.98 important genes 470 1.5 Clustered Data (clustered in 0.24s) 1 0.5 Page 11 of 16 0-0.5-1 -1.5-1.5-1 -0.5 0 0.5 1 1.5

Beta parameters (2, 5), significant level l = 0.6 important genes 470 1.5 Clustered Data (clustered in 0.15s) 1 0.5 Page 12 of 16 0-0.5-1 -1.5-1.5-1 -0.5 0 0.5 1 1.5

Beta parameters (2, 5), significant level l = 0.7 important genes 470 1.5 Clustered Data (clustered in 0.12s) 1 0.5 Page 13 of 16 0-0.5-1 -1.5-1.5-1 -0.5 0 0.5 1 1.5

Beta parameters (2, 5), significant level l = 0.8 important genes 470 1.5 Clustered Data (clustered in 18.85s) 1 0.5 Page 14 of 16 0-0.5-1 -1.5-1.5-1 -0.5 0 0.5 1 1.5

Page 15 of 16 parameters Expected important Expected not important Total Imp. Not imp. Total Imp. Not imp. (2,2) 0.6 470 470 0 8354 2947 5407 (2,2) 0.7 470 467 3 8354 1786 6568 (2,2) 0.8 470 469 1 8354 853 7501 (2,2) 0.9 470 460 10 8354 240 8114 (2,2) 0.98 470 461 9 8354 10 8344 (2,5) 0.6 470 470 0 8354 347 8007 (2,5) 0.7 470 469 1 8354 81 8273 (2,5) 0.8 470 470 0 8354 16 8338

Page 16 of 16 Литература Simon Anders and Wolfgang Huber. Differential expression analysis for sequence count data. Genome Biology, 11(10):R106+, October 2010. ISSN 1465-6906. W. Huber M.I. Love and S. Anders. Moderated estimation of fold change and dispersion for rna-seq data with deseq2. Genome Biology, 15(4):550, 2014. doi: 10.1186/s13059-014-0550-8. Matthew E. Ritchie, Belinda Phipson, Di Wu, Yifang Hu, Charity W. Law, Wei Shi, and Gordon K. Smyth. limma powers differential expression analyses for RNAsequencing and microarray studies. Nucleic Acids Research, 43(7):e47, April 2015. ISSN 1362-4962. doi: 10.1093/nar/gkv007. URL http://dx.doi.org/10.1093/ nar/gkv007. Mark D. Robinson, Davis J. McCarthy, and Gordon K. Smyth. edger: a bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics, 26(1):139 140, January 2010. ISSN 1460-2059. doi: 10.1093/bioinformatics/btp616. URL http://dx.doi.org/10.1093/ bioinformatics/btp616.