Біоінформатика

wiki

Карта Х-хромосоми людини (з веб-сайту NCBI). Складання геному людини є одним з найбільших досягнень біоінформатики.

Біоінформатика і обчислювальна біологія передбачати використання прийомів прикладної математики, інформатики, статистики та інформатики для вирішення біологічних проблем. Дослідження обчислювальної біології часто збігаються з системною біологією. Основні дослідницькі зусилля в цій галузі включають вирівнювання послідовностей, пошук генів, складання геномів, вирівнювання структури білка, прогнозування структури білка, прогнозування експресії генів та білково-білкових взаємодій, а також моделювання еволюції.

Умови біоінформатика і обчислювальна біологія часто використовуються як взаємозамінні. Однак біоінформатика правильніше відноситься до створення та вдосконалення алгоритмів, обчислювальних та статистичних методів та теорії для вирішення формальних та практичних проблем, поставлених або натхненних управлінням та аналізом біологічних даних. Обчислювальна біологія, з іншого боку, посилається на дослідження гіпотезою конкретної біологічної проблеми за допомогою комп'ютерів, проведене з експериментальними та модельованими даними, з основною метою відкриття та вдосконалення біологічних знань. Подібне розмежування проводять Національні інститути охорони здоров’я у своїх робочих визначеннях біоінформатики та обчислювальної біології, де далі підкреслюється, що існує тісний взаємозв’язок між розробками та знаннями між дослідженнями обчислювальної біології, що базуються на більшій гіпотезі, та дослідженнями, керованими методами в біоінформатиці. Обчислювальна біологія також включає менш відомі, але не менш важливі субдисципліни, такі як обчислювальна біохімія та обчислювальна біофізика.

Спільною темою в проектах з біоінформатики та обчислювальної біології є використання математичних інструментів для вилучення корисної інформації з галасливих даних, отриманих за допомогою високопродуктивних біологічних методів, таких як геноміка (область видобутку даних збігається з обчислювальною біологією). Репрезентативною проблемою в біоінформатиці є складання високоякісних послідовностей ДНК із фрагментарного секвенування ДНК "рушниці", тоді як в обчислювальній біології репрезентативною проблемою може бути статистичне тестування гіпотези загальної регуляції генів за допомогою даних мікрочипів мРНК або мас-спектрометрії.

Зміст

  • 1 Основні напрямки досліджень
    • 1.1 Аналіз послідовності
      • 1.1.1 Анотація геному
    • 1.2 Обчислювальна еволюційна біологія
    • 1.3 Вимірювання біорізноманіття
    • 1.4 Аналіз експресії генів
    • 1.5 Аналіз регулювання
    • 1.6 Аналіз експресії білка
    • 1.7 Аналіз мутацій при раку
    • 1.8 Прогнозування структури білка
    • 1.9 Порівняльна геноміка
    • 1.10 Моделювання біологічних систем
    • 1.11 Аналіз зображення з високою пропускною здатністю
  • 2 Програмні засоби
  • 3 Див. Також
    • 3.1 Пов’язані поля
  • 4 Зовнішні посилання
  • 5 Примітки та посилання
  • 6 Бібліографія

Основні напрямки досліджень [редагувати | редагувати джерело]

Аналіз послідовності [редагувати | редагувати джерело]

Іншим аспектом біоінформатики при аналізі послідовностей є автоматичний пошук генів та регуляторних послідовностей у геномі. Не всі нуклеотиди в геномі є генами. У геномі вищих організмів великі частини ДНК не слугують жодним очевидним цілям. Однак ця так звана сміттєва ДНК може містити невпізнані функціональні елементи. Біоінформатика допомагає подолати розрив між проектами генома та протеома - наприклад, у використанні послідовностей ДНК для ідентифікації білків.

Анотація геному [редагувати | редагувати джерело]

У контексті геноміки, анотація - це процес маркування генів та інших біологічних особливостей у послідовності ДНК. Перша система програмного забезпечення для анотації геномів була розроблена в 1995 році Оуеном Уайтом, який входив до групи, яка проводила секвенування та аналіз першого геному вільноживого організму, що підлягає розшифровці, бактерії Haemophilus influenzae. Доктор Уайт створив програмну систему для пошуку генів (місць у послідовності ДНК, що кодують білок), передачі РНК та інших особливостей, а також для початкового призначення функцій цим генам. Більшість сучасних систем анотації геномів працюють подібним чином, але програми, доступні для аналізу геномної ДНК, постійно змінюються та вдосконалюються.

Обчислювальна еволюційна біологія [редагувати | редагувати джерело]

Еволюційна біологія - це вивчення походження та походження видів, а також їх зміни з часом. Інформатика допомогла еволюційним біологам кількома ключовими способами; це дозволило дослідникам:

  • простежити еволюцію великої кількості організмів шляхом вимірювання змін у їх ДНК, а не лише за допомогою фізичної систематики або фізіологічних спостережень,
  • нещодавно порівняйте цілі геноми, що дозволяє вивчати більш складні еволюційні події, такі як дуплікація генів, бічний перенос генів та прогнозування факторів бактеріального видоутворення,
  • будувати складні обчислювальні моделі популяцій для прогнозування результату системи з часом
  • відстежувати та обмінюватися інформацією про дедалі більшу кількість видів та організмів

Майбутня робота спрямована на реконструкцію нині більш складного дерева життя.

Область досліджень в галузі інформатики, яка використовує генетичні алгоритми, іноді плутають з обчислювальною еволюційною біологією. Робота в цій галузі передбачає використання спеціалізованого комп’ютерного програмного забезпечення для вдосконалення рівнянь, алгоритмів або конструкцій інтегральних схем. Він натхненний еволюційними принципами, такими як реплікація, диверсифікація шляхом рекомбінації або мутації, придатність, виживання шляхом відбору або вибракування та ітерація, спільно названа дарвінівською машиною або дарвінівською храповиком.

Вимірювання біорізноманіття [редагувати | редагувати джерело]

Біорізноманіття екосистеми можна визначити як загальний геномний доповнення певного середовища з усіх присутніх видів, будь то біоплівка в покинутій шахті, крапля морської води, совок грунту або вся біосфера планети Земля. Бази даних використовуються для збору назв видів, описів, розподілу, генетичної інформації, статусу та розміру популяцій, потреб середовища існування та способу взаємодії кожного організму з іншими видами. Спеціалізовані програми використовуються для пошуку, візуалізації та аналізу інформації, а головне, передачі її іншим людям. Комп’ютерне моделювання моделює такі речі, як динаміка популяції, або обчислює сукупне генетичне здоров’я племінного фонду (у сільському господарстві) або популяції, що перебуває під загрозою зникнення (у збереженні). Дуже захоплюючим потенціалом цього поля є те, що цілі послідовності ДНК або геноми зникаючих видів можуть бути збережені, що дозволяє запам’ятати результати генетичного експерименту природи in silico, і, можливо, повторно використані в майбутньому, навіть якщо цей вид врешті-решт загублений.

Аналіз експресії генів [редагувати | редагувати джерело]

Експресія багатьох генів може бути визначена шляхом вимірювання рівнів мРНК за допомогою декількох методів, включаючи мікрочипи, експресовану послідовність міток кДНК (EST), послідовний аналіз послідовності міток експресії генів (SAGE), масивно паралельну послідовність сигнатур (MPSS) або різні програми мультиплексована гібридизація in-situ. Всі ці методи надзвичайно схильні до шуму та/або піддаються упередженості в біологічних вимірах, і основна область досліджень в обчислювальній біології включає розробку статистичних інструментів для відокремлення сигналу від шуму в дослідженнях експресії генів з високою пропускною здатністю. Такі дослідження часто використовують для визначення генів, причетних до розладу: можна порівняти дані мікрочипів з ракових клітин епітелію з даними неракових клітин, щоб визначити транскрипти, які регулюються вгору і знижуються в певній популяції ракових клітин.

Аналіз регулювання [редагувати | редагувати джерело]

Регулювання - це складна організація подій, що починаються з позаклітинного сигналу і в кінцевому підсумку призводять до збільшення або зменшення активності однієї або декількох молекул білка. Методи біоінформатики були застосовані для вивчення різних етапів цього процесу. Наприклад, промоторний аналіз включає з'ясування та вивчення мотивів послідовностей в геномній області, що оточує кодуючу область гена. Ці мотиви впливають на ступінь транскрипції цієї області в мРНК. Дані експресії можуть бути використані для висновку про регуляцію генів: можна порівняти дані мікрочипів із найрізноманітніших станів організму, щоб сформувати гіпотези про гени, що беруть участь у кожному стані. В одноклітинному організмі можна порівняти стадії клітинного циклу, а також різні стресові умови (тепловий шок, голодування тощо). Потім можна застосувати алгоритми кластеризації до даних експресії, щоб визначити, які гени ко-експресуються. Подальший аналіз може мати різні напрямки: одне дослідження 2004 року проаналізувало промоторні послідовності коекспресованих (згрупованих) генів, щоб знайти загальні регуляторні елементи, та використовувало методи машинного навчання для виявлення промоторних елементів, що беруть участь у регулюванні кожного кластера [1] .

Аналіз експресії білка [редагувати | редагувати джерело]

Білкові мікрочипи та високопродуктивна (НТ) мас-спектрометрія (МС) можуть забезпечити знімок білків, присутніх у біологічній пробі. Біоінформатика дуже активно бере участь у розумінні білкових мікрочипів та даних HT MS; перший підхід стикається з подібними проблемами, як з мікрочипами, націленими на мРНК, другий включає проблему зіставлення великих обсягів маси даних із передбачуваними масами з баз даних білкових послідовностей та складний статистичний аналіз зразків, де є кілька, але неповних пептидів від кожного білка. виявлено.

Аналіз мутацій при раку [редагувати | редагувати джерело]

В даний час проводяться великі зусилля щодо секвенування з метою виявлення точкових мутацій різних генів раку. Величезний обсяг отриманих даних вимагає автоматизованих систем для зчитування даних послідовностей та для порівняння результатів секвенування з відомою послідовністю геному людини, включаючи відомі поліморфізми зародкової лінії.

Олігонуклеотидні мікрочипи, включаючи порівняльну геномну гібридизацію та масиви однонуклеотидного поліморфізму, здатні одночасно досліджувати до декількох сотень тисяч ділянок у всьому геномі, використовуються для виявлення хромосомних прибутків та втрат при раку. Розробляються прихована модель Маркова та методи аналізу точки зміни, щоб зробити висновок про реальні зміни кількості копій з часто галасливих даних. Подальші інформаційні підходи розробляються для розуміння наслідків уражень, які виявляються повторюваними для багатьох пухлин.

Деякі сучасні засоби (наприклад, Quantum 3.1) надають інструмент для зміни послідовності білка в певних місцях шляхом зміни його амінокислот та прогнозують зміни біоактивності після мутацій.

Прогнозування структури білка [редагувати | редагувати джерело]

Прогнозування структури білка - ще одне важливе застосування біоінформатики. Амінокислотна послідовність білка, т. Зв первинна структура, можна легко визначити з послідовності гена, що кодує його. У переважній більшості випадків ця первинна структура однозначно визначає структуру у своєму рідному середовищі. (Звичайно, є винятки, такі як губчаста енцефалопатія великої рогатої худоби - вона ж хвороба божевільної корови - пріон.) Знання цієї структури є життєво важливим для розуміння функції білка. За браком кращих термінів структурна інформація зазвичай класифікується як одна з вторинний, третинний і четвертинний структура. Життєздатне загальне рішення таких прогнозів залишається відкритою проблемою. На сьогодні найбільше зусиль спрямовано на евристику, яка працює більшу частину часу.

Однією з ключових ідей в біоінформатиці є поняття гомології. У геномній галузі біоінформатики гомологія використовується для прогнозування функції гена: якщо послідовність гена A, функція якого відома, гомологічна послідовності гена B, функція якого невідома, можна зробити висновок, що B може поділяти функцію A. У структурній галузі біоінформатики гомологія використовується для визначення того, які частини білка мають важливе значення у формуванні структури та взаємодії з іншими білками. У техніці, яка називається моделюванням гомології, ця інформація використовується для прогнозування структури білка, як тільки буде відома структура гомологічного білка. В даний час це залишається єдиним способом надійного прогнозування білкових структур.

Одним із прикладів цього є схожа гомологія білків між гемоглобіном у людини та гемоглобіном у бобових (легемоглобін). Обидва служать одній і тій же меті для транспортування кисню в організмі. Хоча обидва ці білки мають абсолютно різні амінокислотні послідовності, їх білкові структури практично ідентичні, що відображає їх майже однакові цілі.

Інші методи прогнозування структури білка включають білкову різьбу та de novo (з нуля) моделювання на основі фізики.

Порівняльна геноміка [редагувати | редагувати джерело]

Основою порівняльного аналізу геному є встановлення відповідності між генами (ортологічний аналіз) або іншими геномними ознаками у різних організмів. Саме ці міжгеномні карти дають змогу простежити еволюційні процеси, що відповідають за розбіжність двох геномів. Безліч еволюційних подій, що діють на різних організаційних рівнях, формують еволюцію геному. На найнижчому рівні точкові мутації впливають на окремі нуклеотиди. На вищому рівні великі хромосомні сегменти зазнають дублювання, бічного перенесення, інверсії, транспозиції, делеції та інсерції. Зрештою, цілі геноми беруть участь у процесах гібридизації, поліплоїдизації та ендосимбіозу, що часто призводить до швидкого видоутворення. Складність еволюції геному ставить багато захоплюючих викликів для розробників математичних моделей та алгоритмів, які вдаються до спектрів алгоритмічних, статистичних та математичних прийомів, починаючи від точних, евристичних, фіксованих параметрів та апроксимаційних алгоритмів для задач, заснованих на моделях відбору, до Маркова Ланцюгові алгоритми Монте-Карло для байєсівського аналізу задач на основі імовірнісних моделей.

Багато з цих досліджень засновані на виявленні гомології та обчисленні сімей білків.

Моделювання біологічних систем [редагувати | редагувати джерело]

Системна біологія передбачає використання комп’ютерного моделювання клітинних підсистем (таких як мережі метаболітів та ферментів, що містять метаболізм, шляхи передачі сигналів та регуляторні мережі генів) для аналізу та візуалізації складних зв’язків цих клітинних процесів. Штучне життя або віртуальна еволюція намагається зрозуміти еволюційні процеси за допомогою комп’ютерного моделювання простих (штучних) форм життя.

Аналіз зображення з високою пропускною здатністю [редагувати | редагувати джерело]

Обчислювальні технології використовуються для прискорення або повної автоматизації обробки, кількісної оцінки та аналізу великої кількості біомедичних зображень із високим вмістом інформації. Сучасні системи аналізу зображень збільшують здатність спостерігача проводити вимірювання на основі великого або складного набору зображень, покращуючи точність, об’єктивність або швидкість. Повністю розроблена система аналізу може повністю замінити спостерігача. Хоча ці системи не є унікальними для біомедичних зображень, біомедичне зображення стає все більш важливим як для діагностики, так і для дослідження. Деякі приклади:

  • високопродуктивна та достовірна кількісна оцінка та субклітинна локалізація (скринінг з високим вмістом, цитогістопатологія)
  • морфометрія
  • клінічний аналіз та візуалізація зображень
  • визначення режиму потоку повітря в реальному часі в дихальних легенях живих тварин
  • кількісне визначення розміру оклюзії на знімках у реальному часі від розвитку та відновлення під час пошкодження артерій
  • здійснення поведінкових спостережень за допомогою розширених відеозаписів лабораторних тварин
  • інфрачервоні вимірювання для визначення метаболічної активності

Програмні засоби [редагувати | редагувати джерело]

Інструментом обчислювальної біології, найвідомішим серед біологів, є, мабуть, BLAST, алгоритм пошуку великих баз даних послідовностей білків або ДНК. NCBI пропонує популярну реалізацію, яка здійснює пошук у їх масивних базах даних послідовностей. Біоінформативні мета-пошукові системи (Entrez, Bioinformatic Harvester) допомагають знайти відповідну інформацію з кількох баз даних. Існує також безкоштовне програмне забезпечення на базі Інтернету, розроблене для структурної біоінформатики, таке як [1] ​​STING.

Комп’ютерні мови сценаріїв, такі як Perl та Python, часто використовуються для взаємодії з біологічними базами даних та аналізу результатів з програм біоінформатики. Спільноти програмістів біоінформатики створили проекти з безкоштовним/відкритим кодом, такі як EMBOSS, Bioconductor, BioPerl, BioLinux, BioPython, BioRuby та BioJava, які розробляють та розповсюджують спільні засоби програмування та об'єкти (як модулі програм), що полегшують біоінформатику.

Інтегрований робочий стіл програмного забезпечення, що складається з багатьох описаних вище інструментів вільного/відкритого коду та багатьох інших, відомий як VigyaanCD. Taverna - це робочий стіл з біоінформатики з відкритим кодом, який використовує модель робочого циклу експериментального проектування. Таверна входить до складу пакету програмного забезпечення для електронних наук myGRID. Quantum 3.1 є прикладом технології біоінформатики після QSAR, яка застосовує квантову та молекулярну фізику замість статистичних методів. Genevestigator - приклад того, як широкомасштабні дані мікрочипів експресії генів використовуються для прогнозування функції генів на основі контекстної інформації.

Зовсім недавно інтерфейси на основі SOAP були розроблені для широкого спектру біоінформатичних програм, таких як вибух, фаста, EMBOSS, clustalw, t-coffee, MUSCLE та багато інших. Вони доступні в EBI на веб-сервісах EBI.