Mapping

Überblick
Creative Commons License: CC-BY Fragen:
  • Was ist Mapping?

  • Welche zwei Dinge sind entscheidend für ein korrektes Mapping?

  • Was ist eine BAM‑Datei?

Lernziele:
  • Ein Tool ausführen, um Reads auf ein Referenzgenom zu mappen

  • Erklären, was eine BAM‑Datei ist und was sie enthält

  • Einen Genom‑Browser benutzen, um die Daten zu verstehen

Voraussetzungen:
Geschätzte Bearbeitungszeit: 1 Stunde
Level: Einsteiger Introductory
Unterstützende Materialien:
Veröffentlicht: Mar 9, 2026
Letzte Änderung: Mar 9, 2026
Lizenz: Der Inhalt des Tutorials ist lizenziert unter der Creative Commons Attribution 4.0 International License. Das GTN Framework ist lizenziert unter MIT
version Überarbeitung: 1

Die Sequenzierung erzeugt eine Sammlung von Sequenzen ohne genomischen Kontext. Wir wissen nicht, zu welchem Teil des Genoms die Sequenzen gehören. Das Mapping der Reads eines Experiments auf ein Referenzgenom ist ein wichtiger Schritt in der modernen Genomdatenanalyse. Durch das Mapping werden die Reads einer bestimmten Stelle im Genom zugeordnet und es können Erkenntnisse wie das Expressionsniveau von Genen gewonnen werden.

Die Reads sind nicht mit Positionsinformationen versehen, so dass wir nicht wissen, aus welchem Teil des Genoms sie stammen. Wir müssen die Sequenz des Reads selbst verwenden, um die entsprechende Region in der Referenzsequenz zu finden. Die Referenzsequenz kann jedoch recht lang sein (~3 Milliarden Basen beim Menschen), was die Suche nach einer passenden Region zu einer entmutigenden Aufgabe macht. Da unsere Reads kurz sind, kann es mehrere, gleich wahrscheinliche Stellen in der Referenzsequenz geben, von denen sie gelesen worden sein könnten. Dies gilt insbesondere für sich wiederholende Regionen.

Im Prinzip könnten wir eine BLAST-Analyse durchführen, um herauszufinden, wo die sequenzierten Teile am besten in das bekannte Genom passen. Das müssten wir für jede der Millionen von Reads in unseren Sequenzierdaten tun. Das Alignment von Millionen kurzer Sequenzen auf diese Weise kann jedoch einige Wochen dauern. Und wir interessieren uns nicht für die genaue Übereinstimmung der Basen (Alignment). Was uns interessiert, ist, “woher diese Reads stammen”. Dieser Ansatz wird Mapping genannt.

Im Folgenden werden wir einen Datensatz mit dem Mapper Bowtie2 bearbeiten und die Daten mit dem Programm IGV visualisieren.

Agenda

In diesem Tutorial werden wir uns mit folgenden Themen beschäftigen:

  1. Vorbereiten der Daten
  2. Mapping der Reads auf ein Referenzgenom
  3. Inspektion einer BAM-Datei
  4. Visualisierung mit einem Genom-Browser
    1. IGV
    2. JBrowse
  5. Schlussfolgerung

Vorbereiten der Daten

Praktische Übung: Daten-Upload
  1. Erstellen Sie einen neuen Verlauf für dieses Tutorial und geben Sie ihm einen passenden Namen

    Um einen neuen Verlauf zu erstellen, klicken Sie einfach auf das Symbol new-history am oberen Rand des Verlaufsfensters:

    UI zum Erstellen einer neuen Geschichte

    1. Klicken Sie auf galaxy-pencil (Bearbeiten) neben dem Namen der Geschichte (der standardmäßig “Unbenannte Geschichte” lautet)
    2. Geben Sie den neuen Namen ein
    3. Klicken Sie auf Speichern
    4. Um die Umbenennung abzubrechen, klicken Sie auf die galaxy-undo schaltfläche “Abbrechen”

    Wenn Sie nicht das galaxy-pencil (Edit) neben dem Verlaufsnamen haben (was der Fall sein kann, wenn Sie eine ältere Version von Galaxy verwenden), gehen Sie wie folgt vor:

    1. Klicken Sie auf Unbenannter Verlauf (oder den aktuellen Namen des Verlaufs) (Klicken Sie zum Umbenennen des Verlaufs) oben in Ihrem Verlaufsfenster
    2. Geben Sie den neuen Namen ein
    3. Drücken Sie Enter

  2. Importieren Sie wt_H3K4me3_read1.fastq.gz und wt_H3K4me3_read2.fastq.gz von Zenodo oder aus der Datenbibliothek (fragen Sie Ihren Dozenten)

    https://zenodo.org/record/1324070/files/wt_H3K4me3_read1.fastq.gz
    https://zenodo.org/record/1324070/files/wt_H3K4me3_read2.fastq.gz
    
    • Kopieren der Linkposition
    • Klicken Sie auf galaxy-upload Daten hochladen am oberen Rand der Werkzeugleiste

    • Wählen Sie galaxy-wf-edit Daten einfügen/holen
    • Fügen Sie den/die Link(s) in das Textfeld ein

    • Drücken Sie Start

    • Schließen Sie das Fenster

    Als Alternative zum Hochladen der Daten von einer URL oder Ihrem Computer können die Dateien auch von einer Shared Data Library zur Verfügung gestellt werden:

    1. Gehen Sie in Bibliotheken (linker Bereich)
    2. Navigieren Sie zu dem richtigen Ordner, wie von Ihrem Ausbilder angegeben.
      • Auf den meisten Galaxies werden die Tutoriumsdaten in einem Ordner mit dem Namen GTN - Material –> Topic Name -> Tutorial Name bereitgestellt.
    3. Wählen Sie die gewünschten Dateien aus
    4. Klicken Sie auf Zur Historie hinzufügen galaxy-dropdown am oberen Rand und wählen Sie as Datasets aus dem Dropdown-Menü
    5. Wählen Sie im Pop-up-Fenster

      • “Historie auswählen “: die Historie, in die Sie die Daten importieren möchten (oder erstellen Sie eine neue)
    6. Klicken Sie auf Importieren

    Standardmäßig nimmt Galaxy den Link als Namen, also benennen Sie sie um.

  3. Benennen Sie die Dateien in reads_1 und reads_2 um

    • Klicken Sie auf das galaxy-pencil Bleistift-Symbol für den Datensatz, um seine Attribute zu bearbeiten
    • Ändern Sie im zentralen Bereich das Feld Name
    • Klicken Sie auf die Schaltfläche Speichern

  4. Erstelle eine gepaarte Sammlung namens Paired Reads

    • Klicken Sie auf galaxy-selector Elemente auswählen am oberen Rand des Verlaufsfensters Schaltfläche Elemente auswählen

    • Überprüfen Sie alle Datensätze in Ihrem Verlauf, die Sie einschließen möchten
    • Klicken Sie auf n of N selected und wählen Sie Liste der Datensatzpaare erstellen

      Menüpunkt 'Paare-Liste erstellen'

    • Sie befinden sich im Assistenten zum Erstellen von Sammlungen. Wählen Sie Liste gepaarter Datensätze und klicken Sie auf die Schaltfläche ‘Weiter’ unten rechts.

      Assistent zum Erstellen von Sammlungen – gepaarte Liste

    • Überprüfen und konfigurieren Sie das automatische Paaren. Gewöhnlich haben Mate-Paare die Endungen _1 und _2 oder _R1 und _R2. Klicken Sie unten auf ‘Weiter’.

      Bearbeiten und Erstellen einer Liste gepaarter Sammlungen

    • Bearbeiten Sie den Listenbezeichner nach Bedarf.
    • Geben Sie einen Namen für Ihre Sammlung ein
    • Klicken Sie auf Erstellen, um Ihre Sammlung zu erstellen
    • Klicken Sie erneut auf das Häkchen-Symbol oben in Ihrem Verlauf

Wir haben in Galaxy einfach FASTQ-Dateien importiert, die den Paired-End-Daten entsprechen, die wir direkt von einer Sequenziereinrichtung erhalten haben.

Bei der Sequenzierung können Fehler auftreten, wie z. B. der Aufruf falscher Nukleotide. Sequenzierungsfehler können die Analyse verfälschen und zu einer Fehlinterpretation der Daten führen. Der erste Schritt bei jeder Art von Sequenzierungsdaten ist immer die Überprüfung ihrer Qualität.

Es gibt ein spezielles Tutorial zur Qualitätskontrolle von Sequenzierungsdaten. Wir werden die Schritte dort nicht wiederholen. Sie sollten das tutorial befolgen und es auf Ihre Daten anwenden, bevor Sie weitermachen.

Mapping der Reads auf ein Referenzgenom

Beim Read-Mapping werden die Reads an ein Referenzgenom angeglichen. Ein Mapper nimmt als Eingabe ein Referenzgenom und einen Satz von Reads. Sein Ziel ist es, jeden Read in der Menge der Reads am Referenzgenom auszurichten, wobei Mismatches, Indels und das Abschneiden einiger kurzer Fragmente an den beiden Enden der Reads berücksichtigt werden:

Erläuterung des Mappings. Open image in new tab

Abbildung 1: Illustration des Mapping-Prozesses. Die Eingabe besteht aus einer Reihe von Reads und einem Referenzgenom. In der Mitte sind die Ergebnisse des Mappings dargestellt: die Positionen der Reads auf dem Referenzgenom. Der erste Read wird an Position 100 ausgerichtet und das Alignment weist zwei Mismatches auf. Der zweite Read wird an der Position 114 ausgerichtet. Es handelt sich um ein lokales Alignment mit Ausschnitten auf der linken und rechten Seite. Der dritte Read wird an der Position 123 ausgerichtet. Er besteht aus einer 2-Basen-Insertion und einer 1-Base-Deletion.

Wir benötigen ein Referenzgenom, auf das wir die Reads mappen können.

Frage
  1. Was ist ein Referenzgenom?
  2. Für jeden Modellorganismus können mehrere mögliche Referenzgenome zur Verfügung stehen (z.B. hg19 und hg38 für den Menschen). Welchem Genom entsprechen sie?
  3. Welches Referenzgenom sollten wir verwenden?
  1. Ein Referenzgenom (oder Referenzassembly) ist ein Satz von Nukleinsäuresequenzen, der als repräsentatives Beispiel für das genetische Material einer Art zusammengestellt wurde. Da sie oft aus der Sequenzierung verschiedener Individuen zusammengestellt werden, repräsentieren sie nicht genau den Gensatz eines einzelnen Organismus, sondern ein Mosaik verschiedener Nukleinsäuresequenzen von jedem Individuum.
  2. Da die Kosten für die DNA-Sequenzierung sinken und neue Technologien zur Sequenzierung des gesamten Genoms aufkommen, werden immer mehr Genomsequenzen erzeugt. Anhand dieser neuen Sequenzen werden neue Alignments erstellt und die Referenzgenome verbessert (weniger Lücken, korrigierte Fehldarstellungen in der Sequenz usw.). Die verschiedenen Referenzgenome entsprechen den verschiedenen freigegebenen Versionen (den so genannten “Builds”).
  3. Diese Daten stammen aus der ChIP-seq von Mäusen, daher werden wir mm10 (Mus musculus) verwenden.

Derzeit gibt es über 60 verschiedene Mapper, und ihre Zahl wächst. In diesem Tutorial werden wir Bowtie2 verwenden, ein schnelles und speichereffizientes Open-Source-Tool, das sich besonders gut für das Alignment von Sequenzierungs-Reads von etwa 50 bis zu 1.000 Basen zu relativ langen Genomen eignet.

Praktische Übung: Mapping mit Bowtie2
  1. Bowtie2 ( Galaxy version 2.4.2+galaxy0) mit den folgenden Parametern
    • “Ist dies eine einzelne oder gepaarte Bibliothek “: Paired-end
      • param-file “FASTA/Q-Datei #1”: reads_1
      • param-file “FASTA/Q-Datei #2”: reads_2
      • “Möchten Sie Paired-End-Optionen festlegen? “: No

        Sie sollten sich die Parameter dort ansehen, insbesondere die Paarungsorientierung, wenn Sie sie kennen. Sie können die Qualität des Paired-End-Mappings verbessern.

    • “Werden Sie ein Referenzgenom aus Ihrer Historie auswählen oder einen eingebauten Index verwenden? “: Use a built-in genome index
      • “Referenzgenom auswählen “: Mouse (Mus musculus): mm10
    • “Analysemodus auswählen “: Default setting only

      Sie sollten einen Blick auf die nicht-standard Parameter werfen und versuchen, sie zu verstehen. Sie können einen Einfluss auf das Mapping haben und es verbessern.

    • “Speichern Sie die Bowtie2-Mapping-Statistiken in der Historie “: Yes
  2. Untersuchen Sie die Datei mapping stats, indem Sie auf das Symbol galaxy-eye (Auge) Symbol
Frage
  1. Welche Informationen werden hier bereitgestellt?
  2. Wie viele Reads wurden genau 1 Mal gemappt?
  3. Wie viele Reads wurden mehr als 1 Mal gemappt? Wie ist das möglich? Was sollten wir mit ihnen machen?
  4. Wie viele Paare von Reads wurden nicht gemappt? Was sind die Ursachen dafür?
  1. Die hier gegebene Information ist eine quantitative. Wir können sehen, wie viele Sequenzen aufeinander abgestimmt sind. Sie sagt nichts über die Qualität aus.
  2. ~90% der Reads wurden genau 1 Mal aligniert
  3. ~7 % der Reads wurden >1 Mal übereinstimmend ausgerichtet. Diese werden als “multi-mapped reads” bezeichnet. Dies kann aufgrund von Wiederholungen im Referenzgenom geschehen (z. B. mehrere Kopien eines Gens), insbesondere wenn die Reads klein sind. Es ist schwierig zu entscheiden, woher diese Sequenzen stammen, und deshalb werden sie von den meisten Pipelines ignoriert. Überprüfen Sie immer die Statistiken, um sicherzustellen, dass nicht zu viele Informationen in nachfolgenden Analysen verworfen werden.
  4. ~3% der Reads wurden nicht gemappt, weil
    • beide Reads des Paares sind aligned, aber ihre Positionen stimmen nicht mit dem Paar von Reads überein (aligned discordantly 1 time)
    • Reads dieser Paare sind mehrfach gemappt (aligned >1 times in pairs aligned 0 times concordantly or discordantly)
    • ein Read dieser Paare wird gemappt, aber nicht der gepaarte Read (aligned exactly 1 time in pairs aligned 0 times concordantly or discordantly)
    • der Rest ist überhaupt nicht gemappt

Die Überprüfung der Mapping-Statistiken ist ein wichtiger Schritt, der vor der Fortsetzung der Analysen durchgeführt werden muss. Es gibt mehrere potenzielle Fehlerquellen beim Mapping, einschließlich (aber nicht beschränkt auf):

  • Polymerase-Kettenreaktion (PCR)-Artefakte: Viele Hochdurchsatz-Sequenzierungsmethoden (HTS) beinhalten einen oder mehrere PCR-Schritte. PCR-Fehler zeigen sich als Mismatches im Alignment, und insbesondere Fehler in frühen PCR-Zyklen zeigen sich in mehreren Reads, was fälschlicherweise auf eine genetische Variation in der Probe schließen lässt. Ein ähnlicher Fehler sind PCR-Duplikate, bei denen dasselbe Lesepaar mehrfach vorkommt und die Berechnung der Abdeckung im Alignment verfälscht.
  • Sequenzierungsfehler: Das Sequenziergerät kann entweder aus physikalischen Gründen (z. B. Öl auf einem Illumina-Objektträger) oder aufgrund von Eigenschaften der sequenzierten DNA (z. B. Homopolymere) einen fehlerhafte Aussage machen. Da Sequenzierfehler oft zufällig sind, können sie beim Variantenaufruf als Singleton Reads herausgefiltert werden.
  • Mapping-Fehler: Der Mapping-Algorithmus kann einen Read an der falschen Stelle in der Referenz zuordnen. Dies geschieht häufig im Bereich von Wiederholungen oder anderen Regionen mit geringer Komplexität.

Wenn also die Mapping-Statistiken nicht gut sind, sollten Sie die Ursache für diese Fehler untersuchen, bevor Sie mit Ihren Analysen fortfahren.

Danach sollten Sie einen Blick auf die Reads werfen und die BAM-Datei inspizieren, in der die Read-Mappings gespeichert sind.

Inspektion einer BAM-Datei

Eine BAM-Datei (Binary Alignment Map) ist eine komprimierte Binärdatei, in der die Lesesequenzen gespeichert sind und in der angegeben ist, ob sie an eine Referenzsequenz (z. B. ein Chromosom) angeglichen wurden, und wenn ja, an welcher Position auf der Referenzsequenz sie angeglichen wurden.

Praktische Übung: Inspektion einer BAM/SAM-Datei
  1. Untersuchen Sie die param-file Ausgabe von Bowtie2 tool

Eine BAM-Datei (oder eine SAM-Datei, die nicht komprimierte Version) besteht aus:

  • Ein Header-Abschnitt (die Zeilen, die mit @ beginnen), der Metadaten enthält, insbesondere die Chromosomennamen und -längen (Zeilen, die mit dem Symbol @SQ beginnen)
  • Ein Alignment-Abschnitt, bestehend aus einer Tabelle mit 11 Pflichtfeldern sowie einer variablen Anzahl von optionalen Feldern:

    Col Field Type Brief Description
    1 QNAME String Query template NAME
    2 FLAG Integer Bitwise FLAG
    3 RNAME String References sequence NAME
    4 POS Integer 1- based leftmost mapping POSition
    5 MAPQ Integer MAPping Quality
    6 CIGAR String CIGAR String
    7 RNEXT String Ref. name of the mate/next read
    8 PNEXT Integer Position of the mate/next read
    9 TLEN Integer Observed Template LENgth
    10 SEQ String Segment SEQuence
    11 QUAL String ASCII of Phred-scaled base QUALity+33
Frage
  1. Welche Informationen finden Sie in einer SAM/BAM-Datei?
  2. Was sind die zusätzlichen Informationen im Vergleich zu einer FASTQ-Datei?
  1. Sequenzen und Qualitätsinformationen, wie ein FASTQ
  2. Mapping-Informationen, Position des Read auf dem Chromosom, Mapping-Qualität, etc

Die BAM-Datei enthält viele Informationen über jeden Read, insbesondere über die Qualität des Mappings.

Praktische Übung: Zusammenfassung der Mapping-Qualität
  1. Samtools Stats ( Galaxy version 2.0.2+galaxy2) mit den folgenden Parametern
    • param-file “BAM-Datei “: aligned reads (Ausgabe von Bowtie2 tool)
    • “Referenzsequenz verwenden “: Locally cached/Use a built-in genome
      • “Genom verwenden “: Mouse (Mus musculus): mm10 Full
  2. Untersuchen Sie die param-file Stats-Datei
Frage
  1. Wie hoch ist der Anteil der Mismatches in den gemappten Reads, wenn sie an das Referenzgenom angeglichen werden?
  2. Was bedeutet die Fehlerrate?
  3. Was ist die durchschnittliche Qualität? Wie wird sie dargestellt?
  4. Was ist die durchschnittliche Insertgröße?
  5. Wie viele Reads haben einen Mapping-Qualitätsscore unter 20?
  1. Es gibt ~21.900 Mismatches für ~4.753.900 gemappted Basen, was im Durchschnitt ~0,005 Mismatches pro gemappter Base ergibt.
  2. Die Fehlerrate ist der Anteil der Fehlanpassungen pro gemappter Base, also das unmittelbar zuvor berechnete Verhältnis.
  3. Die durchschnittliche Qualität ist der mittlere Qualitätswert der Kartierung. Es handelt sich um einen Phred-Score, wie er auch in der FASTQ-Datei für jedes Nukleotid verwendet wird. Hier ist der Score jedoch nicht pro Nukleotid, sondern pro Read und stellt die Wahrscheinlichkeit der Mapping-Qualität dar.
  4. Die Insertgröße ist der Abstand zwischen den beiden Reads in den Paaren.
  5. Um die Informationen zu erhalten:
    1. Filter BAM ( Galaxy version 2.5.2+galaxy2) mit einem Filter, um nur die Reads mit einer Mappingqualität >= 20 zu behalten
    2. Samtools Stats ( Galaxy version 2.0.5) auf die Ausgabe von Filter

    Vor der Filterung: 95.412 Reads und nach der Filterung: 89.664 Reads.

Visualisierung mit einem Genom-Browser

IGV

Der Integrative Genomics Viewer (IGV) ist ein hochleistungsfähiges Visualisierungstool für die interaktive Erkundung großer, integrierter Genomdatensätze. Es unterstützt eine Vielzahl von Datentypen, einschließlich array-basierter und Next-Generation-Sequenzdaten sowie genomische Annotationen. Im Folgenden werden wir es verwenden, um die gemappten Reads zu visualisieren.

Praktische Übung: Visualisierung der Reads in IGV

Es gibt zwei Möglichkeiten, es auszuführen:

  1. Wenn Sie IGV installiert haben (oder es installieren wollen):
    1. Installieren Sie IGV
    2. Starten Sie IGV auf Ihrem Computer
    3. Erweitern Sie die param-file Ausgabe von Bowtie2 tool
    4. Klicken Sie auf das local in display with IGV, um die Reads in den IGV-Browser zu laden
  2. Wenn Sie nicht über IGV verfügen
    1. Klicken Sie auf Mouse mm10 (oder den richtigen Organismus) in display with IGV, um die Reads in den IGV-Browser zu laden
  3. Zoom auf die chr2:98,666,236-98,667,473

Die Reads haben eine Richtung: Sie werden auf den Vorwärts- bzw. Rückwärtsstrang abgebildet. Wenn Sie den Mauszeiger über einen Read bewegen, werden zusätzliche Informationen angezeigt

Frage
  1. Was könnte es bedeuten, wenn ein Balken in der Abdeckungsansicht farbig ist?
  2. Was könnte der Grund dafür sein, dass eine Anzeige weiß statt grau ist?
  1. Wenn ein Nukleotid in mehr als 20% der qualitätsgewichteten Reads von der Referenzsequenz abweicht, färbt IGV den Balken im Verhältnis zur Anzahl der Reads jeder Base.
  2. Sie haben eine Abbildungsqualität gleich Null. Die Interpretation dieser Mapping-Qualität hängt vom Mapping-Aligner ab, da einige häufig verwendete Aligner diese Konvention verwenden, um einen Read mit mehreren Alignments zu markieren. In einem solchen Fall wird der Read auch auf eine andere Stelle mit gleich guter Platzierung abgebildet. Es ist auch möglich, dass der Read nicht eindeutig platziert werden kann, aber die anderen Platzierungen nicht unbedingt gleichwertige Treffer ergeben.
Kommentar: Tipps für IGV
  1. Da die Anzahl der Reads in einer Region recht groß sein kann, zeigt der IGV-Browser standardmäßig nur die Reads an, die in ein kleines Fenster fallen. Dieses Verhalten kann im IGV von view > Preferences > Alignments geändert werden.
  2. Wenn das Genom, das Sie interessiert, dort nicht zu finden ist, überprüfen Sie, ob es über More… verfügbar ist. Wenn dies nicht der Fall ist, können Sie es manuell über das Menü Genome -> Genom laden von… hinzufügen

    Genom in IGV auswählen

Eine allgemeine Beschreibung der Benutzeroberfläche des IGV-Browsers finden Sie hier: IGV Browser Beschreibung

JBrowse

JBrowse ( Galaxy version 1.16.11+galaxy0) ist ein alternativer, webbasierter Genombrowser. Während IGV eine Software ist, die Sie herunterladen und ausführen müssen, sind JBrowse-Instanzen online gehostete Websites, die eine Schnittstelle zum Durchsuchen von Genomdaten bieten. Wir werden es verwenden, um die gemappten Reads zu visualisieren.

Praktische Übung: Visualisierung der Reads in JBrowse
  1. JBrowse ( Galaxy version 1.16.11+galaxy1) browser, mit den folgenden Parametern:
    • “Referenzgenom zur Anzeige “: Verwenden Sie ein eingebautes Genom
      • “Wählen Sie ein Referenzgenom “: mm10
    • “JBrowse-in-Galaxy Action “: New JBrowse Instance
    • “Insert Track Group “:
      • “Insert Annotation Track “:
        • “Track Type “: BAM Pileups
        • “BAM Track Data “: aligned reads (Ausgabe von Bowtie2 tool)
        • “Autogenerate SNP Track “: Ja
        • “Track Visibility “: Ein für neue Benutzer
  2. Visualisieren Sie den Datensatz galaxy-eye
  3. Zoom auf die chr2:98,666,236-98,667,473
Kommentar: Langsam

Die Ausführung kann je nach den Ressourcen Ihrer Trainingsinstanz ein bis zwei Minuten dauern. Der Server baut eine kleine Website für Sie auf und bereitet das Referenzgenom in einem effizienteren Format vor. Wenn Sie dies mit Ihren Kollegen teilen möchten, können Sie diesen Datensatz herunterladen und direkt auf Ihren Webserver stellen.

Die Reads haben eine Richtung: Sie werden auf den Vorwärts- bzw. Rückwärtsstrang abgebildet. Wenn Sie auf einen Read klicken, werden zusätzliche Informationen angezeigt

Frage
  1. Was bedeuten die Tropfenform und die Linie in der automatisch generierten SNP-Spur?
  2. Was bedeuten unterschiedlich gefärbte Reads?
  1. Wenn genügend Reads einen anderen Wert haben, wird dieser mit einem Tränensymbol markiert. Der Coverage Plot wird in der Höhe mit dem Prozentsatz der Reads mit einem anderen Call an dieser Position markiert
  2. Farbcodes:

    Colour Meaning
          Original red Forward strand
          Original blue Reverse strand
          Hard red Forward strand, missing mate
          Hard Blue Reverse strand, missing mate
          Light red Forward strand not proper
          Light blue Reverse strand, not proper
          Black Forward, diff chr
          Grey Reverse, diff chr
          Grey No strand

Schlussfolgerung

Nach der Qualitätskontrolle ist das Mapping ein wichtiger Schritt bei den meisten Analysen von Sequenzierungsdaten (RNA-Seq, ChIP-Seq usw.), um festzustellen, wo im Genom unsere Reads herkommen, und diese Information für nachgeschaltete Analysen zu nutzen.