Beuth Hochschule für Technik Berlin

Data Science
 
Home>Infrastruktur

Infrastruktur

Der Arbeitskreis Data Science nutzt für wissenschaftliche und nicht kommerzielle Projekte eine leistungsfähige  Infrastruktur. Die Infrastruktur wurde aus Eigenmitteln und aus EFRE Mitteln (Europäischen Fonds für regionale Entwicklung) angeschafft und wird vom Hochschulrechenzentrum gehostet.  Aktuell umfasst die Infrastruktur folgende Komponenten:

Massendatenverarbeitung (Shared Nothing)
  • CentOS
  • Cloudera CDH 5.2 , inklusive Spark, Impala, Hive, HDFS, Parquet.io
  • Masterknoten für Dienste des Hadoop Stacks (HDFS, Zoekeeper, YARN etc.) mit 2x AMD 8 Cores 6320  @ 2,8GHz, 256 GB RAM, 8x 2 TB HDD (24/7, JBOD) und 1x 10 GB Netzwerk CAT 7 (Intel X540‐T1)
  • 10 Workerknoten, jeder mit 4 AMD 6378 CPUs a 16 Cores @ 2,4 Ghz, 512 GB RAM, 24 * 2 TB Platten (70% HDFS, 30% LFS), 128 GB System SSD, 10 GBIT Netzwerkkarten
Hauptspeicherdatenbanken (Shared Memory)
    • SUSE Enterprise OS
    • Dell R920, u.a. geeignet für SAP HANA,  Exasol Solution oder MonetDB
    • 4x Intel XEON E7 4890 v2 15 Cores
    • 1024 GB RAM
    • 12x 900 GB SAS 10k 2,5 Zoll
    • 1x 10 GB Netzwerk CAT 7 (Intel X540‐T1)
    • Redundante Stromversorgung
    • Remote Verwaltung iDRAC Enterprise
    GPU based Deep Learning
    • CentOS
    • 4x NVIDIA K80 Karten
    • 64 GB Hauptspeicher
    • 2x INTEL XEON CORES

    Die Komponenten für Shared Memory und Shared Nothing können untereinander, beispielsweise über das HDFS, Daten austauschen. Dadurch erlaubt die Infrastruktur insbesondere auch die Erforschung von hybriden Szenarien in den  Massendaten, vergleichsweise preiswert, auf dem HDFS vorverarbeitet werden, und der Benutzer zeitnah sehr große Samples in einer Hauptspeicherdatenbank interaktiv analysieren kann. 

     

    Stand: 11.01.17Seite ausdrucken Zum Seitenanfang