SYSTRAN - Neuronale Netzwerke: die Zukunft der Übersetzung
Seit der Gründung 1968 durch den ungarischen Linguisten Dr. Peter Toma hat SYSTRAN enorm zur Geschichte der maschinellen Übersetzung beigetragen. Egal ob Mainframe Plattformen für US Air Force, Europäische Union und NASA oder die ersten Übersetzersetzungsprogramme der Internetportale Babelfish, Google und Yahoo: Sie alle nutzten SYSTRAN Technologie. Das Unternehmen, das 2014 durch die koreanische Firma CSLi übernommen wurde, hat heute den Großteil seiner F&E in Paris.
Dort wurde auch das neuste revolutionäre Übersetzungssystem entwickelt. Es funktioniert mit neuronalen Netzwerken und arbeitet mit bisher unerreichter Rechenleistung dank moderner GPU-Server.
Was ist SYSTRAN? SYSTRAN ist einer der am besten etablierten Anbieter maschineller Übersetzung und wurde 2014 von dem koreanischen Unternehmen CSLi übernommen, das den Namen zu SYSTRAN International änderte. Der Hauptsitz ist heute in Seoul, zwei weitere Niederlassungen befinden sich zusätzlich in Paris und San Diego. Die Filiale in Paris beherbergt auch den Bereich Forschung und Entwicklung des Unternehmens. SYSTRAN beschäftigt an seinen drei Standorten zurzeit 200 Angestellte, darunter 100 Linguistikexperten und Entwickler in F&E. Die maschinellen Übersetzungen von SYSTRAN ermöglichen es internationalen Unternehmen, ihre mehrsprachige Kommunikation und somit auch die Produktivität in zahlreichen Bereichen zu verbessern. Am häufigsten werden diese automatischen Übersetzungslösungen zur internen Zusammenarbeit verwendet, sowie für Verwaltung und Auswertung von Big Data, eDiscovery (d.h. bei der Beweisfindung von elektronisch gespeicherten Dokumenten als Teil rechtlicher Ermittlungen), Content Management, Support und E-Commerce.
Mit über 140 möglichen Sprachenpaaren ist SYSTRAN die ideale Übersetzungstechnologie für multinationale Unternehmen, Verteidigungs- und Sicherheitsorganisationen sowie Übersetzungsagenturen. SYSTRAN kann einfach und schnell an bestimmte Fachbereiche und Terminologien angepasst werden, beispielsweise für Übersetzungen aus den Bereichen Maschinenbau, Recht, Fertigungstechnik, IT u.v.m.
Neuer OVH Partner: SYSTRAN - eine Erfolgsgeschichte großer Innovationen in der maschinellen Übersetzung[/caption] Wie sehen Ihre Übersetzungslösungen nun genau aus? SYSTRANs Lösungen bieten Fachleuten effiziente und zuverlässige mehrsprachige Kommunikationstools, die ideal an ihre Bedürfnisse und Ihre Arbeitsumgebung angepasst sind. Unser Hauptprodukt, die SYSTRAN Enterprise Server (SES), macht es möglich überall und egal zu welcher Zeit über ein Webinterface auf unsere Übersetzungssysteme zuzugreifen. Das Interface beinhaltet dabei zusätzlich auch Verwaltungsoptionen für die Plattform der Kunden.
Die Plattform selbst kann sowohl von uns in der Cloud (speziell bei OVH) gehostet als auch direkt in der IT-Umgebung des Kunden eingerichtet werden. In beiden Fällen sind Datensicherheit, die Achtung geistigen Eigentums und der Schutz persönlicher Daten für uns von größter Bedeutung. Viele unserer größeren Kunden haben sich für SYSTRAN entschieden, um vertrauliche Daten zu schützen. So haben beispielsweise die Angestellten eines Unternehmens gar nicht erst die Gelegenheit, Daten unbefugt an Dritte weiterzuleiten. Manche Kunden haben besondere Bedürfnisse, die über unsere Universallösungen hinausgehen. Deshalb haben wir eine API entwickelt, welche die Entwicklung ideal angepasster Software ermöglicht, die dennoch von den SYSTRAN Technologien profitiert (wie beispielsweise bei der Integration der Übersetzungskomponente in ein CRM Tool). Außerdem wird unsere API auch als SaaS angeboten. So können Kunden, deren Übersetzungsprojekte teilweise stark im Umfang variieren oder nur schwer einzuschätzen sind, unsere Übersetzungssoftware ihren Bedürfnissen anpassen.
In manchen Fällen wurden die SYSTRAN-Lösungen bereits erfolgreich von uns oder unserem jeweiligen Partner integriert. Nun können die Kunden aus zahlreichen Add-ons, wie z.B. der Kcuras eDiscovery-Option, wählen. Einige Kunden entscheiden sich hingegen dafür, ein komplett neues Produkt auf der SYSTRAN Technologie aufzubauen. Für sie sind unsere Software Development Kits (SDK) genau das Richtige. Darüber hinaus gibt es auch eine Desktop-Version für einzelne Nutzer oder SOHOs. Unsere Professional Services wurden eigens dafür entwickelt, unsere Kunden bei der Einführung und Integration unserer Produkte zu unterstützen. Sie beinhalten unter anderem Training, Change Management, Installationshilfe sowie die Anpassung der Arbeitsumgebung, Terminologie, Sprachenpaare, etc. Unser Produktportfolio und Dienstleistungsangebot ist folglich so breit wie möglich gefächert, damit wir unsere Kunden auf ihrem gesamten Weg zum internationalen Erfolg begleiten können.
So kann zum Beispiel ein typisches SYSTRAN-Projekt auf allen Kontinenten gleichzeitig mit mehr als 40 Sprachenpaaren und über 80,000 Nutzern eingerichtet werden. Wer sind Ihre Kunden? SYSTRANs Angebot spricht natürlich vor allem internationale Unternehmen an und wird sektorenübergreifend genutzt. Unsere Kundschaft umfasst daher kleine und mittelständische Unternehmen sowie Großkunden, sowohl aus dem privaten als auch aus dem öffentlichen Sektor. Um nur ein paar Beispiele zu nennen: Adobe, PSA, Ford, Claas, Boehringer Ingelheim, Lombard Odier, Société Générale, Petit Futé, Symantec, Hewlett Packard Enterprise, Cisco, PwC, Xerox Litigation Services… Insgesamt gibt es recht starke Ähnlichkeiten zwischen den angebotenen Produkten und Technologien auf dem Markt für Übersetzungslösungen. Was ist es, das SYSTRAN von der Konkurrenz abhebt, egal, ob diese nun kostenlos ist oder nicht? Unsere Stärken liegen sowohl bei unseren Produkten als auch bei unseren Dienstleistungen.
Betrachtet man die Produktseite, so investieren wir sehr stark in F&E, um unseren technischen Vorsprung weiterhin zu sichern. Deswegen sind wir auch die ersten, die ein kommerzielles Produkt anbieten, in dem neuronale maschinelle Übersetzung bereits integriert ist, nämlich unsere Pure Neural TM Machine Translation (PNMT™). Außerdem legen wir auch großen Wert auf Qualitätskontrolle durch ein hoch engagiertes Team. Die Fähigkeit, Übersetzungstools ideal an unterschiedliche Bedürfnisse anzupassen und beispielsweise neue Sprachenpaare oder die entsprechende Fachterminologie anzulegen, macht unsere Produkte wesentlich attraktiver als Komplettlösungen, die nicht auf den Bereich und die Infrastruktur des Kunden zugeschnitten sind. Darüber hinaus liegt der Fokus von SYSTRAN stets auf der Datensicherheit. Unsere SES Host-Server befinden sich daher entweder in hochgesicherten Rechenzentren oder werden offline genutzt. Dies macht OVH zum idealen Partner, um unsere anspruchsvollen Sicherheitsstandards zu erfüllen. Was uns ebenfalls von der Konkurrenz und ihren Fertiglösungen abhebt, sind unsere Professional Services. Diese ermöglichen es uns, unsere Kunden bei jedem Schritt zu unterstützen und ihnen maßgeschneiderte Produkte anzubieten. SYSTRAN als erster Anbieter neuronaler Übersetzung mit Pure Neural™ Machine Translation[/caption] Um noch einmal auf neuronale maschinelle Übersetzung zurückzukommen: Wie funktioniert eigentlich PNMT™? Von einem technischen Standpunkt aus betrachtet, ist PNMT™ völlig verschieden von vorangegangenen machinellen Übersetzungsmethoden. PNMT™ basiert auf Deep Neural Networks und funktioniert im Gegensatz zu anderen Methoden ohne spezielle sprachliche Wissensrepräsentation. Dies ist ein enormer Unterschied zur regelbasierten maschinellen Übersetzung, die auf eine Regeldatenbank (beispielsweise mit Wörterbucheinträgen) zugreift, sowie zur statistischen maschinellen Übersetzung, die auf einer Datenbank mit Satzfragmenten beruht.
Genau wie in einem menschlichen Gehirn wird das Sprachwissen in den Verbindungen zwischen künstlichen Neuronen gespeichert. Diese Verbindungen entstehen durch Lernen und Anpassung während der Trainingsphase, also genau wie bei einem Menschen in der Sprachlernphase. Tatsächlich erhält das PNMT™-System einen großen Teil seines Wissens von verschiedenen Datenquellen, die bisherige Übersetzungstechnologien nicht automatisch nutzen konnten. Hierzu gehören zum Beispiel semantische und stilistische Regeln, Genusangaben, die postive oder negative Wertung von Begriffen u.v.m. Welche neuen Möglichkeiten eröffnet uns Ihr System der neuronalen maschinellen Übersetzung? Zum ersten Mal gibt es nun eine Technologie, die Sätze in ihrem Kontext sieht und versteht und sie dadurch mit höherer Qualität übersetzt als die meisten Nicht-Muttersprachler. Diese Technologie wird eines Tages ein notwendiger Sprachassistent für alle sein, die reisen oder sich in einer Fremdsprache verständigen möchten, sei es nun für E-Mails, Chat, wissenschaftliche Arbeiten, ... Außerdem forschen wir auch in dem Bereich zugehöriger Programme wie zum Beispiel Sprachlernsoftware oder mehrsprachige Chatbots.
Irgendwann wird der Benutzer von PNMT™ nicht mehr selbst übersetzen, sondern vielmehr direkt in verschiedenen Sprachen kommunizieren, ohne dabei die Feinheiten der Fremdsprache zu verlieren. Auf diese Weise bleibt die Einzigartigkeit einer jeden Sprache erhalten. Sie können gerne die Qualtität einer generischen neuronalen Übersetzung selbst testen. Unseren Demo Server finden Sie unter https://demo-pnmt.systran.net/. Wenn über machinelles Lernen gesprochen wird, hört man häufig, dass die Qualität der Daten, auf die die Algorithmen für den Lernprozess angewandt werden, mindestens genauso wichtig ist, wie die Qualität der Algorithmen selbst. Sie haben nun verschiedene Textsammlungen (Korpora) zusammengestellt, mit denen Ihr neuronales Übersetzungssystem lernt.
Woher kommen diese Korpora? Der Korpus, den wir verwenden, stammt vor allem aus frei verfügbaren Quellen und entweder von Institutionen (z.B. UN, Europäische Union, Europäische Zentralbank, dem kanadischen Parlament oder Patentbüros) oder von Communities wie OpenSubtitles. Außerdem erstellen wir auch unsere eigenen Korpora für besondere Fachbereiche oder kaufen weitere Korpora von spezialisierten Unternehmen. Und selbstverständlich können unsere Kunden auch ihre eigenen Translation Memories nutzen, um das Übersetzungssystem entsprechend anzupassen.
Welche Infrastruktur nutzen Sie bei OVH, um das neuronale maschinelle Übersetzungssystem zu hosten? Unsere Infrastruktur besteht aus 2 Frontends und mehreren Computing-Nodes (für die Rechenleistung der Übersetzungen). Die Frontends werden auf dem Dedicated Server EG-64-S aus der Infrastructure Reihe gehostet: 64GB RAM, E5-1650v2 CPU, SoftRaid 2x4 TB . Die Compute-Nodes bestehen aus verschiedenen CPU-Servern mit HG Infrastruktur(Intel 2x Xeon E5-2640v3, 16/32t - 2,6 GHz/3,4 GHz, 256 GB RAM, 2x4 TB HD) und GPU-Servern: GPU-4X-1080, 128G 2xE5-2630v3, 240 GB SSD und 4xGTX 1080.
Welche Vorteile bringen GPU-Server für die maschinelle Übersetzung im Gegensatz zu CPU-Servern? GPU-Server ermöglichen eine wesentlich schnellere Übersetzung. Momentan bringen GPU-Server eine dreifach höhere Rechenleistung als solche mit CPU Cores. Der einschränkende Faktor der GPU-Technologie ist das GPU-RAM (im Durchschnitt enthält jeder Server 2 GB GPU-RAM) und dessen Rechenleistung (8,9TFLOPs). Außerdem können dank der GPU-Server Übersetzungsmodelle eingerichtet werden. Diese Modelle verbrauchen nicht nur weniger Speicher, sondern sorgen zusätzlich für eine Verbesserung der Übersetzungsqualität.
Wie stellen Sie sich die Zukunft der machinellen Übersetzung vor? Sind simultan durch Computer übersetzte Gespräche Ihrer Meinung nach immer noch Science Fiction? Unser Ziel ist es, spezialisierte Lösungen auf den Markt zu bringen, die komplett auf unserem Fachwissen im Bereich Linguistik und Language Processing aufbauen. Wir möchten folglich über "einfache" automatische Übersetzung hinausgehen und mehr als nur generische Übersetzungslösungen anbieten. Für Unternehmen bedeutet das konkret, dass ein Language Tool in Zukunft in sämtlichen Prozessen eines internationalen Betriebs integriert sein wird. Das heißt, dass französisch-, englisch- und chinesischsprachige Gesprächsteilnehmer problemlos miteinander kommunizieren können - und zwar jeder in seiner eigenen Sprache. Heutzutage greifen die Übersetzungslösungen erst am Ende des Kommunikationsprozesses, d.h. man merkt beispielsweise erst, nachdem man eine E-Mail von einem chinesischen Geschäftspartner erhalten hat, dass diese E-Mail übersetzt werden muss.
Die Übersetzung ist nicht direkt im Kommunikatoinsprozess integriert und geschieht zum Beispiel erst nach der Erstellung eines Dokuments statt simultan oder gleich während einer Konferenzschaltung oder, wenn man gerade einen Kommentar in einer Fremdsprache verfassen muss usw. Künstliche Intelligenz zusammen mit den von uns entwickelten Algorithmen eröffnen geradezu unbegrenzte Möglichkeiten: Schon bald wird es möglich sein, die gleichen neuronalen Netzwerke für den Fremdsprachenunterricht einzusetzen und Inhalte gleichzeitig in mehreren Sprachen zu verfassen. Man wird zukünftig auch einfach in seiner Muttersprache sprechen können und direkt von anderssprachigen Gesprächspartnern verstanden werden, die über einen mit der Übersetzungssoftware verbundenen Earplug zuhören. All das ist alles andere als bloße Science Fiction und wird vielleicht schon sehr bald zur Realität. Künstliche Intelligenz wird noch viele erstaunliche Neuerungen bringen und unseren Arbeitsalltag bereichern. Dies ist erst der Anfang.