Mobilprozessoren: ARM bringt neue CPU- und GPU-Kerne für High-End-Smartphones

Qualcomm und Co. können ab sofort Custom-Kerne von ARM entwickeln lassen: Der Cortex-X1 stellt den ersten davon dar und bringt merklich mehr Leistung.

by

Chipentwickler ARM stellt eine Reihe neuer Rechenkerne vor, die Hersteller für kommende Systems-on-Chip (SoCs) lizenzieren können – unter anderem Huawei (HiSilicon), Qualcomm (Snapdragon) und Samsung (Exynos) gehören zu ARMs Kunden. CPU-seitig bietet der Chipentwickler den Cortex-A78 als Nachfolger des Cortex-A77 an, zudem entwickelt ARM jetzt auch Custom-Kerne wie den Cortex-X1. Die Mali-G78-Grafikeinheit bringt mehr 3D-Leistung als die bisherige Mali-G77.

Der CPU-Kern Cortex-A78 soll bei gleicher Leistungsaufnahme 20 Prozent mehr kontinuierliche Leistung liefern beziehungsweise bei gleicher Performance 33 bis 50 Prozent sparsamer arbeiten als der Cortex-A77. Dabei profitiert der Cortex-A78 insbesondere durch einen Fertigungswechsel: ARM erwartet, dass entsprechende Smartphone-Prozessoren mit Strukturen von 5 Nanometern entstehen. TSMCs 5-nm-Prozess („N5“) etwa bringt gegenüber 7 nm („N7“) 15 Prozent mehr Leistung durch Taktsteigerung oder eine 30 Prozent niedrigere Leistungsaufnahme.

https://www.heise.de/imgs/18/2/9/0/1/2/4/4/A78_blog_image2-4e0eb4f086f85d5c.JPG
Der Cortex-A78-Kern soll deutlich effizienter laufen als der Cortex-A77 – ein Großteiler der Verbesserung kommt jedoch vom 5-nm-Prozess.(Bild: ARM)

IPC-Zuwachs mit Detailverbesserungen

Eine ARM-Grafik vergleich den Cortex-A78 mit dem Cortex-A77: Bei gleicher Leistungsaufnahme schafft der neue CPU-Kern 3,0 statt 2,6 GHz (+ 15 Prozent), bei gleicher Performance benötigt er nur noch 2,1 statt 2,3 GHz – die Leistung pro Takt (Instructions per Cycle, IPC) steigt folglich um knapp 10 Prozent.

ARM verwendet grundsätzlich die gleiche CPU-Architektur weiter, nimmt aber Detailverbesserungen vor, darunter ein höherer Cache-Durchsatz und eine optimierte Sprungvorhersage. Standardmäßig sieht ARM einen auf 32 KByte halbierten Level-1-Cache vor, um Platz zu sparen. Chiphersteller können aber auch die bisherigen 64 KByte einsetzen.

Custom-Kerne von ARM

ARM entwickelt auf Wunsch von Herstellern hin jetzt auch angepasste CPU-Kerne für mehr Leistung, die allerdings nicht exklusiv lizenziert werden. Bisher hat das Qualcomm etwa über höher getaktete „Prime“-Versionen realisiert. ARM geht beim Cortex-X1 als ersten Ableger einen Schritt weiter: Er ist gegenüber dem Cortex-A78 mit zwei zusätzlichen Gleitkomma-Pipelines breiter gebaut, dekodiert fünf statt vier Instruktionen pro Takt, zudem weist der Micro-Operation-Cache einen 33 Prozent höheren Durchsatz auf. Der L1-Cache ist wieder fest 64 KByte groß, zudem wächst der L2-Cache von 512 KByte auf 1 MByte. Den mit anderen CPU-Kernen geteilten L3-Cache können Hersteller auf 8 MByte verdoppeln.

Solch ein Custom-Kern soll vor allem die Peak-Performance für kurzfristige Lastspitzen erhöhen – ARM nennt eine 22-prozentige Verbesserung gegenüber dem Cortex-A78. Das geht allerdings zulasten der Chipfläche: Ein Cortex-X1-Kern fällt 50 Prozent größer aus als ein Cortex-A78. Ein komplettes Cluster aus einem Cortex-X1, drei Cortex-A78 und vier Cortex-A55 mit 8 MByte L3-Cache benötigt 15 Prozent mehr Platz als je vier Cortex-A77 und Cortex-A55 samt 4 MByte L3-Cache.

https://www.heise.de/imgs/18/2/9/0/1/2/4/4/CXC_blog_image3-83a55544c4145f93.JPG
ARM sieht einen einzelnen Cortex-X1 im CPU-Cluster vor, der sich um Lastspitzen kümmert. Die relativen Performance-Angaben beziehen sich auf den Cortex-A77.(Bild: ARM)

Mali-G78-Grafikeinheit

Zusammen mit den neuen CPU-Kernen stellt ARM die Grafikeinheit Mali-G78 vor, die pro Quadratmillimeter Chipfläche 15 Prozent mehr 3D-Leistung bringen soll als die bisherige Mali-G77. Gleichzeitig steigt die Effizienz um 10 Prozent. Dafür spendiert ARM den Shader-Kernen eine von der restlichen GPU getrennte Taktdomäne, um diese bei Bedarf mit niedriger Taktfrequenz und folglich weniger Spannung betreiben zu können. Die Fused-Multiply-Add-Einheit innerhalb der Shader-Kerne hat ARM für eine 30-prozentige Effizienzsteigerung neu aufgebaut, zudem soll der Cache effizienter genutzt werden.

Hersteller können die Mali-G78-GPU mit maximal 24 statt wie bisher 16 Shader-Clustern verbauen, um die absolute Leistung zu steigern. Für günstigere Smartphones lassen sich bis zu sechs Shader-Cluster als Mali-G68 einsetzen.

(mma)