Punktwolken (Point Clouds) sind Repräsentationen für 3-dimensionale Objekte, die ohne großen Verarbeitungsaufwand aufgenommen und direkt auf verschiedenen Geräten dargestellt werden können. Allerdings enthalten Punktwolken in der Regel sehr große Datenmengen. Um sie dennoch zu streamen, wird intensiv an Kompressionstechniken für statische und dynamische Punktwolken geforscht.
Einen Lösungsansatz bietet Video-based Point Cloud Coding (V-PCC). Dieser MPEG-Standard verwendet etablierte Video-Codecs und ermöglicht hohe Kompressionsraten für dynamische Punktwolken, indem 2-dimensionale Projektionen einer Punktwolke zu Video-Frames umgerechnet werden. Dieses aufwändige Kompressionssverfahren hat jedoch den Nachteil, dass die Kompression sehr lange dauert. Eine dynamische Anpassung von Qualität und Größe der Punktwolken an die unterschiedlichen Netzwerk-Bedingung der Endnutzer ist damit nicht praktikabel.
Die paluno-Arbeitsgruppen Networks and Communication Systems und Human Computer Interaction haben nun eine Methode entwickelt, mit der sich sehr schnell verschiedene Repräsentation einer mit V-PCC komprimierten Punktwolke in geringerer Qualität und Größe erzeugen lassen. Dabei werden die zugrundeliegenden Video-Streams der komprimierten Punktwolke direkt neu codiert, ohne den Umweg über eine Rekonstruktion der 3D-Repräsentation zu gehen. So kann ein aufwändiges Pre- und Post-Processing beim Encodieren und Decodieren umgangen werden und es entstehen nur geringe Latenzen. Eine Punktwolke lässt sich damit live in einem Streaming-Szenario transcodieren. Zusätzlich ist die Qualität der transcodierten Punktwolke besser im Vergleich zum bloßen Transcodieren mit V-PCC.
Michael Rudolph hat die neue Methode im Juni auf der ACM Multimedia Systems Conference in Vancouver vorgestellt, wo sie mit dem Best Paper Award ausgezeichnet wurde. Die Proceedings sind in der ACM Digital Library verfügbar.
Abstract
Michael Rudolph, Stefan Schneegass, and Amr Rizk: RABBIT: Live Transcoding of V-PCC Point Cloud Streams. In: Proceedings of ACM Multimedia Systems (MMSys ’23). ACM, New York, NY, USA 2023.
Point clouds are a mature representation format for volumetric objects in 6 degrees-of-freedom multimedia streaming. To handle the massive size of point cloud data for visually satisfying immersive media, MPEG standardized Video-based Point Cloud Compression (V-PCC), leveraging existing video codecs to achieve high compression ratios. A major challenge of V-PCC is the high encoding latency, which results in fallback solutions that exchange the compression ratio for faster point cloud codecs. This encoding effort rises significantly in adaptive streaming systems, where heterogeneous user requirements translate into a set of quality representations of the media.
In this paper, we show that given one high quality media representation we can achieve live transcoding of video-based compressed point clouds to serve heterogeneous user quality requirements in real time. This stands in contrast to the slow, baseline transcoding that reconstructs and re-encodes the raw point cloud at a new quality setting. To address the high latency when employing the decoder-encoder stack of V-PCC during trans-coding, we propose RABBIT, a novel technique that only re-encodes the underlying video sub-streams. This eliminates the overhead of the baseline decoding-encoding approach and decreases the latency further by applying optimized video codecs. We perform extensive evaluation of RABBIT in combination with different video codecs, showing on-par quality with the baseline V-PCC transcoding. Using a hardware-accelerated video codec we demonstrate live transcoding performance of RABBIT and finally present a trade-off between rate, distortion and transcoding latency.
Kontakt
Name | Kontakt |
---|---|
Networks and Communication Systems (NCS) | +49-201-183-7835 michael.rudolph@uni-due.de |
Networks and Communication Systems (NCS) | +49-201-183-4651 amr.rizk@uni-due.de |
Human Computer Interaction (HCI) | +49-201-183-4251 stefan.schneegass@uni-due.de |