4年後には、全インターネットトラフィックの8割を超えると言われている動画データ。ネット経由での動画視聴が普及するのに伴い、動画データのファイルサイズの肥大化が深刻になってきています。この問題を解決するための手法として注目されている技術「トランスコード」について、シリーズでお届けしています。
3回目となる今回は、実際に当社CRIで取り組んでいるトランスコード技術開発について、詳しくご紹介したいと思います。
トランスコードについて、より体系的に理解を深めたいという方は「その1」「その2」にもお目通しされることをオススメします。記事へは、以下のリンクからどうぞ。
意外と知らない!?「トランスコード」でビジネスを成功に導く秘訣とは?(その1)
http://www.gamebusiness.jp/article/2015/11/20/11639.html
意外と知らない!?「トランスコード」でビジネスを成功に導く秘訣とは?(その2)
http://www.gamebusiness.jp/article/2015/12/04/11691.html
それでは「ありがとう、ブラックボックス」略して「ありブラ」、今週もスタートです!ぜひリラックスしてお楽しみ頂ければと思います。
ゲームで培われた「画質探求」ノウハウ
前回までの記事でもお伝えしましたが、「画質」と「ファイルサイズ」はトレードオフの関係にあると思われがちですが、不可逆圧縮たる動画エンコード手法を徹底的にこだわることで、品質を高度に保ったままファイルサイズを大幅に縮小することが可能です。
また再生する端末が「プロファイル」や「レベル」などによって更に細かいサブ規格を決めており、その範囲のなかで最大限に工夫をし、再生端末ごとに最適なものを選択することが大事です。
とはいえ、こうしたパラメータの調整には高度な専門知識はもちろん、画質を細かく比較し確認するための評価手法を体得している必要があります。なにより、素材に応じた最適解を導き出すためには、数多くの素材と接し試行錯誤の蓄積で得られた「ノウハウ」が不可欠といっても過言ではありません。
CRIの動画に関する研究開発歴はとても長く、CDやDVDなどの光ディスクメディアを搭載した家庭用ゲーム機の誕生とともに、ずっと継続して動画再生のための技術をミドルウェアとして提供してきました。
「CRI Sofdec(現在の CRI Sofdec 2)」という名称で、オリジナルコーデックを開発し、再生用のランタイムとエンコード用のツールをセットでゲーム会社に提供してきました。オリジナルコーデックである「Sofdec.Prime」は現在でも各種ゲーム機やスマートフォンのネイティブアプリなどでご活用頂いています。こうした動画再生システムの提供とサポートを通じて、動画エンコードのノウハウも蓄積されていきました。
実はあまり知られていませんが、セガサターンやドリームキャスト、PlayStation2といったゲーム機の頃から、CRIでは「動画のエンコード業務」そのものの請け負いも行っていたのです。ゲームクリエイターの「画質」に対するこだわりはとても強く、エンコード成果そのものの良し悪しが、Sofdecというミドルウェアの採否に直結するというケースも少なくありません。ミドルウェアに同梱されているツールを使えばお客様ご自身でエンコードはもちろん可能です。それでも、いわば “究極の画質” を求められるお客様からの注文が絶えませんでした。
そうした「見る目の厳しい」ゲームクリエイターの方々に鍛えて頂いたおかげで、画質を追い込む技術力やノウハウ、画質評価のための手法、再生システム側へのフィードバック、そしてなにより「ノイズや画像劣化を正しく見極め、分析するための “眼力”」が養われてきました。(…と、手前味噌な内容をこうして書くのはちょっと照れくさいですが…でも本当です!)
こうした動画エンコードのためのノウハウは、オリジナルコーデックだけではなく、H.264などの汎用コーデックにも十分に応用可能です。
今やゲームは、大画面のTVモニターから携帯型ゲーム機、そしてモバイルまで多岐にわたります。それぞれの端末特性を考慮した動画エンコードのノウハウが、VODなどのゲーム以外の領域でも活きてくるわけです。
そこで、昨今のネット動画市場の急速な盛り上がりという背景もあり、CRIの保有する、こうした動画エンコードのノウハウをシステム化し、汎用コーデック向けにもゲーム以外の領域にも提供していこう、ということになったわけです。

トランスコードはエンコードに勝てない、は嘘!?
ところで、動画の圧縮に関しては「(すでに圧縮された動画ファイルを)トランスコードするよりも(非圧縮素材ファイルから)エンコードするほうが綺麗である」という説が根強く存在します。いわば、トランスコード不要論というか何というか…。
理想論としては、確かに、非圧縮素材からエンコードを行うに越したことはなく、その点でこの説は一理あるのですが、実際にはあまり現実的ではありません。
「よっぽど酷いノイズが乗っている映像でないかぎり、もはやトランスコードであってもエンコードとの画質の違いは一般的な人間の目には分かりません。」
当社CRIで、トランスコード技術の開発責任者を務める 平瀬 グループ長は断言します。
「解像度の増大によって、そもそも非圧縮素材そのもののデータサイズがあまりにも肥大化しているため、HDDなどのストレージに保持するのためのコストが嵩んでしまいます。実際、非圧縮AVIや連番BMP/PNGといった元素材を保有しているお客様そのものが少なくなってきている印象です。」
「4K解像度で60fpsの素材となると、1秒あたり1.41GBものデータサイズになります。たった1分でも84GBですし、1時間なら約5TBにもなってしまいますからね。将来16Kの動画が出てくると1TBで31秒しか保存できません。とても長期間にわたり保持することができるサイズではありません。」
高解像度化と動画コンテンツの長尺化という事情は、動画コンテンツソースの保有形態にも影響してきている、というわけですね。元素材エンコードとトランスコードを単純に比較することがナンセンスだということも分かってきました。
今後ますます進んでいく動画コンテンツの利活用。動画コンテンツが増えていけばいくほど、トランスコードはますます重要な役割を果たすことになりそうです。

常識を疑え!「画質と圧縮率は両立できる」
話をCRIのトランスコード技術に戻します。
ここからは、CRIのトランスコード技術を紹介する際に使用している資料を抜粋しながら、どんな技術かを詳しく紹介していきたいと思います。

映像を圧縮するための統合環境として、まだ仮称ですが「CRIトランスコーダー(仮)」という名称で事業展開しています。
最大の特長は、なんといっても「画像を劣化させずに」「動画の容量を3~5割削減」できるという点。
データサイズを削減できれば、当然、コスト削減も可能になります。

なんで、そんなに圧縮できるの?
圧縮率にずいぶん幅があるのはなぜ?
そんな素朴な疑問にお答えすべく、読者のみなさんを代表(?)して、「CRIトランスコーダー(仮)」の開発責任者を務める、先ほどの 平瀬 グループ長に聞いてみました。
※社内取材のため、通常よりも少しフランクなやりとりになっていますが、ご容赦下さい。
---
幅朝徳(以下、幅):オリジナルコーデックならともかく、H.264のようなオープン規格であっても、画質を維持しながらデータを削減できるのはなぜですか?
平瀬:いきなり核心を突く質問ですね、えーと、ずばり、企業秘密です(笑)。
幅:むむっ、、、そこをなんとか…(汗)。
平瀬:冗談です(笑)。もちろん、技術の一番の核心部分については詳らかにはお伝えしにくいのですが、どういう点に着目してトランスコード処理を行っているかどうかはできるかぎりお伝えしたいと思います。
幅:やった!(笑)
平瀬:ご存知のように、動画というのは連続する静止画で成り立っています。
幅:パラパラ漫画がアニメーションに見えるのも同じ原理ですよね?
平瀬:えっ、まぁ、ええ(えっ、そこから…汗)。トランスコードで圧縮率を高めるためには、さまざまな予測手法を用います。類似点を探していくわけです。
幅:類似点、ですか?
平瀬:そうです。少し専門的な話になりますが、イントラ予測とインター予測という手法があります。このどちらも行うのがトランスコードです。
幅:どんな手法なんでしょうか?
平瀬:先ほど、動画は連続する静止画だとお伝えしました。トランスコードでは、まず、それぞれの1枚の静止画のなかでも類似点を探す処理を行いますが、これをイントラ予測といいます。
幅:近くの画素情報を使って圧縮する処理ですね?
平瀬:そうです。次に、インター予測を行います。連続する静止画には、必ず前後に類似する部分が存在しますから、そうした部分を活用することでデータサイズを減らしていく手法です。
幅:前後のフレームの画素情報を使って圧縮するわけですね?
平瀬:そのとおりです。インター予測では、前後のフレーム参照によって生成する画像と、参照を行わない画像(Iフレーム)が存在します。このIフレームは前後のフレーム参照を行わない画像になるので、当然データサイズに大きく影響します。
幅:なるほど、では、あまりIフレームは増やさないほうが良いのでしょうか?
平瀬:一概にそうは言えません。Iフレームは前後の画像を生成するための重要な参照元になる画像なので、あまり減らしすぎると参照元が不足して復元の難しい画像が増え、結果的に劣化が目立ってしまいます。
幅:多すぎるとデータサイズに響くし、少なすぎると画質に影響するというわけですね。
平瀬:そのとおりです。このIフレームをどれくらいの間隔で挿入していくかが重要なポイントになります。
幅:ふむふむ…
平瀬:ちなみに、このIフレームは必ずしも一定周期ごとに入れる必要はないんです。
幅:と言いますと?
平瀬:つまり、シーンの切り替わりのタイミングなどに同期してIフレームを挿入すると効果的なんです。
幅:そのためには、動画内のシーンを分析する必要がありますね。
平瀬:そのとおりです。
幅:ちなみに、Iフレームと他のフレームとは、どれくらいサイズに違いがあるんですか?
平瀬:ケース・バイ・ケースですが、十数倍の違いがあります。
幅:それは大きいですね。ちなみに、Iフレームの「I」ってどういう意味ですか?
平瀬:「イントラ(画面内)」という意味で、先ほどのイントラ予測だけを使って圧縮しているフレームです。他には「Pフレーム」と「Bフレーム」があり、Pは「プレディクティブ(予測)」、Bが「バイ・プレディクティブ(双予測)」のことです。
幅:いろいろなフレームがあるんですね。
平瀬:詳説は省きますが、こうした予測特性や圧縮技法を熟知したうえで、動画素材やシーンに応じた最適化を行うことで、これまでは不可能だと思われていた「画質と圧縮率の両立」を実現しているのがCRIトランスコーダーというわけです。
幅:画質と圧縮率の両立、という言葉がありましたが、実際、どれくらい圧縮できますか?
平瀬:紹介資料にもあるとおり、3~5割です。一般的に動画の圧縮というと、画像劣化を前提としてデータサイズを削減しますが、CRIトランスコーダーでは画質を維持したまま圧縮することができます。
幅:圧縮率にずいぶん幅がありますが・・・
平瀬:はい、そこはやはり、映像素材の内容に依存します。たとえば、監視カメラやドライブレコーダーなどのシンプルな映像であれば、圧縮が効きやすいです。
幅:なるほど、監視カメラのような固定視点からの映像であれば、圧縮はしやすそうですね。ドライブレコーダーも視点や進む方向はほぼ一定ですし、しかも前後の予測がしやすいですよね。逆に、圧縮が効きにくいケースは?
平瀬:動きに不規則性が強い素材、たとえば水しぶきや花火などの比較的細かな粒子などが映っている場合は、圧縮の難易度が高くなります。正確に表現すると、こうした素材の圧縮率を高めていくと、人間がその画像劣化を知覚しやすい状態になるというわけです。
幅:対応している入出力ファイルにはどんなものがありますか?
平瀬:現状では、入力ファイルとして、「AVI」「Y4M」「連番静止画ファイル群」「MOV」「MPG」「MP4」「MPEG-2 TS」をサポートしています。また出力ファイルは、「MPEG-2 TS (H.264 + AAC)」「MP4 (H.264 + AAC)」「H.264 (Baseline, Main, High プロファイル)」に対応しています。

幅:今後、サポートを拡張したいファイルフォーマットにはどんなものがありますか?
平瀬:そうですね、いろいろお客様からのニーズに合わせて検討したいとおもいますが、出力ファイルとしては「HLS」などのビデオ配信向けのファイルや、今後のトレンドになる「H.264/HEVC」もサポート対象にしたいと考えています。
---
次号(その4)では、実際に、CRIトランスコーダーで圧縮された動画のサンプル素材をお見せしながら性能面について迫っていきます。また、気になる「自動画質評価サービス」についてもご紹介する予定です。トランスコード特集は、まだまだ続きますよ(次々回になりますが、その5では、トランスコードを活用したビジネスアイディアやビジネスメリットについてお伝えする予定です)。
それでは、また次回の更新でお会いしましょう!
【ありブラ公式facebook】
最新記事の更新情報や、記事には書けなかったウラ話、はみだしコラムなど、『ありブラ』に関する情報を随時更新中。ページに「いいね!」をして頂くだけで、つねに最新の情報をアナタのfacebookのタイムラインにお届けします!
http://crimw.me/fb-aribla
【ありブラ公式twitter】
@hirabla
http://crimw.me/tw-aribla
読者の方からのご意見ご感想やご質問なども大歓迎です。以下のコンタクトフォームからどうぞ。なるべく多くの方のご意見に誠意をもってお返事したいと思っております。
https://www.iid.co.jp/contact/media_contact.html
幅朝徳(はば とものり)
株式会社CRI・ミドルウェア 商品戦略室 室長、CRIWAREエヴァンジェリスト。学習院大学卒業後、CRIの前身である株式会社CSK総合研究所に入社。ゲームプランニングやマーケティング業務を経て、現CRIのミドルウェア事業立ち上げに創業期から参画。セガサターンやドリームキャストをきっかけに産声を上げたミドルウェア技術を、任天堂・ソニー・マイクロソフトが展開するすべての家庭用ゲーム機に展開。その後、モバイル事業の責任者として初代iPhone発売当時からミドルウェアのスマートフォン対応を積極推進。ゲーム企業とのコラボでミドルウェアの特性を活かしたアプリのプロデュース等も行う。近年は、ゲームで培った技術やノウハウの異業種展開として、メガファーマと呼ばれる大手製薬会社のMR(医療情報担当者)向けのiPadを使ったSFAシステムを開発、製薬業界シェアNo.1を獲得しゲーミフィケーションやゲームニクスの事業化を手掛ける。ますます本格化するスマホゲームのリッチ化を支援するためにモバイルゲーム開発者におけるミドルウェア技術の認知向上のためエヴァンジェリストとしての活動に注力中。最近は、ウェアラブルやIoTといった領域での新規の事業開拓や未来のサービス開発を担当、業界の枠組みを超えた協業、世の中にとって全く新しい付加価値の実現のために日々奮闘中。
趣味は、クロースアップマジックと陶芸、映画鑑賞とドライブ、鳥類/フクロモモンガ/爬虫類の飼育、そしてもちろん、ゲーム。デジタルガジェット大好きなギーク。
幅朝徳Facebook
http://www.facebook.com/tomonori.haba
幅朝徳Twitter
http://twitter.com/havahava 《幅朝徳》

趣味は、クロースアップマジックと陶芸、映画鑑賞とドライブ、鳥類/フクロモモンガ/爬虫類の飼育、そしてもちろん、ゲーム。デジタルガジェット大好きなギーク。
幅朝徳Facebook
http://www.facebook.com/tomonori.haba
幅朝徳Twitter
http://twitter.com/havahava 《幅朝徳》
この記事の感想は?