この記事は2020年アドベントカレンダー2日目の記事です。
宣伝
こんにちは、りょはです。
この前ゲーム用のリモートデスクトップアプリを作ったのでぜひ使ってみてください。
美少女ゲームやターン制のゲームが非常にやりやすい自信作です。
使い方とか諸々は以下を参照してください。
WebM(Matroska), MediaRecorderについて
本編の始まりです。
導入
MediaRecorderの使い方
WebM(Matroska)について
メタ情報の追加
codecsについて(おまけ)
最後に
導入
MediaRecorderはMediaStreamをキャプチャーして簡単に動画として保存できるWebAPIです。
MediaStreamはgetUserMediaとかで取得できるメディアコンテンツのストリームです。
ストリームは動画や音声をtrackとして含んでいて、これをWebRTCに流し込むことで相手に動画を送ることができます。
MediaRecorderのユースケースとしては、Web会議の録画やブラウザから投稿するtiktok的な何かとかがですかね。
上で宣伝したアプリでも使っていて、Nintendo switchみたいな直前のプレイを切り抜いて保存できる機能で使用しました。
この記事の本題は、MediaRecorderで作っている動画が常につけたされ続けているライブストリーム形式であることから生じる問題をffmpegとかを使わずに解決しようという内容です。
デモサイトを用意しているので適宜参考にしてください。
https://victorious-mud-0d7cb7b00.azurestaticapps.net/
コードはこっちです。
https://github.com/ryoha000/media-recorder-sample
MediaRecorderの使い方
なんかいろいろできそうで面白そうなMediaRecorderですが、使い方は簡単です。
// MediaStream を取得
const stream = await navigator.mediaDevices.getUserMedia({ audio: false, video: true })
// 録画した動画をためておく配列
const chunks: Blob[] = []
// MediaRecorder を作成
const recorder = new MediaRecorder(stream)
// 録画開始
recorder.start(1000)
// 上で指定したms間隔でイベントが発火
recorder.ondataavailable = e => {
// 録画したデータを収納
chunks.push(e.data)
}
みたいな感じで使えます。
集めたBlobはvideo
タグのsrc
に指定することで再生でき、webmとしてダウンロードできます
詳しくはMDNを見てください。。
https://developer.mozilla.org/ja/docs/Web/API/MediaRecorder
WebM(Matroska)について
WebMについて
先ほどWebMの話が出てきましたがWebMは動画フォーマットの一種です。
詳しい説明はWikipediaとかを見てほしいですが、ロイヤリティーフリーでオープン、なおかついろんなブラウザで再生できるのでなんかナウいですね。
codecは映像にVP8・VP9・AV1、音声にVorbis・Opusが使えます。
この記事で一番大事なのはWebMはメディアコンテナとしてMatroskaのサブセットを採用していることです。(MediaRecorderのcodecについてはおまけで触れます)
https://ja.wikipedia.org/wiki/WebM
Matroskaの概要
Matroskaはマルチメディアコンテナフォーマットでcodecとかはなんかめっちゃいろいろなやつに対応しています。
対応してるものが多すぎてMatroskaってわかってるだけでは中身を読まないとプレイヤー側が再生できるかどうかわかんないので、WebMはサブセット(部分集合)としてMatroskaを採用しているんだと思います。(妄想)
Matroskaのデータの保持方法はXMLに非常に似ています。
このフォーマットをEBMLといいます。
ビジュアライズすると以下みたいな感じですね。
<EBML>
<EBMLVersion />
<EBMLReadVersion />
<EBMLMaxIDLength />
<EBMLMaxSizeLength />
<DocType />
<DocTypeVersion />
<DocTypeReadVersion />
</EBML>
<Segment>
<Info>
<TimecodeScale />
<MuxingApp />
<WritingApp />
</Info>
<Tracks>
<TrackEntry>
<TrackNumber />
<TrackUID />
<TrackType />
<CodecID />
<Video>
<PixelWidth />
<PixelHeight />
</Video>
</TrackEntry>
</Tracks>
<Cluster>
<Timecode />
<SimpleBlock />
<SimpleBlock />
...
Matroskaの具体的な表現方法
先ほどXMLのような形式で保持していると書きましたがstringみたいな形で持っているわけではありません。
{{タグ名}}{{後ろのデータ部分のサイズ(byte)}}{{データ}}
みたいな形式でもっています。
データのところは子タグだったり整数、浮動小数点数、バイナリ等が入ったりします。
最初にサイズは1byteと決めてしまっていると255byteが上限になって、サイズがめっちゃでかいと入らなくなって困りますよね?
大きくしすぎても無駄が多くなるしどうしようってなります。
これを解消するためにサイズ部分はVINTという方法でエンコードしています。
方式としてはサイズ部分で最初にbitが立っているindex(1index)と同じだけのbyte数をサイズ部分として確保しているという仕様です。
その立ったbitより後ろの部分がbig endianでサイズの数字になっています。
10000001 => size部分は1byteでdataは 0000001 → 1byte
01001000 11000111 => size部分は2byteでdataは 00100011000111 → 2247byte
みたいな感じですね。
メタ情報の追加
Duration
デモサイトのshow initial webm
ボタンを押してみて下さい。
すると録画されていた動画が流れるんですが見てみてください。
シークできないですよね?
今度はshow webm eblm
を押してみてください。
何も手を入れていない状態のタグの構造が表示されます。
シークできる動画にはあるDuration
タグがないのが原因なんですが、考えてみれば当然でこの録画はいつ終わるかわかりませんよね?
なのでDuration(動画時間)がないんですがシークするための解決方法は2つあります。
まず一つは裏技的な方法としてvideo
タグについてるcurrentTime
プロパティをめっちゃ大きくすることです。
これの欠点はちょっとカッコ悪いことと長い動画だと時間がかかることですね。
currentTime
にめっちゃでかい値を指定するのはデモサイトのplay video with big current time
ボタンを押してみてください。
もう一つの解決方法はシンプルです。Duration
タグがないなら足したらいいんですね。
デモサイトのplay video with correct duration
ボタンを押してみてください。
Duration
タグを挿入した後がこれです。
ではDuration
タグを挿入するために総動画時間を求めてみましょう。
MediaRecorderでは動画のフレームをSimpleBlock
タグ内で保存しています。
そのSimpleBlock
タグは親にCluster
タグを持っています、。
SimpleBlock
の中にはその親Cluster
内での相対時間があります。
じゃあ動画全体における絶対時間をCluster
タグはどこに持っているかというと、子のTimestamp
タグ内に置いてあります。
それならこれらを足していけばいいですね。
この時間の単位はTimecodeScale
タグで決めてて、最大精度はナノ秒でデフォルトではミリ秒です。
抜粋コードです。
// dataにはタグの配列が入ってる
for (const tag of data) {
// 使ってるparserが古いので名前が違う(タグのIDは同じだから問題はない)
if (tag.name === 'Timecode') {
baseTimecode = tag.value ?? 0
}
if (tag.name === 'SimpleBlock') {
const block: SimpleBlock = ebmlBlock(tag.data)
const t = baseTimecode + block.timecode
// MediaRecorderではないけど仕様上はBlockの並びは時間にソートされてなくてもいい
if (duration < t) {
duration = t
}
}
}
あとはタグを入れたらいいですね。
公式ドキュメントを読むとDuration
タグはInfo
タグ内に置くものらしいです。
注意が必要なことは二つあります。
一つはInfo
タグ内の最初の子要素は、先ほど時間の制度を決めてると言ったTimecodeScale
タグじゃないといけないんですね。
もう一つは親タグであるInfo
タグのサイズ部分を変更しなきゃいけないことです。
おいおいちょっとまってくれ、Info
はさらに親タグを持っているじゃないかとなるんですが、MediaRecorder
で構成したSegment
. Cluster
タグはサイズが0x01FFFFFFFFFFFFFF
が指定されています。
これは不定長の予約されているサイズです。
いつ動画が終わるかわからないのでこういうことを指定しています。
あとでサイズは指定しますが今は後回しで。
横道にそれましたが早速TimecodeScale
タグの直後にDuration
タグを入れちゃいましょう。
ドキュメントによるとDuration
タグのIDは0x4489
で、valueは浮動小数点型らしいです。
JavaScriptは実行環境でBig EndianかLittle Endianか変わります。
EBMLではすべてBig Endianなので気を付けましょう。
抜粋コードです。
// getEBMLTagByFloatValue: (tag: number[], duration: number, isLittleEndian: boolean) => EBMLTag
// EBMLTag は `length` プロパティ(そのタグ全体のbyte数) と getNumberArray メソッド(そのタグのnumber[]を返す) を持ちます
const durationTag = getEBMLTagByFloatValue([0x44, 0x89], duration, checkLittleEndian())
const spliceData: SpliceEBMLData[] = []
// まずInfoタグのサイズを変えるデータを入れます
spliceData.push({
// infoにはinfoタグが入っています
start: info.sizeStart,
deleteCount: info.sizeEnd - info.sizeEnd,
// getReplaceSize は子要素に何かを足したときのsize(Uint8Array)を返してくれる関数です。
item: getReplaceSize(prevArr, durationTag.length, info)
})
// Durationタグは上で言った通りtimeCodeScaleタグの後ろに入れます。
spliceData.push({ start: timeCodeScale.dataEnd, deleteCount: 0, item: duration.getNumberArray() })
// spliceEBML(prevArr: Uint8Array, spliceData: SpliceEBMLData[]) => Promise<Uint8Array>
// 挿入するための前までの配列といじるためのデータを渡します。
// 雰囲気はString.prototype.spliceのメソッドじゃなくなって配列になった版です
return await spliceEBML(prevArr, spliceData)
これで無事Duration
タグを挿入できました!
でもシークは遅いしこまこまりんです。
不定長のサイズをちゃんと終わらせる
video
タグに影響があるのかはわかりませんが気持ち悪いので各サイズにちゃんと数字を入れましょう。
サイズが不定なのはCluster
タグとSegment
タグだけです。
Segment
タグのサイズは不定長でサイズ部分が8byteだったのが短くなるのでその辺を注意してください。
抜粋コードです。
let diff = 0
const clusterDatas = data.filter(v => v.name === 'Cluster').map((v, i, arr) => {
let correctSize: Uint8Array
if (0 <= i && i < arr.length - 1) {
// getSize(length: number) => Uint8Array
// VINTエンコードでのUint8Arrayを返してくれる関数です
correctSize = getSize(arr[i + 1].tagStart - v.dataStart)
} else {
// 最後の要素は次の要素がないのですべてのタグの終了場所までをサイズにします
correctSize = getSize(data[data.length - 1].dataEnd - v.dataStart)
}
// IndefiniteSizeLength = 8 // 不定長サイズのbyte数
diff += correctSize.length - IndefiniteSizeLength
return { start: v.sizeStart, deleteCount: IndefiniteSizeLength , item: correctSize }
})
const segment = data.find(v => v.name === 'Segment')
// 上で言ったSegmentのサイズに気を付けようというあれです
const segmentSize = getSize(data[data.length - 1].dataEnd - segment.dataStart + diff)
diff += segmentSize.length - IndefiniteSizeLength
const segmentData = { start: segment.sizeStart, deleteCount: IndefiniteSizeLength , item: segmentSize }
return [segmentData, ...clusterDatas]
あとはこれをspliceEBML()
に入れるだけでDuration
と同じなのでコードは割愛します。
これでちゃんと閉じタグが作られます。
そのほかのメタタグとかを入れちゃう
シークの遅さは長いファイルじゃないと実感がわかないと思うので3時間の動画を用意しました。
デモページのplay 3h only duration
ボタンを押すとDuration
タグだけ挿入した動画が再生されます。
シークが死ぬほど遅いですよね。
今度はplay 3h with many meta data
ボタンを押してみてください。
まぁ耐えれるくらいだと思います。
なんでシークが遅いかというと指定した秒数がどこか判断しなきゃいけないからですね。
これを解決するのがSeek
タグとCuePoint
タグです。
簡単に言うと両方ともあるタグがどこにあるかっていう情報を持っています。
INDEXみたいなものですね。
日本人感覚からすると違和感があるんですが、Seek
タグはSegment
を直接親に持つ2階層目のタグの場所を持たせるもので、CuePoint
タグはある再生時間はどこにあるかを持たせるものです。
最初はSeek
タグに時間を持たせるんだと思って勘違いしてました。
疑似的なタグとしてはこんな感じです。
<Segment>
<--- Seekの親タグ --->
<SeekHead>
<Seek>
<--- 対象のタグのIDを持つ。今回はInfoタグのID --->
<SeekID>0x1549A966</SeekID>
<--- 対象のタグの開始位置 --->
<SeekPosition>0x47</SeekPosition>
</Seek>
<Seek>
...
</Seek>
<--- Seekタグはいくつでもいい --->
...
</SeekHead>
<Info>
<--- ここにさっき入れたDurationとかがある --->
...
</Info>
...
<--- CuePointの親タグ --->
<Cues>
<CuePoint>
<--- 何秒のところっていう指定 --->
<CueTime>1000</CueTime>
<CueTrackPosition>
<--- Tracksタグで宣言してるTrackの数字、大体1 --->
<CueTrack>1</CueTrack>
<--- 指定時間を含むClusterタグの開始位置 --->
<CueClusterPosition>0x1234</CueClusterPosition>
<--- 指定時間ど真ん中のBlockはCluster内で前から何番目か --->
<CueBlockNumber>20</CueBlockNumber>
</CueTrackPosition>
<--- CueTrackPositionは何個でもいいらしいけど一つしか見たことない --->
</CuePoint>
<--- CuePointタグはいくつでもいい --->
...
</Cues>
<Cluster>
<SimpleBlock />
<--- SimpleBlockタグはいくつでもいい --->
...
</Cluster>
<--- Clusterタグはいくつでもいい --->
...
</Segment>
これを目指して作っていきましょう!
まずはCues
タグを挿入します。
Seek
タグではCues
の場所も指定しないといけないからですね。
めんどくさいのはCues
が先に来るので長さも考慮してCueClusterPosition
も指定してあげないといけないことですね。
抜粋コードです。
// getCuesDataはCuePointを構成するための情報を返す関数
const cuePointDatas = getCuesData(data)
const isLittleEndian = checkLittleEndian()
const cuePoints: EBMLTag[] = []
for (const cuePointData of cuePointDatas) {
const cueTrack = getEBMLTagByUintValue([0xF7], cuePointData.cueTrack, isLittleEndian)
// 上で言った自分自身の大きさも考慮しないといけないためcueSizeを足しています
// cueSizeは関数の引数として渡されて、変わるまで再帰的にCuesを構築し続けます
const cueClusterPosition = getEBMLTagByUintValue([0xF1], cuePointData.cueClusterPosition + cueSize, isLittleEndian)
const cueBlockNumber = getEBMLTagByUintValue([0x53, 0x78], cuePointData.cueBlockNumber, isLittleEndian)
const cueTrackPositions = getEBMLTagByEBMLTags([0xB7], [cueTrack, cueClusterPosition, cueBlockNumber])
const cueTime = getEBMLTagByUintValue([0xB3], cuePointData.cueTime, isLittleEndian)
const cuePoint = getEBMLTagByEBMLTags([0xBB], [cueTime, cueTrackPositions])
cuePoints.push(cuePoint)
}
const cues = getEBMLTagByEBMLTags([0x1C, 0x53, 0xBB, 0x6B], cuePoints)
return cues
これをCluster
タグの直上に入れます。
その辺はDuration
と同じなのでコードは割愛します。
先ほどSegment
のサイズを指定したのでSegment
のサイズの更新も忘れずに
次はSeekHead
タグを入れます。
まぁCues
とほとんど同じなのでコードは割愛します。
気を付ける点は
Cues
と同じく自身のサイズが中身のPosition
に影響することSeekHead
のサイズでCues
の中身も書き替えないといけないこと
です。
気になる人はGitHubでも見て下さい。
これでシークが爆速になりました!うれしい!!
codecsについて(おまけ)
上の方でcodecについて触れたと思いますがMediaRecorder
で扱えるcodecsについて少し書きます。
そもそもcodecというのは動画や音声の圧縮方法ですね。
それぞれ一長一短らしいです。
結構ボリューミーですがMDNの記事が面白かったのでお勧めです。
https://developer.mozilla.org/ja/docs/Web/Media/Formats/Video_codecs
素で動画をフレームを持つのは容量がやばすぎなので当然MediaRecorderでもなんらかのcodecで動画を保存しています。
codecsはnew MediaRecorder()
するときの第二引数に渡すことで指定できます。
const recorder = new MediaRecorder(stream, { mimeType: 'video/webm;codecs=h264' })
みたいな感じですね。
まぁ当然どんなcodecでもいいわけじゃなくてブラウザが対応しているcodecだけです。
これは罠なんですがMDNのサンプルにある'video/mp4'はおそらくどんなブラウザでも動きません
https://developer.mozilla.org/ja/docs/Web/API/MediaRecorder/mimeType
どんなcodecsが許されているかはMediaRecorder.isTypeSupported(codecs)
で確認できます。
https://developer.mozilla.org/ja/docs/Web/API/MediaRecorder/isTypeSupported
-> MediaRecorder.isTypeSupported('video/webm;codecs=h264')
<- true
みたいに。
ChromiumでPCブラウザだと色々対応してますがモバイルの対応は本当にないので辛いですね。
MediaRecorderでとった動画をMP4で保存する。
僕は結構ここで悩んだので他の困っている人向けに書きますがあんまり本編と関係ありません。
上でvideo/mp4
には対応していない(2020/11/15)と書きましたがじゃあどうやってMP4にすればいいんだって話ですね。
最初は自分でMP4向けのバイナリを書こうと思ったんですがWebM
のBlock
とMP4
のmdat
をどんな感じで関連付ければいいのかわからなかったです。
有識者がいたら教えてほしいです。
結局僕はffmpeg通すようにしました。
今はどのブラウザでも動くWebAssembly実装で激熱のffmpeg.wasmですね。
使い方は公式ドキュメントを見たらわかると思います。
https://github.com/ffmpegwasm/ffmpeg.wasm
MP4でも対応しているcodecsをMediaRecorderで指定するようにしたら、動画部分を再エンコードする必要がなくてメタ情報だけを変えればいいようになるのでうれしいですよね。
これらの積集合をWikipediaでみてみるとVideoはH.264、AudioはOpusっぽいですね。
そしてMediaRecorder.isTypeSupported
でみてみるとChromeやらEdgeは対応してそうです。
なのでconst recorder = new MediaRecorder(stream, { mimeType: 'video/webm;codecs=h264,opus' })
で指定してあげてこれでもらったBlobをffmpegに通すとmp4になります!うれしい!!!!!
これで終われば幸せなんですが何故か音声が壊れるので音声だけffmpegのオプションで再エンコードします。
僕の環境だけかもしれません。
音声だけだと早いです。
もう一つ問題があってffmpeg.wasm(v0.8)はモバイルでは動きません。
0.6以前だと動くのでモバイルで使わせたいなら0.6にしてください。
使い方は0.8とあんまり変わりませんが同期、非同期が違ったりするのでモバイル対応したい人は以下のファイルのffmpeg部分を参考にしてください。
https://github.com/ryoha000/portablerg-client/blob/master/src/lib/utils.ts
最後に
それなりに長い記事を読んでくれてありがとうございます。
初めは1時間の動画のメタタグの付与が5分以上かかって冷や汗かいていましたが、まともに書いたら3時間の動画が10秒くらいになったので実用に耐えうるかなって思います。
最初に宣伝したゲーム用リモートデスクトップアプリ、使ってくれたらうれしいです。
明日のAdCは @liquid1224 です。何書いてくれるかは知りませんがDTMの濃い記事を書いてくれると思います。楽しみ~。
さよなら。
参考にしたサイト
https://www.matroska.org/index.html
https://qiita.com/legokichi/items/14a8d39dbaa90c2a5ccb
https://qiita.com/ryiwamoto/items/0ff451da6ab76b4f4064#cluster
めちゃくちゃありがとう
@takashi_trap
@temma
...
...
...
and you