ホーム > 資料の保存 > 電子情報の長期的な保存と利用 > 国立国会図書館が採用するファイルフォーマット

国立国会図書館が採用するファイルフォーマット

国立国会図書館が実施する資料デジタル化において、保存用データ作製の際に採用しているファイルフォーマットの一覧です。
なお、採用に際しては長期的な利用保証等の観点を考慮していますが、表にないフォーマットとの比較も含め、当館が何らかの評価を与えるものではありません。

原資料の種類 作製するデータの種類 フォーマット 拡張子
紙資料、マイクロフィルム 静止画 JPEG 2000 *1 .jp2
録音資料 音声 WAVE *2 .wav
映像資料 動画 MP4 *3 .mp4
  • *1国際標準化機構(ISO)、国際電気標準会議(IEC)および国際電気通信連合(ITU)が共同で設ける静止画の符号化方式標準化のための作業グループJoint Photographic Experts Group(JPEG)が2000年に開発した静止画の圧縮用フォーマット。ISO/IEC 15444として国際規格化されています。可逆圧縮と非可逆圧縮の両方が可能で、非可逆圧縮の場合は、小さいファイルサイズでノイズの少ないファイルを作製することができるとされています。
  • *2米国マイクロソフト社とIBMが1991年に開発した音声データ用のコンテナフォーマット。WAVとも呼ばれます。当館の録音資料デジタル化では、リニアPCM方式の音声データをWAVEに格納した形でデータを作製しています。
  • *3ISOとIECが共同で設ける動画・音声等の符号化方式標準化のための作業グループMoving Picture Experts Group(MPEG)が2003年に開発した動画データ用のコンテナフォーマット。ISO/IEC 14496 の第14部として国際規格化されています。当館の映像資料デジタル化では、MPEG-4 AVC/H.264方式の映像データをMP4に格納した形でデータを作製しています。

このページの先頭へ

その他の主なファイルフォーマット

静止画

静止画の主なフォーマットについては『国立国会図書館資料デジタル化の手引 2017年版』に「参考資料1 主な画像フォーマットの特徴」(68~71頁)を掲載しています。詳細はそちらをご覧ください。

音声

(1) BWF(ビーダブリューエフ)

正式名 Broadcast Wave Format
規格管理団体 欧州放送連合(EBU)/国際電気通信連合(ITU-R BS.1352-3)
規格の出版年 1997年
圧縮方式 非圧縮
特徴
  • 主に放送業務用途での使用を前提に、必要となるメタデータをファイルに含めることを可能にするなど、WAVEの機能を拡張したフォーマット。
  • ファイルサイズの上限が4GBのWAVEに対し、BWFには上限がない。
特記事項
  • 米国議会図書館は、メタデータを付与されたBWFファイルをWAVEよりも長期保存に適したフォーマットとしている。
  • BWFを日本国内向けに拡張した規格としてBWF-Jが存在する。

(2) FLAC(フラック)

正式名 Free Lossless Audio Codec
規格管理団体 Xiph.Org Foundation
規格の出版年 2000年
圧縮方式 可逆圧縮
特徴
  • 量子化ビット数は4~32bit、サンプリング周波数は1~655.3kHz、チャンネル数は1~8chの範囲で対応している。
  • ジャケット写真等の画像も含めることができるため、高音質の音楽配信サービスなどにも用いられている。
  • 非圧縮のファイルに比べ、ファイルサイズは2/3から1/2程度とされる。
  • ファイルには符号化前のデータのチェックサム(MD5)の情報が含まれ、これはファイルが破損していないかを確認する際などに利用可能である。
  • 当初からオープンソースで開発されてきたフォーマットのため、ソースコード等の情報が一般に公開されている。
特記事項
  • 従来は普及の範囲が限定的だったが、近年ではAndroidのほか、iOS、Windowsでもサポートされるようになり、広く普及しつつある。ただし、大規模な図書館・アーカイブ等で、FLACが単独で保存用ファイルフォーマットとして採用された事例は少ない。

(3) MP3(エムピースリー)

正式名 MPEG Audio Layer-3
規格管理団体 MPEG(ISO/IEC 11172-3:1993、13818-3:1998)
規格の出版年 1993年
圧縮方式 非可逆圧縮
特徴
  • 人間の可聴周波数域外の音を削除するなどの知覚符号化の手法によって高い圧縮率を実現し、ファイルサイズは非圧縮の場合に比べ1/10程度とされる。
  • ビットレートは8~320kbps、サンプリング周波数は48kHz、チャンネル数は2chまで対応している。
  • ジャケット写真等の画像もファイルに含めることができる。
  • ドイツのFraunhofer研究所が開発し特許を取得したが、復号化についてはライセンスフリーとしたため、極めて広く普及した。
特記事項
  • 非可逆圧縮は圧縮前の音声データの一部が圧縮時に失われ、再現することは不可能になるため、図書館・アーカイブ等のデジタル化では、保存用データに採用される事例は少ない。
  • MP3の特許保護期間は2017年4月に終了した。
  • 関連するフォーマットとして、可逆圧縮と非可逆圧縮両方のデータを一つのファイルに格納するMP3HDが存在する。

このページの先頭へ

ファイルフォーマットに関する情報源

PRONOM

英国国立公文書館(TNA)の電子情報保存部門により開発されたファイルフォーマット・レジストリ(個別のファイルフォーマットに関する情報を集約したデータベース)。現在、約1,900のフォーマットに関する項目が登録されており、各フォーマットのファイルを再生できるソフトウェアなどに関する情報を得ることができる。なお、PRONOMに蓄積された情報は、TNAが開発するファイルフォーマット自動判別ツール「DROID」にも利用されている。

File Formats Assessments

英国の電子情報保存連合(DPC)のウェブサイト内に設置されたページ。電子情報の長期保存に使用される主要なファイルフォーマットについて、英国図書館(BL)が行った保存リスク評価(Preservation Risk Assessments)のレポートが掲載されている。各レポートでは、フォーマットの開発経緯や普及状況、再生や保存のためのソフトウェア、権利上の問題などについて、著者と引用文献を明示したうえでまとめられている。

Recommended Formats Statement

米国議会図書館(LC)が公開する、長期保存のための物理的フォーマットおよびファイルフォーマットのガイド。静止画、動画、音声などの種別ごとに、「推奨(Preferred)」と「許容(Acceptable)」の2段階に分けてフォーマットが表にまとめられている。2014年の公開以降、毎年改訂されている。

Tables of File Formats

米国国立公文書館(NARA)が” Records Management Regulations, Policy, and Guidance”の一部として作成したウェブページ。長期保存の観点から、ファイルフォーマットを17の種別ごとに「推奨されるフォーマット(Preferred Formats)」、「許容されるフォーマット(Acceptable Formats)」、「緊急の移管には許容されるフォーマット(Acceptable for Imminent Transfer Formats)」の3段階で区分し、各フォーマットの仕様へのリンクも掲載されている。

このページの先頭へ