2022年11月1日 「次世代デジタルライブラリー」の全文検索対象を古典籍資料にも拡大しました
このたび、「次世代デジタルライブラリー」に、デジタル化済み古典籍資料の一部(江戸期以前のくずし字資料等約6万点)のOCR全文テキストデータを追加し、全文検索できるようにしました。
次世代デジタルライブラリーは、国立国会図書館が先進情報技術を応用した新しい図書館サービスを実現するための調査研究・実証実験の場である「NDLラボ」上に公開している実験システムです。
今回追加したOCR全文テキストデータは、国立国会図書館が令和3年度に実施したOCR関連事業で得た知見等を踏まえ、機械学習技術を活用して当館の次世代システム開発研究室が内製で開発したOCRソフトウェアで作成したものです。
今後、年内を目途に、ほぼ全てのデジタル化済み古典籍資料に検索対象を拡大していく予定です。これにより、著作権保護期間が満了した古典籍資料及び図書資料約35万点の全文検索が可能となる予定です。
詳細については、NDLラボの「古典籍資料のOCRテキスト化実験」をご覧ください。