このページの先頭です。
第16回科学技術情報整備審議会議事録
- 日時:
- 令和5年8月2日(水)午前10時00分から午前11時50分まで
- 場所:
- 東京本館人事課大会議室(ウェブ会議サービスを用いたハイブリッド開催)
- 出席者:
- 科学技術情報整備審議会委員 11名、陪席 1名
(委員)安浦寛人委員長、竹内比呂也委員長代理、浅川智恵子委員、大隅典子委員、奥野真委員、黒橋禎夫委員、小口正範委員、佐藤義則委員、戸山芳昭委員、村山泰啓委員、渡部泰明委員
(陪席)金子博之科学技術振興機構理事(橋本和仁委員の代理)
館側出席者 16名
館長、副館長
(幹事)総務部長、調査及び立法考査局長、収集書誌部長、利用者サービス部長、電子情報部長、関西館長、国際子ども図書館長
(陪席)総務部企画課長、収集書誌部主任司書(納本制度担当)、利用者サービス部副部長サービス企画課長事務取扱、利用者サービス部司書監、電子情報部副部長
(事務局)利用者サービス部科学技術・経済課長、電子情報部電子情報企画課長
- 会議次第:
-
- 開会
- 国立国会図書館長挨拶
- 新委員・新幹事紹介
- 報告及び懇談
- (1)第五期国立国会図書館科学技術情報整備基本計画の進捗報告
- (2)懇談
委員からの話題提供
①生成AI をめぐる目まぐるしい状況
②オープンサイエンス時代における大学図書館の在り方について
- その他
- 閉会
- 配付資料:
-
(参考資料)
- 議事録:
- 1. 開会
- 安浦委員長:
- おはようございます。ただいまから第16回科学技術情報整備審議会を開催します。委員の皆様にはお忙しいところ当審議会に御出席くださり、誠にありがとうございます。本日は13名の委員中、11名の委員に御出席いただいておりますので、定足数は満たされております。
まずは事務局からお知らせがあります。
- 福林科学技術・経済課長:
- 東京本館の会場での御出席は、安浦委員長、竹内委員長代理、奥野委員、黒橋委員、小口委員の5名です。オンラインでの御出席は、浅川委員、大隅委員、佐藤委員、戸山委員、村山委員、渡部委員の6名です。なお、大隅委員は用務のため中座されると伺っております。御欠席は橋本委員、藤垣委員の2名です。橋本委員の代わりに科学技術振興機構(以下「JST」)の金子博之理事にオンラインで御陪席をいただいております。
本日、当館からは、幹事の他に吉永館長、片山副館長、審議会事務局等の職員も同席しております。新委員及び新幹事につきましては、後ほど御紹介します。今回は、対面及びオンラインのハイブリッド開催とさせていただいております。委員の皆様におかれましては、会議中、常時カメラをオンにしてくださるようお願いいたします。マイクは御発言の時以外はミュートにしてください。御発言は、委員長からの指名を受け、マイクのミュートを解除してからお願いいたします。なお、御発言を求められる場合は、手を上げるボタンを押すか、お名前を挙げて御発声して、委員長にお知らせください。
- 2. 国立国会図書館長挨拶
- 安浦委員長:
- 開会に当たり、吉永館長から御挨拶があります。
- 吉永国立国会図書館長:
- 本日は、御多忙のところ御出席いただきまして、誠にありがとうございます。
審議会から頂きました御提言「『人と機械が読む時代』の知識基盤の確立に向けて」を踏まえて、当館が策定しました「第五期国立国会図書館科学技術情報整備基本計画」は、今年度、実施3年目の折り返し点に当たります。
当館は中期ビジョンとして、「デジタルシフト」を掲げ、情報資源の拡充とサービスの改善に取り組んでおりますが、前回の審議会以降、この1年間にも大きな進捗がありました。
この後の進捗報告の中で具体的に御説明いたしますが、いずれも委員の先生方の御指導、御支援の賜物と感謝しております。
先生方におかれましては、是非この機会に、当館の取組に対する御意見等を頂きたいと思います。
また、本日は、黒橋委員と竹内委員長代理に、それぞれ話題の提供をお願いしております。
黒橋委員、竹内委員長代理におかれましては、大変お忙しい中、御準備くださり、ありがとうございました。
黒橋委員からは昨今話題の生成AIが学術情報流通に与えるインパクト等について、竹内委員長代理には座長を務められた「オープンサイエンス時代における大学図書館の在り方検討部会」の審議のまとめについて、それぞれお話しいただくことになっております。
いずれの話題も当館の今後の施策の方向性に大きく関わる論点でございますので、先生方におかれましては、活発な御議論をいただければ幸いです。
どうぞよろしくお願いいたします。
- 3. 新委員・新幹事紹介
- 安浦委員長:
- どうも吉永館長、ありがとうございました。それでは、事務局の方から委員と幹事の交代につきまして御報告があります。
- 福林科学技術・経済課長:
- 委員名簿を資料1として配付しておりますので、御覧ください。新たに御就任くださった委員を御紹介いたします。文部科学省の奥野真大臣官房審議官と国立情報学研究所(以下「NII」)の黒橋禎夫所長が、新たに委員に御就任くださいました。御新任の委員には、一言ずつお言葉を頂戴したいと存じます。
- 奥野委員:
- 文部科学省の奥野でございます。よろしくお願いいたします。
- 黒橋委員:
- 国立情報学研究所の黒橋です。よろしくお願いいたします。
- 福林科学技術・経済課長:
- ありがとうございました。
続いて委員の先生方の活動を補佐する幹事を御紹介いたします。幹事には、国立国会図書館(以下「NDL」)の部局長が任命されております。人事異動に伴い、幹事に異動がありましたので、御報告いたします。松浦調査及び立法考査局長、竹内収集書誌部長が、前回の審議会以降に新たに幹事に任命されました。
- 4. 報告及び懇談
- 安浦委員長:
- 続いて、会議次第の「報告及び懇談」に移ります。
科学技術情報整備基本計画の進捗状況につきまして、事務局が報告した後に、報告への質問をまとめて受け付けます。懇談は、事務局の報告とそれへの質問が終わった後に行います。本日の懇談では、先ほど吉永館長からお話ありましたように、黒橋委員、竹内委員長代理に話題提供をしていただきます。
では、まず事務局から報告をお願いします。
- 福林科学技術・経済課長:
- ((1) 第五期国立国会図書館科学技術情報整備基本計画の進捗報告について、資料2に基づき説明。)
- 安浦委員長:
- それでは、ただいまの報告に対する御質問をお受けします。御質問等のある委員は挙手をお願いします。
竹内先生、どうぞ。
- 竹内委員長代理:
- 2点質問させていただきます。
デジタル化が大変順調に進捗しているという印象で、本当に喜ばしいことであると思っております。ただ、NDLの蔵書数は非常に多いということもあり、現在、およそ想定されるデジタル化の総量に対して、何パーセント程度の進捗状況なのか、もし分かるようでしたら、お知らせいただけますか。
2点目です。ジャーナル等の電子化が大変進んでいますが、デジタル化されているコンテンツ間のリンク、例えば、引用文献を介した文献間のリンクなども考えられると思います。今後どのように展開されるお考えか、お話しいただけますか。
- 安浦委員長:
- それでは、NDLから、まず、デジタル化すべきもののうちの何パーセントぐらいを終えているか、お答えいただけますか。
- 大場電子情報部長:
- 電子情報部長の大場から回答させていただきます。デジタル化すべき蔵書のうち何パーセント程度のデジタル化を完了しているかついては、数え方がいろいろございますし、目標をどこに設定するかにもよりますので、一つの目安として聞いていただければと思いますが、図書に関しては、国内刊行図書全体の大体3割程度ではないかと捉えております。雑誌については2割程度かと思います。現在は、主に図書に注力して、デジタル化を進めていきたいと考えております。
2点目の文献間のリンクに関しては、かなり難しい問題がいろいろあると考えております。NDLの取組の一つに、情報のオープン化があります。その中では、いわゆるリンクトオープンデータの考え方に基づき、様々な情報間のリンクができるように基礎となる情報を公開しています。さらに、先ほどの進捗報告において紹介しました、来年1月公開に向けて開発を進めている国立国会図書館オンラインと国立国会図書館サーチを統合した新しいサービスでも、様々な情報をまとめて検索し、同じ内容の資料をできるだけまとめて表示できるようにしたいと考えています。このように、NDLでは、まず、いわゆるメタデータを中心に、様々な情報とリンクできるような基礎的な情報を一般に公開し、それからシステム面においても、様々な情報をまとめて表示できるような仕組み作りに取り組んでいます。
ただ、民間で出版されている電子ジャーナル、特に外国のものとのリンクは、なかなか難しいところです。こちらについては、DOIなどの永続的識別子で、相互に参照ができるような仕組みを、JSTやNIIと一緒に取り組んでいるところですので、そちらを更に進めていきたいと考えております。
- 竹内委員長代理:
- ありがとうございました。
- 安浦委員長:
- 戸山委員、どうぞ。
- 戸山委員:
- 蔵書のデジタル化の進捗について全体の30%ほどとお答えいただきました。これを良い、順調とするかどう評価するかですが、私は、毎回お話しするように、もっとスピードを上げておやりになるべきではないかと思います。それに対する課題として、予算と人手が足りないということが挙げられます。NDLのデジタル化は、これまで大体補正予算で進められていますが、今後も予算を確保できるか心配になってきますので、是非頑張っていただきたいです。
2点目です。デジタル化はあくまで手段です。今いろんな形でこれを使ってもらおうと取り組まれていますが、私はやっぱり一番には教育機関にもっともっと利活用してもらえるように広報等の取組を進めていただきたいと思います。
- 安浦委員長:
- どうもありがとうございます。今の戸山委員からの御意見に関連して、今のペースでデジタル化を進めていくと、3割が10割になるのに目安として何年ぐらいかかる見込みでしょうか。
- 大場電子情報部長:
- 数え方にもよりますので、なかなか難しいところでありますけれども、まず今、2000年までに国内で刊行された図書を当面の目標にして取り組んでいます。これにつきましては、確定性の低い話になってしまうのですが、同じ規模の補正予算が措置された場合にはあと2年ぐらいで達成できるのではないかと考えておりますので、予算の獲得も含めて努力していきたいと考えております。
- 安浦委員長:
- 戸山委員からお話が出たように、国の財政の問題もあるかと思いますが、是非頑張っていただき、また文部科学省の奥野委員にも側面支援をお願いできればと思います。よろしくお願いします。戸山委員、どうもありがとうございました。
他に何か御質問ございますか。村山委員、どうぞ。
- 村山委員:
- 一つ確認させていただきたいのですが、資料2の8ページ目から9ページ目で、マイグレーションについて記載されており、その中で、「マイグレーションしたデータを利用可能とするため、エミュレーションによる技術調査にも着手している」と書かれています。マイグレーションは、情報の長期保存、サステナビリティのために非常に重要ですけれども、そのマイグレーションしたデータのフォーマットなどが古いので、これを利用できるようにするためにソフトウェアのエミュレーションに取り組まれているという理解でよろしいでしょうか。
- 大場電子情報部長:
- 御認識のとおりでございます。現在、NDLで行っているマイグレーションは、データの変換等は基本的に行わずに、元々フロッピーディスク等に保存されている情報を、できるだけそのまま抜き出して別の媒体に保存するというものです。このため、マイグレーションしただけのデータは、古いアプリケーションであるとかOSがなければ、読み取れないという状態になっています。それを何とか解決するために、エミュレーションの技術調査にも着手しているところでございます。
- 村山委員:
- ありがとうございます。
- 安浦委員長:
- 村山委員、非常に重要な御指摘いただきまして、ありがとうございます。技術の変革によってデータの長期的な利用保証へも次々に対応していかないといけないところがあり、予算も必要になってくると思いますので、是非頑張って予算獲得をしていただきたいと思います。この審議会からいろいろ御意見を申し上げることで、少しでもお役に立つのであれば、強く危機感を共有していると、この審議会としても意見を出したいと思いますので、よろしくお願いいたします。
他に何かございますか。
それでは、私の方から一つだけ質問させていただきたいのですが、デジタル化したデータを物理的に保存している場所について、例えば地震やサイバーアタックなどの問題もありますので、二重、三重の対策が必要になるかと思いますが、どのようにされているか、教えていただけますか。
- 大場電子情報部長:
- 提供しているデータそのものは、いわゆるクラウドに置いています。それに加えて、東京本館と関西館で分散してバックアップのデータを保存しています。これは、サーバー上に保存するという形と、LTOと呼ばれる大容量の磁気テープを併用しています。複数の媒体あるいは場所で保存することで、安全性を高めるように取り組んでおります。
- 安浦委員長:
- ありがとうございます。クラウドは、パブリッククラウドを御利用なのですか。
- 大場電子情報部長:
- そのとおりです。
- 安浦委員長:
- 他にございませんでしょうか。浅川委員、お願いします。
- 浅川委員:
- 資料のデジタル化や全文テキスト化というのは、非常に大変な作業でありまして、こういったことを推進していただいていることに大変感謝いたします。ありがとうございます。私は視覚障害者ということもありまして、その視点からいくつか質問やコメントをさせていただきます。
まず、みなサーチに関して、全文テキストデータが248万件搭載されているとありますが、未校正を含まないというフラグを立てて(「未校正のデータも含む」にチェックを入れずに)検索すると、プレーンテキストは約1万4千件です。この未校正とは何か、また校正にどれぐらいのワークロードがかかっているのかというのが、一つ目の質問です。
- 大場電子情報部長:
- 一旦電子情報部からお答えします。必要に応じて担当の部門からも補足いただければと思います。まず未校正の意味について、現在はOCRのソフトウェアでテキスト化し、ほぼそのまま提供しているものを未校正と呼んでおります。これをきちんと実際の本の中身ともう一回照らし合わせ、誤字脱字や順番の間違いがなく、正しいか、人手で確認をするという作業を行った上で提供しているものが校正済みと呼んでいます。このため、品質においては両者でかなり差があると考えています。どの程度の人手がかかるかということについて、もし関西館から補足があればお願いできればと思いますが、いかがでしょうか。
- 伊藤関西館長:
- 関西館長の伊藤と申します、よろしくお願いいたします。関西館の図書館協力課でみなサーチの運用を行っておりまして、若干補足させていただきます。今、浅川先生がおっしゃられたテキストデータ248万件のうち、3月のみなサーチの試験公開から新たに提供されるようになった約247万件の全文テキストデータはこれまでにデジタル化した図書・雑誌からOCRでテキスト化したままのもので、これらを未校正としております。
それに対しまして、学術文献を対象として、令和3年度から関西館で他の図書館からの要請を受けたり、当館の方で選書をしたりしながら、未校正のものと校正済みのものとを両方作成しています。しかし、これは非常に規模としては小さく、校正済みのものの作成は年間約50件程度でございます。需要があれば、未校正のものから更に校正済データを作ることになりますけれども、ワークロードとおっしゃったところ、当館では外注により作成しております。未校正のものはOCRにより作成し、迅速性を重視して素早く提供する、校正済のものは時間をかけて作成し提供するというように、両者を分けながらこれまで取組を進めてきました。
-
(補足)
みなサーチβ版で「未校正のテキストデータを含める」にチェックを入れずに検索したプレーンテキスト約1万4千件の検索結果の内訳には、β版の制約事項(開発途中であるため生じてしまっている不具合)として、テキストデータが紐づかない雑誌のタイトル単位での書誌データも含まれています。こうした書誌データは約1万3千件あるため(したがって、みなサーチβ版でヒットするプレーンテキスト約248万件の中にもこの約1万3千件は含まれています)、実際の校正済テキストデータは、図書館から依頼を受けて当館が製作したもの108件、大学図書館等で製作されたものを当館が収集したもの378件の計486件です。
なお、この制約事項は、令和6年1月のみなサーチ本稼働時には解消され、正確な検索結果がでてくるようになる予定です。
- 浅川委員:
- ありがとうございます。未校正のものを校正済みにするには、大変な時間とワークロードがかかると思われます。今日この後の話題提供でもAIについてのお話があるようですが、NDLがAIを使った自動校正の仕組みを新しく考えられると非常に良いのではないかと思いました。
次の点ですが、現在テスト期間のみなサーチに関して、新規の利用者登録手続は郵送もしくは来館と案内されていました。来年1月から正式サービスを開始するようですが、やはり視覚障害者にとって郵送や来館はなかなか大変だと思いますので、Eメール等での登録手続や、またサピエ図書館の利用者情報との連携をお考えいただければと思いました。
また、新聞のデジタル化を始められたということですが、これは想像するにかなり大変なワークロードではないかと思います。デジタル化するときに書誌データ等も入れられていると思うのですが、その書誌データをどういうふうに作成されているのか、本文テキストの精度はどのように検討されているのかをお伺いしたいです。
- 大場電子情報部長:
- まず後段の新聞のデジタル化について、電子情報部から回答させていただきます。その後、前段のみなサーチの登録について関西館から回答いたします。
新聞のデジタル化について、書誌データとおっしゃられていたのは、おそらく記事単位の情報のことではないかと思いますが、NDLのデジタル化では、まだ今のところ、記事単位の書誌データを作成し、検索できるようにするということは行っておりません。何何新聞の何月何日の号という発行号の単位で書誌データを作成し、検索できるような仕組みを考えて進めているところです。その先につきましては、新聞に対応したOCRを現在開発中でして、これを使って有効な記事本文の検索ができるか調査研究をしていこうと、日本新聞協会等と調整・協力しながら取り組んでいるところでございます。すなわち全文検索できないか、その可能性を探っていると御理解いただければと思います。
- 伊藤関西館長:
- みなサーチの本格稼働は来年1月の予定ですが、利用者登録については、オンラインでの登録をできるようにしております。
-
(補足)
「視覚障害者等用データ送信サービスの利用者登録について(初めて登録する)」にあるとおり、入力フォーム(申請書の提出のみ)及びメールによる登録申請が既に可能です。なお、来年1月以降は、みなサーチ上で証明書類の提出も可能となり、オンラインで登録申請を完結させることが可能となる予定です。
- 浅川委員:
- ありがとうございます。オンライン登録時に、サピエ図書館の会員情報との連携が可能であれば、視覚障害者であることが確認できると思うので、是非検討いただければと思います。よろしくお願いいたします。
- 伊藤関西館長:
- 承知いたしました。
-
(補足)
サピエ図書館と視覚障害者等用データ送信サービスの間の連携は一定程度実現しています。登録されたメタデータは相互に検索することができます。また、サピエ図書館会員がサピエ図書館にログインして検索した場合には、そこから当館の視覚障害者等用データ送信サービスで登録しているDAISYデータ等をダウンロードすることができます(ただし、サピエ図書館ではテキスト形式等のデータは提供しておらず、サピエ図書館からは、視覚障害者等用データ送信サービスで提供しているデータのうち、テキスト形式等のデータにはアクセスできません)。
なお、視覚障害者等用データ送信サービスの登録利用者が同サービスで検索し、サピエ図書館で提供しているコンテンツにアクセスしようとした場合には、サピエ図書館のログイン画面に遷移します(そこからログインするためにはサピエ図書館の会員である必要があります)。
- 安浦委員長:
- 浅川委員、貴重な御意見どうもありがとうございました。
- 安浦委員長:
- それでは懇談に移りたいと思います。まず、生成AIの動向と学術情報流通に与えるインパクトにつきまして、NII所長の黒橋委員から話題提供をしていただきます。
この話題は、この半年ぐらいでものすごい勢いで状況が変わってきております。それでは黒橋委員、お願いします。
- 黒橋委員:
- 黒橋です。生成AIをめぐる目まぐるしい状況について、御紹介をさせていただきます。
皆さんの中には、かなり活用されている方も少なからずおられるかと思いますが、少しだけ動きを御紹介します。これは3月の頭に、「Chat GPTの仕組みと社会へのインパクト」をテーマに講演の依頼を受けた時に、一度試してみたものです。この講演のアブストラクトを書いてくださいと、命令を与えますと、2ページにわたるアブストラクトをざっと書いてくれました(資料3の2-3ページ)。これは少し長いものですから、もう少し短くしてくださいと言いますと、3行にまとめてくれました(資料3の4-5ページ)。これでほぼ内容的にも問題がなかったものですから、その時の講演には「(Chat GPTの自動生成です)」と付記してそのままアブストラクトとして提出しました。私の知的活動時間の節約にも役立ってくれました。
それから、御存知の方が多いと思いますけど、プログラムコードがかなり学習に活用されています。面白いのは、英語等の自然言語だけではなくて、プログラムコードも学習データに加えると能力が増すという報告がありまして、プログラミング言語から、言語の構造を学んでいるようです。例えば三角形の面積を計算するプログラムを書いてくださいと言いますと、実際、こんなプログラムをChat GPT自身が書き、その説明をしてちょっと動かして例を示してくれます(資料3の6-9ページ)。もう高校・大学ぐらいのプログラミング教育というのは、Chat GPT等の活用を前提に根本から考え直さなくてはいけないという状況になってきています。
それから、日進月歩で、3月にはGPT 4が利用できるようになりました。月額20ドルの有料プランですけれども、GPT 3.5よりもGPT 4の方が賢いため、サブスクライブしている方もかなりおられるようです。サブスクライブしたChat GPTの画面では、GPT 4とGPT 3.5を選択して使うことができます(資料3の10ページ)。よく知られておりますように、事実情報についてChat GPTはかなり間違うことがあります。特に日本語の場合、やはりトレーニングデータが少ないことも影響しています。例えば、「映画「影武者」について教えてください」とGPT 3.5に聞きますと、「豊臣秀吉の重臣である伊達政宗の影武者である武田信玄の物語です」と、本当にむちゃくちゃなことを言います。GPT 4に聞きますと、「武田信玄という有力な武将の死を巡る物語です」と、少し改善していますが、主演に三船敏郎を挙げており、事実と異なる部分があります。
Chat GPTはOpen AIが2022年11月に公開した対話ができるシステムで、公開後わずか2か月で1億ユーザーを超え、話題を呼んでおります。基本的には自然言語処理の中から出てきた技術で、ある文脈、文字列といいますか、単語列が与えられたときに、その次の単語を予測するものです。大規模なコーパスをベースに、単語の出現や係数をカウントして次の単語の確率を求め、次々とそれらしい単語を出していくことが原則です。ただし、従来は、単語をベースにしていたわけですけども、ニューラルネットワークの利用が非常に進みました。「Attention」(注意機構)ですとか、さらにそれを精緻化した「Transformer」という技術が出てきて、次の単語を推測するということが、かなり高精度にできるようになりました。従来、単語レベルでやっていたときは、2、3単語と、本当に少しだけ事前の文脈を見て次を推測していたわけですけれども、最近は2,000単語ですとか8,000単語という規模で事前の文脈を見ています。相当程度その文章を解釈して、次の単語を選んでいるため、非常に自然な表現に感じられることになります。
ニューラル自然言語処理の一番のポイントは、単語や文の意味を1,000次元、10,000次元という桁のベクトルで表現することです。例えばりんごですと、ここにありますような実数値が並んでいるようなものとして意味を表現します(資料2の14ページ)。もちろん手作業で調整できないわけですけれども、どんどんコーパスを与えて次の単語を予測するように、ニューラルネットワークの学習を通じて、パラメータを更新していくことで、こうしたベクトルが出てきます。そして、このりんごとみかんのように、意味の近い単語では近いベクトルになっています。また、例えば曖昧性のある語の文脈に応じた解釈も、こうしたモデルでうまく扱うことができます。実際のところベクトルのパラメータは実数値をとりますが、例えば-1と1の二つの値だけをとるとしても、1,000次元では2の千乗ですから、およそ10の三百乗という、膨大な意味空間を扱えるということになります。
このモデルで、当初はいろいろな言語を解釈させるタスクの研究が進められました。その後、翻訳の研究から生まれた「Transformer」のモデルで、目的言語側を生成するところをどんどん大規模にしたものが、GPTの基本です。GPTという名前自体がGenerative Pre-trained Transformerの略であり、「Transformer」のモデルをベースにしています。
先ほども申しましたように、学習のために、大規模なコーパスを与えます。GPT 3では、3,000億単語ぐらいのコーパスで学習をしていると言われています。そして、例えば「日本の少子化対策は」というテキストを見たら、まず「日本」という単語の次には「の」を推測するように、このネットワークのパラメータが調整されています。これは「propagation」ともいいますが、このように与えられた文章を次々に再現するようにパラメータを調整します。Chat GPT等が推論、あるいは対話しているときに何が起こっているかといいますと、まず人間側が入力するテキスト、いわゆるプロンプトを、言語モデルが解釈し、その続きを生成していきます。どこかで生成が止まり、人間が対話的に何か入れると、それらを全部踏まえて、言語モデルがその続きを生成すると、こんなことが繰り返されます。非常に大きなネットワークによって、人間が入力するプロンプトが、かなり柔軟に解釈されるようになっています。最近はこれを「In-context Learning」と呼びますけれども、翻訳するときに次はどこが大事かなというのを見つける仕組みが、非常に精緻になったことによって、入力したテキストの意味の曖昧性や構造等の解釈が非常によくなっているというのが一つのポイントです。
GPTは、当初、先ほどのネットワークが1億パラメータぐらいだったのですが、それがどんどん大きくなってきまして、GPT 3では、1,750億パラメータになりました。この規模になりますと、先ほどのように文脈の解釈が非常に柔軟で、賢くなり、出てくるテキストがかなり自然になってきました。チューニングをする、さらに、これに、いわゆるファインチューニングという、最後の生成をセーフティの観点等から適切なものにするように強化学習を行ったInstruct GPTというもので、これに自然な会話の振る舞いにするように学習させたものがChat GPTです。さらに、2023年3月にGPT 4がリリースされています。ただし、Chat GPTやGPT 4は、技術的詳細が公開されておらず、こんなことができるようになりましたというレポートが出ているだけです。GPT 4では、画像を扱うことができたり、アメリカの大学入試や司法試験、医師試験などに合格できるような振る舞いをするため、非常に注目されています。
生成AIに関していろいろな議論がございます。まず、非常に滑らかにウソをつくことがあります。悪意があってウソをつくわけではなく、言語モデルとして次に続く確率の高い単語を選んでいくと、事実ではないことを言ってしまうことがあります。ある種、非常に賢い振る舞いをしているのかもしれませんが、自然言語処理の研究者もなかなか理解が追い付いてないというのが正直なところです。さらに、言語モデルは日進月歩で進展があります。
それから、このベースとなる大規模言語モデルの研究開発が、Open AIやGoogle、あるいは中国の一部の大きなIT企業による寡占状態になっていることがあまり健全ではないといわれています。Open AIも、名前のとおり最初はオープンを目指して設立されましたが、最近は非常に競争が激しくなって、またMicrosoftからも大きな出資があり、オープン性は失われつつあります。こうしたことから、私もNIIで大規模言語モデルの研究を始めております。
それから、NDLにとって著作権は非常に大きな問題であると思いますが、日本では著作権法第30条の4により、著作物をAIの学習に利用することが認められています。ただし、著作権者の利益を不当に害する場合はこの限りでないと留保があり、また生成されたものがどの程度元のコンテンツに近いかなど、類似性や依拠性もポイントになるかと思います。私見ですが、確かにイラスト等では、ある作家のイラストを学習すると、うまく真似したようなものが出力され、イラストレーターという職業に深刻な影響を与えると思います。しかし、テキストについては、例えば、事実情報を伝える報道であれば、その伝えていることが重要で、言語表現はそれほど重要ではないといえるかもしれませんし、小説等も、ある特定の表現よりも、その全体として伝えたい温度感や肌ざわりのようなものが本来の表現したいものであるかもしれないと考えますと、テキストの場合は、著作権者の利益を不要に害するようなものではないのではないかと、私自身は考えております。それよりも、その正の側面といいますか、学術振興を始め、医療、法律、ビジネスなど、様々な分野での活用が、言語モデルの充実により更に進むことの意義が非常に大きいと思っております。
最近の進展を御紹介します。先ほど、事実に反する滑らかなウソをつくと言いましたが、言語モデルだけで、どんな問題でも解こうとしても到底できません。人間でも間違うことがあり、また辞書や過去の文献を参照したり、電卓を使ったりしています。大規模言語モデルの研究や企業のサービスもそれに近い方向に進展しています。例えば、Microsoftの「Bing」においては、既に検索と言語モデルが合体していまして、ダイナミックに検索で関連するテキストを持ってきて、それをプロンプトのように扱って、言語モデルが改めて解釈してまとめて、回答を生成するようになっています。こうした研究は学界でも進められています。
それから、例えば、先ほど、三角形の面積を求めるプログラムを作成できるという例を紹介しましたが、一方で、掛け算しなさいと言うと間違うことがあります。Chat GPTに4桁の掛け算をやらせてみると、こうして間違った解が返ってきます(資料3の21ページ)。これはおかしいなと誰もが思いますが、Open AIも開発を進め、現在、GPT 4のベータ版では、自分でプログラムを書き、そのプログラムを使って回答するということができるようになっています(資料3の22ページ)。これはプログラムを自分で作って解いた方がいいと言語モデルが判断するのですが、その解釈ができるという意味ですばらしいと思うわけですけれども、こうした掛け算のような単純なものではなく、もっと難しい問題でも、プログラムをダイナミックに作って回答することができるようになっています。
続いて、化学をしっかり勉強した高校生ぐらいだと解けそうな化学反応とその質量を計算するような問題を与えてみます(資料3の24ページ)。これはGPT 4だけでは50点ぐらいしか取れません。しかし、ダイナミックに外部ツールとして化学反応式の計算モジュールやモル質量のテーブル、電卓を用意し、参照させながら解くと(資料3の25ページ)、90点ぐらいは取れるようになります。この程度の問題であれば、しっかり勉強していると人間は簡単に100点を取れると思いますので、文脈の解釈はまだまだかもしれませんが、日進月歩で進展していると言えます。
先ほど申し上げましたとおり、大規模言語モデルの研究開発が寡占状態にあることはよろしくないですし、GPT 3等の言語モデルには、日本語のコーパスが1%ぐらいしか含まれていません。1%しかないのにあんなに日本語を操れることは不思議ですが、医療や法律、文化などの分野で活用するためにも、やはり日本語ドミナントなコーパスで学習した言語モデルが必要です。現在、NIIを中心に、日本語にも強い言語モデルを作り、その原理を解明していこうと活動しています。
それから、これが最後のスライドです。言語モデルなどのAIの基盤モデルを、NIIの方で進めておりますSINETや研究データ基盤(NII Research Data Cloud)の上に作ることによって、学術を振興していこうとNIIとしても考えております。
少し長くなってしまい、すみません。最後に議論のポイントのスライドを再度お示しします(資料3の18ページ)。今日の御紹介は以上です。ありがとうございました。
- 安浦委員長:
- 黒橋委員、どうもありがとうございました。御質問は、この次の竹内委員長代理からの話題提供の後でまとめて時間を設けたいと思います。
それでは、文部科学省科学技術・学術審議会情報委員会の「オープンサイエンス時代における大学図書館の在り方検討部会」の審議等について、竹内委員長代理に話題提供をしていただきます。竹内先生、よろしくお願いいたします。
- 竹内委員:
- ただいま御紹介いただきました竹内でございます。本日はこのような機会をいただきまして、誠にありがとうございます。今御紹介いただいたように、科学技術・学術審議会情報委員会の下に昨年2月に設置されました「オープンサイエンス時代における大学図書館の在り方検討部会」は、およそ1年をかけて審議を行い、今年1月25日付で審議のまとめを公にいたしましたので、その内容を報告させていただきます。なお、本審議会のメンバーである東北学院大学の佐藤先生には、検討部会においても委員として御参加をいただきました。また、本審議会の事務局である科学技術・経済課長にはオブザーバーとして御参加をいただいておりました。また、それを踏まえまして、NDLのデジタル化の状況につきましても御報告いただきましたので、改めて御礼を申し上げたいと思います。
スライドがたくさんありますけれども、時間も限られておりますので少し飛ばさせていただきます。配付資料で申しますと、1ページから10ページまでの間につきましては、今回の審議に至る、これまでの大学図書館をめぐる政策的な背景について説明しているものですので、その部分については、お時間があるときにでも御覧いただければと思います。内閣府等、NDLのことも一応含めて言及しております。また、この検討部会ですけれども、いわゆるジャーナルの問題というのは検討しないということでスタートしております。ジャーナルの問題につきましては、これとは別にジャーナル問題検討部会というのが既に開催され、審議まとめが出ているという状況でございましたので、ジャーナルについてはそちらで一応の政策的な議論をしていただいたということを前提としておりました。
この検討部会の設置の目的ですけれども、オープンサイエンスの時代、つまり社会全体がデジタル・トランスフォーメーション(以下「DX」)に向かっている時代に、DXを前提とした新しい研究システムや、教育のデジタル化によってもたらされる変化に対応して、大学図書館が、大学における教育研究と共にあるにはどういう機能を有すればいいかということを検討し、それを実現するために国あるいは各大学がどのような方策を採るべきかを提案することを、目的としておりました。また、COVID-19パンデミック下において、物理的に大学図書館へのアクセスが制限され、教育研究に大きな影響を与えたということも、物理的な場所に制約されない大学図書館の在り方について検討する大きなモチベーションになったと思います。
今回の審議においては、大学図書館の本質は何かということを踏まえる必要があると考えておりました。このスライドにお示しをしておりますように、配付資料だと13ページになりますけれども、大学図書館は情報、データ、知識が記録されることを前提として、大学における教育研究の文脈において、それらの発見・利用可能性を高め、アクセスを保証し、また利活用できるようにすることで、継続的に知が再生産されるようなシステムを維持するために存在をしていると位置付けております。すなわち、大学図書館は、教育や研究という知の再生産の過程のためのコンテンツの基盤であるということであり、この本質を踏まえて、その時々の技術を最大限生かしながら、どのような機能を果たすべきかという議論をしようといたしました。
ここでキーとなるものとして、デジタル・ライブラリーという概念も言及しておきたいと思います。これは、2020年9月30日の科学技術・学術審議会の学術分科会及び情報委員会による共同の提言「コロナ新時代に向けた今後の学術研究及び情報科学技術の振興方策について」において示されているものです。ここでいうデジタル・ライブラリーは、1990年代に盛んに議論されました電子図書館構想を更に発展させたものといえるもので、コンテンツのデジタル化を経た結果として、運営やサービス、そして職員の知識やスキルを変革し、自らのDXを推進するような大学図書館のことを指すと定義しております。
検討部会では、このデジタル・ライブラリーを、次期科学技術・イノベーション基本計画が終了する2030年を目途として実現するものとして位置付けました。論点としましては、コンテンツとそれに関わるサービス、そしてサービスの環境、人材の育成と確保、そしてこれらを実現する上で不可欠な大学図書館間の効果的な連携という四つの側面から検討することにいたしました。また、検討に当たっては、各大学図書館が目指すべき一つの理想といえる方向性を提示したいということを考えておりました。
さて、四つの論点の中の第一の点、今後の大学図書館に求められる支援機能や新たなサービスについてですが、ここでキーとなるのは、やはりコンテンツのデジタル化です。既存のコンテンツのデジタル化と、今後学術研究等の成果としてデジタルの形で生み出されるコンテンツのオープン化に分けて、整理を致しました。過去の蔵書のデジタル化に関しては、既にNDL等の他機関でのデジタル化が進展しているということがありますので、大学図書館は、それらと相互補完するようなデジタル化を進めることで、国としての統合的なデジタルアーカイブ基盤を構築し、それらを利活用するという方向性を示しました。先ほど御紹介いただいたように、国立国会図書館の電子化の規模というのは非常に大きく、図書だけでも既に、インターネット公開されているもの、また個人送信サービス・図書館送信サービスで利用可能になっているものが合わせて121万点となっております。現在の大学図書館の蔵書規模を考えますと、日本語資料を中心に121万点利用できる図書館というのはそんなにないと思います。おそらく大学図書館の中の10%まではいかないのではないでしょうか。今回の国立国会図書館のデジタル化とその公開というのはそれくらい大きなインパクトがあったものと考えております。
また、先ほど飛ばしましたスライドを後ほど見ていただければと思いますが、科学技術・学術審議会の下で、大学図書館の機能について長らく議論されてきましたけれども、国立国会図書館の活動を全面的に取り上げて連携を打ち出した審議まとめは、おそらく初めてと思っております。
今後出される研究成果については、機関リポジトリ等を通じた学術論文とのオープンアクセスを積極的に進めるとともに、永続的なアクセスを保証する必要があるということも提言をいたしました。
オープンサイエンスにつきましては、従来の論文だけではなく、研究データ管理及びそのオープン化が重要になっておりますので、これを支援するために研究者の立場に立った研究データ管理環境及びその支援体制の構築が求められているとし、その支援においては、研究のライフサイクルの各段階において様々な人材が必要で、大学図書館もそこに関与するという枠組みを示しました。
大学図書館がまず果たすべき役割としては、公開されている研究データの発見可能性を高めることであり、そのためには、データ作成者あるいは論文の執筆者たる研究者、そしてデータ、そのデータを用いた研究の成果としての論文に識別子が付与されることを前提に、それらをひも付けるようなシステム構築が必要であるというふうに述べております。
次に、サービスを実施するための情報科学技術及び「場」としての活用という論点についてですが、デジタル・ライブラリーの実現には、大学図書館機能を物理的な場に制約されない形で再定義することが必要となることから、「ライブラリー・スキーマ」と名付けられた論理構造を明確にし、様々な利用者に適した図書館のサービスをデザインし、仮想空間上においても適切に図書館機能を実現するようにすることを提案しています。しかし、そのデジタル・ライブラリーの実現により、物理的な場が不要になるわけではなく、物理的な場としての大学図書館は、物理的な空間と仮想的な空間が融合する場として、あるいは仮想的な空間に対する高度なインターフェースといった付加価値を持つ場として発展するものとして位置付けております。
第三に、求められる人材についてですが、デジタル・ライブラリーを実現する上で必要な知識やスキルについて整理検討した上で、その専門性を認定する制度の構築などを進め、専門職としての能力開発の促進、新たなキャリアパスの形成など、構造的な課題の解消を目指すとしています。特に研究データ管理に関わることから、研究のライフサイクルの理解が不可欠となっていますが、その専門人材が不足、また専門職として確立されていないという問題もございます。専門人材のキャリアパスやポジションの確立など構造的な課題を解消するための仕組みを構築することについては、国の責務であると明記しています。また、今後、大学図書館の役割の明確化と、それに基づく業務の再構築の考えを踏まえ、各大学においては、大学図書館に専門人材を配置することができるよう、組織体制と人的資源配分を見直すこととしております。
第四に、大学図書館間の連携についてですけれども、デジタル・ライブラリーの実現に向けて、「1大学1図書館」という前提にはとらわれず、複数の大学図書館でコンソーシアムを形成するなど、連携して対応するというふうにしております。御承知のように、大学設置基準は、大学に必要な施設として図書館を挙げておりまして、各大学が責任を持って大学図書館を設置し、適切な人材を割り当て運営していく責任を有するということになっております。しかしながら、大学図書館が今求められている新たな機能やサービス、それに伴う人材の配置育成を考えると、大学内における関係部署との協働、あるいは1大学の図書館だけで対応するということは容易ではありません。ですので、デジタル・ライブラリーにおいては、1大学で完結した一つの図書館システムを整備するという前提にとらわれず、複数の大学図書館で対応することを有力な手段と考えています。また、このようなデジタル・ライブラリー構想を実現する過程で新たに生じる共通の課題等については、検討する場を国において設置し、新たな支援方策等を検討することとし、国として推進すべきことを示しました。
現在この審議まとめを受けまして、フォローアップのための検討会が設置されております。「大学図書館「2030デジタル・ライブラリー」推進に関する検討会」というもので、これは文部科学省研究振興局長の私的諮問機関として作られているものでございます。ここでは、審議まとめにおいて示された方向性に沿って、どのように具体化していくかを検討していくという状況となっています。
大変雑駁でございますが、以上でございます。どうもありがとうございました。
- 安浦委員長:
- 竹内委員長代理、どうもありがとうございました。
それでは黒橋委員、竹内委員長代理の話題提供につきまして、御質問等ありましたら挙手をお願いいたします。
竹内委員、どうぞ。
- 竹内委員長代理:
- ありがとうございます。黒橋先生から大変エキサイティングなお話を伺いましたが、図書館サービスを考えますと、生成AIはレファレンスサービスに応用ができるか、というのがかなり大きな議論になっているように思います。それについては、生成AIは滑らかなウソをつき、情報源が示されないから、決してレファレンスに使えないという議論もあります。しかし、先ほど黒橋先生に御紹介いただきましたMicrosoftの「Bing」のように(資料3の20ページ)、大規模言語モデルと検索とが組み合わさることによって、文献的な根拠のようなものを示しながら回答することもある程度可能になりつつあり、レファレンスでの活用の際に課題となる、情報源の提示についても解決に向かっていくのではないかと思ったところでございます。
先ほど、この辺りが今研究の中心であると御紹介いただきましたが、これが今後どういう形で精緻化されていく方向にあるか、教えていただければと思います。よろしくお願いいたします。
- 安浦委員長:
- 黒橋委員、お願いします。
- 黒橋委員:
- 竹内先生、御質問ありがとうございます。まさにAIがウソをつくという問題に対して、どう対応していくかは非常に大きな問題です。今、いろいろなことがブラックボックスになっていますので、一つには、実際に言語モデルの中で何が起こっているか、おかしなものが出てくるときに、どの学習コーパスが影響しているかなど、元の学習コーパスに戻って検証といいますか、研究していく枠組みが必要であると思います。このため、先ほど少し御紹介したような活動をNII中心に行っています。
それに加えまして、御紹介しましたように、検索とつなげて、ダイナミックに検索で関連するテキストを得て、回答をまとめ、レファレンスとして示すことができつつあります。今後いかに融合が進んでいくかは、正にこれからだと思います。
言語モデルとして学習したものにおいて、ある回答の情報がどこから来たかを出せれば、それはそれで一つの方法です。また、検索について今現在は検索結果の上位のいくつかを参照しているだけですので、もっと広い範囲をベースとして、それをある種集約するような形で言語モデルが動くようにすること、例えば論文などにあるような何十個というレファレンスを出して、情報を整理して提供するというようなことは、この分野の非常に重要な研究目標として、これから活発に研究が進んでいくと思います。こうしたものが、図書館におけるレファレンスサービスも支援していくのではないかと思います。
- 安浦委員長:
- ありがとうございます。他にはよろしいでしょうか。少し時間が押していますので、まだ質問あるかもしれませんが、次に移りたいと思います。
黒橋委員、竹内委員長代理、貴重なお話ありがとうございました。委員の皆様方から御意見をいただくのが、この審議会の基本的な、重要な役割でございます。まず、懇談の趣旨についてNDLから補足をお願いします。
- 木藤利用者サービス部長:
- 現在の第五期国立国会図書館科学技術情報整備基本計画の計画期間は2025年度まででございまして、今年度はその3年目に当たります。2026年度からは次期計画となりますが、当館では来年度の後半からその準備を行いたいと考えております。本日の御懇談で委員の先生方の御意見をいただきまして、次期計画でどのようなことを取り扱っていくかなどを検討していきたいと思っています。よろしくお願いいたします。
- 安浦委員長:
- では、各委員の皆様方から御意見をいただきたいと思います。こちらから指名させていただきますので、まずはオンラインで御出席の委員から順にお願いします。なお、時間の制約がございますので、2分程度でお願いできればと思います。よろしくお願いします。
まずは浅川委員、お願いいたします。
- 浅川委員:
- はい。先ほど少し触れてしまったのですが、デジタル化し全文テキスト化するということに、視覚障害者としても、研究者としても大変期待しております。今後様々な研究をするに当たって、過去の文献の全文検索は非常に強力な武器になりますので、是非この全文検索の充実を進めていただきたいと思います。
校正について、先ほど申し上げましたが、是非AIを使って全文検索、校正の精度を上げるような研究を検討いただけると非常に面白い、新たなフェーズに向かえるのではないかと期待しております。是非検討よろしくお願いいたします。
そして視覚障害者ユーザーとしての希望かもしれないのですが、それに関連してもう一つ申し上げます。最近様々な図書がアクセシブルになりつつあり、タイムリーに新刊の電子版を読めるようにもなってまいりましたが、まだまだ十分ではありません。現在では視覚障害者だけにとどまらず、広くReading Disabilityと呼ばれる人々が認識されているようになっていますので、サービス体系は異なると思いますが、過去の文献のデジタル化や全文テキスト化だけではなく、新刊をタイムリーにReading Disabilityに提供できるような仕組み、新作のアクセシビリティについても、是非御検討いただければと思います。以上です。ありがとうございます。
-
(補足)
令和5年7月に、図書館におけるアクセシブルな電子書籍サービスに関する検討会(事務局は国立国会図書館)において、「電子図書館のアクセシビリティ対応ガイドライン1.0」を作成、公開しました。
- 安浦委員長:
- 浅川委員、貴重な御意見ありがとうございます。続きまして佐藤委員にお願いしようと思っていたのですが、音声の不具合があるようですので、技術的に解決してもらっている間に、戸山委員、お願いします。
- 戸山委員:
- 私からは二つあって、一つは先ほど申し上げましたように、是非デジタル化を早く進めて、国民がもう図書館に行かなくても、自宅から、また教育機関で、図書館のデータを十分に活用できるというような環境を是非構築いただきたいと思います。
それから二つ目は、今日、話題提供にも出たChat GPT等の生成AIについてです。NDLでもこれをどういうふうに導入しようかと当然取り組まれていると思います。NDLによる情報発信は大変重い意味を持つので、これをどう使うか、どう位置付けるかは、是非早々に御検討されるといいなと思います。これとは直接関係ないかもしれませんが、例えば、国会議員からのいろいろな資料要求や調査要望に対する回答は、多分これまで職員の方が資料を全て目で見て読んでお答えしているのではないかなと思います。Chat GPT等の生成AIを導入したときに、出力されたものが全て正しいわけではありませんが、それをどういうふうにチェックするかが一番大事になるのではないかと思います。国際医学情報センターも、国民への薬学医学の情報の提供を役割としており、責任を持って正しいデータを出すにはどうすべきかを考えています。生成AIの活用に当たっては、最終的にそれをチェックできるような人を育てるといったことも、必要ではないかと思います。以上です。
- 安浦委員長:
- 戸山委員、非常に重要な御意見ありがとうございました。
続きまして村山委員、お願いいたします。
- 村山委員:
- 少し抽象的なことを申しますと、科学技術情報に関して、過去から蓄積された非常に膨大な科学技術情報のもとに現代文明、現代社会が成立しています。そして、一人の研究者が、膨大な文献・論文を自分の目で読んで全てを理解することはできないのではないかという議論もあります。その膨大な知識を、整理して活用できるようにしていくときには、やはり人工知能のような新しいテクノロジーが非常に有効であろうと思います。人工知能などを使うことで、人間が更に新しい科学技術文明、テクノロジーを構築することができるとすれば、そのための知の保存、整理、提供を行う図書館の役割はますます大きくなっていきます。
また、大学図書館との連携ネットワークについて話題提供もありましたが、まさしくデジタル化によって複数の拠点をつないで、更なる知能集約が可能になることは、我々が目指す将来像として望ましいことではないかと考えております。どの程度のタイムスケールでこうしたことができるかは大きな問題ですが、期待しております。以上です。
- 安浦委員長:
- 村山委員、ありがとうございました。それでは続いて渡部委員、お願いいたします。
- 渡部委員:
- 国文学研究資料館の渡部泰明です。私たちは古典資料を中心に扱っています。NDLとは、近代を中心に、様々な技術を教えていただきながら連携していますが、さらにその連携を強めたいと考えています。特に知財・権利関係の情報などを是非共有していただきながら、連携を進めていきたいと思っています。
順調にいろいろ進めておられるようで、大変頼もしく思っております。特に自分の研究の専門から言いますと、次世代デジタルライブラリーで、近代を含む古典籍資料約8万点の全テキストデータが実験的に公開されています。これは、私の研究分野だけではなく、広く人文学の研究者の意見を聞きましても、すごいのが出た、これを使わないとこれから研究できないだろうなと評判です。更なる充実、利便性向上に、国文学研究資料館も加わっていきたいと思っていますので、連携協力をよろしくお願いしたいと思います。
また、先ほどもお金の問題が挙がりました。切ない話ですが、様々な図書館と連携しようとしても、お金がかかるからできないことも出てきてしまいます。先ほどNDLでも内製デジタル化に取り組んでいると報告がありました。国文学研究資料館もできるだけ内製デジタル化を行うことで経費節減を図っています。特に私立の図書館や博物館は資金繰りがなかなか大変です。デジタル化等の良さは分かるけれども、実際に協力していただけるかというと、ちょっと待ってほしいと言われることもしばしばあります。デジタル化について、Win-Winの関係になれるようにお考えいただきたいし、また内製デジタル化の情報等を共有いただければ有り難いと思います。
過去から現在までの様々な知的遺産へアクセス可能になることが理想と思っています。古いことが今更何の役に立つのかとよく言われますが、そのようなことはありません。様々な現代の課題には全て今までの知恵が関わっているはずで、そうした過去への遺産にアクセスできるようにしたいと私たちは考えており、NDLと一緒に考えていけたらと思っています。
最後もう一点だけ、人材育成についてです。次世代を担う人材は非常に重要ですが、人文学を勉強し、なおかつ情報学やデジタル技術にも詳しい人材は、そう簡単に育ちませんので、私たちも非常に困っています。デジタルヒューマニティーズを担う人材育成についても、積極的に何か御発言、御努力をいただければ、そしてまた私たちとも連携いただければと考えております。長くなりましたが、以上です。
- 安浦委員長:
- 渡部委員、どうもありがとうございました。それではJST理事長の橋本委員の代理として御陪席いただいております金子理事、何かございますでしょうか。
- 金子科学技術振興機構理事(陪席):
- 金子でございます。JSTは、J-STAGEやJ-GLOBAL、それからJDreamⅢなど、色んな情報サービスを提供しております。これまでもNDLとはいろいろと連携させていただいていますので、引き続き今後ともよろしくお願いします。以上です。
- 安浦委員長:
- ありがとうございます。JST、NII、NDLで連携しながら国全体の仕組みを作っていただきたいと思いますので、よろしくお願いいたします。
それでは、現地出席の委員に移ります。奥野委員、お願いいたします。
- 奥野委員:
- 文部科学省の奥野でございます。私からは2点ございます。
まず、本日提供いただいた話題にも関連いたしますが、知の利活用について、オープンサイエンスという観点がとみに重要になっていると思います。本年のG7の首脳会合及び科学技術大臣会合のみならず、我が国の骨太の方針、新しい資本主義の実行計画等においても、かかる観点等が取り入れられているところでございます。
続いて2点目です。話題提供いただいたOpen AI等の生成AIの利活用は、おそらく今後研究開発の在り方を変えていくことになろうかと思います。したがって、図書館の業務にAIを使うという観点だけではなく、図書館の持っている知のデータを、AIを使った新しい研究開発のベースとして利活用していくという観点も含めて、図書館の在り方等を考えていく必要があるのではないかと考えています。以上です。
- 安浦委員長:
- 奥野委員、ありがとうございました。それでは、小口委員、お願いいたします。
- 小口委員:
- 日本原子力研究開発機構の小口でございます。デジタル化の中で、図書館の在り方が本質的に変わってきているのではないかと思います。私の機構にも、割と大きな図書館がありますが、利用状態をヒアリングしますと、かなり変わってきています。図書やジャーナル・雑誌類がそもそも最初からデジタル化され、インターネット上で利用できるようになっています。さらに、古い文献も、著作権等による制約がいろいろありますが、どんどんデジタル化されるようになり、図書館には行かずに、自分でインターネットから検索して利用するようになってきていると思います。
今日の話題提供にもあった、オープンサイエンス時代の図書館の役割において、仮想空間の図書館と物理的な空間の図書館をハイブリッドさせ、時代にマッチしたより良いものを提供するかという御議論があったかと思いますが、ここのところはやはりしっかりと考えていかないといけません。若い人はデジタル社会の中で生まれ、教育を受け、生活しています。先を見据えて何をするか考えていく時になっていると思います。以上です。
- 安浦委員長:
- どうもありがとうございます。それでは黒橋委員、お願いいたします。
- 黒橋委員:
- はい、ありがとうございます。2、3点お話ししたいことがあります。
大きな考え方として、まず一つ目です。デジタルの基盤の構築はかなり進んでいると思いますが、そのデータをいかに活用していくかというところで、何かあったらどうするのかと、日本では慎重にいろいろな検討が行われているような感じがします。そこをもう少し踏み出していくというのが大きなところで大事かなと思います。データの活用には、AIの学習データという形も含まれています。何かあってからいろいろ考えていくというようなことは、国の機関として難しいと思いますけども、そこを踏み出していただくことが、将来の日本のためには大事であると思います。
それから、あと個別に2点お話しします。まず、インターネット資料収集保存事業WARPについてです。日本において民間のウェブアーカイブの検索サービスがないことは非常に大きな問題と考えています。インターネット情報は玉石混交かもしれませんが、重要なものについてはNDLがきちんと収集することが必要であると思います。今日の資料(資料2の8ページ)に、これから民間のウェブサイトの収集の検討を進められるとありましたが、情報の源泉として非常に重要ですので、今後、収集対象を拡張していくことを検討いただければ大変有り難いと思っています。
それから、データの活用に関係しますが、全文テキストデータが本当に使えるようになったときに、さらに書誌等のメタデータに加えてコンテンツの中身も対応付けして、ネットワーク的に活用していくことが今後重要になると思います。そこでNDLとJSTとNIIとで、技術やコンテンツについて、相互に情報交換し、共同でいろいろ開発していくことができたら有り難いと考えております。以上です。
- 安浦委員長:
- はい、どうもありがとうございました。NIIからの支援も期待されていると思いますので、黒橋委員には所長としてよろしくお願い申し上げます。
それでは竹内先生、お願いします。
- 竹内委員長代理:
- ありがとうございます。本日は話題提供の機会もいただきましてありがとうございます。先ほど質問させていただきまして、全体像が非常によく分かってきました。
既に先生方から御発言がございましたけれども、デジタルの基盤から必要な知識をどのように取り出し、オーガナイズしていくか、これまで人力でやってきたものをAIが相当代替していくことが方向性として見えてきたと思います。そうしますと、一つには、デジタルの基盤を信頼度の高いリッチなものとしていくことが、過去の図書館の蓄積を生かす一つの大きな方策であろうと思っています。
それからもう一つには、デジタルの基盤をベースとして、人々が何をどのように学んでいくのかが、やはり非常に大きなポイントになってくると思います。NDLだけではなくて図書館コミュニティが、従来の図書館利用の枠組みを超えて、大きな知識の海の中で、我々がどのようにそれを暮らしの中で使っていくか、知識活動の向かうところを提案していく必要があるのではないかと感じました。以上でございます。
- 安浦委員長:
- はい、どうもありがとうございます。新しい方向性についても御提言いただきました。
佐藤先生、お待たせいたしました。よろしくお願いいたします。
- 佐藤委員:
- 音声不良で大変失礼いたしました。今日お話いただいた全文テキストデータの提供を始め、非常に大きな進捗があったことは大変有り難いと考えております。第六期の科学技術情報整備基本計画に向けてということですが、今日御報告いただいたものは、ほとんどがインプット部分の進捗でした。気になりましたのは、全文テキストデータなどが提供されるようになって、例えば、これまでは利用されていなかったコンテンツが利用されるようになったとか、利用の大きな変化があるのではないかということです。今後、第五期の残り2年半の中で、ある程度質的なものも含めて、利用の変化を評価する枠組みを考えておく必要があるのではないでしょうか。NDLでも既にお考えなのではないかと思いますが、それらを基にして第六期を御検討いただくことが、今後必要になってくるのではないかと感じた次第です。以上です。ありがとうございました。
- 安浦委員長:
- 佐藤委員、どうもありがとうございます。
私の方からもちょっと一言感想を申し上げたいと思います。先ほど黒橋委員からお話ありましたように、昨年の11月にChat GPTがリリースされた後、いろいろ話題になっていますが、その中で、NDLが提供されている次世代デジタルライブラリーも使ってみて、非常に対照的だなと私は思っております。Chat GPTが、原典はあまり見せずに勝手にきれいな文章でお話を作って出してくれるのに対して、次世代デジタルライブラリーは、原典の過去の文献、文書そのものを映像で見せてくれ、自分の目で確かめることができるツールです。この二つのツールを今後うまく融合させて、研究者や事業を行っていく人たちを増やし、国民それぞれが使いこなせるようにしていくかは、非常に大きな今後の課題であると、この半年で実感した次第でございます。是非NDLでは、国民一人ひとりのリテラシーをどういうふうに作っていくかという目標も掲げていただきたいと思います。また、デジタルの基盤を整備するだけ、後は使う人が勝手に使えばいいというスタンスではなく、こういう使い方ができますというような事例を発信していく、そういうサービスへもう一歩踏み出していただければと思っています。
少し私の私見を述べさせていただきました。各委員の皆様方から、それぞれのお立場からの御意見頂きました。全体を通して、まだ言い足りない事等ございましたら、御発言いただいて結構ですけど、どなたかございますでしょうか。よろしいですか。
それでは、NDLの方では、是非本日頂いた様々な御意見を参考にして、今の第五期基本計画をどうするか、そしてそれを踏まえて第六期基本計画をどう考えるか、取組を進めていただければと思います。委員の皆様方にはこの審議会の場でなくても、御意見等ございましたら、NDLに言っていただければと思います。この情報化、あるいは一歩進んで知識化の時代に合った図書館の在り方というものを、審議会全体で今後も一緒に考えていただければと思いますので、委員の皆様方も併せてよろしくお願いしたいと思います。どうもありがとうございました。
- 5. その他
- 安浦委員長:
- それでは最後に、事務局から連絡事項をお願いします。
- 福林科学技術・経済課長:
- 本日の審議会の議事録につきましては、案がまとまり次第、委員の皆様にメールでお送りいたします。御多忙のところ恐縮ではございますけれども、内容の御確認をお願いできればと思います。また、確認が終わりました議事録につきましては、委員長の御承認をいただいた後、当館のホームページで公開いたします。本日は貴重な御指摘・御提案をありがとうございました。次回の審議会につきましては、来年8月頃の開催を予定しております。ただし、現在の任期は令和6年5月31日までとなっておりますので、また改めて御相談させていただければと思います。引き続きどうぞよろしくお願いします。
- 6. 閉会
- 安浦委員長:
- それでは、予定しておりました議事は全て終了いたしました。これにて閉会したいと思います。委員の皆様方には、質の高い御議論を賜りまして感謝申し上げます。ありがとうございました。
- (閉会)
このページの先頭へ