中国生成AI SU「DeepSeek」 の特許出願(翻訳付き)

DeepSeekの続報
先日DeepSeekについて書いたばかりですが(前回の記事)、さらにいろいろな情報が飛び交っています。興味深いものをいくつか引用します。
変わり身はやっ。マイクロソフトが「DeepSeek」を提供開始
OpenAIひとすじと思ったら大間違い。 彗星のごとく現れた中国のAI「DeepSeek(ディープシーク)」に一番はしゃいでるのは、Microsoft(マイクロソフト)のサティア・ナデラCEOかもしれません。OpenAIのデータをDeepSeekに無断で使用された疑いで調査を進めるのと同時進行で、DeepSeek最新モデルR1をAzure AI Foundryのカタログにちゃっかり加えて提供を開始しました。
引用元:GIZMODO
ネガティブな報道もあります。
強まるDeepSeek包囲網、「数百社」が使用制限-中国政府への流出懸念
サイバーセキュリティー企業アーミスのナディール・イズラエル最高技術責任者(CTO)は、とりわけ政府と取引のある企業など「数百社」がディープシークへのアクセスを遮断する措置を講じていると述べた。中国政府へのデータ流出リスクやプライバシー保護の脆弱(ぜいじゃく)性に対する懸念が背景にあるという。
引用元:Bloomberg
イタリア政府「DeepSeek」国内アクセスを遮断 中国企業からの説明が不十分
ロイター通信によりますと、イタリアのデータ保護当局は30日、DeepSeekの利用者のデータ保護を理由に国内からのアクセスを遮断したと発表しました。個人情報などがどういった情報源からどういった法的根拠で収集されているか、中国国内でデータを保管していないかなどの説明を中国企業側に求めたものの、返答は「全く不十分なものだった」としています。すでにアップルやグーグルなどのサイトからはアクセスできなくなっているということです。
引用元:KSB5ch
中国AI「DeepSeek」が「尖閣は中国固有の領土」 自民・小野寺氏、衆院予算委で懸念表明
自民党の小野寺五典政調会長は1月31日の衆院予算委員会で、中国の新興企業「DeepSeek」が開発したAIに尖閣諸島(沖縄県石垣市)が日本の領土かと尋ねたところ「中国固有の領土だと事実と違う答えが返ってきた」と指摘した。小野寺氏は「当たり前のことをねじ曲げてしまうのがDeepSeekだ」と主張し、「既に認知戦が始まっていると考えるべきだ」と強調した。
引用元:ITmedia
DeepSeekの特許出願(翻訳付き)
さて、こういった騒動のときに対象企業がどのような特許を持っているのか気になってしまうのは、いつもの職業病です。さっそく調べてみました。Google Patent によると、1件公開されていました。みなさん、内容が気になるかと思って日本語もつけてみました(翻訳については著作権フリーですが、精度の責任は負わないことをご了承ください)。
- 発明の名称
-
一种人工智能模型训练数据集的构建方法(人工知能モデル訓練用データセットの構築方法)
- 出願人
-
杭州深度求索人工智能基础技术研究有限公司
- 発明者
-
张洺川、邓成杞、陈官厅、张文韬
- 出願日
-
2024-03-28(CN118246542A)
- Status
-
Pending
- 特許請求の範囲
-
【請求項1】
人工知能モデルの訓練用データセット構築方法であって、
1)データセットをいくつかの同じサイズのデータシーケンスを区分するステップと、
2)データシーケンス単位でインデックスを作成するステップと、
3)必要な割合に基づいてデータセットからサンプルデータを抽出するステップと、
4)サンプルデータをデータシーケンス単位で混合し、ランダムにシャッフルするステップと、
5)シャッフルされたサンプルデータを、複数の完全なデータシーケンスを各々含む、複数のデータブロックに均等に分割するステップと、
6)モデルの各訓練段階のデータ入力時に、インデックスにより、対応するデータブロックを一括で読み込んで前記ステップモデル訓練データとするステップと、を含む、人工知能モデルの訓練用データセット構築方法。
【請求項2】
自己取得したデータを用いてデータセットを構築する場合、ステップ1)の前に、取得したデータをデータクレンジング及びトークン化するステップが必要である、請求項1に記載の人工知能モデル訓練用データセットの構築方法。
【請求項3】
前記データクレンジングは、生データのインテリジェント抽出、行ごとの重複排除、ハッシュによる重複排除、ルールベースのフィルタリングなどのステップを含む、請求項2に記載の人工知能モデル訓練用データセットの構築方法。
【請求項4】
前記トークン化のステップは、長いテキストを最小単位のトークンに分解し、トークンをベクトルのデータ構造に変換することを含む、請求項1~3に記載の人工知能モデル訓練用データセットの構築方法。
【請求項5】
データシーケンスは、連続するN個のトークンを含む1次元配列である、請求項1~4のいずれか一項に記載の人工知能モデル訓練用データセットの構築方法。
【請求項6】
ステップ2)に記載されるインデックスは、1次元配列[インデックス1、インデックス2、インデックス3、…、インデックスi]であり、インデックスiは、i番目のデータシーケンスの1番目のトークンの添字であり、前記添字は、i番目のデータシーケンス中の1番目のトークン記憶位置のオフセット量である、請求項1~5のいずれか一項に記載の人工知能モデル訓練用データセットの構築方法。
【請求項7】
ステップ3)~ステップ6)におけるサンプル抽出、ランダムシャッフル、サンプルデータ分割などのデータ操作は、いずれもデータシーケンス単位であり、実際に記憶ユニット内のデータを変更することなく、インデックスにより操作される、請求項1~6に記載の人工知能モデル訓練用データセットの構築方法。
【請求項8】
前記一括読み込みは、非同期IOにより行われる、請求項1~7に記載の人工知能モデル訓練用データセットの構築方法。
【請求項9】
端末装置であって、少なくとも1つのプロセッサと、メモリと、を備え、メモリは、プログラム命令を記憶するために用いられ、プロセッサは、メモリに記憶されたプログラム命令を呼び出して実施するために用いられ、これにより、前記端末装置は、請求項1〜8に記載の人工知能モデル訓練用データセットの構築方法を実施する、端末装置。
【請求項10】
コンピュータ可読記憶媒体であって、コンピュータにおいて実行されると、コンピュータに、請求項1~8に記載の人工知能モデル訓練用データセットの構築方法を実施させる、命令を記憶する、コンピュータ可読記憶媒体。
- 発明の効果
-
データ管理の効率化
データをシーケンス単位で整理し、インデックスを活用することで、訓練データの取り扱いが簡単になる。
高速なデータ処理
非同期I/Oを活用し、バッチ単位でデータを読み込むため、AIモデルの学習が高速化される。
ストレージの効率的な利用
データの並び替えやサンプリングをインデックスだけで管理し、物理データを変更しない ため、ストレージやメモリの使用量が最適化される。
トレーニングの安定化
シャッフルやサンプリングが適切に管理されることでデータの偏りを減らし、より汎化性能の高いAIモデルを学習できる。
AIの発明は、企業やチームの成果というよりは天才的個人の偉業という意見も聞かれます。発明者の論文を追ってゆくとさらにおもしろいかもしれません。