カテゴリー

セゾンテクノロジー、社内データを「AI Ready」化するスクリプトテンプレートを「HULFT Square」で提供開始

  • URLをコピーしました!

株式会社セゾンテクノロジー

~生成AIが理解しやすいデータへの事前加工を省力化、回答精度も最大90%まで向上~

株式会社セゾンテクノロジー(本社:東京都港区、代表取締役 社長執行役員:葉山 誠、以下セゾンテクノロジー)は、生成AIのRAG(検索拡張生成)*1として読み込む社内データを事前加工する「HULFT Square」向けデータ連携スクリプト、「AI前処理テンプレートシリーズ」10種類を、7月23日より順次提供開始します。

本テンプレートを利用することにより、スプレッドシート、マニュアル、スキャンPDF、画像データ、音声データ、HTMLなど、社内に存在するさまざまな業務データから、タグなどの不要なノイズを除去したテキストの抽出や、非構造化データの構造化データへの変換、およびデータに適切なリレーションなどを付与します。社内データを「HULFT Square」から生成AIを経由して、生成AIが参照しやすいデータに事前加工することで生成AIの回答精度も最大90%*2まで向上し、データ加工にかかる作業工数も約50~60%程度省力化*3します。

目次

背景

近年、企業における生成AIの活用が進んでおり、大規模言語モデル(LLM)に新たに社内データの情報を組み合わせ、生成AIの検索精度を向上させるRAGの手法が拡がっています。一方で、社内データを生成AIに参照させたものの、当初期待したよりも回答の精度が得られていないことが多いのも実情です。

社内データを生成AIに最適な「AI Ready」なデータとするためには、生成AIが理解しやすい構造に加工したり、データに適切な意味づけを付与したりするなど、エンジニアがデータの種類に応じてさまざまな手法で事前にデータを前処理する必要があります。このデータ加工処理に必要なノウハウや作業工数の確保が、社内データを迅速に生成AIで活用し、高い回答精度も得るための課題となっています。

「AI前処理テンプレートシリーズ」の概要

生成AIに最適なデータに加工する「AI前処理テンプレートシリーズ」は、データ連携プラットフォーム(iPaaS)「HULFT Square」上で利用できるデータ連携スクリプトである「HULFT Squareアプリケーション」として提供されます。

社内データの種別に応じて10種類の「AI前処理テンプレートシリーズ」を利用することで、「HULFT Square」経由で生成AIとデータを連携させ、テキスト抽出やデータ変換、データの意味づけなどの事前加工の作業を生成AI自体に任せることで、RAGとしてデータを読み込むために必要な生成AIが理解しやすい状態に社内データを前処理することが可能です。

「AI前処理テンプレートシリーズ」の特長と種別および処理内容の概要は次の通りです。

  1. さまざまな社内データを生成AIが理解しやすい状態に事前加工し回答精度が最大90%*2まで向上

  2. ノウハウが必要なデータ加工の前処理をHULFT Square経由で生成AI側が実行し加工作業を50~60%程度*3省力化

■回答精度の向上

テンプレート種別

テンプレート名

効果とデータ処理の概要

提供開始

QA形式への変換

AI前処理 PDFからQA表作成

マニュアル類のPDFを非構造化データからQA形式に変換した構造化データとしてCSV形式で出力

2025年

7月23日

AI前処理 ExcelからQA表作成

Excelの表形式をQA形式に変換した構造化データとしてCSV形式で出力

2025年

9月予定

AI前処理 JSONからQA表作成

ECサイトなど外部システムのJSON形式の複雑な階層構造のデータをQA形式に変換した構造化データとしてCSV形式で出力

2025年

9月予定

AI前処理 XMLからQA表作成

階層構造やタグが複雑なXMLをQA形式に変換した構造化データとしてCSV形式で出力

2025年

9月予定

クレンジング*4

AI前処理 HTMLタグの削除

企業Webサイトや社内ポータルサイトなどのHTMLドキュメントからタグを除去しマークダウン記法で出力

2025年

8月予定

AI前処理 特殊文字・記号の削除

HTMLドキュメントから特殊記号や記号を削除しテキスト形式で出力

2025年

8月予定

■データ抽出の省力化

テンプレート種別

テンプレート名

効果とデータ処理の概要

提供開始

ドキュメントからの

テキスト抽出

AI前処理 PDFからテキスト抽出

スキャンしたPDFからテキストを抽出

2025年

8月予定

画像からの

テキスト抽出

AI前処理 画像からテキスト抽出

ホワイトボードを撮影した写真や手書きの議事録などの画像からテキストを抽出

2025年

8月予定

音声からの

テキスト抽出

AI前処理 音声からテキスト抽出

会議の録音などの音声データからテキストを抽出

2025年

9月予定

■データ格納の省力化

テンプレート種別

テンプレート名

効果とデータ処理の概要

提供開始

エンベディング

AI前処理 エンベディング&ベクトルDB格納

テキストや構造化データなどのインプットデータを数値ベクトルに変換

2025年

9月予定

「AI前処理テンプレートシリーズ」のデータ加工処理イメージ

*1 RAG(Retrieval-Augmented Generation):検索拡張生成とも呼ばれ、大規模言語モデル(LLM)に新たに外部の情報を組み合わせ、生成AIの検索精度を向上させる技術

*2 当社製品の価格表PDF(HULFT10:表・テキスト混在の12ページのドキュメント)を変換対象として使用し、3種類の生成AI(Claude/Gemini/Qwen)でQA形式に変換する前処理をした場合、無処理の場合は質問に対する正解率が30~50%だったのに対し、前処理を行った場合は回答精度が80~90%まで向上(セゾンテクノロジー調べ)

*3 PDFおよび画像からのテキスト抽出を行った結果、PDFからのテキスト抽出は平均約60%、画像からのテキスト抽出は平均約50%の作業時間省力化(セゾンテクノロジー調べ)

*4 テンプレート種別「クレンジング」は生成AIを経由せず「HULFT Square」のみでデータを加工処理

セゾンテクノロジーについて

「世界中のデータをつなぎ、誰もがデータを活用できる社会を作る」をミッションに、安全・安心の基盤となるデータ連携製品や IT サービス、金融や流通業をはじめとする多種多様な業種向けのシステム開発・運用をグローバルに展開しています。長年にわたり環境の変化に即応してきた強みを活かし、現在はクラウド型データ連携プラットフォーム(iPaaS)「HULFT Square」など先進事業の拡大に注力するほか、未来を切り拓くテクノロジーの実装に向けた取り組みを強化しています。

商標関連

  • 「HULFT」は、セゾンテクノロジーの商標または登録商標です。

  • その他の会社名、製品名、サービス名等は、各社の商標または登録商標です。

出典:PR TIMES

本プレスリリースの内容や詳細についてのお問合せは以下までご連絡ください。

企業プレスリリース詳細へ (2025年7月23日 10時00分)

大手通販サイトのあらゆる商品の価格を比較、最安値を検索!

まずはお好きなキーワードや商品名を入力して探してみましょう
×
よかったらシェアしてね!
  • URLをコピーしました!
目次