AIにおいて、ディープラーニングは非常に注目されている技術ですが、それには大量で正確な学習データが必要となります。「ITアウトソーシング・BPO」サービスでは、学習データを確認し、正解ラベルを付与するタグ付け(アノテーション)の実施など、人海戦術で行わざるをえない作業にも対応いたしております。
ボリュームが多い、IT的な要素も入る、低コストによる作業が必要、といったお話でしたら、まずはお問合せください!
AI向け学習データ作成(アノテーション)が求められる背景
自動運転やチャットボット(自動会話プログラム)など、どんどん私たちの身近な存在となっていくAI(人工知能)。2030年度のAIビジネス市場規模は、2017年度比5.4倍の2兆1286億円ともいわれています。
既に、従来のルールベースによるAIや、応用技術であるRPA(ロボティック・プロセス・オートメーション)を用いた業務最適化といった動きは一般化しつつあり、次世代のAIとしてディープラーニング(深層学習)に注目が集まっています。それに伴い、先進的な企業はPOC(Proof of Concept:概念実証)やトライアルプロジェクトにより、取り組むAIの対象としてはディープラーニングに移りつつあります。このディープラーニングに必要不可欠なものは、ハイパーパラメーターの設定といったチューニングなどの構築ノウハウと同時に、大量の学習データ(教師データ)であるため、低コストでAI用の学習データを作成することが求められます。
サイバーテックでは、数年前からディープラーニングに取り組んでいます。自社の多言語マニュアル用CMS(コンテンツ管理システム)「PMX」のオプションとして、AI校正機能を提供しており、そこに必要とされる学習データの作成は全て自社で実施しています。また、多くのお客様から当社の“低コスト・高品質”なアノテーションサービスをお求めいただいており、セブITアウトソーシングセンターでは日々作業実績やアノテーションスキルが蓄積されていっています。これまでのノウハウを流用し、海外オフショア委託による低価格オペレーションながら、高品質のAI向けアノテーションサービスにより学習データの作成サービスを提供いたします。
AI向け学習データ作成(アノテーション)サービスの特徴
●セキュリティ面安心!当社の直接雇用スタッフによるAIアノテーション作業!
近年、リモートワークや在宅ワークがトレンドとなり、アノテーションのような比較的単純で、且つ量が多く求められる作業は“外部スタッフ”などと称されたクラウドワーカーに委託されることも多くなってきました。比較的単価が安く設定でき、依頼側としては低コストでの発注が可能になることがメリットですが、個人によるバラツキが出やすい、依頼側とエンド作業者間の通達や確認などのコミュニケーションにタイムラグが出やすいなどのマイナス面もあります。また、クラウドワーカーへの委託の場合には、使用端末や作業場所等の作業環境は作業者の任意の場所になるため、情報漏えい等セキュリティ面での不安が残ることが避けられません。
当社ではAI向け画像データ作成(アノテーション)作業は「セブITアウトソーシングセンター」の直接雇用スタッフのみで実施します。指紋認証による入り口の施錠、正規雇用された限られた人間のみの出入り、防犯カメラ設置等セキュリティを重視した管理の下、当社オフィス内の作業端末にてAI向け画像データ(アノテーション)を実施します。端末の紛失などによるデータ流出はもちろんのこと、プロジェクト内容自体の情報流出といった心配はありません!
●国内フリーランスや他の海外オフショアと比べても圧倒的な低コスト!
AI向け学習データ作成(アノテーション)業務の委託先候補としては、様々な海外オフショア拠点があります。比較的リーズナブルなエリアとして代表的な場所は、中国(大連)、ベトナム(ホーチミン・ハノイ)、フィリピン(マニラ)などが知られていますが、セブITアウトソーシングセンターはそれらの都市圏よりも物価が安い「フィリピン中部(セブエリア)」に存在します。大量になりがちのAI向け学習データ作成(アノテーション)業務であれば、なおさら効果が発揮されます!
●チーム体制による高品質AIアノテーション!
セブITアウトソーシングセンター内では、日本人プロジェクトマネージャーおよびフィリピン人リーダーの下、数名から数十名の作業者がプロジェクト作業を実施します。アノテーションチームは様々なアノテーション作業を経験しているため、正確且つスピーディな作業を実施します。ディープラーニングでは教師データの正確さが求められるため、正しいAI判定を導くためにもお客様のご要望に沿えるような品質でお応えします。
AI向け学習データ作成(アノテーション)サービスの内容
低コストで人材が豊富なことから、まさに人海戦術に最適なオフショア拠点「セブITアウトソーシングセンター」にて、現地日本人マネージャーおよびフィリピン人の管理者(アノテーションマネージャ)の下、オペレーションスタッフ(アノテータ)が様々なディープラーニング向け学習データを作成しています。
画像データに対するアノテーションの場合、例として以下のように、画像からの物体認識(オブジェクト ディテクション)や、領域抽出(セマンテック セグメンテーション)を実施しております。ディープラーニングに関する技術は日々進化しているため、求められる学習モデルに即したアノテーション仕様に基づき、様々なAI学習データ作成(アノテーション)に関する取り組みを実施しております。最新情報はお問合せください。
クラシフィケーション(類似画像からの共通物体認識)
お客様からの指示内容に従い、画像に付与されたマークと同一の物体(例:犬の鼻)を対となる類似画像にポイント付けをする、もしくは対となる類似画像での同物体の画面要素のX、Y座標を抽出する、といったアノテーションを実施しております。
※サンプル画像で用いた使用ツール:Microsoftペイント
バウンディングボックス(画像からの物体認識)
お客様からの指示内容に従い、画像に四角の矩形を付与してゆきます。単に矩形を付与するだけではなく、クラス仕様に即してラベルを付与することも可能です。
※サンプル画像で用いた試用ツール:LabelImg
画像からの領域抽出(セマンティック セグメンテーション / Semantic Segmentation)
お客様からの指示内容に従い、指定いただいたオブジェクトの枠取り、塗りつぶしを実施。奥、手前の位置関係チェック、塗り残しのチェック等のクロスチェックを実施して提出します。セマンティック セグメンテーションの場合、LabelmeやGIMPを使用する場合が多いですが、ご指定の作業ツール等がある場合には、ご指示いただければ対応いたします。
※サンプル画像で用いた使用ツール:GIMP
AI向け学習データ作成(アノテーション)サービスの事例・価格
●ディープラーニング(深層学習)に用いる学習データ作成
- 概要:写真画像上にマーカーが打たれた物体を把握し、対となる写真画像上の同一物体の座標をCSV化する作業を実施。約3万件の画像データを複数名で実施し、約2カ月で完了。
- ボリューム:約30,000ファイル
- ツール:Microsoftペイント
●ディープラーニング(深層学習)に用いる学習データ作成(アノテーション)
- 概要:写真画像上のお客様より「指定いただいた物体」の輪郭線情報の付与(セマンテック セグメンテーション)及びラベリングを実施。
- ボリューム:5,000ファイル
- ツール:labelme
AI向け学習データ作成(アノテーション)サービスに関する次のような課題をお持ちではありませんか?
- 教師データの識別ルールが複雑なため、きちんと対応してもらえるか心配
- 作業手順や識別ルールの確認は、お客様と現地の日本人マネージャーとの双方向による確認が可能です。ご希望に応じて現地の日本人マネージャーとビデオミーティング等も可能なため、日本人や日本語ならではの微妙なニュアンス等も問題ございません。また、お客様がご希望される場合は最終チェックを日本人が行うことも可能です。
- 精度の高いアノテーションデータが大量に必要ですが、品質は大丈夫?
- お客様よりいただいた指示書に従ってアノテーションを実施し、不明点や曖昧な箇所は常駐の日本人マネージャーによる確認を行います。また複雑な仕様により確認事項が多く発生する場合には、ご希望に応じてメールよりもリアルタイムでスムーズなやりとりが可能なチャットツールをコンタクトツールとすることも可能です。
- 機密情報が含まれるデータのため、セキュリティが心配
- クラウドソーシングによる業務委託やパートタイムワーカーとは違い、当社が直接雇用する正社員のアノテーターが当社のオフィス内の日本人管理下にて作業をいたします。そのため、データ流出はもちろんのこと、プロジェクト内容自体の情報流出といった心配はありません。
- 発注量が未確定です
- まずは確定している数の作業にて想定体制、および想定期間と概算費用をご提案いたします。追加データがある場合には柔軟に対応いたしますため、その旨ご相談ください。
- まずは少数発注で試してみたい
- 画像データの数が大量に存在する、あるいは分類仕様が多岐にわたるなどといった場合は、ご提案プランの内容で着手指示頂く前提、もしくは少額のご発注により、少ロットの実画像データを用いたトライアルプロジェクトが実施可能です。
「セブITアウトソーシングセンター」のエンジニアは、全員情報系(Computer Science学科)出身者です。単純作業なようで、実はしっかりとしたWeb技術が求められるITアウトソーシングとなりますので、上記以外のデータフォーマットでも数多くの実績がございます。まずはお気軽にご相談下さい。