UiBot:みんなのためのロボット!

ユーザの位置: トレーニングセンター > UiBot開発者ガイド > 21.OCR コマンド
21.OCR コマンド

イメージクラス(Image Class)コマンドを使用すると、インターフェイス要素をチェックできなくても、操作の正確的な場所を見つけることができます。しかし、ターゲットコマンドのようにインターフェイス要素の内容を読み取ることはできません。 改めてWeChat Windowsを例に説明しましょう。画像コマンドを使用してWeChatにログインし、さまざまな連絡先の間にを切り替えることができます。しかし、チャット自体のコンテンツを(肉眼で見るのは簡単ですが)まだ利用できません。次の図でそれを見ることができます。そこで、UiBotの「OCR」クラスコマンドが必要です


(imgsTarget/8.png){width="50%"} WeChatから直接入手するのは難しいです。


OCRは「光学文字認識」の略です。これは遥か昔の技術です。それによってOCRが前世紀において紙類の書籍の中からテキストをスキャンと取得することを実現させました。現在、OCRテクノロジーは進化しており、ディープラーニングテクノロジーに統合されました。OCRを使用して、画面からさまざまなテキストを識別して区別します。その認識率は非常に高いです。写真のほとんどが薄暗い紙の本/文書でできているのではなく、デジタルになっています。


OCRはRPAとうまく結びられています。しかし、OCRの統合はより技術的です。通常、RPAベンダーは自らOCRを行うのではなく、サードパーティのOCRサービスに直接アクセスして使用します。UiBotの場合、Baidu Cloud のOCRテクノロジーは国内メーカーにおいて比較的に強力であるため、デフォルトをBaidu Cloud のOCRサービスにします。そのOCRは、インターフェイス上の単語と数字を認識するだけのではなく、請求書、IDカード、列車のチケットなどの文書または羊皮紙の画像を最適化することもできます。さらに、請求書番号、請求書の値、名前などの重要な内容を正確に識別することもできます。


Baidu Cloud OCRにアクセスするためには、まず次の3つの要件を満たす必要があります:


•インターネットにアクセスする必要があります。Baidu Cloudは、ローカルで実行されているソフトウェアではなく、インターネットクラウドサービスに基づいています。そのため、個人使用の場合、インターネットに接続する必要があります。企業用の場合、インターネットにアクセスすることができません。Baidu Cloudとの交渉してオフラインサービスを購入する必要があります。

• Baiduに一定の費用を支払う必要があります。 Baidu Cloud のOCRサービスは無料ですが、1日に5,000回(共通の文字認識、認証などの場合は1日に500回)の無料割り当てを提供しています。個人使用の場合、無料のサービスで十分です。しかし、Baiduは無料の割り当てと請求料金をいつでも変更できますから、費用が変わるかもしれません。


Baidu Cloudは有料のため、UiBotのユーザーが個別のアカウントを共有することは不可能です。そのため、各ユーザーは、自分でBaidu Cloud アカウントを申請してから、OCRサービス(アクセスキーとシークレットキーと呼ばれることが多い)を使用します。申し込み方法は簡単です。[オンラインチュートリアルを見る](https://forum.uibot.com.cn/thread-192.htm)をクリックしてください。


UiBotには次のOCRコマンドが含まれています:


[UiBotのOCR コマンド] (imgsTarget/9.png){width="30%"}


赤いボックス内のコマンドは、「Click Image」、「Move Mouse to Image」、「Find Image」のように見えますが、画像を渡す必要はありません。それを見つけるためには、ただプロパティのテキストをマークすればいいです。


青いボックス内のコマンドは、緑のボックス内のコマンドに似ています。前者が画像ファイルを提供しなければならない場合を除きます。後者は、ウィンドウと領域を提供する必要があります。プロセスが以前と同じ方法で実行するとき、UiBotはウィンドウの指定された領域のスクリーンショットを自動的に取得し、それをファイルに保存します。


まず、「screen OCR」コマンドを試してみましょう。 ダブルクリックまたはドラッグしてScreen OCRコマンドを挿入してから、コマンドの[ターゲット検索]ボタンをクリックしてください(UiBot Creatorウィンドウが一時的に非表示されている場合)。 そして、マウスをWeChatウィンドウに移動します。赤いフレームの青いカバーでWeChatウィンドウが隠されています。それから、マウスをドラッグして、文字認識用の領域をマークアウトします。この領域は紫色のボックスで示されます。次の図に示します。


! [OCR NoTargetを選択] (imgsTarget/10.png) {width="60%"}


このコマンドは、実行中にWeChatからウィンドウを自動的に検出します。そして、紫色ボックスでの指定された場所(WeChatウィンドウの場所を基準にします)でスクリーンショットを撮ります。次に、スクリーンショットからsTextを識別し、認識されたsTextを変数sTextに保存します。


この時点で、ほぼ完了しましたが、まずコマンドを選択し、「プロパティ」でBaidu Cloudからもらったアクセスキーとシークレットキーを入力するなければならなりません。アクセスキーとシークレットキーはどちらも文字列(文字/テキストのセット)なので、テキストの左右に二重引用符を保持する必要があることに注意してください。OCRコマンドが完了した後、 Debug Windowコマンドで出力を追加し、出力変数sTextを指定することによって、その効果が実現できます。sTextは文字列ではなく変数名であることに注意してください。変数の両側に二重引用符を付けないでください。


! [OCRコマンドを完了する] (imgsTarget/11.png) {width="80%"}


このプロセスブロックを実行すると、その効果を確認することができます。 WeChatウィンドウが存在する限り、またウィンドウのサイズが変更されていない限り、現在のWeChat(またはWeChatグループ)の名前を特定することができます。


次に、I.D.、列車のチケットなどを対象に、特定のイメージOCR 認識(Image OCR Recognition)コマンドをもう一度テストします。画像を次の形で保持します:


``D:\1.png```document:'


! [特別なOCR:画像] (imgsTarget/12.png){width="40%"}


次に、この画像OCR認識コマンドを使用して、前述のようにプロパティを変更します。 上記のアクセスキーとシークレットキー以外、認識したい画像のファイル名を指定しなければなりません。「鉄道チケットの識別(Train Ticket Identification)」のためにOCRエンジンを選択する必要があります。他のプロパティはデフォルトのままにします。実行後、出力バーで特定された結果を確認することができます。その結果、実はJSONドキュメントです。UiBotが提供したJSONクラスコマンドでさらに処理する必要がある。この章では説明しません。


!! [特別なOCR:プロパティ設定] (imgsTarget/13.png){width="80%"}


RPAの世界を探索する準備はできましたか?
自動化開始