首页
C/C++开发
使用ICU剥离变音标记的代码

使用ICU剥离变音标记的代码 [英] Code to strip diacritical marks using ICU

查看：356 发布时间：2016/10/14 20:34:10 c++ unicode diacritics icu

本文介绍了使用ICU剥离变音标记的代码的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

有人可以提供一些示例代码来剥离变音标记（即，用具有重音符号，变音符号等等的字符替换它们的未标记，未变音的等等，例如每个重音é 使用C ++中的ICU库，将成为一个 UnicodeString 的纯ASCII e 例如：


Can somebody please provide some sample code to strip diacritical marks (i.e., replace characters having accents, umlauts, etc., with their unaccented, unumlauted, etc., character equivalents, e.g., every accented é would become a plain ASCII e) from a UnicodeString using the ICU library in C++?  E.g.:
UnicodeString strip_diacritics( UnicodeString const &s ) {
    UnicodeString result;
    // ...
    return result;
}

假设 s 已经正常化。 
推荐答案
在其他地方进行更多搜索后：
After more searching elsewhere:
UErrorCode status = U_ZERO_ERROR;
UnicodeString result;

// 's16' is the UTF-16 string to have diacritics removed
Normalizer::normalize( s16, UNORM_NFKD, 0, result, status );
if ( U_FAILURE( status ) )
  // complain

// code to convert UTF-16 's16' to UTF-8 std::string 's8' elided

string buf8;
buf8.reserve( s8.length() );
for ( string::const_iterator i = s8.begin(); i != s8.end(); ++i ) {
  char const c = *i;
  if ( isascii( c ) )
    buf8.push_back( c );
}
// result is in buf8

 。

                        这篇关于使用ICU剥离变音标记的代码的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！


                    
                        查看全文


        
            



        
        
            相关文章
            
                    
                        
                            使用Python删除变音标记;
                        
                    
                    
                        
                            如何转换为“组合变音标记"?在iOS上;
                        
                    
                    
                        
                            部分语音标记;
                        
                    
                    
                        
                            使用NodeJ从Amazon Polly获取语音标记;
                        
                    
                    
                        
                            添加声音标记的数组 - 谷歌地图的JavaScript;
                        
                    
                    
                        
                            PHP DOMDocument剥离HTML标记;
                        
                    
                    
                        
                            用于计算语音标记器的准确性的参数;
                        
                    
                    
                        
                            剥离 HTML 标记及其内容;
                        
                    
                    
                        
                            从TEXTAREA字段中剥离HTML标记;
                        
                    
                    
                        
                            从HTML输入中剥离脚本标记;
                        
                    
                    
                        
                            使用PIL（Python成像库）使用变音符号（“nikud”，发声标记）;
                        
                    
                    
                        
                            如何在C#中剥离HTML标记;
                        
                    
                    
                        
                            使用str（）将字节转换为字符串会返回带有语音标记的字符串;
                        
                    
                    
                        
                            编译静态链接到icu的icu sqlite扩展;
                        
                    
                    
                        
                            使用 xcode 构建 Sqlite ICU;
                        
                    
                    
                        
                            如何使用ICU编译sqlite?;
                        
                    
                    
                        
                            使用 PIL(Python 成像库)使用变音符号(“nikud"，发声标记)编写文本;
                        
                    
                    
                        
                            CKeditor剥离字体标记而不是转换为span;
                        
                    
                    
                        
                            如何将Unicode代码点转换为C ++中的字符使用ICU？;
                        
                    
                    
                        
                            为什么我的XSLT在这里剥离HTML标记;
                        
                    
                    
                        
                            PHP：将标记从array_values（）中的值剥离;
                        
                    
                    
                        
                            根据.config剥离Linux内核源代码;
                        
                    
                    
                        
                            如何转义CSV文件中的逗号和语音标记，以便它们在Excel中工作？;
                        
                    
                    
                        
                            使用ICU实现我自己的codecvt facet;
                        
                    
                    
                        
                            jQuery:从字符串中剥离所有特定的HTML标记;


    
        
            C/C++开发最新文章
            
                    
                        
                            应用程序无法启动，因为它无法找到或加载QT平台插件“窗口”;
                        
                    
                    
                        
                            CMake错误在CMakeLists.txt：30（项目）：没有CMAKE_C_COMPILER可以找到;
                        
                    
                    
                        
                            未定义的引用google :: protobuf :: internal :: empty_string_ [abi：cxx11];
                        
                    
                    
                        
                            什么0LL或0x0UL是什么意思？;
                        
                    
                    
                        
                            由于未定义的引用，无法获取OpenCV进行编译？;
                        
                    
                    
                        
                            Visual Studio 2012  - 错误LNK1104：无法打开文件'glew32.lib';
                        
                    
                    
                        
                            如何让cmake的CUDA找到;
                        
                    
                    
                        
                            由于捕获缓冲区，OpenCV VideoCapture延迟;
                        
                    
                    
                        
                            LINK：致命错误LNK1248：映像大小超过最大允许大小（80000000）;
                        
                    
                    
                        
                            C ++的错误：＆QUOT;数组必须用一个括号括起来的初始化＆QUOT初始化;;
                        
                    
            
        
        
            
                热门教程
            
            
                
                    
                        Java教程
                    
                
                
                    
                        Apache ANT 教程
                    
                
                
                    
                        Kali Linux教程
                    
                
                
                    
                        JavaScript教程
                    
                
                
                    
                        JavaFx教程
                    
                
                
                    
                        MFC 教程
                    
                
                
                    
                        Apache HTTP客户端教程
                    
                
                
                    
                        Microsoft Visio 教程
                    
                
            
        
        
            
                热门工具
            
            
                
                
                    
                        Java 在线工具
                    
                
                
                    
                        C(GCC) 在线工具
                    
                
                
                    
                        PHP 在线工具
                    
                
                
                    
                        C# 在线工具
                    
                
                
                    
                        Python 在线工具
                    
                
                
                    
                        MySQL 在线工具
                    
                
                
                    
                        VB.NET 在线工具
                    
                
                
                    
                        Lua 在线工具
                    
                
                
                    
                        Oracle 在线工具
                    
                
                
                    
                        C++(GCC) 在线工具
                    
                
                
                    
                        Go 在线工具
                    
                
                
                    
                        Fortran 在线工具



    
        
            登录
            关闭
        
        
            
                扫码关注1秒登录
            
            
                
            
            
                
                
            
            
                发送“验证码”获取
                |
                15天全站免登陆
            
            
        
    
    





    
		
			友情链接：
            IT屋
            Chrome插件
            谷歌浏览器插件
        
        
            IT屋
            ©2016-2022 琼ICP备2021000895号-1
            站点地图
            站点标签
            SiteMap
            <免责申明>
            本站内容来源互联网,如果侵犯您的权益请联系我们删除.