cassandra相关内容
我正在寻找 cassandra 是否有节点硬件规格的限制,比如如果有任何此类限制,每个节点的最大存储空间是多少. 我打算使用几个节点,每个节点具有 48TB 存储(2TB X 24 硬盘驱动器 7200rpm)和一些好的双至强处理器. 我已查找此类限制(如果存在),但未找到有关此问题的任何材料.为什么最近关于 cassandra 的议论越来越少,但它已经成熟,并且是 0.8 版本,而大
..
我正在考虑设计 Cassandra 集群. 用例是为时间序列数据存储大行的小样本(使用 KairosDB),数据几乎是不可变的(非常罕见的删除,没有更新).这部分工作得很好. 然而,几年后,数据将变得非常大(它的最大大小将达到数百 TB - 考虑到复制因素,超过 1 PB). 我知道建议不要在每个 Cassandra 节点使用超过 5TB 的数据,因为压缩和修复期间的 I/O 负
..
我有一个微妙的 Spark 问题,我就是无法解决这个问题. 我们有两个 RDD(来自 Cassandra).RDD1 包含Actions,RDD2 包含Historic 数据.两者都有一个可以匹配/加入的 ID.但问题是这两个表有 N:N 关系.Actions 包含多个具有相同 id 的行,Historic 也是如此.以下是两个表中的一些示例日期. Actions 时间实际上是一个时间
..
我拼凑了下面没有做任何复杂事情的代码——只是创建一个 byte[] 变量,将它写入 Cassandra(v1.2,通过新的 Datastax CQL 库)中的 blob 字段,然后再读一遍. 当我放入它时它有 3 个元素长,当我读回它时它有 84 个元素长......!这意味着我实际尝试做的事情(序列化 Java 对象)失败,出现 org.apache.commons.lang.Serial
..
我发现了 lazyboy 和 pycassaa> - 也许还有其他人.我看过很多网站推荐lazyboy.恕我直言,该项目似乎已死,请参阅 https://www.ohloh.net/p/compare?project_0=pycassa&project_1=lazyboy 那么,新项目的最佳选择是什么?谢谢. 解决方案 Cassandra 项目现在一直建议新项目在几个版本中使用 CQ
..
最近我开始使用 cassandra 的 Java 驱动程序(cassandra-driver-core-2.0.2)将 Grails 与 Cassandra 集成.所以我很想知道我们如何才能知道我们的表需要多大的大小来存储 cassandra DB 中的数据. 我创建了一个名为 Customkeyspace 的键空间和一个名为 Movie 的列族.所以我很想知道我必须使用哪个工具/命令来知道
..
几天前我读到了关于 NoSQL 的宽列存储类型和仅适用于 Apache-Cassandra. 据我所知,Cassandra 包括: 一个键空间(如关系数据库中的数据库)并支持许多列族或表(与关系数据库中的表相同)和无限行. 来自 Stackoverflow 标签: 宽列存储是一种键值数据库.它使用表、行和列,但与关系数据库不同的是,列的名称和格式可以在同一表中的行与行之间变
..
在 Cassandra 术语中,什么是 TimeUUID,什么时候使用? 解决方案 TimeUUID 是抽象类 AbstractType. 对于 ColumnFamilies,您可以指定一个名为 CompareWith 的属性.(SuperColumns 有一个类似的 CompareSubcolumnsWith 属性). 此属性的有效值是实现抽象类 AbstractType(例
..
我将 rpc_port 设置为公共 IP 地址,现在我可以从外部服务器很好地连接到 Cassandra. 但是,我无法使用 cqlsh 从 Cassandra 服务器本身进行连接 我收到一个错误.Thar是: 连接错误:无法连接到 localhost:9160 是否有配置,我可以更改为能够从服务器本身连接? 解决方案 检查cassandra.yaml 文件与rpc_por
..
我有一个 cassandra 表,其中有一个名为 snapshot 的文本字段,其中包含 JSON 对象: [标识符、时间戳、快照] 我知道为了能够使用 Spark 对该字段进行转换,我需要将该 RDD 的该字段转换为另一个 RDD 以对 JSON 模式进行转换. 这样对吗?我应该如何处理? 编辑:现在我设法从单个文本字段创建一个 RDD: val conf = new Spar
..
我到处都看到这个警告,但找不到关于这个主题的任何详细解释. 解决方案 初学者 单个分区中的最大单元格数(行 x 列)为20 亿. 如果你允许一个分区无限增长,你最终会遇到这个限制. 在理论限制之外,还有一些实际限制与大分区对 JVM 和读取时间的影响有关.这些实际限制在版本之间不断增加.这个实际限制不是固定的,而是随数据模型、查询模式、堆大小和配置而变化的,这使得很难直接
..
我正在开发基于 JAVA 的 Web 应用程序.主要目标是为在多个称为渠道的网站上销售的产品提供库存.我们将担任所有这些渠道的经理.我们需要的是: 用于管理每个渠道的库存更新的队列. 库存表,其中包含每个渠道的正确分配快照. 将会话 ID 和其他快速访问数据保存在缓存中. 提供类似 facebook 的仪表板 (XMPP) 以让卖家尽快更新. 我正在寻找的解决方案是 postgr
..
我试图了解 Cassandra 中的 Leveled Compaction Strategy 是如何工作的,该策略可以保证 90% 的读取都将从单个 sstable 中得到满足. 来自 DataStax 文档: 新的 sstables 添加到第一级 L0,并立即与 L1 中的 sstables 压缩.当 L1 填满时,额外的 sstable 被提升到 L2.在 L1 中生成的后续 ss
..
我的主要问题是集成 Cassandra 和 Elasticsearch 与仅使用 Elasticsearch 相比有什么好处? 事实上,StackOverflow 上也有类似问题的答案(例如,here 和 此处).但有几点: 很多答案都是旧的.这些年来可能发生了很大变化. 提到的一点是“有时 ElasticSearch 会丢失写入".但是,可以想象,那些所谓的损失可能是因为这些年来已
..
理论上,Cassandra 允许在宽行中最多包含 20 亿列. 我听说实际上高达 50.000 cols/50 MB 就可以了;50.000-100.000 cols/100 MB 可以,但需要一些调整;并且每行的列数不应超过 100.000/100 MB.原因是这会给堆带来压力. 这有什么道理吗? 解决方案 在 Cassandra 中,最大单元格数单个分区中(行 x 列)为
..
考虑需要在 Cassandra 数据存储中表示的 M:M 关系. 有哪些 M:M 建模选项可用?对于每一个选择,什么时候更喜欢?您在 Cassandra 驱动的项目中做出了哪些 M:M 建模选择? 解决方案 与使用 rdbms 的方式使用连接表不同,您将拥有一个 ColumnFamily,其中包含每个 X 的一行以及与之关联的 Y 列表,然后是一个 CF,其中包含每个 Y 的行和与其
..
我正在尝试学习 Cassandra,并且总是发现最好的方法是从创建一个非常简单和小型的应用程序开始.因此,我正在创建一个基本的消息传递应用程序,它将使用 Cassandra 作为后端.我想执行以下操作: 用户将使用用户名、电子邮件和密码创建一个帐户.这电子邮件和密码可以随时更改. 用户可以添加另一个用户作为他们的联系人.用户将添加一个通过搜索他们的用户名或电子邮件联系.联系人不需要如果我添
..
休斯顿,我们遇到了问题. 尝试在现有 Cassandra (v2.1.3) 键空间上使用 cqlsh 创建新表会导致: 服务器错误:
..
我第一次在 Web 应用程序中使用 Cassandra,但遇到了查询问题.这是我的标签: CREATE TABLE 投票(doodle_id uuid,用户 ID uuid,schedule_id uuid,投票,PRIMARY KEY ((doodle_id), user_id, schedule_id)); 在每个请求中,我都会指明我的分区键,doodle_id.例如,我可以毫无问题地制作
..
如何查看 cqlsh 中当前使用的是哪个 cql 版本? 在sql中,你这样做: 选择@@version 解决方案 有几种方法可以解决这个问题. 在 cqlsh 中,您可以简单地显示版本. aploetz@cqlsh>显示版本[cqlsh 5.0.1 |卡桑德拉 2.1.8 |CQL 规范 3.2.0 |本机协议 v3] 然而,这只适用于 cqlsh.幸运的是,您也可以查询
..